Seit 1964 mit dem Brown Corpus das erste computerbasierte Korpus die automatisierte Analyse großer Mengen Sprache im tatsächlichen Verwendungskontext ermöglichte, hat die Korpuslinguistik als empirische Methode der Sprachanalyse stark an Bedeutung gewonnen. Zur Untersuchung grammatischer und morphologischer Phänomene, zur Dokumentation von Veränderungen der Sprachverwendung und vor allem zur Erstellung von Wörterbüchern sind computergestützte Korpora heute ein unverzichtbares Hilfsmittel. Während die Korpuslinguistik in ihrer Anfangszeit von Seiten der klassischen Linguistik (z.B. Chomsky [Zierl 1996] S.1) wegen der zu geringen verfügbaren Datenmengen kritisiert wurde, ist die Eignung heutiger Korpora mit z.T. mehreren hundert Millionen laufenden Wortformen (z.B. das British National Corpus mit 100 Millionen Wortformen, Bank of English mit annährend 400 Millionen) zur Analyse zumindest der Alltagssprache schwer zu bestreiten.
Die Explosion der Rechenleistung und Speicherkapazität der verfügbaren Computer ist sicher hauptverantwortlich dafür, dass solche Textmengen heute effizient verarbeitet werden können. Trotzdem stellt der Umfang aktueller Korpora immer noch eine Herausforderung für die Softwareentwicklung dar, um auch dem einzelnen Korpuslinguisten ohne Zugriff auf die Hochleistungsmaschinen eines Rechenzentrums die nötige Funktionalität zur Verfügung zu stellen.
Auf üblicher Hardware ist die Abarbeitung v.a. komplexerer Suchanfragen
unter Verwendung von Patternmatching oder Verknüpfung mehrerer
Suchkriterien im Datenbestand eines großen Korpus immer noch eine
zeitkritische Angelegenheit, und wird dies angesichts des Wachstums der
Korpora selbst wohl auch bleiben. Aus diesem Grund ist es bei den
allermeisten in der Forschung eingesetzten Korpora üblich, ein speziell für
diesen Zweck programmiertes, proprietäres Datenbanksystem einzusetzen, das
für die Suche in großen Textmengen optimiert ist. So wird für Anfragen an
das British National Corpus das System SARA
(SGML-Aware Retrieval Application) eingesetzt;
zur Suche in der Korpusdatenbank des Instituts für Deutsche Sprache dient
das Programm COSMAS. Diese Systeme sind meist nicht nur zur
Speicherung von Korpora optimiert, sondern zusätzlich abhängig von
Annotations- und Aufbau-Details des jeweiligen Korpus. So funktioniert SARA
keineswegs mit allgemeinen SGML-Dokumenten, wie der Name vermuten läßt,
sondern benötigt ein Korpus in der von den TEI-Richtlinien abgeleiteten
BNC-Annotation [Künneth1999].
Einen Schritt in Richtung "offenes System" get die am Stuttgarter Institut
für Maschinelle Sprachverarbeitung entwickelte IMS Corpus
Workbench. Dieses System unterstützt beliebige Annotationen und
externe Informationsquellen und wird erfolgreich z.B. als Ersatz für SARA
für das BNC eingesetzt.