1.1 Korpuslinguistik

Seit 1964 mit dem Brown Corpus das erste computerbasierte Korpus die automatisierte Analyse großer Mengen Sprache im tatsächlichen Verwendungskontext ermöglichte, hat die Korpuslinguistik als empirische Methode der Sprachanalyse stark an Bedeutung gewonnen. Zur Untersuchung grammatischer und morphologischer Phänomene, zur Dokumentation von Veränderungen der Sprachverwendung und vor allem zur Erstellung von Wörterbüchern sind computergestützte Korpora heute ein unverzichtbares Hilfsmittel. Während die Korpuslinguistik in ihrer Anfangszeit von Seiten der klassischen Linguistik (z.B. Chomsky [Zierl 1996] S.1) wegen der zu geringen verfügbaren Datenmengen kritisiert wurde, ist die Eignung heutiger Korpora mit z.T. mehreren hundert Millionen laufenden Wortformen (z.B. das British National Corpus mit 100 Millionen Wortformen, Bank of English mit annährend 400 Millionen) zur Analyse zumindest der Alltagssprache schwer zu bestreiten.

Die Explosion der Rechenleistung und Speicherkapazität der verfügbaren Computer ist sicher hauptverantwortlich dafür, dass solche Textmengen heute effizient verarbeitet werden können. Trotzdem stellt der Umfang aktueller Korpora immer noch eine Herausforderung für die Softwareentwicklung dar, um auch dem einzelnen Korpuslinguisten ohne Zugriff auf die Hochleistungsmaschinen eines Rechenzentrums die nötige Funktionalität zur Verfügung zu stellen.

1.2 Operationen auf Korpora

nach [Künneth1999]

Frequenzlisten

Frequenzlisten liefern statistische Informationen über die Häufigkeit des Auftretens bestimmter Wortformen in Texten oder Textteilen. Neben der reinen Zählung der Häufigkeiten bietet der Computer die Möglichkeit, die Listen nach verschiedenen Kritierien wie alphabetisch, nach Häufigkeit oder erster Fundstelle, zu sortieren.

Konkordanzen

Meist interessanter als die reine Frequenzinformation ist die Anzeige von Wortformen im Verwendungskontext. Dafür hat sich das sogenannte KWIC-Format ("keyword in context") eingebürgert, bei dem links und rechts von jeder Fundstelle eine üblicherweise vom Benutzer einstellbare Anzahl Wortformen aus dem Text ausgegeben werden.

1.3 Stand der Technik zur Speicherung von Korpora

Auf üblicher Hardware ist die Abarbeitung v.a. komplexerer Suchanfragen unter Verwendung von Patternmatching oder Verknüpfung mehrerer Suchkriterien im Datenbestand eines großen Korpus immer noch eine zeitkritische Angelegenheit, und wird dies angesichts des Wachstums der Korpora selbst wohl auch bleiben. Aus diesem Grund ist es bei den allermeisten in der Forschung eingesetzten Korpora üblich, ein speziell für diesen Zweck programmiertes, proprietäres Datenbanksystem einzusetzen, das für die Suche in großen Textmengen optimiert ist. So wird für Anfragen an das British National Corpus das System SARA (SGML-Aware Retrieval Application) eingesetzt; zur Suche in der Korpusdatenbank des Instituts für Deutsche Sprache dient das Programm COSMAS. Diese Systeme sind meist nicht nur zur Speicherung von Korpora optimiert, sondern zusätzlich abhängig von Annotations- und Aufbau-Details des jeweiligen Korpus. So funktioniert SARA keineswegs mit allgemeinen SGML-Dokumenten, wie der Name vermuten läßt, sondern benötigt ein Korpus in der von den TEI-Richtlinien abgeleiteten BNC-Annotation [Künneth1999].
Einen Schritt in Richtung "offenes System" get die am Stuttgarter Institut für Maschinelle Sprachverarbeitung entwickelte IMS Corpus Workbench. Dieses System unterstützt beliebige Annotationen und externe Informationsquellen und wird erfolgreich z.B. als Ersatz für SARA für das BNC eingesetzt.

Auf den Gebieten der Portabilität und Erweiterbarkeit erweisen sich alle vorgestellten proprietären Systeme aber als problematisch. Aus Performancegründen in kompilierten Sprachen geschrieben, liegt der Aufwand für eine Portierung zwischen dem Eingeben von "(./configure; make all; make install)" im besten Fall und dem Neuschreiben großer Teile des Programms im schlimmsten. Dies betrifft natürlich auch die Skalierbarkeit. Beschränkungen, die sich aus der Wahl einer bestimmten Hardware ergeben (Größe von Zeigervariablen, Länge von Integerzahlen etc.), fließen oft unbemerkt in das Design der Korpusdatenbank ein und verursachen später erheblichen Programmieraufwand, wenn aufgrund gestiegener Anforderungen eine neue Rechnergeneration eingesetzt werden soll.
Zurück zum Index
Letze Änderung: 20-Mar-2003, 21:27