next up previous contents
Nächste Seite: Vergleich der beiden Beiträge Aufwärts: lexikon Vorherige Seite: Das Lexikon und die   Inhalt

Computerlinguistik und das Lexikon

In ihrer Einleitung gehen Boguraev und Briscoe auf die Schwierigkeiten bei der Konstruktion eines Lexikons ein. Da es noch keine wohlformulierte Theorie über dessen Inhalt gibt und weil man es mit einer so großen Menge an Wörtern zu tun hat, gab es in den Achtzigern noch wenige adäquate maschinenlesbare Wörterbücher (MRDs, machine-readable dictionaries). Bei den existenten MRDs sehen sie die Vorteile darin, daß, da diese meist von gedruckten Wörterbüchern abstammen, sie von der Tradition der Druckwerke profitieren, und auch oft eine große Menge Wörter abdecken, was den Computerlinguisten Arbeit erspart. Andererseits sind die gedruckten Wörterbücher für Menschen geschrieben, und setzen voraus, daß der Benutzer (englische) Wortdefinitionen verstehen kann. Deshalb dreht sich bei der Forschung viel um die Probleme, Informationen aus solchen MRDs in maschinenverarbeitbarer Form zu extrahieren und sie in bestehende sprachverarbeitende Systeme einzubauen. Diese Forschung nennen die Autoren ,,Computerlexikographie``.

Zur Verarbeitung natürlicher Sprache braucht man eine funktionierende Theorie. Auch wenn noch keine solche allumfassende Theorie formuliert wurde, konnte man adäquate sprachverarbeitende Systeme mit dem damaligen Forschungsstand bauen. Die meisten dieser Systeme arbeiten wissensbasiert, d. h. das nötige Wissen ist explizit eingebaut. Zu diesem Wissen zählen phonologische, morphologische, syntaktische, semantische und pragmatische Regeln, wobei letztere wenig mit dem Lexikon zu tun haben. Anhand eines Beispiels erläutern Boguraev und Briscoe jetzt einige solcher Regeln. Das verwendete Lexikon zeigt, wie gewisse Informationen wie Featureterme und Wortarten mit den formulierten Regeln zusammenspielen. Danach zeigen die Autoren, daß Bedeutung z. B. im Zusammenhang mit Präfixen ableitbar ist, aber daß es auch hierfür Ausnahmen gibt (think und rethink vs. produce und reproduce). Ein ideales Lexikon würde solche Regeln und Ausnahmen beinhalten. Viele Wörterbücher listen allerdings durch Regeln ableitbare Einträge explizit auf.

Später erwähnen die Autoren, daß die meisten sprachverarbeitenden Systeme kleine Lexika haben - meist, weil es zu viel Mühe ist, ein großes selber aufzubauen oder weil die Systeme nur Prototypen sind. Deshalb interessieren sich viele Forscher für MRDs, weil die Lexika ja gewissermaßen schon fertig sind. Aber weil die meisten Systeme unterschiedliche Formate für ihre Lexikoneinträge haben und auch verschiedene Ansprüche, ist die Frage, ob es machbar ist, eine einzige lexikalische Datenbank zu bauen, aus der die einzelnen Systeme ihre Wörterbücher entnehmen. Eine solche Datenbank von Hand zu bauen, ist sehr aufwendig. Wenn man dafür aber elektronische Versionen von Wörterbüchern nimmt, hat man ein Problem mit (mathematisch) informellen Einträgen, die häufig sind bei gedruckten Wörterbüchern.

Ein Lexikoneintrag besteht typischerweise aus dem Schlüsselwort sowie Informationen über Aussprache, Schreibung und vielleicht auch Verwendung. In der Funktion folgt eine Beschreibung des Verhaltens, und dann die Bedeutung. In vielen MRDs sind mit Hilfe besonderer Notation gewisse Angaben notiert, z. B. bei Verben die Eigenschaften der Objekte, oder bei Nomen die Kategorie. Meist benötigt aber ein sprachverarbeitendes Systems nicht alle dieser Informationen. Auch ist die Beschreibung der Bedeutung des Wortes selber sprachlich gegeben, was bei sprachverarbeitenden Systemen eine Zirkel erzeugt - woher soll das System das Wissen um die Wörter nehmen, mit denen die Einträge definiert sind, wenn nicht aus dem Lexikon? Ein anderes Problem ist die Inkonsistenz bestimmter formaler Einträge - wenn kein formales System existiert, um diese Einträge eindeutig zu definieren, hängt des Ergebnis vom Ermessen der Lexikographen ab und ist dann maschinell fast unbrauchbar. Auch können Schriftsatz-Informationen in den Daten enthalten sein, die vollkommen unwichtig für ein sprachverarbeitendes System sind. Zirkuläre Definitionen stellen ein anderes Problem dar. Manchmal ist selbst die alphabetische Ordnung ein Problem, wenn z. B. Spracherkennung mit dem MRD erfolgen soll; dann wäre eine phonologische Ordnung vorzuziehen, aber herkömmliche Wörterbücher sind alphabetisch geordnet.

In einem Überblick über die Arbeit mit MRDs werden kurz Wortlisten zur Rechtschreibprüfung, semantische Taxonomien, die aus MRDs erstellt wurden, ,,Browsing`` oder das Auffinden von ähnlichen Wörtern aus verschiedenen Wörterbüchern, Sprachverarbeitung (Erkennung und Erzeugung), Parsing und semantische Verarbeitung als Anwendungsbeispiele von MRDs erwähnt. Bei der semantischen Verarbeitung wird das MRD als Wissensbasis verwendet. Auch Netzwerke, die man aus MRDs erstellen kann, werden angesprochen. Bei der Disambiguierung ohne syntaktische Verarbeitung haben sich MRDs auch als nützlich erwiesen. Da Wörterbücher meist schon hierarchisch organisiert sind, kann man daraus Ontologien erstellen. Einige Wörterbücher, die ein beschränktes Vokabular für ihre Definitionen wählen, können auch als semantische Datenbanken dienen. Nur in der Textgenerierung machen MRDs wenig Sinn, bis man mehr über die Prozesse bei der Wortauswahl weiß.

Die Anwendbarkeit von MRDs ist eine wichtige Frage. In diesem Zusammenhang muß man wissen, wie ausführlich ein Wörterbuch ist, wie es organisiert ist und wie man die Informationen extrahieren kann. Man sollte sich auch Gedanken darüber machen, was zu tun ist, wenn man die Grenzen des Wörterbuchs erreicht hat, da kein Wörterbuch je als vollständig bezeichnet werden kann. Probleme gibt es bei der Verläßlichkeit von MRDs. Da diese von Menschen gemacht wurden, schleichen sich Fehler ein, syntaktischer wie semantischer Art - vergessene Klammern, inkonsistente Formate, zirkuläre Definitionen, ungenaue oder redundante Angaben, usw. .


next up previous contents
Nächste Seite: Vergleich der beiden Beiträge Aufwärts: lexikon Vorherige Seite: Das Lexikon und die   Inhalt
Britta Koch