fsteeg.com | notes | tags

Wortsinndisambiguierung durch hierarchische Kontextabstraktion (Magisterarbeit, MA thesis)
Date: 2007-10-14 | Tagged: report, wsd, nlp

Zusammenfassung:

Mehrdeutige Wörter existieren seit Beginn der menschlichen Schriftkultur. Wortsinndisambiguierung (WSD, engl. word sense disambiguation), der Prozess der Auflösung der Mehrdeutigkeit eines Wortes anhand seines Kontextes fällt Menschen leicht; maschinell ist dieser Prozess jedoch bislang nicht in vergleichbarer Form durchführbar. Dies ist letztendlich ein wesentlicher Grund dafür, dass Computer Sprache nicht verstehen können und macht so die WSD zu einem Kernproblem der Computerlinguistik.

Der Mensch abstrahiert beim kognitiven Prozess der WSD von konkreten Kontexten der ambigen Wörter, vermutlich auf Grundlage eines ``einheitlichen Modus [...] der Informationsverarbeitung'' (Singer2002), mit dem Daten unterschiedlicher Herkunft (d.h. die verschiedenen Sinneswahrnehmungen) verarbeitet werden. Diese Verbindung aus domänenspezifischen Daten, die mit einem domänenübergreifenden Mechanismus verarbeitet werden, entspricht Prinzipien des maschinellen Lernens, dessen Datenbasis in der Sprachverarbeitung Korpora bilden.

Diese Konzepte werden in der vorliegenden Arbeit mit hierarchischer Belief Propagation in Bäumen implementiert und auf Daten des British National Corpus (BNC) evaluiert. Die Bestandteile des Verfahrens werden modular in einer Software Architecture for Language Engineering (SALE) umgesetzt, um das WSD-Verfahren für unterschiedliche Anwendungen in der maschinellen Sprachverarbeitung zugänglich zu machen. Eine solche Umsetzung eröffnet zudem zahlreiche Möglichkeiten zur Weiterentwicklung des Verfahrens selbst sowie darüber hinaus, etwa durch die Nutzung einzelner Bestandteile des WSD-Verfahrens in anderen Zusammenhängen.

Dateien: PDF, LaTeX; 87 pages