Geschreibsel

Computational Representation of Linguistic Structures using Domain-Specific Languages

Wed, 21 May 2008 00:00:01 +0000

Abstract: We (Fabian Steeg, Christoph Benden, Paul O. Samuelsdorff) describe a modular system for generating sentences from formal definitions of underlying linguistic structures using domain-specific languages. The system uses Java in general, Prolog for lexical entries and custom domain-specific languages based on Functional Grammar and Functional Discourse Grammar notation, implemented using the ANTLR parser generator. We show how linguistic and technological parts can be brought together in a natural language processing system and how domain-specific languages can be used as a tool for consistent formal notation in linguistic description.

arXiv: 0805.3366; 12 pages

Wortsinndisambiguierung durch hierarchische Kontextabstraktion (Magisterarbeit, MA thesis)

Sun, 14 Oct 2007 00:00:01 +0000

Zusammenfassung:

Mehrdeutige Wörter existieren seit Beginn der menschlichen Schriftkultur. Wortsinndisambiguierung (WSD, engl. word sense disambiguation), der Prozess der Auflösung der Mehrdeutigkeit eines Wortes anhand seines Kontextes fällt Menschen leicht; maschinell ist dieser Prozess jedoch bislang nicht in vergleichbarer Form durchführbar. Dies ist letztendlich ein wesentlicher Grund dafür, dass Computer Sprache nicht verstehen können und macht so die WSD zu einem Kernproblem der Computerlinguistik.

Der Mensch abstrahiert beim kognitiven Prozess der WSD von konkreten Kontexten der ambigen Wörter, vermutlich auf Grundlage eines ``einheitlichen Modus [...] der Informationsverarbeitung'' (Singer2002), mit dem Daten unterschiedlicher Herkunft (d.h. die verschiedenen Sinneswahrnehmungen) verarbeitet werden. Diese Verbindung aus domänenspezifischen Daten, die mit einem domänenübergreifenden Mechanismus verarbeitet werden, entspricht Prinzipien des maschinellen Lernens, dessen Datenbasis in der Sprachverarbeitung Korpora bilden.

Diese Konzepte werden in der vorliegenden Arbeit mit hierarchischer Belief Propagation in Bäumen implementiert und auf Daten des British National Corpus (BNC) evaluiert. Die Bestandteile des Verfahrens werden modular in einer Software Architecture for Language Engineering (SALE) umgesetzt, um das WSD-Verfahren für unterschiedliche Anwendungen in der maschinellen Sprachverarbeitung zugänglich zu machen. Eine solche Umsetzung eröffnet zudem zahlreiche Möglichkeiten zur Weiterentwicklung des Verfahrens selbst sowie darüber hinaus, etwa durch die Nutzung einzelner Bestandteile des WSD-Verfahrens in anderen Zusammenhängen.

Dateien: PDF, LaTeX; 87 pages

Computerlinguistische Hausarbeiten (coursework)

Mon, 12 Feb 2007 00:00:01 +0000

Zusammenfassung: Dies ist eine Zusammenstellung meiner Hausarbeiten in den Fächern Sprachliche Informationsverarbeitung und Allgemeine Sprachwissenschaft, erstellt zwischen 2002 und 2007 im Rahmen eines Magisterstudiums an der Philosophischen Fakultät der Universität zu Köln.

Dateien: PDF, LaTeX; 92 pages