Geschreibsel Tagged: report http://fsteeg.com/tags/report Wed, 21 May 2008 00:00:01 +0000 Wed, 21 May 2008 00:00:01 +0000 Computational Representation of Linguistic Structures using Domain-Specific Languages <i>Abstract</i>: We (Fabian Steeg, Christoph Benden, Paul O. Samuelsdorff) describe a modular system for generating sentences from formal definitions of underlying linguistic structures using domain-specific languages. The system uses Java in general, Prolog for lexical entries and custom domain-specific languages based on Functional Grammar and Functional Discourse Grammar notation, implemented using the ANTLR parser generator. We show how linguistic and technological parts can be brought together in a natural language processing system and how domain-specific languages can be used as a tool for consistent formal notation in linguistic description. <p/> arXiv: <a href="http://arxiv.org/abs/0805.3366">0805.3366</a>; 12 pages http://fsteeg.com/notes/computational-representation-of-linguistic-structures-using-domain-specific-languageshttp://fsteeg.com/notes/computational-representation-of-linguistic-structures-using-domain-specific-languages Wed, 21 May 2008 00:00:01 +0000 reportdslnlp Wortsinndisambiguierung durch hierarchische Kontextabstraktion (Magisterarbeit, MA thesis) <i>Zusammenfassung:</i> <p/> Mehrdeutige Wörter existieren seit Beginn der menschlichen Schriftkultur. Wortsinndisambiguierung (WSD, engl. <i>word sense disambiguation</i>), der Prozess der Auflösung der Mehrdeutigkeit eines Wortes anhand seines Kontextes fällt Menschen leicht; maschinell ist dieser Prozess jedoch bislang nicht in vergleichbarer Form durchführbar. Dies ist letztendlich ein wesentlicher Grund dafür, dass Computer Sprache nicht verstehen können und macht so die WSD zu einem Kernproblem der Computerlinguistik. <p/> Der Mensch abstrahiert beim kognitiven Prozess der WSD von konkreten Kontexten der ambigen Wörter, vermutlich auf Grundlage eines ``einheitlichen Modus [...] der Informationsverarbeitung'' (Singer2002), mit dem Daten unterschiedlicher Herkunft (d.h. die verschiedenen Sinneswahrnehmungen) verarbeitet werden. Diese Verbindung aus domänenspezifischen Daten, die mit einem domänenübergreifenden Mechanismus verarbeitet werden, entspricht Prinzipien des maschinellen Lernens, dessen Datenbasis in der Sprachverarbeitung Korpora bilden. <p/> Diese Konzepte werden in der vorliegenden Arbeit mit hierarchischer <i>Belief Propagation</i> in Bäumen implementiert und auf Daten des British National Corpus (BNC) evaluiert. Die Bestandteile des Verfahrens werden modular in einer <i>Software Architecture for Language Engineering</i> (SALE) umgesetzt, um das WSD-Verfahren für unterschiedliche Anwendungen in der maschinellen Sprachverarbeitung zugänglich zu machen. Eine solche Umsetzung eröffnet zudem zahlreiche Möglichkeiten zur Weiterentwicklung des Verfahrens selbst sowie darüber hinaus, etwa durch die Nutzung einzelner Bestandteile des WSD-Verfahrens in anderen Zusammenhängen. <p/> Dateien: <a href="http://fsteeg.com/files/fsteeg-ma.pdf">PDF</a>, <a href="http://fsteeg.com/files/fsteeg-ma.zip">LaTeX</a>; 87 pages http://fsteeg.com/notes/wortsinndisambiguierung-durch-hierarchische-kontextabstraktion-magisterarbeit-ma-thesishttp://fsteeg.com/notes/wortsinndisambiguierung-durch-hierarchische-kontextabstraktion-magisterarbeit-ma-thesis Sun, 14 Oct 2007 00:00:01 +0000 reportwsdnlp Computerlinguistische Hausarbeiten (coursework) <i>Zusammenfassung:</i> Dies ist eine Zusammenstellung meiner Hausarbeiten in den Fächern <i>Sprachliche Informationsverarbeitung</i> und <i>Allgemeine Sprachwissenschaft</i>, erstellt zwischen 2002 und 2007 im Rahmen eines Magisterstudiums an der Philosophischen Fakultät der Universität zu Köln. <p/> Dateien: <a href="http://fsteeg.com/files/fsteeg-ha.pdf">PDF</a>, <a href="http://fsteeg.com/files/fsteeg-ha.zip">LaTeX</a>; 92 pages http://fsteeg.com/notes/computerlinguistische-hausarbeiten-courseworkhttp://fsteeg.com/notes/computerlinguistische-hausarbeiten-coursework Mon, 12 Feb 2007 00:00:01 +0000 reportnlp