Generation der natürlichen Sprache

Natural Language Generation (NLG) ist die Aufgabe der Verarbeitung der natürlichen Sprache, natürliche Sprache von einem Maschinendarstellungssystem wie eine Kenntnisse-Basis oder eine logische Form zu erzeugen. Psycholinguists bevorzugen die Begriff-Sprachproduktion, wenn solche formellen Darstellungen als Modelle für geistige Darstellungen interpretiert werden.

Gewissermaßen kann man sagen, dass ein NLG System einem Übersetzer ähnlich ist, der sich umwandelt, hat ein Computer Darstellung in eine Darstellung der natürlichen Sprache gestützt. Jedoch sind die Methoden, die Endsprache zu erzeugen, von denjenigen eines Bearbeiters wegen des innewohnenden expressivity von natürlichen Sprachen sehr verschieden.

NLG kann als das Gegenteil des Verstehens der natürlichen Sprache angesehen werden. Der Unterschied kann dieser Weg gestellt werden: Wohingegen auf natürlicher Sprache, das System verstehend, den Eingangssatz disambiguieren muss, um die Maschinendarstellungssprache in NLG zu erzeugen, muss das System Entscheidungen darüber treffen, wie man ein Konzept ausdrückt.

Das einfachste (und vielleicht trivial) Beispiele sind Systeme, die Form-Briefe erzeugen. Solche Systeme schließen Grammatik-Regeln nicht normalerweise ein, aber können einen Brief an einen Verbraucher erzeugen, z.B feststellend, dass eine Kreditkarte, Grenze ausgebend, im Begriff ist erreicht zu werden. Kompliziertere NLG Systeme schaffen dynamisch Texte, um eine kommunikative Absicht zu entsprechen.

Als in anderen Gebieten der Verarbeitung der natürlichen Sprache kann das mit jeder ausführliche Modelle von getan werden

Sprache (z.B, Grammatiken) und das Gebiet oder das Verwenden statistischer Modelle hat durch das Analysieren von von den Menschen geschriebenen Texten abgestammt.

NLG ist ein sich schnell entwickelndes Feld. Die beste einzelne Quelle für die aktuelle Forschung im Gebiet ist der SIGGEN Teil

der ACL Anthologie. Vielleicht kommt das nächste das Feld zu

ein Fachmann-Lehrbuch ist Reiter und Dale (2000), aber dieses Buch beschreibt Entwicklungen in nicht

das Feld seit 2000.

Beispiel

Die Blütenstaub-Vorhersage für die Demo von Schottland

zeigt einen einfachen

NLG System in der Handlung. Dieses System nimmt als Eingang sechs Zahlen, die vorausgesagte Blütenstaub-Niveaus in geben

verschiedene Teile Schottlands. Von diesen Zahlen erzeugt das System eine kurze Textzusammenfassung von

Blütenstaub-Niveaus als seine Produktion.

Zum Beispiel, mit den historischen Daten zum 1. Juli 2005, erzeugt die Software

Gras-Blütenstaub-Niveaus für den Freitag haben vom mäßigen zu hohen Niveaus gestern mit Werten von ungefähr 6 bis 7 über die meisten Teile des Landes zugenommen. Jedoch, in Nördlichen Gebieten, werden Blütenstaub-Niveaus mit Werten von 4 gemäßigt sein.

Im Gegensatz war die wirkliche Vorhersage (geschrieben von einem menschlichen Meteorologen) davon Daten

Wie man

erwartet, bleiben Blütenstaub-Zählungen hoch am Niveau 6 über den grössten Teil Schottlands und sogar Niveau 7 im Südosten. Die einzige Erleichterung ist in den Nördlichen Inseln und dem weiten Nordosten Festlandes Schottland mit mittleren Niveaus der Blütenstaub-Zählung.

Das Vergleichen dieser zwei illustriert einige der Wahlen, die NLG Systeme machen müssen; diese sind weiter

besprochen unten.

Stufen

Der Prozess, um Text zu erzeugen, kann so einfach sein wie das Halten einer Liste des konservierten Textes, der kopiert und aufgeklebt, vielleicht mit einem Leim-Text verbunden wird. Die Ergebnisse können in einfachen Gebieten wie Horoskop-Maschinen oder Generatoren von personifizierten Geschäftsbriefen befriedigend sein. Jedoch muss ein hoch entwickeltes NLG System Stufen der Planung und des Mischens der Information einschließen, um die Generation des Textes zu ermöglichen, der natürlich aussieht und wiederholend nicht wird. Typische Stufen sind:

Zufriedener Entschluss: Das Entscheiden was Information, im Text zu erwähnen.

Zum Beispiel, im Blütenstaub-Beispiel oben, entscheidend, ob man diesen Blütenstaub ausführlich erwähnt

Niveau ist 7 im Südosten.

Dokumentenstrukturierung: Gesamte Organisation der Information, um zu befördern. Zum Beispiel, das Entscheiden zu

beschreiben Sie die Gebiete mit hohen Blütenstaub-Niveaus zuerst statt der Gebiete mit niedrigen Blütenstaub-Niveaus.

Ansammlung: Das Mischen von ähnlichen Sätzen, um Lesbarkeit und Natürlichkeit zu verbessern.

Zum Beispiel, das Mischen der zwei Sätze

Gras-Blütenstaub-Niveaus für den Freitag haben vom mäßigen zu hohen Niveaus gestern und zugenommen

Gras-Blütenstaub-Niveaus werden ungefähr 6 bis 7 über die meisten Teile des Landes in den einzelnen Satz sein

Gras-Blütenstaub-Niveaus für den Freitag haben vom mäßigen zu hohen Niveaus gestern mit Werten von ungefähr 6 bis 7 über die meisten Teile des Landes zugenommen.

Lexikalische Wahl: Das Stellen von Wörtern zu den Konzepten. Zum Beispiel, entweder Medium oder gemäßigter entscheidend

sollte verwendet werden, wenn man ein Blütenstaub-Niveau 4 beschreibt.

Das Verweisen der Ausdruck-Generation: Das Schaffen von sich beziehenden Ausdrücken, die Gegenstände und Gebiete identifizieren. Zum Beispiel, sich dafür entscheidend, zu verwenden

in den Nördlichen Inseln und dem weiten Nordosten Festlandes Schottland, um sich auf ein bestimmtes Gebiet in Schottland zu beziehen.

Diese Aufgabe schließt auch treffende Entscheidungen über Pronomina und andere Typen von ein

anaphora.

Realisierung: Das Schaffen des wirklichen Textes, der richtiger sein sollte

ordnungsmäßig

Syntax, Morphologie und Rechtschreibung. Zum Beispiel wird das Verwenden für die Zukunft sein

angespannt zu sein.

Anwendungen

Die populären Medien haben sich besonders für NLG Systeme interessiert, die Witze erzeugen

(sieh rechenbetonten Humor). Aber von einer kommerziellen Perspektive, die erfolgreichsten NLG Anwendungen

sind Systeme der Daten zum Text gewesen, die Textzusammenfassungen von Datenbanken und Dateien erzeugen; diese

Systeme führen gewöhnlich Datenanalyse sowie Textgeneration durch. Insbesondere mehrere Systeme haben

gewesen hat gebaut, die Textwetterberichte von Wetterdaten erzeugen. Das frühste solches System, um zu sein

aufmarschiert war FoG, der durch die Umgebung Kanada zu verwendet wurde

erzeugen Sie Wetterberichte in Französisch und Englisch am Anfang der 1990er Jahre. Der Erfolg von FoG hat ausgelöst

andere Arbeit, sowohl Forschung als auch kommerziell. Die neue Forschung in diesem Gebiet schließt ein Experiment der ein

hat

gezeigt, dass Benutzer manchmal computererzeugte Wetterberichte von den Menschen geschriebenen, bevorzugt

haben

teilweise, weil die Computervorhersagen konsequentere Fachsprache verwendet

haben

, und eine Demonstration dass statistische Techniken

konnte verwendet werden, um Qualitätswetterberichte zu erzeugen.

Neue Anwendungen schließen das ARNS System ein, das verwendet ist, um zusammenzufassen

Bedingungen in US-Häfen.

In den 1990er Jahren gab es beträchtliches Interesse am Verwenden von NLG, um finanziellen zusammenzufassen

und Geschäftsdaten. Zum Beispiel hat das SCHEINWERFER-System, das an A.C. Nielsen automatisch entwickelt ist, lesbaren englischen Text erzeugt, der auf der Analyse von großen Beträgen von Einzelverkaufsdaten gestützt ist.

Mehr kürzlich dort baut Interesse am Verwenden von NLG an, um elektronische medizinische Aufzeichnungen zusammenzufassen.

Kommerzielle Anwendungen in diesem Gebiet fangen an, zu erscheinen

und Forscher haben gezeigt, dass NLG Zusammenfassungen von medizinischen Daten wirksamer sein können

Entscheidungshilfe hilft für medizinische Fachleuten. Dort baut auch Interesse am Verwenden von NLG an, um Zugänglichkeit, zum Beispiel durch das Beschreiben von Graphen und Dateien zu erhöhen, um Leute zu blenden.

Ein Beispiel für einen hoch interaktiven Gebrauch von NLG ist das WYSIWYM Fachwerk. Es tritt dafür ein, Was Sie sehen, ist, was Sie vorgehabt haben und Benutzern erlauben, die unaufhörlich gemachte Ansicht (NLG Produktion) eines zu Grunde liegenden formellen Sprachdokumentes (NLG Eingang) zu sehen und zu manipulieren, dadurch die formelle Sprache editierend, ohne es erfahren zu müssen.

Einschätzung

Als in anderen wissenschaftlichen Feldern müssen NLG Forscher im Stande sein zu prüfen, wie gut ihre Systeme, Module und Algorithmen arbeiten. Das wird Einschätzung genannt. Es gibt drei grundlegende Techniken, um NLG Systeme zu bewerten:

  • Aufgabe-basierte (unwesentliche) Einschätzung: Geben Sie den erzeugten Text einer Person und bewerten Sie, wie gut er ihm hilft, eine Aufgabe durchzuführen (oder sonst sein kommunikatives Ziel erreich). Zum Beispiel kann ein System, das Zusammenfassungen von medizinischen Daten erzeugt, durch das Geben dieser Zusammenfassungen Ärzten und das Festsetzen bewertet werden, ob die Zusammenfassungen Ärzten helfen, bessere Entscheidungen zu treffen.
  • menschliche Einschaltquoten: Geben Sie den erzeugten Text einer Person, und bitten Sie ihn oder sie, die Qualität und Nützlichkeit des Textes abzuschätzen.
  • Metrik: Vergleichen Sie erzeugte Texte mit Texten, die von Leuten von denselben Eingangsdaten mit einem automatischen metrischen wie BLEU geschrieben sind.

Im Allgemeinen was wir schließlich wissen wollen, ist, wie nützliche NLG Systeme beim Helfen Leuten sind, der von den obengenannten Techniken erst ist. Jedoch sind Aufgabe-basierte Einschätzungen zeitraubend und teuer, und können schwierig sein auszuführen (besonders, wenn sie Themen mit dem Spezialgutachten, wie Ärzte verlangen). Folglich (als in anderen Gebieten von NLP) sind Aufgabe-basierte Einschätzungen die Ausnahme, nicht die Norm.

In den letzten Jahren haben Forscher angefangen zu versuchen zu bewerten, wie gut menschliche Einschaltquoten und Metrik-Korrelat damit Aufgabe-basierte Einschätzungen (voraussagen). Viel von dieser Arbeit wird im Zusammenhang von Generationsherausforderungsereignissen der geteilten Aufgabe geführt. Anfängliche Ergebnisse weisen darauf hin, dass menschliche Einschaltquoten viel besser sind als Metrik in dieser Beziehung. Mit anderen Worten sagen menschliche Einschaltquoten gewöhnlich Aufgabe-Wirksamkeit mindestens zu einem gewissen Grad voraus (obwohl es Ausnahmen gibt), während Einschaltquoten, die durch die Metrik häufig erzeugt sind, Aufgabe-Wirksamkeit gut nicht voraussagen. Diese Ergebnisse sind hoffentlich sehr einleitend bessere Daten werden bald verfügbar sein. Jedenfalls sind menschliche Einschaltquoten zurzeit die populärste Einschätzungstechnik in NLG; das ist Unähnlichkeit zur maschinellen Übersetzung, wo Metrik sehr weit verwendet wird.

Links


Source is a modification of the Wikipedia article Natural language generation, licensed under CC-BY-SA. Full list of contributors here.
Wetterzusammenhängende Schicksalsschläge in den Vereinigten Staaten / Tauchgerät
Impressum & Datenschutz