Korpus-Linguistik

Korpus-Linguistik ist die Studie der Sprache, wie ausgedrückt, in Proben (Korpora) oder "echter" Welttext. Diese Methode vertritt eine Verdauungsannäherung an das Abstammen einer Reihe abstrakter Regeln, durch die eine natürliche Sprache geregelt wird, oder sich auf eine andere Sprache bezieht. Ursprünglich getan mit der Hand wird Korpora jetzt durch einen automatisierten Prozess größtenteils abgeleitet.

Korpus-Linguistik-Anhänger glauben, dass zuverlässige Sprachanalyse am besten auf feldgesammelten Proben in natürlichen Zusammenhängen und mit der minimalen experimentellen Einmischung vorkommt. Innerhalb der Korpus-Linguistik gibt es auseinander gehende Ansichten betreffs des Werts der Korpus-Anmerkung von John Sinclair, der minimale Anmerkung verteidigt und Texte erlaubt, für sich', zu anderen, wie der Überblick über die englische Gebrauch-Mannschaft (gestützt in der Universitätsuniversität, London) das Befürworten der Anmerkung als ein Pfad zum größeren Sprachverstehen und der Härte 'zu sprechen.

Geschichte

Ein Grenzstein in der modernen Korpus-Linguistik war die Veröffentlichung von Henry Kucera und W. Nelson Francis von Rechenbetonter Analyse des Heutigen Amerikanischen Englisch 1967, einer Arbeit, die auf der Analyse des Braunen Korpus, einer sorgfältig kompilierten Auswahl am aktuellen Amerikanischen Englisch gestützt ist, sich auf ungefähr eine Million von einem großen Angebot an Quellen gezogene Wörter belaufend. Kucera und Francis haben es einer Vielfalt von rechenbetonten Analysen unterworfen, von denen sie ein reiches und verändertes Opus kompiliert haben, Elemente von Linguistik, Sprachunterricht, Psychologie, Statistik und Soziologie verbindend. Eine weitere Schlüsselveröffentlichung war Randolph Quirk 'Zu einer Beschreibung des englischen Gebrauchs' (1960), in dem er Den Überblick über den englischen Gebrauch eingeführt hat.

Kurz danach hat sich Bostoner Herausgeber Houghton-Mifflin Kucera genähert, um eine Million Wort, Drei-Linien-Zitat-Basis für sein neues amerikanisches Erbe-Wörterbuch, das erste zu kompilierende Wörterbuch mit der Korpus-Linguistik zu liefern. Der AHD hat den innovativen Schritt gemacht, verordnende Elemente zu verbinden (wie Sprache verwendet werden sollte) mit der beschreibenden Information (wie es wirklich verwendet wird).

Andere Herausgeber sind Klage gefolgt. Das Wörterbuch des COBUILD einsprachigen Anfängers des britischen Herausgebers Collins, das für Benutzer entworfen ist, die Englisch als eine Fremdsprache erfahren, wurde mit der Bank von Englisch kompiliert. Der Überblick über das englische Gebrauch-Korpus wurde in der Entwicklung von einer der wichtigsten Korpus-basierten Grammatiken, der Umfassenden Grammatik von Englisch verwendet (Marotte u. a. 1985).

Das Braune Korpus hat auch mehrer ähnlich strukturierte Korpora gelaicht: das LOB-Korpus (britisches Englisch der 1960er Jahre), Kolhapur (Indianerenglisch), Wellington (Englisch von Neuseeland), australische Korpus von Englisch (australisches Englisch), das Stirnrunzeln-Korpus (Anfang Amerikanischen Englisch der 1990er Jahre) und das FLOB Korpus (britisches Englisch der 1990er Jahre). Andere Korpora vertritt viele Sprachen, Varianten und Weisen, und schließt das Internationale Korpus von Englisch, und das britische Nationale Korpus, eine 100 Millionen Wortsammlung einer Reihe gesprochener und schriftlicher Texte, geschaffen in den 1990er Jahren von einem Konsortium von Herausgebern, Universitäten (Oxford und Lancaster) und die britische Bibliothek ein. Für zeitgenössisches Amerikanisches Englisch ist Arbeit auf dem amerikanischen Nationalen Korpus stecken geblieben, aber die 400 + Million Wort Korpus des Zeitgenössischen (1990-Gegenwart-) Amerikanischen Englisch sind jetzt durch eine Webschnittstelle verfügbar.

Das erste computerisierte Korpus der abgeschriebenen Sprache wurde 1971 durch das französische Montrealer Projekt gebaut, eine Million Wörter enthaltend, die das viel größere Korpus von Shana Poplack von gesprochenem Französisch im Gebiet des Ottawa Rumpfs begeistert haben.

Außer diesen Korpora von lebenden Sprachen ist computerisierte Korpora auch aus Sammlungen von Texten auf alten Sprachen gemacht worden. Ein Beispiel ist die Datenbank von Andersen-Forbes der hebräischen Bibel, entwickelt seit den 1970er Jahren, in denen jede Klausel mit Graphen grammatisch analysiert wird, die bis zu sieben Niveaus der Syntax und jedes mit sieben Feldern der Information markierte Segment vertreten.

Das Quranic arabische Korpus ist ein kommentiertes Korpus für die Klassische arabische Sprache von Quran. Das ist ein neues Projekt mit vielfachen Schichten der Anmerkung einschließlich der morphologischen Segmentation, Wortart markierende und syntaktische Analyse mit der Abhängigkeitsgrammatik.

Methoden

Korpus-Linguistik hat mehrere Forschungsmethoden erzeugt, versuchend, einen Pfad von Daten bis Theorie zu verfolgen. Wallis und Nelson (2001) erst haben eingeführt, was sie 3A Perspektive genannt haben: Anmerkung, Abstraktion und Analyse.

  • Anmerkung besteht aus der Anwendung eines Schemas zu Texten. Anmerkungen können Strukturpreiserhöhung, Wortart markierend, Syntaxanalyse und viele andere Darstellungen einschließen.
  • Abstraktion besteht aus der Übersetzung, die von Begriffen im Schema zu Begriffen in einem theoretisch motivierten Modell oder dataset (kartografisch) darstellt). Abstraktion schließt normalerweise Linguist-geleitete Suche ein, aber kann z.B, Regel-Lernen für parsers einschließen.
  • Analyse besteht aus der statistischen Untersuchung, Manipulierung und Generalisierung vom dataset. Analyse könnte statistische Einschätzungen, Optimierung von Regel-Basen oder Kenntnisse-Entdeckungsmethoden einschließen.

Der grösste Teil lexikalischen Korpora ist heute ein Teil der Rede markiert (POS-markiert). Jedoch sogar wenden Korpus-Linguisten, die mit dem 'unkommentierten Klartext' unvermeidlich arbeiten, eine Methode an, Begriffe zu isolieren, dass sie sich für von Umgebungswörtern interessieren. In solcher Situationsanmerkung und Abstraktion werden in einer lexikalischen Suche verbunden.

Der Vorteil, ein kommentiertes Korpus zu veröffentlichen, besteht darin, dass andere Benutzer dann Experimente auf dem Korpus durchführen können. Linguisten mit anderen Interessen und sich unterscheidenden Perspektiven als die Schöpfer können diese Arbeit ausnutzen. Indem sie Daten teilen, sind Korpus-Linguisten im Stande, das Korpus als ein geometrischer Ort der Sprachdebatte, aber nicht als eine erschöpfende Schriftart von Kenntnissen zu behandeln.

Siehe auch

  • Übereinstimmung (KWIC)
  • Kollokation
  • Analyse von Collostructional
  • Schlüsselwort (Linguistik)
  • Lexikalische Zündung
  • Sprachdatenkonsortium
  • Maschinelle Übersetzung
  • Werkzeug der natürlichen Sprache
  • Muster-Grammatik
  • Suchmotoren: Sie greifen auf das "Webkorpus" zu.
  • Semantische Prosodie
  • Textkorpus
  • Translation Memory
  • Treebank
  • Xaira: ein allgemeiner Zweck XML bewusstes Korpus-Analyse-Werkzeug der offenen Quelle

Zeitschriften

Es gibt mehrere internationale von Experten begutachtete Zeitschriften, die der Korpus-Linguistik, zum Beispiel, gewidmet sind

Korpora,

Korpus-Linguistik und Sprachtheorie,

ICAME Zeitschrift und der

Internationale Zeitschrift der Korpus-Linguistik.

Buchreihe

Buchreihen in diesem Feld schließen ein

Sprache und Computer,

Studien in der Korpus-Linguistik und englischen Korpus-Linguistik

Anderer

  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Sprachstruktur und Gebrauch, Cambridge Untersuchend: Cambridge Oben, 1998. Internationale Standardbuchnummer 0-521-49957-7
  • McCarthy, D. und Sampson G. Corpus Linguistics: Lesungen in einer sich Erweiternden Disziplin, Kontinuum, 2005. Internationale Standardbuchnummer 0 8264 8803 X
  • Facchinetti, R. Theoretische Beschreibung und Praktische Anwendungen der Sprachkorpora. Verona: QuiEdit, 2007 internationale Standardbuchnummer 978-88-89480-37-3
  • Facchinetti, R. (Hrsg.). Korpus-Linguistik 25 Jahre darauf. New York / Amsterdam: Rodopi, 2007 internationale Standardbuchnummer 978-90-420-2195-2
  • Facchinetti, R. und Rissanen M. (Hrsg.). Korpus-basierte Studien von Diachronic Englisch. Bern: Peter Lang, 2006 internationale Standardbuchnummer 3-03910-851-4

Links

Forschung und Entwicklungseinheit für englische Studien

Kühne Wandtafel / Typ-Theorie
Impressum & Datenschutz