Textbergwerk

Textbergwerk, manchmal abwechselnd gekennzeichnet als Textdatenbergwerk, das grob zur Textanalytik gleichwertig ist, bezieht sich auf den Prozess, Qualitätsinformation vom Text abzuleiten. Qualitätsinformation wird normalerweise durch das Planen von Mustern und Tendenzen durch Mittel wie das statistische Muster-Lernen abgeleitet. Text, der gewöhnlich abbaut, schließt den Prozess ein, den Eingangstext (gewöhnlich Syntaxanalyse, zusammen mit der Hinzufügung einiger abgeleiteter sprachlicher Besonderheiten und der Eliminierung von anderen und nachfolgenden Einfügung in eine Datenbank) zu strukturieren, Muster innerhalb der strukturierten Daten, und schließlich Einschätzung und Interpretation der Produktion ableitend. 'Hohe Qualität' im Text, der gewöhnlich abbaut, bezieht sich auf eine Kombination der Relevanz, Neuheit und Interessantkeit. Typischer Text, der Aufgaben abbaut, schließt Textkategorisierung, das Textsammeln, die Förderung des Konzepts/Entität, die Produktion von granuliertem taxonomies, die Gefühl-Analyse, die Dokumentenzusammenfassung und das Entitätsbeziehungsmodellieren ein (d. h. Das Lernen von Beziehungen zwischen genannten Entitäten).

Geschichte

Arbeitsintensiver manueller Text, der Annäherungen zuerst abbaut, ist Mitte der 1980er Jahre aufgetaucht, aber technologische Fortschritte haben dem Feld ermöglicht, während des letzten Jahrzehnts vorwärts zu gehen. Textbergwerk ist ein zwischendisziplinarisches Feld, das sich auf Informationsgewinnung, Datenbergwerk, das Maschinenlernen, die Statistik und die linguistische Datenverarbeitung stützt. So wird der grösste Teil der Information (sagen allgemeine Schätzungen mehr als 80 %), zurzeit versorgt wie Text, wie man glaubt, hat Textbergwerk einen hohen kommerziellen potenziellen Wert.

Erhöhung des Interesses wird dem mehrsprachigen Datenbergwerk bezahlt: Die Fähigkeit, Information über Sprachen und Traube ähnliche Sachen von verschiedenen Sprachquellen gemäß ihrer Bedeutung zu gewinnen.

Anwendungen

Kürzlich hat Textbergwerk Aufmerksamkeit in vielen Gebieten erhalten.

Sicherheitsanwendungen

Vieler Text, der Softwarepakete abbaut, wird für Sicherheitsanwendungen, besonders Analyse von Klartext-Quellen wie Internetnachrichten auf den Markt gebracht. Es schließt auch in die Studie der Textverschlüsselung ein.

Biomedizinische Anwendungen

Eine Reihe des Textes, der Anwendungen in der biomedizinischen Literatur abbaut, ist beschrieben worden.

Ein Online-Text, der Anwendung in der biomedizinischen Literatur abbaut, ist GoPubMed. GoPubmed war der erste semantische Suchmotor im Web.

Ein anderes Beispiel ist PubGene, der biomedizinischen Text verbindet, der mit der Netzvergegenwärtigung als ein Internetdienst abbaut.

Software und Anwendungen

Textbergwerksmethoden und Software werden auch erforscht und von Hauptunternehmen, einschließlich IBM und Microsofts entwickelt, um weiter die Bergwerks- und Analyse-Prozesse, und durch verschiedene Unternehmen zu automatisieren, die im Gebiet der Suche arbeiten und im Allgemeinen als eine Weise mit einem Inhaltsverzeichnis versehen, ihre Ergebnisse zu verbessern.

Innerhalb des öffentlichen Sektors ist viel Bemühung auf das Schaffen der Software gerichtet worden, um Terroristentätigkeiten zu verfolgen und zu kontrollieren.

Online-Mediaanwendungen

Textbergwerk wird von großen Mediagesellschaften wie Tribune Company verwendet, um Information zu disambiguieren und Leser mit größeren Sucherfahrungen zu versorgen, der der Reihe nach Seite "Klebrigkeit" und Einnahmen vergrößert. Zusätzlich, auf dem Zurückende, haben Redakteure Vorteil, indem sie im Stande sind, Nachrichten über Eigenschaften bedeutsam zu teilen, zu vereinigen und zu paketieren, Gelegenheiten zum monetize Inhalt vergrößernd.

Marktanwendungen

Textbergwerk fängt an, im Marketing ebenso mehr spezifisch im analytischen Kundenbeziehungsmanagement verwendet zu werden. Coussement und Van den Poel (2008) wenden es an, um prophetische Analytik-Modelle für das Kundenbutterfass (Kundenabreibung) zu verbessern.

Gefühl-Analyse

Gefühl-Analyse kann mit Analyse von Filmrezensionen verbunden sein, um zu schätzen, wie günstig eine Rezension für einen Film ist.

Solch eine Analyse kann eine etikettierte Datei oder das Beschriften des affectivity von Wörtern brauchen.

Mittel für affectivity von Wörtern und Konzepten sind für WordNet und ConceptNet beziehungsweise gemacht worden.

Text ist verwendet worden, um Gefühle im zusammenhängenden Gebiet der Affective-Computerwissenschaft zu entdecken. Gestützte Annäherungen des Textes an die Affective-Computerwissenschaft sind auf der vielfachen Korpora wie Studenteneinschätzungen, Kindergeschichten und Nachrichtengeschichten verwendet worden.

Akademische Anwendungen

Das Problem des Textbergwerks ist Herausgebern wichtig, die große Datenbanken des Informationsmüssen-Indexierens für die Wiederauffindung halten. Das ist in wissenschaftlichen Disziplinen besonders wahr, in denen hoch spezifische Information häufig innerhalb des schriftlichen Textes enthalten wird. Deshalb sind Initiativen wie der Vorschlag der Natur für Open Text Mining Interface (OTMI) und die Nationalen Institute für die allgemeine Zeitschrift der Gesundheit genommen worden, die Dokumenttyp-Definition (DTD) Veröffentlicht, die semantische Stichwörter Maschinen zur Verfügung stellen würde, um auf spezifische Abfragen zu antworten, die innerhalb des Textes enthalten sind, ohne Herausgeber-Barrieren für den öffentlichen Zugang zu entfernen.

Akademische Einrichtungen sind auch beteiligt am Text geworden, der Initiative abbaut:

  • Das Nationale Zentrum für den Text, der (NaCTeM) Abbaut, ist das erste öffentlich geförderte Textbergwerkszentrum in der Welt. NaCTeM wird von der Universität Manchesters in der nahen Kollaboration mit dem Tsujii Laboratorium, Universität Tokios bedient. NaCTeM stellt kundengerecht angefertigte Werkzeuge, Forschungseinrichtungen und Angebot-Rat der akademischen Gemeinschaft zur Verfügung. Sie werden von Joint Information Systems Committee (JISC) und zwei der Forschungsräte des Vereinigten Königreichs (EPSRC & BBSRC) gefördert. Mit einer Initiale konzentrieren sich auf Text, der in den biologischen und biomedizinischen Wissenschaften abbaut, Forschung hat sich in die Gebiete von Sozialwissenschaften seitdem ausgebreitet.
  • In den Vereinigten Staaten, der Schule der Information an der Universität Kaliforniens, entwickelt Berkeley ein Programm genannt BioText, um Biologie-Forschern beim Textbergwerk und der Analyse zu helfen.

Bemerkenswerte Software und Anwendungen

Text, der Computerprogramme abbaut, ist von vielen kommerziellen und offenen Quellgesellschaften und Quellen verfügbar.

Kommerziell

  • AeroText - ein Gefolge des Textes, der Anwendungen für die Inhaltsanalyse abbaut. Verwendeter Inhalt kann auf vielfachen Sprachen sein.
  • Attensity - veranstalteter, integrierter und eigenständiger Text, der (Analytik) Software abbaut, die Technologie der Verarbeitung der natürlichen Sprache verwendet
  • Autonomie - Textbergwerk, das Sammeln und die Kategorisierungssoftware
  • Basistechnologie - stellt ein Gefolge von Textanalyse-Modulen zur Verfügung, um Sprache zu identifizieren, Suche auf mehr als 20 Sprachen, Extrakt-Entitäten zu ermöglichen, und effizient zu suchen und Entitäten zu übersetzen.
  • Clarabridge - Textanalytik (Textbergwerk) Software, einschließlich natürlicher Sprache (NLP), des Maschinenlernens, des Sammelns und der Kategorisierung
  • Endeca Technologies - stellt Software zur Verfügung, um unstrukturierten Text zu analysieren und zu bündeln.
  • Expertensystem S.p. A. - Gefolge von semantischen Technologien und Produkten für Entwickler und Kenntnisse-Betriebsleiter.
  • Messe-Isaac - führender Lieferant von durch die fortgeschrittene Analytik angetriebenen Entscheidungsverwaltungslösungen (schließt Textanalytik ein).
  • iDETECT - Softwareplattform, die Textanalytik, einschließlich der Verarbeitung der natürlichen Sprache und Kategorisierung und unstrukturierten Daten vizualisation zur Verfügung stellt, zeigt zum recherchierenden Zweck.
  • Inxight - Versorger der Textanalytik, suchen Sie und unstrukturierte Vergegenwärtigungstechnologien. (Inxight wurde durch Geschäftsgegenstände gekauft, der von SAP AG 2008 gekauft wurde).
  • LanguageWare - Textanalyse-Bibliotheken und Anpassungssoftware von IBM.
  • Language Computer Corporation - Textförderung und Analyse-Werkzeuge, die auf vielfachen Sprachen verfügbar sind.
  • LexisNexis - Versorger von Geschäftsnachrichtendienstlösungen, die auf umfassenden Nachrichten und Firmeninformationsinhalt-Satz gestützt sind. LexisNexis hat DataOps erworben, um Suche zu verfolgen
  • Mathematica - stellt gebaut in Werkzeugen für die Textanordnung, das Muster-Zusammenbringen zur Verfügung, sich sammelnd und die semantische Analyse.
  • SAS - SAS Text Miner und Teragram; kommerzielle Textanalytik, Verarbeitung der natürlichen Sprache und Taxonomie-Software für das Informationsmanagement verwendet. SAS Textbergarbeiter hat als der dritte am meisten verwendete Text gegolten, der Software (9 %) durch den Jährlichen Datenbergarbeiter-Überblick von Rexer 2010 abbaut.
  • IBM SPSS - Versorger der Textanalytik von IBM SPSS Modeler und IBM SPSS (hat jetzt IBM SPSS Modeler Premium genannt). Abgeschätzt als das zweite (17 %) und viert (7 %), beziehungsweise, am meisten verwendeter Text, der Software durch den Jährlichen Datenbergarbeiter-Überblick von Rexer 2010 abbaut.
  • StatSoft - stellt STATISTICA Textbergarbeiter als eine fakultative Erweiterung auf den STATISTICA Datenbergarbeiter für Prophetische Analytik-Lösungen zur Verfügung. Abgeschätzt weil hat die Spitze Text verwendet, der Software (19 %) durch den Jährlichen Datenbergarbeiter-Überblick von Rexer 2010 abbaut.
  • Daten von Thomson Analysator - ermöglichen komplizierte Analyse auf die offene Information, wissenschaftlichen Veröffentlichungen und Nachrichten.
  • WordStat - Inhaltsanalyse und Text, der Software abbaut, um große Beträge der unstrukturierten Information zu analysieren.

Offene Quelle

  1. Carrot2 - Text und Suchergebnisse, die Fachwerk bündeln.
  2. TOR - Verarbeitung der natürlichen Sprache und Sprachtechnikwerkzeug.
  3. OpenNLP - Verarbeitung der natürlichen Sprache
  4. Werkzeug der Natürlichen Sprache (NLTK) - ein Gefolge von Bibliotheken und Programmen für die symbolische und statistische Verarbeitung der natürlichen Sprache (NLP) für die Pythonschlange-Programmiersprache.
  5. RapidMiner mit seinem Text, der Erweiterung - Daten und Text Bearbeitet, der Software abbaut. Abgeschätzt als der fünfte am meisten verwendete Text, der Software (6 %) durch den Jährlichen Datenbergarbeiter-Überblick von Rexer 2010 abbaut.
  6. Unstructured Information Management Architecture (UIMA) - ein Teilfachwerk, um unstrukturierten Inhalt wie Text, Audio- und Video-, ursprünglich entwickelt von IBM zu analysieren.
  7. Knime - Datenbergwerkswerkzeug des Open Sources mit einer experimentellen Textprocessing-Erweiterung
  8. KH Codierer - Eine kostenlose Software für die Quantitative Inhaltsanalyse oder den Text, der Abbaut

Implikationen

Bis neulich haben Websites meistenteils textbasierte Suchen verwendet, die nur Dokumente gefunden haben, die spezifische benutzerbestimmte Wörter oder Ausdrücke enthalten. Jetzt, durch den Gebrauch eines semantischen Webs, kann Textbergwerk zufrieden gestützt auf der Bedeutung und dem Zusammenhang (aber nicht gerade durch ein spezifisches Wort) finden.

Zusätzlich kann Text, der Software abbaut, verwendet werden, um große Aktenbündel der Information über spezifische Leute und Ereignisse zu bauen. Zum Beispiel kann großer datasets, der auf aus Pressemeldungen herausgezogenen Daten gestützt ist, gebaut werden, um soziale Netzanalyse oder Gegenspionage zu erleichtern. Tatsächlich kann der Text, der Software abbaut, in einer Kapazität handeln, die einem Nachrichtendienstanalytiker oder Forschungsbibliothekar, obgleich mit einem mehr beschränkten Spielraum der Analyse ähnlich ist.

Textbergwerk wird auch in einer E-Mail spam Filter als eine Weise verwendet, die Eigenschaften von Nachrichten zu bestimmen, die wahrscheinlich Anzeigen oder anderes unerwünschtes Material sein werden.

Siehe auch

  • Kommen Sie nichtnegativer Matrix factorization, ein Algorithmus näher, der für den Text verwendet ist, der abbaut
  • Text von BioCreative, der Einschätzung in der biomedizinischen Literatur abbaut
  • Geschäftsintelligenz
  • Linguistische Datenverarbeitung
  • Konzept, das abbaut
  • Daten, die abbauen
  • Informationsgewinnung
  • Namenentschlossenheit
  • Nationales Zentrum für den Text, der (NaCTeM) abbaut
  • Verarbeitung der natürlichen Sprache
  • Hören Sie Wörter auf
  • Textanalytik
  • Textklassifikation wird manchmal (U-Boot) als Aufgabe des Textbergwerks betrachtet.
  • OpenNLP Java NLP Bibliothek vom Apachen
  • UIMA unstrukturierte Informationsverwaltungsarchitektur von IBM.
  • Webbergwerk, eine Aufgabe, die Textbergwerk einschließen kann (finden z.B zuerst passende Webseiten durch das Klassifizieren, ist Webseiten gekrochen, dann ziehen Sie die gewünschte Information aus dem Textinhalt dieser Seiten betrachtet wichtig heraus).
  • w-shingling
  • Folge-Bergwerk: Schnur und Folge, die Abbaut

Referenzen

  • Ananiadou, S. und McNaught, J. (Redakteure) (2006). Text, der für Biology und Biomedicine Abbaut. Artech Hausbücher. Internationale Standardbuchnummer 978-1-58053-984-5
  • Bilisoly, R. (2008). Praktischer Text, der mit Perl Abbaut. New York: John Wiley & Sons. Internationale Standardbuchnummer 978-0470176436
  • Feldman, R. und Sanger, J. (2006). Der Text, der Handbuch Abbaut. New York: Universität von Cambridge Presse. Internationale Standardbuchnummer 9780521836579
  • Indurkhya, N. und Damerau, F. (2010). Handbuch der Verarbeitung der natürlichen Sprache, 2. Ausgabe. Boca Raton, Florida: CRC Presse. Internationale Standardbuchnummer 978-1420085921
  • Kao, A. und Poteet, S. (Redakteure). Verarbeitung der natürlichen Sprache und Textbergwerk. Springer. Internationale Standardbuchnummer 184628175X
  • Konchady, M Text, der Anwendungsprogrammierung Abbaut (Reihe Programmierend). Flussmedien von Charles. Internationale Standardbuchnummer 1584504609
  • Bemannung, C. und Schutze, H. (1999). Fundamente der Statistischen Verarbeitung der natürlichen Sprache. Cambridge, Massachusetts: MIT Presse. Internationale Standardbuchnummer 978-0262133609
  • Bergarbeiter, G., Älter, J., Hügel. T, Nisbet, R., Delen, D. und Schnell, A. (2012). Praktisches Textbergwerk und Statistische Analyse für Nichtstrukturierte Textdatenanwendungen. Elsevier Akademische Presse. Internationale Standardbuchnummer 978-0123869791
  • McKnight, W. (2005). "Gebäude der Geschäftsintelligenz: Textdaten, die in der Geschäftsintelligenz abbauen". DM-Rezension, 21-22.
  • Srivastava, A. und Sahami. M. (2009). Textbergwerk: Klassifikation, das Sammeln und die Anwendungen. Boca Raton, Florida: CRC Presse. Internationale Standardbuchnummer 978-1420059403

Links


Source is a modification of the Wikipedia article Text mining, licensed under CC-BY-SA. Full list of contributors here.
Schottisches Englisch / Lorin Maazel
Impressum & Datenschutz