Datenbergwerk

Datenbergwerk (der Analyse-Schritt der "Kenntnisse-Entdeckung in Datenbanken" Prozess oder KDD), ein relativ junges und zwischendisziplinarisches Feld der Informatik, ist der Prozess, der auf die Entdeckung von neuen Mustern in großen Dateien hinausläuft. Es verwertet Methoden an der Kreuzung von künstlicher Intelligenz, Maschinenlernen, Statistik und Datenbanksystemen. Die gesamte Absicht des Datenbergwerksprozesses ist, Kenntnisse aus einer vorhandenen Datei herauszuziehen und es in eine mit dem Menschen verständliche Struktur für den weiteren Gebrauch umzugestalten. Außer dem rohen Analyse-Schritt schließt es Datenbank und Datenverwaltungsaspekte, Datenaufbereitung, Modell und Interferenzrücksichten, Interessantkeitsmetrik, Kompliziertheitsrücksichten, Postverarbeitung von gefundenen Strukturen, Vergegenwärtigung und online das Aktualisieren ein.

Der Begriff ist ein Modewort, und wird oft missbraucht, um jede Form von groß angelegten Daten oder Informationsverarbeitung (Sammlung, Förderung, Lagerung, Analyse und Statistik) zu bedeuten, aber wird auch zu jeder Art des Computerentscheidungshilfe-Systems, einschließlich der künstlichen Intelligenz, des Maschinenlernens und der Geschäftsintelligenz verallgemeinert. Im richtigen Gebrauch des Wortes ist der Schlüsselbegriff Entdeckung, die allgemein als das "Ermitteln von etwas Neuem" definiert ist. Sogar das populäre Buch "Datenbergwerk: Praktische Maschinenlernwerkzeuge und Techniken mit Java" (der größtenteils Maschinenlernmaterial bedeckt) sollten gerade "Das praktische Maschinenlernen" ursprünglich genannt werden, und der Begriff "Daten-Bergwerk" wurde nur aus Marktgründen hinzugefügt. Häufig die allgemeineren Begriffe" (in großem Umfang) Datenanalyse" oder "Analytik" - oder wenn sie sich auf wirkliche Methoden, künstliche Intelligenz und Maschine beziehen, die erfährt - passender.

Die wirklichen Daten, die Aufgabe abbauen, sind die automatische oder halbautomatische Analyse von großen Mengen von Daten, um vorher unbekannte interessante Muster wie Gruppen von Datenaufzeichnungen (Traube-Analyse), ungewöhnliche Aufzeichnungen (Anomalie-Entdeckung) und Abhängigkeiten (Vereinigungsregel-Bergwerk) herauszuziehen. Das schließt gewöhnlich Verwenden-Datenbanktechniken wie Raumindizes ein. Diese Muster können dann als eine Art Zusammenfassung der Eingangsdaten gesehen werden, und können in der weiteren Analyse oder, zum Beispiel, im Maschinenlernen und der prophetischen Analytik verwendet werden. Zum Beispiel könnten die Daten, die Schritt abbauen, vielfache Gruppen in den Daten identifizieren, die dann verwendet werden können, um genauere Vorhersageergebnisse durch ein Entscheidungshilfe-System zu erhalten. Weder die Datenerfassung, die Datenvorbereitung, noch die Ergebnis-Interpretation und der Bericht sind ein Teil der Daten, die Schritt abbauen, aber gehören wirklich dem gesamten KDD-Prozess als zusätzliche Schritte.

Das zusammenhängende Begriff-Datenausbaggern, die Datenfischerei und das Datenschnüffeln beziehen sich auf den Gebrauch von Datenbergwerksmethoden zu Beispielteilen einer größeren Bevölkerungsdatei, die sind (oder sein kann) zu klein für zuverlässige statistische Schlussfolgerungen, die über die Gültigkeit irgendwelcher entdeckten Muster zu machen sind. Diese Methoden können jedoch im Schaffen neuer Hypothesen verwendet werden, um gegen die größeren Datenbevölkerungen zu prüfen.

Hintergrund

Die manuelle Förderung von Mustern von Daten ist seit Jahrhunderten vorgekommen. Frühe Methoden, Muster in Daten zu identifizieren, schließen den Lehrsatz von Buchten (die 1700er Jahre) und Regressionsanalyse (die 1800er Jahre) ein. Die Proliferation, Allgegenwart und zunehmende Macht der Computertechnologie haben Datenerfassung, Lagerung und Manipulationsfähigkeit drastisch vergrößert. Da Dateien in der Größe und Kompliziertheit gewachsen sind, ist direkte "spielerische" Datenanalyse mit der indirekten, automatisierten Datenverarbeitung zunehmend vermehrt worden, die durch andere Entdeckungen in der Informatik, wie Nervennetze, Traube-Analyse, genetische Algorithmen (die 1950er Jahre), Entscheidungsbäume (die 1960er Jahre) und Unterstützungsvektor-Maschinen (die 1990er Jahre) geholfen ist. Datenbergwerk ist der Prozess, diese Methoden mit der Absicht anzuwenden, verborgene Muster in großen Dateien aufzudecken. Es überbrückt die Lücke von der angewandten Statistik und künstlichen Intelligenz (die gewöhnlich den mathematischen Hintergrund zur Verfügung stellen) zum Datenbankmanagement durch die Ausnutzung der Weise, wie Daten versorgt und in Datenbanken mit einem Inhaltsverzeichnis versehen werden, um das wirkliche Lernen und die Entdeckungsalgorithmen effizienter durchzuführen, solchen Methoden erlaubend, auf jemals größere Dateien angewandt zu werden.

Forschung und Evolution

Der Hauptberufskörper im Feld ist die Vereinigung, um Special Interest Group der Maschinerie auf der Kenntnisse-Entdeckung und den Daten Zu schätzen, die (SIGKDD) Abbauen. Seit 1989 haben sie eine jährliche internationale Konferenz veranstaltet und seine Verhandlungen veröffentlicht, und seit 1999 haben eine halbjährliche akademische Zeitschrift betitelt "SIGKDD Erforschungen" veröffentlicht.

Informatik-Konferenzen für das Datenbergwerk schließen ein:

  • CIKM - ACM Konferenz für das Informations- und Kenntnisse-Management
  • DMIN - internationale Konferenz für Daten, die abbauen
  • DMKD - Forschungsprobleme auf der Datenbergwerks- und Kenntnisse-Entdeckung
  • ECDM - europäische Konferenz für Daten, die abbauen
  • ECML-PKDD - europäische Konferenz für die Maschine, die erfährt und Grundsätze und Praxis der Kenntnisse-Entdeckung in Datenbanken
  • EDM - internationale Konferenz für Bildungsdaten, die abbauen
  • ICDM - IEEE internationale Konferenz für Daten, die abbauen
  • KDD - ACM SIGKDD Konferenz für die Kenntnisse-Entdeckung und Daten, die abbauen
  • MLDM - Maschine, die erfährt und Daten, die in der Muster-Anerkennung abbauen
  • PAKDD - Die jährliche Konferenz des Pazifiks-Asiens für die Kenntnisse-Entdeckung und Daten, die Abbauen
  • TATZE - prophetische Analytik-Welt
  • SDM - SIAM internationale Konferenz für Daten, die (SIAM) abbauen
  • SSTD - Symposium auf räumlichen und zeitlichen Datenbanken

Daten, die Themen abbauen, sind auf dem grössten Teil der Datenverwaltung / Datenbankkonferenzen da.

Prozess

Die Kenntnisse-Entdeckung in Datenbanken (KDD) Prozess wird mit den Stufen allgemein definiert:

: (1) Auswahl

: (2) Aufbereitung

: (3) Transformation

: (4) Daten, die abbauen

: (5) Interpretation/Einschätzung.

Es besteht jedoch in vielen Schwankungen auf diesem Thema wie der Böse Industriestandardprozess für Daten, die (KNUSPRIGE DM) Abbauen, die sechs Phasen definiert:

: (1) Geschäft, verstehend

: (2) Daten, verstehend

: (3) Datenvorbereitung

: (4) das Modellieren

: (5) Einschätzung

: (6) Aufstellung

oder ein vereinfachter Prozess solcher als (1) Aufbereitung, (2) Datenbergwerk, und (3) Ergebnis-Gültigkeitserklärung.

Aufbereitung

Bevor Daten, die Algorithmen abbauen, verwendet werden können, muss eine Zieldatei gesammelt werden. Da Datenbergwerk nur Muster aufdecken kann, wirklich präsentieren in den Daten, das Ziel dataset muss groß genug sein, um diese Muster zu enthalten, während es kurz genug bleibt, um innerhalb einer annehmbaren Frist abgebaut zu werden. Eine allgemeine Quelle für Daten ist ein Datenmarkt oder Datenlager. Aufbereitung ist notwendig, um den multivariate datasets vor dem Datenbergwerk zu analysieren. Der Zielsatz wird dann gereinigt. Datenreinigung entfernt die Beobachtungen, die Geräusch und diejenigen mit fehlenden Daten enthalten.

Datenbergwerk ist mit sechs allgemeinen Klassen von Aufgaben verbunden:

  • Anomalie-Entdeckung (Outlier/change/deviation Entdeckung) - Die Identifizierung von ungewöhnlichen Datenaufzeichnungen, die interessant sein oder Datenfehler und weitere Untersuchung verlangen könnten.
  • Vereinigungsregel, die (Das Abhängigkeitsmodellieren) - Suchen nach Beziehungen zwischen Variablen erfährt. Zum Beispiel könnte ein Supermarkt Daten auf dem Kunden Kaufgewohnheiten sammeln. Mit dem Vereinigungsregel-Lernen kann der Supermarkt bestimmen, welche Produkte oft zusammen gekauft werden und diese Information zu Marktzwecken verwenden. Das wird manchmal Marktkorbanalyse genannt.
  • Das Sammeln - ist die Aufgabe, Gruppen und Strukturen in den Daten zu entdecken, die auf die eine oder andere Weise "ähnlich" sind, ohne bekannte Strukturen in den Daten zu verwenden.
  • Klassifikation - ist die Aufgabe, bekannte Struktur zu verallgemeinern, um für neue Daten zu gelten. Zum Beispiel könnte ein E-Mail-Programm versuchen, eine E-Mail als "legitim" oder als "spam" zu klassifizieren.
  • Rückwärts Gehen - Versuche, eine Funktion zu finden, die die Daten mit kleinstem Fehler modelliert.
  • Zusammenfassung - Versorgung einer kompakteren Darstellung der Datei, einschließlich der Vergegenwärtigung und Berichtsgeneration.

Ergebnis-Gültigkeitserklärung

Der Endschritt der Kenntnisse-Entdeckung von Daten soll nachprüfen, dass die Muster, die durch die Daten erzeugt sind, die Algorithmen abbauen, in der breiteren Datei vorkommen. Nicht alle Muster, die durch die Daten gefunden sind, die Algorithmen abbauen, sind notwendigerweise gültig. Es ist für die Daten üblich, die Algorithmen abbauen, Muster im Lehrsatz zu finden, die in der allgemeinen Datei nicht da sind. Das wird genannt überpassend. Um das zu überwinden, verwendet die Einschätzung einen Testsatz von Daten, auf denen die Daten, die Algorithmus abbauen, nicht erzogen wurde. Die gelehrten Muster werden auf diesen Testsatz angewandt, und die resultierende Produktion ist im Vergleich zur gewünschten Produktion. Zum Beispiel würden Daten, die Algorithmus abbauen, der versucht, "spam" aus "legitimen" E-Mails zu unterscheiden, auf einem Lehrsatz von BeispielE-Mails erzogen. Einmal erzogen würden die gelehrten Muster auf den Testsatz von E-Mails angewandt, auf denen er nicht erzogen worden war. Die Genauigkeit der Muster kann dann davon gemessen werden, wie viele E-Mails sie richtig klassifizieren. Mehrere statistische Methoden können verwendet werden, um den Algorithmus wie ROC-Kurven zu bewerten.

Wenn die gelehrten Muster den gewünschten Standards nicht entsprechen, dann ist es notwendig, die Aufbereitung und Daten wiederzubewerten und zu ändern, die Schritte abbauen. Wenn die gelehrten Muster wirklich den gewünschten Standards entsprechen, dann ist der Endschritt, die gelehrten Muster zu interpretieren und sie in Kenntnisse zu verwandeln.

Standards

Es hat einige Anstrengungen gegeben, Standards für den Datenbergwerksprozess, zum Beispiel 1999 europäischen Bösen Industriestandardprozess für Daten zu definieren, die (1.0 knusprige DM) und 2004 javanische Daten Abbauen, die Standard (JDM 1.0) Abbauen. Die Entwicklung auf Nachfolgern dieser Prozesse (2.0 knusprige DM und JDM 2.0) war 2006 aktiv, aber ist seitdem stecken geblieben. JDM 2.0 wurde zurückgezogen, ohne einen endgültigen Entwurf zu erreichen.

Für die herausgezogenen Modelle - insbesondere für den Gebrauch in der prophetischen Analytik auszutauschen - ist der Schlüsselstandard Predictive Model Markup Language (PMML), die eine XML-basierte Sprache ist, die von Data Mining Group (DMG) entwickelt ist und als Austauschformat durch viele Daten unterstützt ist, die Anwendungen abbauen. Wie der Name darauf hinweist, bedeckt er nur Vorhersagemodelle, eine Einzelheit Daten, die Aufgabe der hohen Wichtigkeit zu kommerziellen Anwendungen abbauen. Jedoch sind Erweiterungen (um zum Beispiel) das Subraumsammeln zu bedecken, unabhängig vom DMG vorgeschlagen worden.

Bemerkenswerter Gebrauch

Spiele

Seit dem Anfang der 1960er Jahre, mit der Verfügbarkeit von Orakeln für bestimmte kombinatorische Spiele, auch genannt tablebases (z.B für das 3x3-Schach) mit jeder beginnenden Konfiguration, Punkten-Und-Kästen des kleinen Ausschusses, kleiner Vorstandshexe und bestimmten Schlussphasen im Schach, den Punkten-Und-Kästen und der Hexe; ein neues Gebiet für das Datenbergwerk ist geöffnet worden. Das ist die Förderung von mit dem Menschen verwendbaren Strategien von diesen Orakeln. Aktuelle Muster-Anerkennungsannäherungen scheinen nicht, das hohe Niveau der Abstraktion völlig zu erwerben, die erforderlich ist, erfolgreich angewandt zu werden. Statt dessen wird das umfassende Experimentieren mit dem tablebases - verbunden mit einer intensiven Studie von Tablebase-Antworten auf gut bestimmte Probleme, und mit Kenntnissen der vorherigen Kunst (d. h. pre-tablebase Kenntnissen) - verwendet, um aufschlussreiche Muster nachzugeben. Berlekamp (in Punkten-Und-Kästen, usw.) und John Nunn (in Schachschlussphasen) sind bemerkenswerte Beispiele von Forschern, die diese Arbeit tun, obwohl sie waren nicht - und nicht - beteiligt an der tablebase Generation sind.

Geschäft

Daten, die in Kundenbeziehungsverwaltungsanwendungen abbauen, können bedeutsam zum Endergebnis beitragen. Anstatt sich mit einer Aussicht oder Kunden durch ein Anruf-Zentrum zufällig in Verbindung zu setzen oder Post zu senden, kann eine Gesellschaft seine Bemühungen auf Aussichten richten, die vorausgesagt werden, um eine hohe Wahrscheinlichkeit der Reaktion zu einem Angebot zu haben. Hoch entwickeltere Methoden können verwendet werden, um Mittel über Kampagnen zu optimieren, so dass man voraussagen kann, auf den Kanal und auf der Angebot eine Person höchstwahrscheinlich (über alle potenziellen Angebote) antworten wird. Zusätzlich konnten hoch entwickelte Anwendungen verwendet werden, um Postversand zu automatisieren. Sobald die Ergebnisse von Datenbergwerk (potenzielle Aussicht/Kunde und Kanal/Angebot) bestimmt werden, kann diese "hoch entwickelte Anwendung" entweder eine E-Mail oder eine regelmäßige Post automatisch senden. Schließlich, in Fällen, wo viele Menschen eine Handlung ohne ein Angebot nehmen werden, "kann das Erhebungsmodellieren" verwendet werden, um zu bestimmen, welche Leute die größte Zunahme, als Antwort wenn gegeben, ein Angebot haben. Das Datensammeln kann auch verwendet werden, um die Segmente oder Gruppen innerhalb einer Kundendatei automatisch zu entdecken.

Geschäfte, die Datenbergwerk verwenden, können eine Rückkehr auf der Investition sehen, sondern auch sie erkennen an, dass die Zahl von prophetischen Modellen sehr groß schnell werden kann. Anstatt ein Modell zu verwenden, um vorauszusagen, wie viele Kunden buttern werden, konnte ein Geschäft ein getrenntes Modell für jedes Gebiet und Kundentyp bauen. Dann, anstatt ein Angebot allen Leuten zu senden, die wahrscheinlich buttern werden, kann es nur Angebote loyalen Kunden senden wollen. Schließlich kann das Geschäft bestimmen wollen, welche Kunden dabei sind, über ein bestimmtes Fenster rechtzeitig gewinnbringend zu sein, und nur die Angebote denjenigen zu senden, die wahrscheinlich gewinnbringend sein werden. Um diese Menge von Modellen aufrechtzuerhalten, müssen sie Musterversionen und Bewegung zum automatisierten Datenbergwerk führen.

Datenbergwerk kann auch PersonalHRabteilungen im Identifizieren der Eigenschaften ihrer erfolgreichsten Angestellten nützlich sein. Information erhalten - wie Universitäten, die von hoch erfolgreichen Angestellten aufgewartet sind - kann Neuen Tischen helfen, Rekrutieren-Anstrengungen entsprechend einzustellen. Zusätzlich helfen Strategische Unternehmensverwaltungsanwendungen einer Gesellschaft, Unternehmensniveau-Absichten, wie Gewinn und Rand-Aktienziele, in betriebliche Entscheidungen, wie Produktionspläne und Belegschaft-Niveaus zu übersetzen.

Ein anderes Beispiel des Datenbergwerks, häufig genannt die Marktkorbanalyse, bezieht sich auf seinen Gebrauch in Einzelverkäufen. Wenn ein Kleidungsladen die Käufe von Kunden registriert, konnte ein Datenbergwerkssystem jene Kunden erkennen, die Seidenhemden über Baumwolle bevorzugen. Obwohl einige Erklärungen von Beziehungen schwierig, davon ausnutzend sein können, ist leichter. Das Beispiel befasst sich mit Vereinigungsregeln innerhalb von Transaktionsbasierten Daten. Nicht alle Daten sind Transaktion gestützte und logische oder ungenaue Regeln können auch innerhalb einer Datenbank da sein.

Marktkorbanalyse ist auch verwendet worden, um die Kauf-Muster des Alpha-Verbrauchers zu identifizieren. Alpha-Verbraucher sind Leute, die eine Schlüsselrolle im Anschließen mit dem Konzept hinter einem Produkt, dann das Übernehmen dieses Produktes und schließlich die Bestätigung davon für den Rest der Gesellschaft spielen. Das Analysieren der auf diesem Typ des Benutzers gesammelten Daten hat Gesellschaften erlaubt, zukünftige Kaufen-Tendenzen vorauszusagen und Versorgungsanforderungen vorauszusagen.

Datenbergwerk ist ein hoch wirksames Werkzeug in der Katalogmarktindustrie. Catalogers haben eine reiche Datenbank der Geschichte ihrer Kundentransaktionen für Millionen von Kunden, die mehrere Jahre zurückgehen. Datenbergwerkswerkzeuge können Muster unter Kunden identifizieren, und Hilfe erkennen die wahrscheinlichsten Kunden, um auf kommende Postversand-Kampagnen zu antworten.

Daten, die für kommerzielle Anwendungen abbauen, sind ein Bestandteil, der in ein kompliziertes Modellieren und Entscheidungsprozess integriert werden muss. Reaktive Geschäftsintelligenz (RBI) verteidigt eine "holistische" Annäherung, die Datenbergwerk, das Modellieren und die interaktive Vergegenwärtigung in der Länge nach Entdeckung und dauernder Neuerungsprozess integriert, der vom Menschen und automatisierten Lernen angetrieben ist.

Im Gebiet des Entscheidungsbildens ist die RBI-Annäherung verwendet worden, um Kenntnisse zu verminen, die vom Entscheidungsträger progressiv erworben werden, und dann stimmen Sie die Entscheidungsmethode entsprechend selbstab.

Ein Beispiel des mit einem Fließband des einheitlichen Stromkreises verbundenen Datenbergwerks wird in der Zeitung beschrieben, "IC Testdaten abbauend, um VLSI-Prüfung Zu optimieren." In dieser Zeitung, der Anwendung der Datenbergwerks- und Entscheidungsanalyse zum Problem des Sterben-Niveaus wird funktionelle Prüfung beschrieben. Erwähnte Experimente stellen die Fähigkeit unter Beweis, ein System anzuwenden, abzubauen historische Sterben-Test-Daten, um ein probabilistic Modell von Mustern dessen zu schaffen, sterben Misserfolg. Diese Muster werden dann verwertet, um in Realtime zu entscheiden, die sterben, um als nächstes zu prüfen, und wenn man aufhört zu prüfen. Dieses System ist gezeigt, auf Experimenten mit historischen Testdaten gestützt worden, um das Potenzial zu haben, um Gewinne auf reifen IC Produkten zu verbessern.

Wissenschaft und Technik

In den letzten Jahren ist Datenbergwerk weit in den Gebieten der Wissenschaft und Technik, wie bioinformatics, Genetik, Medizin, Ausbildung und Technik der elektrischen Leistung verwendet worden.

In der Studie der menschlichen Genetik hilft Folge-Bergwerk, die wichtige Absicht zu richten, die kartografisch darstellende Beziehung zwischen den zwischenindividuellen Schwankungen in der Folge der menschlichen DNA und der Veränderlichkeit in der Krankheitsempfänglichkeit zu verstehen. In einfachen Begriffen hat es zum Ziel herauszufinden, wie die Änderungen in einer DNA-Folge einer Person die Gefahren betreffen, allgemeine Krankheiten wie Krebs zu entwickeln, der zu sich verbessernden Methoden von großer Bedeutung ist, diese Krankheiten zu diagnostizieren, zu verhindern, und zu behandeln. Die Datenbergwerksmethode, die verwendet wird, um diese Aufgabe durchzuführen, ist als Mehrfaktor dimensionality die Verminderung bekannt.

Im Gebiet der Technik der elektrischen Leistung sind Datenbergwerksmethoden für die Bedingungsüberwachung der Hochspannung elektrische Ausrüstung weit verwendet worden. Der Zweck der Bedingungsüberwachung ist, wertvolle Information über, zum Beispiel, der Status der Isolierung (oder andere wichtige sicherheitszusammenhängende Rahmen) zu erhalten. Daten, die Techniken - wie das Selbstorganisieren der Karte (SOM) bündeln, sind auf die Vibrieren-Überwachung und Analyse des Transformators Klaps-Wechsler auf der Last (OLTCS) angewandt worden. Mit der Vibrieren-Überwachung kann es bemerkt werden, dass jede Klaps-Änderungsoperation ein Signal erzeugt, das Information über die Bedingung der Klaps-Wechsler-Kontakte und der Laufwerk-Mechanismen enthält. Offensichtlich werden verschiedene Klaps-Positionen verschiedene Signale erzeugen. Jedoch gab es beträchtliche Veränderlichkeit unter Signalen des üblichen Zustands für genau dieselbe Klaps-Position. SOM ist angewandt worden, um anomale Bedingungen zu entdecken und über die Natur der Abnormitäten Hypothese aufzustellen.

Datenbergwerksmethoden sind auch auf die aufgelöste Gasanalyse (DGA) in Macht-Transformatoren angewandt worden. DGA, als eine Diagnostik für Macht-Transformatoren, ist viele Jahre lang verfügbar gewesen. Methoden wie SOM sind angewandt worden, um erzeugte Daten zu analysieren und Tendenzen zu bestimmen, die den DGA Standardverhältnis-Methoden (wie Dreieck von Duval) nicht offensichtlich sind.

Ein anderes Beispiel von Daten, die in der Wissenschaft und Technik abbauen, wird in der Bildungsforschung gefunden, wo Datenbergwerk verwendet worden ist, um die Faktoren Hauptstudenten zu studieren, um zu beschließen, sich mit Handlungsweisen zu beschäftigen, die ihr Lernen reduzieren, und Faktoren zu verstehen, die Universitätsstudentenretention beeinflussen. Ein ähnliches Beispiel der sozialen Anwendung des Datenbergwerks ist sein Gebrauch in Gutachten-Entdeckungssystemen, wodurch Deskriptoren des menschlichen Gutachtens herausgezogen, normalisiert und klassifiziert werden, um die Entdeckung von Experten besonders in wissenschaftlichen und technischen Feldern zu erleichtern. Auf diese Weise kann Datenbergwerk Institutionsgedächtnis erleichtern.

Andere Beispiele der Anwendung von Datenbergwerksmethoden sind biomedizinische durch die Bereichsontologie erleichterte Daten, klinische Probe-Daten und Verkehrsanalyse mit SOM abbauend.

In der nachteiligen Rauschgift-Reaktionskontrolle hat die Uppsala Beobachtungsstelle seit 1998 Datenbergwerksmethoden verwendet sich alltäglich filmen zu lassen, um Muster zu melden, die für erscheinende Rauschgift-Sicherheitsprobleme in WER globale Datenbank von 4.6 Millionen verdächtigten nachteiligen Rauschgift-Reaktionsereignissen bezeichnend sind. Kürzlich ist ähnliche Methodik entwickelt worden, um große Sammlungen von elektronischen Gesundheitsaufzeichnungen für zeitliche Muster zu verminen, die Rauschgift-Vorschrifte zur medizinischen Diagnose vereinigen.

Menschenrechte

Das Datenbergwerk von Regierungsaufzeichnungen - besonders Aufzeichnungen des Rechtssystems (d. h. Gerichte, Gefängnisse) - ermöglicht die Entdeckung von Körpermenschenrechtsverletzungen, die mit der Generation und Veröffentlichung von ungültigen oder betrügerischen gesetzlichen Aufzeichnungen durch verschiedene Regierungsstellen verbunden sind.

Raumdatenbergwerk

Raumdatenbergwerk ist die Anwendung von Datenbergwerksmethoden zu Raumdaten. Das Endziel des Raumdatenbergwerks ist, Muster in Daten in Bezug auf die Erdkunde zu finden. Bis jetzt haben Datenbergwerk und Geographic Information Systems (GIS) als zwei getrennte Technologien, jeder mit seinen eigenen Methoden, Traditionen und Annäherungen an die Vergegenwärtigung und Datenanalyse bestanden. Besonders haben zeitgenössischste GIS nur sehr grundlegende Raumanalyse-Funktionalität. Die riesige Explosion in geografisch Verweise angebrachten Daten, die durch Entwicklungen DARIN, entfernte, kartografisch darstellende Digitalabfragung und die globale Verbreitung von GIS verursacht sind, betont die Wichtigkeit davon, datengesteuerte induktive Annäherungen an die geografische Analyse und das Modellieren zu entwickeln.

Daten, die Angebote große potenzielle Vorteile für die GIS-basierte angewandte Beschlussfassung abbauen. Kürzlich ist die Aufgabe, diese zwei Technologien zu integrieren, aus kritischer Wichtigkeit geworden, besonders wenn verschiedene öffentliche und private Sektor-Organisationen, die riesige Datenbanken mit thematischen und geografisch Verweise angebrachten Daten besitzen, beginnen, das riesige Potenzial der Information enthalten darin zu begreifen. Unter jenen Organisationen sind:

  • Büros, die Analyse oder Verbreitung geo-Verweise-angebrachter statistischer Daten verlangen
  • Gesundheitswesen-Dienstleistungen, die nach Erklärungen der Krankheit suchen, die sich sammelt
  • Umweltagenturen, die den Einfluss von sich ändernden Landgebrauch-Mustern auf der Klimaveränderung bewerten
  • Geo-Vertriebsgesellschaften, die Kundensegmentation tun, auf der Raumposition gestützt.

Herausforderungen

Datenbehältnisse von Geospatial neigen dazu, sehr groß zu sein. Außerdem werden vorhandene GIS datasets häufig in die Eigenschaft zersplittert und schreiben Bestandteile zu, die in hybriden Datenverwaltungssystemen herkömmlich archiviert werden. Algorithmische Voraussetzungen unterscheiden sich wesentlich für den Verwandtschafts-(Attribut) Datenverwaltung und für den topologischen (Eigenschaft) Datenverwaltung. Verbunden damit ist die Reihe und Ungleichheit von geografischen Datenformaten, die einzigartige Herausforderungen präsentieren. Die geografische Digitaldatenrevolution schafft neue Typen von Datenformaten außer dem traditionellen "Vektoren" und "Raster"-Formaten. Geografische Datenbehältnisse schließen zunehmend schlecht-strukturierte Daten, wie Bilder und geo-Verweise-angebrachte Multimedia ein.

Es gibt mehrere kritische Forschungsherausforderungen in der geografischen Kenntnisse-Entdeckung und dem Datenbergwerk. Miller und Han bieten die folgende Liste von erscheinenden Forschungsthemen im Feld an:

  • Das Entwickeln und das Unterstützen geografischer Datenlager (GDW'S): Raumeigenschaften werden häufig auf einfache Aspatial-Attribute in Hauptströmungsdatenlagern reduziert. Das Schaffen eines einheitlichen GDW verlangt Lösen-Probleme der räumlichen und zeitlichen Datenzwischenfunktionsfähigkeit - einschließlich Unterschiede in der Semantik, in Systemen, Geometrie, Genauigkeit und Position Verweise anbringend.
  • Besser räumlich-zeitliche Darstellungen in der geografischen Kenntnisse-Entdeckung: Aktuelle Methoden der geografischen Kenntnisse-Entdeckung (GKD) verwenden allgemein sehr einfache Darstellungen von geografischen Gegenständen und Raumbeziehungen. Geografische Datenbergwerksmethoden sollten kompliziertere geografische Gegenstände (d. h. Linien und Vielecke) und Beziehungen (d. h. nicht-euklidische Entfernungen, Richtung, Konnektivität und Wechselwirkung durch den zugeschriebenen geografischen Raum wie Terrain) anerkennen. Außerdem muss die Zeitdimension in diese geografischen Darstellungen und Beziehungen mehr völlig integriert werden.
  • Geografische Kenntnisse-Entdeckung mit verschiedenen Datentypen: GKD Methoden sollten entwickelt werden, der verschiedene Datentypen außer dem traditionellen Raster und den Vektor-Modellen, einschließlich Bilder und geo-Verweise-angebrachter Multimedia, sowie dynamischer Datentypen (Videoströme, Zeichentrickfilm) behandeln kann.

In vier jährlichen Überblicken über Datenbergarbeiter identifizieren Daten, die Praktiker durchweg abbauen, drei Schlüsselherausforderungen, dass sie mehr gegenüberstehen als irgendwelcher anderen, spezifisch (a) schmutzige Daten, (b) das Erklären von Daten, die zu anderen und (c) Nichtverfügbarkeit des Daten-Zugangs / schwierigen Zugangs zu Daten abbauen. In den 2010-Überblick-Datenbergarbeitern hat auch ihre Erfahrungen in der Überwindung dieser besonderen Herausforderungen geteilt.

Sensordatenbergwerk

Radiosensornetze können verwendet werden, für die Datenerfassung für Raumdaten zu erleichtern, die für eine Vielfalt von Anwendungen wie Luftverschmutzungsüberwachung abbauen. Eine Eigenschaft solcher Netze ist, dass nahe gelegene Sensorknoten, die eine Umwelteigenschaft normalerweise kontrollieren, ähnliche Werte einschreiben. Diese Art der Datenredundanz wegen der Raumkorrelation zwischen Sensorbeobachtungen begeistert die Techniken für die Datenansammlung im Netz und das Bergwerk. Durch das Messen der Raumkorrelation zwischen durch verschiedene Sensoren probierten Daten kann eine breite Klasse von Spezialalgorithmen entwickelt werden, um effizientere Raumdaten zu entwickeln, die Algorithmen abbauen.

Sehdatenbergwerk

Im Prozess des Drehens vom analogen in digitale, große Dateien sind erzeugt, gesammelt worden, und hat das Entdecken statistischer Muster, Tendenzen und Information versorgt, die in Daten verborgen wird, um prophetische Muster zu bauen. Studien weisen darauf hin, dass Sehdatenbergwerk schneller und viel intuitiver ist, als traditionelles Datenbergwerk ist.

Musik-Datenbergwerk

Daten, die Techniken, und in der besonderen Co-Ereignis-Analyse abbauen, sind verwendet worden, um relevante Ähnlichkeiten unter der Musik-Korpora (Radiolisten, CD-Datenbanken) zum Zweck zu entdecken, Musik in Genres auf eine objektivere Weise einzuteilen.

Kontrolle

Datenbergwerk ist verwendet worden, um Terroristenprogramme unter der amerikanischen Regierung, einschließlich des Programms von Total Information Awareness (TIA), Sicherer Flug (früher bekannt als das Computergestützte Personenvorabschirmungssystem (CAPPS II)), Analyse, Verbreitung, Vergegenwärtigung, Scharfsinnigkeit aufzuhören, Semantische Erhöhung, (EMPFEHLEN) und der Mehrzustandantiterrorismus-Informationsaustausch (MATRIX). Diese Programme sind wegen der Meinungsverschiedenheit unterbrochen worden, ob sie den 4. Zusatzartikel zur USA-Verfassung verletzen, obwohl viele Programme, die unter ihnen gebildet wurden, fortsetzen, von verschiedenen Organisationen oder unter verschiedenen Namen gefördert zu werden.

Im Zusammenhang des kämpfenden Terrorismus sind zwei besonders plausible Methoden des Datenbergwerks "Muster-Bergwerk" und "Thema-basiertes Datenbergwerk".

Muster-Bergwerk

"Muster-Bergwerk" ist eine Datenbergwerksmethode, die Entdeckung vorhandener Muster in Daten einschließt. In diesem Zusammenhang Muster bedeutet häufig Vereinigungsregeln. Die ursprüngliche Motivation, für Vereinigungsregeln zu suchen, ist aus dem Wunsch gekommen, Supermarkt-Transaktionsdaten zu analysieren, d. h. Kundenverhalten in Bezug auf die gekauften Produkte zu untersuchen. Zum Beispiel stellt ein Vereinigung Regel "Bier  Kartoffelchips (80 %)" fest, dass vier aus fünf Kunden, die Bier auch gekauft haben, Kartoffelchips gekauft hat.

Im Zusammenhang des Musters, das als ein Werkzeug abbaut, um Terroristentätigkeit zu identifizieren, stellt der Nationale Forschungsrat die folgende Definition zur Verfügung: "Muster-basiertes Datenbergwerk sucht nach Mustern (einschließlich anomaler Datenmuster), der mit der Terroristentätigkeit vereinigt werden könnte — könnten diese Muster als kleine Signale in einem großen Ozean des Geräusches betrachtet werden." Muster-Bergwerk schließt neue Gebiete solch eine Music Information Retrieval (MIR) ein, wohin Muster gesehen sowohl im zeitlichen als auch nicht den zeitlichen Gebieten zu klassischen Kenntnisse-Entdeckungssuchmethoden importiert werden.

Thema-basiertes Datenbergwerk

"Thema-basiertes Datenbergwerk" ist eine Datenbergwerksmethode, die die Suche nach Vereinigungen zwischen Personen in Daten einschließt. Im Zusammenhang des kämpfenden Terrorismus stellt der Nationale Forschungsrat die folgende Definition zur Verfügung: "Thema-basierte Daten, die abbauen, verwenden eine Einleiten-Person oder andere Gegebenheit, die betrachtet, auf anderer Information gestützt wird, um von hohem Interesse zu sein, und die Absicht ist zu bestimmen, was andere Personen oder Geldgeschäfte oder Bewegungen usw. mit dieser Einleiten-Gegebenheit verbunden sind."

Kenntnisse-Bratrost

Kenntnisse-Entdeckung "Auf dem Bratrost" bezieht sich allgemein auf das Leiten der Kenntnisse-Entdeckung in einer offenen Umgebung mit dem Bratrost Rechenkonzepte, Benutzern erlaubend, Daten von verschiedenen Online-Datenquellen zu integrieren, ebenso von entfernten Mitteln Gebrauch zu machen, um ihre Daten durchzuführen, die Aufgaben abbauen. Das frühste Beispiel war das Entdeckungsnetz, das in der Reichsuniversität London entwickelt ist, das den "Am meisten innovativen Datenintensiven Anwendungspreis" am ACM SC02 (Superrechen-2002) Konferenz und Ausstellung gewonnen hat, die auf einer Demonstration einer völlig interaktiven verteilten Kenntnisse-Entdeckungsanwendung für eine bioinformatics Anwendung gestützt ist. Andere Beispiele schließen Arbeit ein, die von Forschern an der Universität von Calabria geführt ist, die eine Kenntnisse-Bratrost-Architektur für die verteilte Kenntnisse-Entdeckung entwickelt haben, die auf der Bratrost-Computerwissenschaft gestützt ist.

Zuverlässigkeit/Gültigkeit

Datenbergwerk kann missbraucht werden, und kann auch Ergebnisse unabsichtlich erzeugen, die bedeutend scheinen, aber die zukünftiges Verhalten nicht wirklich voraussagen und auf einer neuen Probe von Daten nicht wieder hervorgebracht werden können. Sieh Daten, das Datenausbaggern herumschnüffeln.

Gemütlichkeitssorgen und Ethik

Einige Menschen glauben, dass Daten, die sich abbauen, ethisch neutral sind. Es ist wichtig zu bemerken, dass der Begriff "Daten-Bergwerk" keine Moralimplikationen hat, aber häufig mit dem Bergwerk der Information in Bezug auf das Verhalten von Völkern (ethisch und sonst) vereinigt wird. Um genau zu sein, ist Datenbergwerk eine statistische Methode, die auf eine Reihe der Information (d. h. eine Datei) angewandt wird. Das Verbinden dieser Dateien mit Leuten ist ein äußerstes Einengen der Typen von Daten, die in der heutigen technologischen Gesellschaft verfügbar sind. Beispiele konnten sich von einer Reihe von Unfall-Testdaten für Personenfahrzeuge zur Leistung einer Gruppe von Lagern erstrecken. Diese Typen von Dateien setzen ein großes Verhältnis der Information zusammen, die verfügbar ist, um durch Datenbergwerksmethoden gefolgt zu werden, und selten Moralsorgen mit ihnen vereinigen zu lassen. Jedoch können die Wege, auf die Datenbergwerk verwendet werden kann, in einigen Fällen, und Zusammenhänge bringen Fragen bezüglich der Gemütlichkeit, Rechtmäßigkeit und Ethik auf. Insbesondere Datenbergwerk kommerzielle oder Regierungsdateien zu Staatssicherheits- oder Strafverfolgungszwecken, solch als im Gesamtinformationsbewusstsein-Programm oder darin EMPFIEHLT, hat Gemütlichkeitssorgen ausgedrückt.

Datenbergwerk verlangt Datenvorbereitung, die Information oder Muster aufdecken kann, die Vertraulichkeits- und Gemütlichkeitsverpflichtungen in Verlegenheit bringen können. Ein allgemeiner Weg dafür, um vorzukommen, ist durch die Datenansammlung. Datenansammlung schließt sich verbindende Daten zusammen (vielleicht von verschiedenen Quellen) in einem Weg ein, der Analyse erleichtert (aber das könnte auch Identifizierung von privaten, Daten des individuellen Niveaus ableitbar oder sonst offenbar machen). Das ist nicht Daten, die per se, aber ein Ergebnis der Vorbereitung von Daten vorher - und zu den Zwecken - die Analyse abbauen. Die Drohung gegen eine Gemütlichkeit einer Person tritt in Spiel ein, wenn die Daten, einmal kompiliert, den Datenbergarbeiter oder jeden verursachen, der Zugang zur kürzlich kompilierten Datei hat, um im Stande zu sein, spezifische Personen besonders zu erkennen, als die Daten ursprünglich anonym waren.

Es wird empfohlen, dass eine Person vom folgenden zur Kenntnis gebracht wird, bevor Daten gesammelt werden:

  • der Zweck der Datenerfassung und irgendwelcher (bekannten) Daten, die Projekte abbauen
  • wie die Daten verwendet werden
  • wer im Stande sein wird, die Daten zu verminen und die Daten und ihre Ableitungen zu verwenden
  • der Status der Sicherheit Umgebungszugang zu den Daten
  • wie gesammelte Daten aktualisiert werden können.

In Amerika sind Gemütlichkeitssorgen einigermaßen durch den US-Kongress über den Durchgang von Durchführungssteuerungen wie das Krankenversicherungsbeweglichkeits- und Verantwortlichkeitsgesetz (HIPAA) gerichtet worden. Der HIPAA verlangt, dass Personen ihre "informierte Zustimmung" bezüglich der Auskunft geben, die sie geben und sein beabsichtigter gegenwärtiger und zukünftiger Gebrauch. Gemäß einem Artikel in der Biotech Geschäftswoche', "[ich] n Praxis, kann HIPAA keinen größeren Schutz anbieten als die seit langer Zeit bestehenden Regulierungen in der Forschungsarena," sagt der AAHC. Noch wichtiger die Absicht der Regel des Schutzes durch die informierte Zustimmung wird durch die Kompliziertheit von Zustimmungsformen untergraben, die Patienten und Teilnehmer erforderlich sind, die sich einem Niveau der Unbegreiflichkeit durchschnittlichen Personen nähern." Das unterstreicht die Notwendigkeit für die Datenanonymität in der Datenansammlung und den abbauenden Methoden.

Daten können auch modifiziert werden, um anonym zu werden, so dass Personen nicht sogleich erkannt werden dürfen. Jedoch, sogar "de-identified" / "anonymized" Dateien kann genug Information potenziell enthalten, um Identifizierung von Personen zu erlauben, wie es vorgekommen ist, als Journalisten im Stande gewesen sind, mehrere Personen gestützt auf einer Reihe von Suchgeschichten zu finden, die durch AOL unachtsam veröffentlicht wurden.

Software

Freie Daten der offenen Quelle, die Software und Anwendungen abbauen

  1. Carrot2: Text und Suchergebnisse, die Fachwerk bündeln.
  2. Chemicalize.org: Ein chemischer Struktur-Bergarbeiter und Web suchen Motor.
  3. ELKI: Eine Universitätsforschung springt mit der fortgeschrittenen Traube-Analyse und den outlier auf der javanischen Sprache geschriebenen Entdeckungsmethoden vor.
  4. TOR: eine Verarbeitung der natürlichen Sprache und Sprachtechnikwerkzeug.
  5. JHepWork: Javanisches Quer-Plattform-Datenanalyse-Fachwerk hat sich am Argonne Nationalen Laboratorium entwickelt.
  6. KNIME: Der Konstanz Informationsbergarbeiter, ein benutzerfreundliches und umfassendes Datenanalytik-Fachwerk.
  7. NLTK (Werkzeug der Natürlichen Sprache): Ein Gefolge von Bibliotheken und Programmen für die symbolische und statistische Verarbeitung der natürlichen Sprache (NLP) für die Pythonschlange-Sprache.
  8. Orange: Ein teilbasiertes Datenbergwerk und auf der Pythonschlange-Sprache geschriebenes Maschinenlernsoftware-Gefolge.
  9. R: Eine Programmiersprache und Softwareumgebung für die statistische Computerwissenschaft, das Datenbergwerk und die Grafik. Es ist ein Teil des GNU-Projektes.
  10. RapidMiner: Eine Umgebung für die Maschine, die erfährt und Daten, die Experimente abbauen.
  11. UIMA: Der UIMA (Unstrukturierte Informationsverwaltungsarchitektur) ist ein Teilfachwerk, um unstrukturierten Inhalt wie Text, Audio- und Video-ursprünglich entwickelt von IBM zu analysieren.
  12. Weka: Ein Gefolge von auf der javanischen Programmiersprache geschriebenen Maschinenlernsoftware-Anwendungen.

2010 hat die offene Quelle R Sprache andere Werkzeuge eingeholt, um die Anwendung zu werden, die von mehr Datenbergarbeitern (43 %) verwendet ist als irgendwelcher anderer gemäß einem wohl bekannten jährlichen Überblick.

Kommerzielle datenabbauende Software und Anwendungen

  • IBM InfoSphere Warehouse: Daten in der Datenbank, die Plattform abbauen, von IBM zur Verfügung gestellt.
  • IBM SPSS Modeler: Daten, die Software abbauen, von IBM zur Verfügung gestellt.
  • KXEN Unendliche Scharfsinnigkeit: Daten, die Software abbauen, die durch KXEN zur Verfügung gestellt ist
  • Microsoft Analysis Services: Daten, die Software abbauen, die von Microsoft zur Verfügung gestellt ist
  • SAS: Unternehmensbergarbeiter - Daten, die Software abbauen, vom SAS-Institut zur Verfügung gestellt.
  • STATISTICA: Datenbergarbeiter - Daten, die Software abbauen, von StatSoft zur Verfügung gestellt.
  • Orakel-Datenbergwerk: Daten, die Software durch das Orakel abbauen.
  • LIONsolver: Eine einheitliche Softwareanwendung für das Datenbergwerk, die Geschäftsintelligenz und das Modellieren, das das Lernen und Intelligenten OptimizatioN (LÖWE) Annäherung durchführt

Gemäß dem Jährlichen Datenbergarbeiter-Überblick von Rexer 2010 haben IBM SPSS Modeler, STATISTICA Datenbergarbeiter und der R die stärksten Befriedigungseinschaltquoten erhalten.

Marktplatz-Überblicke

Mehrere Forscher und Organisationen haben Rezensionen von Datenbergwerkswerkzeugen und Überblicke über Datenbergarbeiter geführt. Diese identifizieren einige der Kräfte und Schwächen der Softwarepakete. Sie stellen auch eine Übersicht der Handlungsweisen, Einstellungen und Ansichten von Datenbergarbeitern zur Verfügung. Einige dieser Berichte schließen ein:

  • Jährlicher Rexer Analytik-Datenbergarbeiter überblickt
  • Forrester Forschung 2010 Prophetische Analytik und Daten, die Lösungen Abbauen, meldet
  • Gartner 2008 "Magischer Quadrant" berichten
  • Die 2003-Rezension von Haughton et al. von Daten, die Softwarepakete im amerikanischen Statistiker Abbauen
  • 2006 von Robert A. Nisbet Drei Teil-Reihen von Artikeln "Data Mining Tools: Which One is Best For CRM?"
  • 2011 Wiley Zwischendisziplinarische Rezensionen: Datenbergwerk und Kenntnisse-Entdeckung

Siehe auch

Methoden

Anwendungsgebiete

Anwendungsbeispiele

Zusammenhängende Themen

Datenbergwerk ist über das Analysieren von Daten; für die Information über das Extrahieren der Information aus Daten, sieh:

Weiterführende Literatur

  • Cabena, Peter, Pablo Hadjnian, Rolf Stadler, Jaap Verhees und Alessandro Zanasi (1997). Das Entdecken des Datenbergwerks: Vom Konzept bis Durchführung. Prentice Hall, internationale Standardbuchnummer 0-13-743980-6.
  • Feldman, Ronen und James Sanger. Der Text, der Handbuch Abbaut. Universität von Cambridge Presse, internationale Standardbuchnummer 978-0-521-83657-9.
  • Guo, Yike und Robert Grossman, Redakteure (1999). Hohes Leistungsdaten-Bergwerk: Algorithmen, Anwendungen und Systeme erkletternd. Kluwer Akademische Herausgeber.
  • Hastie, Trevor, Robert Tibshirani und Jerome Friedman (2001). Die Elemente des Statistischen Lernens: Datenbergwerk, Schlussfolgerung und Vorhersage. Springer, internationale Standardbuchnummer 0-387-95284-5.
  • Liu, Bing (2007). Webdatenbergwerk: Hypertext-Links, Inhalt und Gebrauch-Daten erforschend. Springer, internationale Standardbuchnummer 3-540-37881-2.
  • Nisbet, Robert, John Elder, Gary Miner (2009). Handbuch der Statistischen Analyse & Daten, die Anwendungen Abbauen. Akademischer Press/Elsevier. Internationale Standardbuchnummer 978-0-12-374765-5
  • Poncelet, Pascal, Florent Masseglia und Maguelonne Teisseire, Redakteure (Oktober 2007). "Daten, die Muster Abbauen: Neue Methoden und Anwendungen", Informationswissenschaftsverweisung. Internationale Standardbuchnummer 978-1-59904-162-9.
  • Lohe des Stichs-Ning, Michael Steinbach und Vipin Kumar (2005). Einführung ins Datenbergwerk. Internationale Standardbuchnummer 0-321-32136-7
  • Sergios Theodoridis, Konstantinos Koutroumbas (2009). Muster-Anerkennung, 4. Ausgabe. Akademische Presse. Internationale Standardbuchnummer 978-1-59749-272-0.
  • Weiss und Indurkhya. Prophetisches Datenbergwerk. Morgan Kaufmann.
  • (Siehe auch Freie Weka Software.)
  • Sie, N. (2003). Das Handbuch des Datenbergwerks. Mahwah, New Jersey: Lawrence Erlbaum.

Außenverbindungen


Standardamerikaner / Buick
Impressum & Datenschutz