Das beaufsichtigte Lernen

Das beaufsichtigte Lernen ist die Maschinenlernaufgabe, eine Funktion aus beaufsichtigten (etikettierten) Lehrdaten abzuleiten. Die Lehrdaten bestehen aus einer Reihe von Lehrbeispielen. Im beaufsichtigten Lernen ist jedes Beispiel ein Paar, das aus einem Eingangsgegenstand besteht (normalerweise ein Vektor) und ein gewünschter Produktionswert (hat auch das Aufsichtssignal genannt). Ein beaufsichtigter Lernalgorithmus analysiert die Lehrdaten und erzeugt eine abgeleitete Funktion, die einen classifier genannt wird (wenn die Produktion getrennt ist, sieh Klassifikation), oder eine Funktion des rückwärts Gehens (wenn die Produktion dauernd ist, sieh rückwärts Gehen). Die abgeleitete Funktion sollte den richtigen Produktionswert für jeden gültigen Eingangsgegenstand voraussagen. Das verlangt, dass der Lernalgorithmus von den Lehrdaten bis ungesehene Situationen auf eine "angemessene" Weise verallgemeinert (sieh induktive Neigung).

Die parallele Aufgabe im Menschen und der Tierpsychologie wird häufig das Konzeptlernen genannt.

Siehe auch das unbeaufsichtigte Lernen.

Übersicht

Um ein gegebenes Problem des beaufsichtigten Lernens zu beheben, muss man die folgenden Schritte durchführen:

  1. Bestimmen Sie den Typ von Lehrbeispielen. Vor dem Tun von irgend etwas anderem sollte der Benutzer entscheiden, welche Daten als ein Lehrsatz verwendet werden soll. Im Fall von der Handschrift-Analyse, zum Beispiel, könnte das ein einzelner handschriftlicher Charakter, ein komplettes handschriftliches Wort oder eine komplette Linie der Handschrift sein.
  2. Sammeln Sie einen Lehrsatz. Der Lehrsatz muss den wirklichen Gebrauch der Funktion vertretend sein. So, eine Reihe von Eingangsgegenständen wird gesammelt, und entsprechende Produktionen werden auch gesammelt entweder von menschlichen Experten oder von Maßen.
  3. Bestimmen Sie die Eingangseigenschaft-Darstellung der gelehrten Funktion. Die Genauigkeit der gelehrten Funktion hängt stark davon ab, wie der Eingangsgegenstand vertreten wird. Gewöhnlich wird der Eingangsgegenstand in einen Eigenschaft-Vektoren umgestaltet, der mehrere Eigenschaften enthält, die vom Gegenstand beschreibend sind. Die Zahl von Eigenschaften sollte wegen des Fluchs von dimensionality nicht zu groß sein; aber sollte genug Information enthalten, um die Produktion genau vorauszusagen.
  4. Bestimmen Sie die Struktur der gelehrten Funktion und des entsprechenden Lernalgorithmus. Zum Beispiel kann der Ingenieur beschließen, Unterstützungsvektor-Maschinen oder Entscheidungsbäume zu verwenden.
  5. Vollenden Sie das Design. Führen Sie den Lernalgorithmus auf dem gesammelten Lehrsatz. Einige das beaufsichtigte Lernen von Algorithmen verlangen, dass der Benutzer bestimmte Kontrollrahmen bestimmt. Diese Rahmen können durch die Optimierung der Leistung auf einer Teilmenge angepasst werden (hat einen Gültigkeitserklärungssatz genannt) des Lehrsatzes, oder über die Quer-Gültigkeitserklärung.
  6. Bewerten Sie die Genauigkeit der gelehrten Funktion. Nach der Parameter-Anpassung und dem Lernen sollte die Leistung der resultierenden Funktion auf einem Testsatz gemessen werden, der vom Lehrsatz getrennt ist.

Eine breite Reihe von beaufsichtigten Lernalgorithmen, ist jeder mit seinen Kräften und Schwächen verfügbar. Es gibt keinen einzelnen Lernalgorithmus, der am besten an allen beaufsichtigte Lernprobleme arbeitet (sieh Keinen freien Mittagessen-Lehrsatz).

Es gibt vier Hauptprobleme, um im beaufsichtigten Lernen in Betracht zu ziehen:

Neigungsabweichungsumtausch

Ein erstes Problem ist der Umtausch zwischen Neigung und Abweichung. Stellen Sie sich vor, dass wir verfügbare mehrere verschiedene aber ebenso gute Lehrdateien haben. Ein Lernalgorithmus wird für einen besonderen Eingang beeinflusst, wenn, wenn erzogen, auf jeder dieser Dateien, es systematisch falsch ist, wenn man die richtige Produktion dafür voraussagt. Ein Lernalgorithmus hat hohe Abweichung für einen besonderen Eingang, wenn es verschiedene Produktionswerte, wenn erzogen, auf verschiedenen Lehrsätzen voraussagt. Der Vorhersagefehler eines gelehrten classifier ist mit der Summe der Neigung und der Abweichung des Lernalgorithmus verbunden. Allgemein gibt es einen Umtausch zwischen Neigung und Abweichung. Ein Lernalgorithmus mit der niedrigen Neigung muss "flexibel" sein, so dass es die Daten gut passen kann. Aber wenn der Lernalgorithmus zu flexibel ist, wird er jede Lehrdatei verschieden passen, und folglich hohe Abweichung haben. Ein Schlüsselaspekt von vielen, die das beaufsichtigte Lernen von Methoden darin besteht, dass sie im Stande sind, diesen Umtausch zwischen Neigung und Abweichung anzupassen (entweder automatisch oder durch die Versorgung eines Parameters der Neigung/Abweichung, den der Benutzer anpassen kann).

Funktionskompliziertheit und Betrag von Lehrdaten

Das zweite Problem ist der Betrag von Lehrdaten, die hinsichtlich der Kompliziertheit der "wahren" Funktion (classifier oder Funktion des rückwärts Gehens) verfügbar sind. Wenn die wahre Funktion einfach ist, dann wird ein "unbiegsamer" Lernalgorithmus mit der hohen Neigung und niedrigen Abweichung im Stande sein, es aus einer kleinen Datenmenge zu erfahren. Aber wenn die wahre Funktion hoch kompliziert ist (z.B, weil sie komplizierte Wechselwirkungen unter vielem verschiedenem Eingang einschließt, zeigt und benimmt sich verschieden in verschiedenen Teilen des Eingangsraums), dann wird die Funktion nur von einem sehr großen Betrag von Lehrdaten und dem Verwenden eines "flexiblen" Lernalgorithmus mit der niedrigen Neigung und hohen Abweichung erlernbar sein. Gute Lernalgorithmen passen deshalb automatisch den Umtausch der Neigung/Abweichung an, der auf der Datenmenge gestützt ist, verfügbar und die offenbare Kompliziertheit der Funktion, erfahren zu werden.

Dimensionality des Eingangsraums

Ein drittes Problem ist der dimensionality des Eingangsraums. Wenn die Eingangseigenschaft-Vektoren sehr hohe Dimension haben, kann das Lernproblem schwierig sein, selbst wenn die wahre Funktion nur von einer kleinen Zahl von jenen Eigenschaften abhängt. Das ist, weil die vielen "Extra"-Dimensionen den Lernalgorithmus verwechseln und ihn veranlassen können, hohe Abweichung zu haben. Folglich verlangt hoher Eingang dimensionality normalerweise, dass Einstimmung des classifier niedrige Abweichung und hohe Neigung hat. In der Praxis, wenn der Ingenieur irrelevante Eigenschaften von den Eingangsdaten manuell entfernen kann, wird das wahrscheinlich die Genauigkeit der gelehrten Funktion verbessern. Außerdem gibt es viele Algorithmen für die Eigenschaft-Auswahl, die sich bemühen, die relevanten Eigenschaften zu identifizieren und die irrelevanten zu verwerfen. Das ist ein Beispiel der allgemeineren Strategie der dimensionality Verminderung, die sich bemüht, die Eingangsdaten in einen niedrigeren dimensionalen Raum vor dem Laufen des beaufsichtigten Lernalgorithmus kartografisch darzustellen.

Geräusch in den Produktionswerten

Ein viertes Problem ist der Grad des Geräusches in den gewünschten Produktionswerten (die Aufsichtsziele). Wenn die gewünschten Produktionswerte häufig falsch sind (wegen des menschlichen Fehlers oder der Sensorfehler), dann sollte der Lernalgorithmus nicht versuchen, eine Funktion zu finden, die genau die Lehrbeispiele vergleicht. Das ist ein anderer Fall, wo es gewöhnlich am besten ist, eine hohe Neigung, niedrige Abweichung classifier zu verwenden. In der Praxis gibt es mehrere Annäherungen, um Geräusch in den Produktionswerten wie früh das Aufhören zu erleichtern, um zu verhindern, die lauten Lehrbeispiele vor der Ausbildung der beaufsichtigte Lernalgorithmus überzupassen sowie zu entdecken und zu entfernen. Es gibt mehrere Algorithmen, die laute Lehrbeispiele identifizieren und das Entfernen der verdächtigten lauten Lehrbeispiele vor der Ausbildung Generalisationsfehler mit der statistischen Bedeutung vermindert hat.

Andere Faktoren, um in Betracht zu ziehen

Andere Faktoren, um in Betracht zu ziehen, wenn sie wählen und einen Lernalgorithmus anwenden, schließen den folgenden ein:

  1. Heterogenität der Daten. Wenn die Eigenschaft-Vektoren Eigenschaften von vielen verschiedenen Arten einschließen (getrennt, getrennt bestellt, Zählungen, dauernde Werte), sind einige Algorithmen leichter zu gelten als andere. Viele Algorithmen, einschließlich Unterstützungsvektor-Maschinen, geradlinigen rückwärts Gehens, logistischen rückwärts Gehens, Nervennetze, und nächster Nachbarmethoden, verlangen, dass die Eingangseigenschaften numerisch und zu ähnlichen Reihen (z.B, zu [-1,1] Zwischenraum) schuppig sind. Methoden, die eine Entfernungsfunktion wie nächste Nachbarmethoden verwenden und Vektor-Maschinen mit Kernen von Gaussian unterstützen, sind dazu besonders empfindlich. Ein Vorteil von Entscheidungsbäumen besteht darin, dass sie leicht heterogene Daten behandeln.
  2. Überfülle in den Daten. Wenn die Eingangseigenschaften überflüssige Information (z.B, hoch aufeinander bezogene Eigenschaften), einige Lernalgorithmen enthalten (z.B, geradliniges rückwärts Gehen, logistisches rückwärts Gehen, und Entfernung Methoden gestützt hat), wird schlecht wegen numerischer Instabilitäten leisten. Diese Probleme können häufig durch das Auferlegen einer Form von regularization behoben werden.
  3. Anwesenheit von Wechselwirkungen und Nichtlinearitäten. Wenn jede der Eigenschaften einen unabhängigen Beitrag zur Produktion leistet, dann bringen Algorithmen, die auf geradlinigen Funktionen (z.B, geradlinigem rückwärts Gehen, logistischem rückwärts Gehen, Unterstützungsvektor-Maschinen, naivem Bayes) und Entfernungsfunktionen (z.B, nächste Nachbarmethoden, Unterstützungsvektor-Maschinen mit Kernen von Gaussian) allgemein gestützt sind, eine gute Leistung. Jedoch, wenn es komplizierte Wechselwirkungen unter Eigenschaften gibt, dann arbeiten Algorithmen wie Entscheidungsbäume und Nervennetze besser, weil sie spezifisch entworfen werden, um diese Wechselwirkungen zu entdecken. Geradlinige Methoden können auch angewandt werden, aber der Ingenieur muss die Wechselwirkungen manuell angeben, wenn er sie verwendet.
Wenn

er eine neue Anwendung denkt, kann der Ingenieur vielfache Lernalgorithmen vergleichen und experimentell bestimmen, welcher am besten am Problem in der Nähe arbeitet (sieh böse Gültigkeitserklärung. Die Einstimmung der Leistung eines Lernalgorithmus kann sehr zeitraubend sein. In Anbetracht fester Mittel ist es häufig besser, mehr Zeit zu verbringen, zusätzliche Lehrdaten und informativere Eigenschaften sammelnd, als es zusätzliche Zeit ausgeben soll, die Lernalgorithmen abstimmend.

Die am weitesten verwendeten Lernalgorithmen sind Unterstützungsvektor-Maschinen, geradliniges rückwärts Gehen, logistisches rückwärts Gehen, naiver Bayes, geradlinige Diskriminanten-Analyse, Entscheidungsbäume, k-nearest Nachbaralgorithmus und Nervennetze (Mehrschicht perceptron).

Wie beaufsichtigte Lernalgorithmen arbeiten

Angeführt eine Reihe von Lehrbeispielen der Form, ein Lernalgorithmus sucht eine Funktion, wo der Eingangsraum und ist

ist der Produktionsraum. Die Funktion ist ein Element von einem Raum von möglichen Funktionen, gewöhnlich genannt den Hypothese-Raum. Es ist manchmal zu günstig

vertreten Sie das Verwenden einer solcher Zählen-Funktion, der als das Zurückbringen des Werts definiert wird, der die höchste Kerbe gibt:. Lassen Sie zeigen den Raum an, Funktionen einzukerben.

Obwohl und jeder Raum von Funktionen sein kann, sind viele Lernalgorithmen probabilistic Modelle, wo die Form eines bedingten Wahrscheinlichkeitsmodells annimmt

P (y|x) </Mathematik>, oder nimmt die Form eines gemeinsamen Wahrscheinlichkeitsmodells an. Zum Beispiel sind naiver Bayes und geradlinige Diskriminanten-Analyse gemeinsame Wahrscheinlichkeitsmodelle, wohingegen logistisches rückwärts Gehen ein bedingtes Wahrscheinlichkeitsmodell ist.

Es gibt zwei grundlegende Annäherungen an die Auswahl oder: empirische Risikominimierung und Strukturrisikominimierung. Empirische Risikominimierung sucht die Funktion, die am besten die Lehrdaten passt. Strukturgefahr minimiert schließt eine Straffunktion ein, die den Umtausch der Neigung/Abweichung kontrolliert.

In beiden Fällen wird es angenommen, dass der Lehrsatz aus einer Probe von unabhängigen und identisch verteilten Paaren besteht. Um zu messen, wie gut eine Funktion die Lehrdaten, eine Verlust-Funktion passt

\Bbb {R} ^ {\\ge 0\</Mathematik> wird definiert. Für das Lehrbeispiel ist der Verlust, den Wert vorauszusagen.

Die Gefahr der Funktion wird als der erwartete Schadensumfang dessen definiert. Das kann von den Lehrdaten als geschätzt werden

:.

Empirische Risikominimierung

In der empirischen Risikominimierung sucht der beaufsichtigte Lernalgorithmus die Funktion, die minimiert. Folglich kann ein beaufsichtigter Lernalgorithmus durch die Verwendung eines Optimierungsalgorithmus gebaut werden, um zu finden.

Wenn ein bedingter Wahrscheinlichkeitsvertrieb ist und die Verlust-Funktion die negative Klotz-Wahrscheinlichkeit ist: dann ist empirische Risikominimierung zur maximalen Wahrscheinlichkeitsbewertung gleichwertig.

Wenn viele Kandidat-Funktionen enthält oder der Lehrsatz nicht ist, führt genug große, empirische Risikominimierung zu hoher Abweichung und schlechter Generalisation. Der Lernalgorithmus ist fähiger

sich die Lehrbeispiele einzuprägen, ohne gut zu verallgemeinern. Das wird genannt überpassend.

Strukturrisikominimierung

Strukturrisikominimierung bemüht sich zu verhindern, durch das Verbinden einer regularization Strafe in die Optimierung überzupassen. Die regularization Strafe kann als das Einführen einer Form des Rasiermessers von Occam angesehen werden, das einfachere Funktionen über kompliziertere bevorzugt.

Ein großes Angebot an Strafen ist verwendet worden, die verschiedenen Definitionen der Kompliziertheit entsprechen. Ziehen Sie zum Beispiel den Fall in Betracht, wo die Funktion eine geradlinige Funktion der Form ist

:.

Eine populäre regularization Strafe ist, der die karierte Euklidische Norm der Gewichte, auch bekannt als die Norm ist. Andere Normen schließen die Norm, und die Norm ein, die die Zahl der Nichtnull s ist. Die Strafe wird dadurch angezeigt.

Das beaufsichtigte Lernoptimierungsproblem ist, die Funktion zu finden, die minimiert

:

Der Parameter kontrolliert den Neigungsabweichungsumtausch. Wenn das empirische Risikominimierung mit der niedrigen Neigung und hohen Abweichung gibt. Wenn groß ist, wird der Lernalgorithmus hohe Neigung und niedrige Abweichung haben. Der Wert dessen kann empirisch über die böse Gültigkeitserklärung gewählt werden.

Die Kompliziertheitsstrafe hat eine Interpretation von Bayesian als der negative Klotz vorherige Wahrscheinlichkeit, in welchem Fall der spätere probabability dessen ist.

Generative Ausbildung

Die Lehrmethoden, die oben beschrieben sind, sind unterscheidende Lehrmethoden, weil sie sich bemühen, eine Funktion zu finden, die gut zwischen den verschiedenen Produktionswerten unterscheidet (sieh unterscheidendes Modell). Für den speziellen Fall, wo ein gemeinsamer Wahrscheinlichkeitsvertrieb und die Verlust-Funktion ist, ist die negative Klotz-Wahrscheinlichkeit, wie man sagt, führt ein Risikominimierungsalgorithmus generative Ausbildung durch, weil als ein generatives Modell betrachtet werden kann, das erklärt, wie die Daten erzeugt wurden. Generative Lehralgorithmen sind häufig einfacher und mehr rechenbetont effizient als unterscheidende Lehralgorithmen. In einigen Fällen kann die Lösung in der geschlossenen Form als in naivem Bayes und geradliniger Diskriminanten-Analyse geschätzt werden.

Generalisationen des beaufsichtigten Lernens

Es gibt mehrere Wege, auf die der Standard das beaufsichtigte Lernen des Problems verallgemeinert werden kann:

  1. Das halbbeaufsichtigte Lernen: In dieser Einstellung werden die gewünschten Produktionswerte nur für eine Teilmenge der Lehrdaten zur Verfügung gestellt. Die restlichen Daten werden unetikettiert.
  2. Das aktive Lernen: Anstatt anzunehmen, dass alle Lehrbeispiele am Anfang angeführt werden, sammeln aktive Lernalgorithmen interaktiv neue Beispiele, normalerweise durch das Bilden von Abfragen einem menschlichen Benutzer. Häufig basieren die Abfragen auf unetikettierten Daten, der ein Drehbuch ist, das das halbbeaufsichtigte Lernen mit dem aktiven Lernen verbindet.
  3. Strukturierte Vorhersage: Wenn der gewünschte Produktionswert ein komplizierter Gegenstand, wie ein Syntaxanalyse-Baum oder ein etikettierter Graph ist, dann müssen Standardmethoden erweitert werden.
  4. Das Lernen sich aufzureihen: Wenn der Eingang eine Reihe von Gegenständen ist und die gewünschte Produktion eine Rangordnung jener Gegenstände ist, andererseits müssen die Standardmethoden erweitert werden.

Annäherungen und Algorithmen

  • Das analytische Lernen
  • Künstliches Nervennetz
  • Rückübertragung
  • Das Aufladen
  • Statistik von Bayesian
  • Das Fall-basierte Denken
  • Entscheidungsbaum, der erfährt
  • Induktive Logik, programmierend
  • Gaussian bearbeiten rückwärts Gehen
  • Genausdruck, programmierend
  • Kernvorkalkulatoren
  • Das Lernen von Automaten
  • Minimale Nachrichtenlänge (Entscheidungsbäume, Entscheidungsgraphen, usw.)
  • Naiver bayes classifier
  • Nächster Nachbaralgorithmus
  • Wahrscheinlich ungefähr das richtige Lernen (PAC) das Lernen
  • Kräuseln Sie unten Regeln, eine Kenntnisse-Erwerb-Methodik
  • Symbolische Maschinenlernalgorithmen
  • Subsymbolische Maschinenlernalgorithmen
  • Unterstützungsvektor-Maschinen
  • Zufällige Wälder
  • Ensembles von Classifiers
  • Ordnungsklassifikation
  • Datenaufbereitung
  • Das Berühren imbalanced datasets
  • Das statistische Verwandtschaftslernen
  • Proaftn, ein Mehrkriterium-Klassifikationsalgorithmus

Anwendungen

Allgemeine Probleme

  • Rechenbetonte Lerntheorie
  • Induktive Neigung
  • Die Überanprobe (Maschine, die erfährt)
  • (Unkalibrierte) Klassenmitgliedschaft-Wahrscheinlichkeiten
  • Versionsräume

Links

  • mloss.org: ein Verzeichnis der offenen Quellmaschinenlernsoftware.

Michel Tremblay / Martin Helwig
Impressum & Datenschutz