Minimale Nachrichtenlänge

Minimale Nachrichtenlänge (MML) ist eine formelle Informationstheorie-Neuformulierung des Rasiermessers von Occam: Selbst wenn Modelle in der Güte der passenden Genauigkeit zu den beobachteten Daten nicht gleich sind, wird derjenige, der die kürzeste gesamte Nachricht erzeugt, mit größerer Wahrscheinlichkeit richtig sein (wo die Nachricht aus einer Behauptung des Modells besteht, das von einer Behauptung von Daten gefolgt ist, verschlüsselt kurz mit diesem Modell). MML wurde von Chris Wallace erfunden, zuerst im zukunftsträchtigen (Wallace und Boulton, 1968) erscheinend.

MML ist nicht nur als eine theoretische Konstruktion beabsichtigt, aber als eine Technik, die in der Praxis aufmarschiert werden kann. Es unterscheidet sich vom zusammenhängenden Konzept der Kompliziertheit von Kolmogorov, in der es Gebrauch einer Turing-ganzen Sprache zu Musterdaten nicht verlangt. Die Beziehung zwischen Strengem MML (SMML) und Kompliziertheit von Kolmogorov wird in Wallace und Dowe (1999a) entworfen. Weiter kann eine Vielfalt von mathematischen Annäherungen an "Strengen" MML verwendet werden — sieh z.B, Kapitel 4 und 5 von Wallace (postumer) 2005.

Definition

Shannon Eine Mathematische Theorie der Kommunikation (1949) stellt fest, dass in einem optimalen Code durch die Nachrichtenlänge (in der Dualzahl) eines Ereignisses, wo Wahrscheinlichkeit hat, gegeben wird.

Der Lehrsatz von Bayes stellt fest, dass die Wahrscheinlichkeit einer Hypothese ausgesagt dazu proportional ist, der gerade ist. Wir wollen das Modell (Hypothese) mit dem höchsten solche Wahrscheinlichkeit. Deshalb wollen wir das Modell, das die kürzeste (zweiteilige) Verschlüsselung der Daten erzeugt. Seitdem wird das wahrscheinlichste Modell das kürzeste solche Nachricht haben. Die Nachricht bricht in zwei Teile ein:. Das erste ist die Länge des Modells, und das zweite ist die Länge der Daten in Anbetracht des Modells.

MML natürlich und tauscht genau Musterkompliziertheit gegen die Güte von passenden. Ein mehr kompliziertes Modell nimmt länger um (der längere erste Teil) festzusetzen, aber passt wahrscheinlich die Daten besser (kürzer der zweite Teil). Also, ein MML metrischer wird kein kompliziertes Modell wählen, wenn dieses Modell für sich nicht zahlt.

Dauernd geschätzte Rahmen

Ein Grund, warum ein Modell länger sein könnte, würde einfach darin bestehen, weil seine verschiedenen Rahmen zur größeren Präzision festgesetzt werden, so Übertragung von mehr Ziffern verlangend. Viel von der Macht von MML ist auf sein Berühren dessen zurückzuführen, wie man genau Rahmen in einem Modell und eine Vielfalt von Annäherungen festsetzt, die das ausführbar in der Praxis machen. Das erlaubt ihm, sagen wir, ein Modell mit vielen Rahmen nützlich zu vergleichen, die ungenau gegen ein Modell mit weniger genauer festgesetzten Rahmen festgesetzt sind.

Hauptmerkmale von MML

  • MML kann verwendet werden, um Modelle der verschiedenen Struktur zu vergleichen. Zum Beispiel war seine frühste Anwendung in der Entdeckung von Mischungsmodellen mit der optimalen Zahl von Klassen. Das Hinzufügen von Extraklassen zu einem Mischungsmodell wird immer den Daten erlauben, an die größere Genauigkeit geeignet zu werden, aber gemäß MML muss das gegen die Extrabit gewogen werden, die erforderlich sind, die Rahmen zu verschlüsseln, die jene Klassen definieren.
  • MML ist eine Methode des Mustervergleichs von Bayesian. Es gibt jedem Modell eine Kerbe.
  • MML ist Skala-invariant und statistisch invariant. Verschieden von vielen Auswahl-Methoden von Bayesian sorgt sich MML nicht, ob Sie sich davon ändern, Länge zum Volumen oder von Kartesianischen Koordinaten bis polare Koordinaten zu messen.
  • MML entspricht statistisch. Für Probleme wie der Neyman-Scott (1948) Problem oder Faktorenanalyse, wo die Datenmenge pro Parameter oben begrenzt wird, kann MML alle Rahmen mit der statistischen Konsistenz schätzen.
  • MML ist für die Präzision des Maßes verantwortlich. Es verwendet die Information von Fisher (in der Wallace-Ehrenbürger-1987-Annäherung oder anderen Hypervolumina in anderen Annäherungen) zu optimal discretize dauernde Rahmen. Deshalb ist das spätere immer eine Wahrscheinlichkeit, nicht eine Wahrscheinlichkeitsdichte.
  • MML ist im Gebrauch seit 1968 gewesen. MML das Codieren von Schemas sind für mehreren Vertrieb und viele Arten von Maschinenanfängern einschließlich unbeaufsichtigter Klassifikation, Entscheidungsbäume und Graphen, DNA-Folgen, Netze von Bayesian, Nervennetze (eine Schicht nur bis jetzt), Bildkompression, Image und Funktionssegmentation usw. entwickelt worden.

Siehe auch

  • Grammatik-Induktion

Links

Modelle für die Maschine, die erfährt und Daten, die in der funktionellen Programmierung, J abbauen. Funktionelle Programmierung, 15 (1), pp15-32, Januar 2005 (MML, FP und Code von Haskell).

[Siehe auch Comley und Dowe (2003).pdf. Comley & Dowe (2003, 2005) sind die ersten zwei Papiere auf MML Bayesian Netze mit sowohl getrennten als auch dauernden geschätzten Rahmen.]


Alf Svensson / Herz von Midlothian F.C.
Impressum & Datenschutz