Maximale Wahrscheinlichkeit

In der Statistik ist Bewertung der maximalen Wahrscheinlichkeit (MLE) eine Methode, die Rahmen eines statistischen Modells zu schätzen. Wenn angewandt, auf eine Datei und gegeben ein statistisches Modell stellt Bewertung der maximalen Wahrscheinlichkeit Schätzungen für die Rahmen des Modells zur Verfügung.

Die Methode der maximalen Wahrscheinlichkeit entspricht vielen wohl bekannten Bewertungsmethoden in der Statistik. Zum Beispiel kann man sich für die Höhen von erwachsenen weiblichen Giraffen interessieren, aber erwartet unfähig sein, zu kosten oder zeitliche Einschränkungen, die Höhe jeder einzelnen Giraffe in einer Bevölkerung zu messen. Annehmend, dass die Höhen normalerweise (Gaussian) sind, der mit einigen verteilt ist, unbekannt bösartig und Abweichung, können das bösartige und die Abweichung mit MLE geschätzt werden, während man nur die Höhen von einer Probe der gesamten Bevölkerung weiß. MLE würde das durch die Einnahme des bösartigen und der Abweichung als Rahmen und die Entdeckung besonderer parametrischer Werte vollbringen, die die beobachteten Ergebnisse das wahrscheinlichste (gegeben das Modell) machen.

Im Allgemeinen, für einen festen Satz von Daten und zu Grunde liegendem statistischem Modell, wählt die Methode der maximalen Wahrscheinlichkeit Werte der Musterrahmen aus, die einen Vertrieb erzeugen, der den beobachteten Daten die größte Wahrscheinlichkeit gibt (d. h., Rahmen, die die Wahrscheinlichkeitsfunktion maximieren). Bewertung der maximalen Wahrscheinlichkeit gibt eine vereinigte Annäherung an die Bewertung, die im Fall von der Normalverteilung und vielen anderen Problemen bestimmt ist. Jedoch, in einigen komplizierten Problemen, kommen Schwierigkeiten wirklich vor: In solchen Problemen sind Vorkalkulatoren der maximalen Wahrscheinlichkeit unpassend oder bestehen nicht.

Grundsätze

Nehmen Sie an, dass es eine Probe x, x, …, x von n unabhängigen und identisch verteilten Beobachtungen gibt, aus einem Vertrieb mit einem unbekannten pdf ƒ kommend (·). Es wird jedoch vermutet, dass der Funktions-ƒ einer bestimmten Familie des Vertriebs}, genannt das parametrische Modell, so dass gehört. Der Wert θ ist unbekannt und wird den "wahren Wert" des Parameters genannt. Es ist wünschenswert, einen Vorkalkulatoren zu finden, der als dem wahren Wert θ als möglich nah sein würde. Sowohl die beobachteten Variablen x als auch der Parameter θ können Vektoren sein.

Um die Methode der maximalen Wahrscheinlichkeit zu verwenden, gibt ein erster die gemeinsame Dichte-Funktion für alle Beobachtungen an. Für eine iid Probe ist diese gemeinsame Dichte-Funktion

:

f (x_1, x_2, \ldots, x_n \; | \;\theta) = f (x_1 |\theta) \cdot f (x_2 |\theta) \cdots f (x_n |\theta).

</Mathematik>

Jetzt schauen wir auf diese Funktion von einer verschiedenen Perspektive, indem wir die beobachteten Werte x, x..., x denken, "Rahmen" dieser Funktion befestigt zu werden, wohingegen θ die Variable der Funktion und erlaubt sein wird, sich frei zu ändern; diese Funktion wird die Wahrscheinlichkeit genannt:

:

\mathcal {L} (\theta \, | \, x_1, \ldots, x_n) = f (x_1, x_2, \ldots, x_n \; | \;\theta) = \prod_ {i=1} ^n f (x_i |\theta).

</Mathematik>

In der Praxis ist es häufig günstiger, mit dem Logarithmus der Wahrscheinlichkeitsfunktion, genannt die Klotz-Wahrscheinlichkeit zu arbeiten:

:

\ln\mathcal {L} (\theta \, | \, x_1, \ldots, x_n) = \sum_ {i=1} ^n \ln f (x_i |\theta),

</Mathematik>

oder die durchschnittliche Klotz-Wahrscheinlichkeit':

:

\hat\ell = \frac1n \ln\mathcal {L}.

</Mathematik>

Der Hut zeigt an, dass es mit einem Vorkalkulatoren verwandt ist. Tatsächlich, schätzt die erwartete Klotz-Wahrscheinlichkeit einer einzelnen Beobachtung im Modell.

Die Methode der maximalen Wahrscheinlichkeit schätzt θ durch die Entdeckung eines Werts von θ, der maximiert. Diese Methode der Bewertung definiert einen Vorkalkulatoren der maximalen Wahrscheinlichkeit (MLE) von θ\

:

\{\hat\theta_\mathrm {mle }\\} \subseteq \{\underset {\\theta\in\Theta} {\\operatorname {arg \, max} }\\\hat\ell (\theta \, | \, x_1, \ldots, x_n) \}.

</Mathematik>

wenn Maximum besteht. Eine MLE-Schätzung ist dasselbe unabhängig davon, ob wir die Wahrscheinlichkeit oder die Funktion der Klotz-Wahrscheinlichkeit maximieren, da Klotz eine Eintönigkeitstransformation ist.

Für viele Modelle kann ein maximaler Wahrscheinlichkeitsvorkalkulator als eine ausführliche Funktion der beobachteten Daten x, …, x gefunden werden. Für viele andere Modelle, jedoch, ist keine Lösung der geschlossenen Form des Maximierungsproblems bekannt oder verfügbar, und ein MLE muss numerisch mit Optimierungsmethoden gefunden werden. Für einige Probleme kann es vielfache Schätzungen geben, die die Wahrscheinlichkeit maximieren. Für andere Probleme besteht keine maximale Wahrscheinlichkeitsschätzung (das Meinen, dass die Funktion der Klotz-Wahrscheinlichkeit zunimmt, ohne den Supremum-Wert zu erreichen).

In der Ausstellung oben wird es angenommen, dass die Daten unabhängig und identisch verteilt sind. Die Methode kann jedoch auf eine breitere Einstellung angewandt werden, so lange es möglich ist, die gemeinsame Dichte-Funktion zu schreiben, und sein Parameter θ eine begrenzte Dimension hat, die von der Beispielgröße n nicht abhängt. In einer einfacheren Erweiterung kann ein Betrag für die Datenheterogenität beigesteuert werden, so dass die gemeinsame Dichte dem ƒ (xθ) gleich ist · ƒ (xθ) · … · ƒ (xθ). Im mehr komplizierten Fall von Zeitreihe-Modellen kann die Unabhängigkeitsannahme ebenso fallen gelassen sein müssen.

Ein maximaler Wahrscheinlichkeitsvorkalkulator fällt mit dem wahrscheinlichsten Vorkalkulatoren von Bayesian gegeben ein gleichförmiger vorheriger Vertrieb auf den Rahmen zusammen.

Eigenschaften

Ein Vorkalkulator der maximalen Wahrscheinlichkeit ist ein extremum erhaltener Vorkalkulator, indem er, als eine Funktion von θ, die objektive Funktion maximiert

:

\hat\ell (\theta|x) = \frac1n \sum_ {i=1} ^n \ln f (x_i |\theta),

</Mathematik>

dieser, die Beispielentsprechung der erwarteten Klotz-Wahrscheinlichkeit seiend, wo diese Erwartung in Bezug auf die wahre Dichte f genommen wird (· | θ).

Vorkalkulatoren der maximalen Wahrscheinlichkeit haben keine optimalen Eigenschaften für begrenzte Proben im Sinn, dass (wenn bewertet, auf begrenzten Proben) andere Vorkalkulatoren größere Konzentration um den wahren Parameter-Wert haben. Jedoch, wie andere Bewertungsmethoden, besitzt Bewertung der maximalen Wahrscheinlichkeit mehrere attraktive Begrenzungseigenschaften: Als die Beispielgröße zur Unendlichkeit zunimmt, haben Folgen von Vorkalkulatoren der maximalen Wahrscheinlichkeit diese Eigenschaften:

  • Konsistenz: Eine Subfolge der Folge von MLEs läuft in der Wahrscheinlichkeit zum Wert zusammen, der wird schätzt.
  • Asymptotische Normalität: Als die Beispielgröße zunimmt, neigt der Vertrieb des MLE zum Vertrieb von Gaussian mit dem bösartigen und der dem Gegenteil der Informationsmatrix von Fisher gleichen Kovarianz-Matrix.
  • Leistungsfähigkeit, d. h., es erreicht den tiefer gebundenen Cramér-Rao, wenn die Beispielgröße zur Unendlichkeit neigt. Das bedeutet, dass kein asymptotisch unvoreingenommener Vorkalkulator niedrigeren asymptotischen karierten Mittelfehler hat als der MLE (oder andere Vorkalkulatoren, die das gebunden erreichen).
  • Leistungsfähigkeit der zweiten Ordnung nach der Korrektur für die Neigung.

Konsistenz

Unter den Bedingungen, die unten entworfen sind, entspricht der maximale Wahrscheinlichkeitsvorkalkulator. Die Konsistenz bedeutet, dass, eine genug hohe Zahl von Beobachtungen n habend, es möglich ist, den Wert von θ mit der willkürlichen Präzision zu finden. In mathematischen Begriffen bedeutet das, dass weil n zur Unendlichkeit geht, läuft der Vorkalkulator in der Wahrscheinlichkeit zu seinem wahren Wert zusammen:

:

\hat\theta_\mathrm {mle }\\\xrightarrow {p }\\\theta_0.

</Mathematik>

Unter ein bisschen stärkeren Bedingungen läuft der Vorkalkulator fast sicher (oder stark) zusammen zu:

:

\hat\theta_\mathrm {mle }\\\xrightarrow {\\Text {a.s.} }\\\theta_0.

</Mathematik>

Um Konsistenz zu gründen, sind die folgenden Bedingungen genügend:

:

\theta \neq \theta_0 \quad \Leftrightarrow \quad f (\cdot |\theta) \neq f (\cdot |\theta_0).

</Mathematik>

Mit anderen Worten entsprechen verschiedene Parameter-Wert-θ verschiedenem Vertrieb innerhalb des Modells. Wenn diese Bedingung nicht hielte, würde es einen Wert θ solch geben, dass θ und θ einen identischen Vertrieb der erkennbaren Daten erzeugen. Dann würden wir nicht im Stande sein, zwischen diesen zwei Rahmen sogar mit einer unendlichen Datenmenge zu unterscheiden — diese Rahmen wären Beobachtungs-gleichwertig gewesen.

Die Identifizierungsbedingung ist für den ML Vorkalkulatoren absolut notwendig, um zu entsprechen. Wenn diese Bedingung, die Begrenzungswahrscheinlichkeitsfunktion  hält (θ\·) hat einzigartiges globales Maximum an θ.

Die Identifizierungsbedingung stellt fest, dass die Klotz-Wahrscheinlichkeit ein einzigartiges globales Maximum hat. Kompaktheit deutet an, dass sich die Wahrscheinlichkeit nicht nähern kann, der maximale Wert schließen willkürlich an einem anderen Punkt (wie demonstriert, zum Beispiel im Bild rechts).

Kompaktheit ist nur eine genügend Bedingung und nicht eine notwendige Bedingung. Kompaktheit kann durch einige andere Bedingungen ersetzt werden wie:

  • sowohl Konkavität der Funktion der Klotz-Wahrscheinlichkeit als auch Kompaktheit von einigen (nichtleeren) oberen Niveau-Sätzen der Funktion der Klotz-Wahrscheinlichkeit oder
  • die Existenz einer Kompaktnachbarschaft N solchen θ, dass außerhalb N die Funktion der Klotz-Wahrscheinlichkeit weniger ist als das Maximum durch mindestens einige.
:

\Pr \!\big [\; \ln f (x \, | \,\theta) \; \in \; \mathbb {C} ^0 (\Theta) \; \big] = 1.

</Mathematik>

Die Kontinuität hier kann durch eine ein bisschen schwächere Bedingung der oberen Halbkontinuität ersetzt werden.

:

\big |\ln f (x \, | \,\theta) \big |

Nach dem gleichförmigen Gesetz der großen Anzahl gründet die Überlegenheitsbedingung zusammen mit der Kontinuität die gleichförmige Konvergenz in der Wahrscheinlichkeit der Klotz-Wahrscheinlichkeit:

:

\sup_ {\\theta\in\Theta} \big | \,\hat\ell (\theta|x) - \ell (\theta) \, \big |\\xrightarrow {p }\\0.

</Mathematik>

</ol>

Die Überlegenheitsbedingung kann im Fall von i.i.d. Beobachtungen verwendet werden. Im non-i.i.d. Fall kann die gleichförmige Konvergenz in der Wahrscheinlichkeit durch die Vertretung überprüft werden, dass die Folge stochastisch equicontinuous ist.

Wenn man demonstrieren will, dass der ML Vorkalkulator zu θ fast sicher zusammenläuft, dann muss eine stärkere Bedingung der gleichförmigen Konvergenz fast sicher auferlegt werden:

:

\sup_ {\\theta\in\Theta} \big \| \;\hat\ell (x |\theta) - \ell (\theta) \; \big \| \\xrightarrow {\\Text {a.s.} }\\0.

</Mathematik>

Asymptotische Normalität

Vorkalkulatoren der maximalen Wahrscheinlichkeit können an asymptotischer Normalität Mangel haben und können inkonsequent sein, wenn es einen Misserfolg von einem (oder mehr) von unter Regelmäßigkeitsbedingungen gibt:

Schätzung an der Grenze. Manchmal liegt die maximale Wahrscheinlichkeitsschätzung auf der Grenze des Satzes von möglichen Rahmen, oder (wenn der Grenze genau genommen nicht erlaubt wird), wird die Wahrscheinlichkeit größer und größer, weil sich der Parameter der Grenze nähert. Asymptotische Standardtheorie braucht die Annahme, dass der wahre Parameter-Wert weg von der Grenze liegt. Wenn wir genug Daten haben, wird sich die maximale Wahrscheinlichkeitsschätzung von der Grenze auch fern halten. Aber mit kleineren Proben kann die Schätzung auf der Grenze liegen. In solchen Fällen gibt die asymptotische Theorie klar keine praktisch nützliche Annäherung. Beispiele hier würden mit der Abweichung bildende Modelle sein, wo jeder Bestandteil der Abweichung, σ, die Einschränkung σ 0 befriedigen muss.

Datengrenzparameter-Abhängiger. Für die Theorie, auf eine einfache Weise zu gelten, sollte der Satz von Datenwerten, der positive Wahrscheinlichkeit hat (oder positive Wahrscheinlichkeitsdichte) nicht vom unbekannten Parameter abhängen. Ein einfaches Beispiel, wo solche Parameter-Abhängigkeit wirklich hält, ist der Fall, θ von einer Reihe von identisch verteilten unabhängigen zu schätzen, wenn der allgemeine Vertrieb auf der Reihe (0, θ) gleichförmig ist. Weil Bewertungszwecke die relevante Reihe von θ ist solch, dass θ weniger nicht sein kann als die größte Beobachtung. Weil der Zwischenraum (0, θ) nicht kompakt ist, dort besteht kein Maximum für die Wahrscheinlichkeitsfunktion: Für jede Schätzung von theta, dort besteht eine größere Schätzung, die auch größere Wahrscheinlichkeit hat. Im Gegensatz schließt der Zwischenraum [0, θ] den Endpunkt θ ein und ist kompakt, in welchem Fall der Vorkalkulator der maximalen Wahrscheinlichkeit besteht. Jedoch, in diesem Fall, wird der Vorkalkulator der maximalen Wahrscheinlichkeit beeinflusst. Asymptotisch wird dieser Vorkalkulator der maximalen Wahrscheinlichkeit nicht normalerweise verteilt.

Ärger-Rahmen. Für maximale Wahrscheinlichkeitsbewertungen kann ein Modell mehrere Ärger-Rahmen haben. Für das asymptotische Verhalten, das entworfen ist, um zu halten, sollte die Zahl von Ärger-Rahmen nicht mit der Zahl von Beobachtungen (die Beispielgröße) zunehmen. Ein wohl bekanntes Beispiel dieses Falls ist, wo Beobachtungen als Paare vorkommen, wo die Beobachtungen in jedem Paar einen verschiedenen (unbekannten) bösartigen haben, aber sonst sind die Beobachtungen unabhängig und Normalerweise mit einer allgemeinen Abweichung verteilt. Hier für 2N Beobachtungen gibt es N+1 Rahmen. Es ist wohl bekannt, dass die maximale Wahrscheinlichkeitsschätzung für die Abweichung zum wahren Wert der Abweichung nicht zusammenläuft.

Erhöhung der Information. Für den asymptotics, um in Fällen zu halten, wo die Annahme von unabhängigen identisch verteilten Beobachtungen nicht hält, ist eine grundlegende Voraussetzung, dass der Betrag der Information in den Daten unbestimmt zunimmt, wie die Beispielgröße zunimmt. Solch einer Anforderung darf nicht entsprochen werden, wenn irgendein dort zu viel Abhängigkeit in den Daten ist (zum Beispiel, wenn neue Beobachtungen zu vorhandenen Beobachtungen im Wesentlichen identisch sind), oder wenn neue unabhängige Beobachtungen einem zunehmenden Fehler in Beobachtung unterworfen sind.

Einige Regelmäßigkeitsbedingungen, die dieses Verhalten sichern, sind:

  1. Die ersten und zweiten Ableitungen der Funktion der Klotz-Wahrscheinlichkeit müssen definiert werden.
  2. Die Fischer-Informationsmatrix muss nicht Null sein, und muss als eine Funktion des Parameters dauernd sein.
  3. Der maximale Wahrscheinlichkeitsvorkalkulator entspricht.

Nehmen Sie an, dass Bedingungen für die Konsistenz des maximalen Wahrscheinlichkeitsvorkalkulatoren, und zufrieden sind

  1. θ  Interieur (Θ);
  2. f (xθ)> 0 und ist zweimal unaufhörlich differentiable in θ in einer Nachbarschaft N von θ;
  3.  supf (Xθ) dx f (Xθ) dx lnf (Xθ) lnf (xθ) ] besteht und ist nichtsingulär;
  4. E [suplnf (xθ)]

\sqrt {n }\\groß (\hat\theta_\mathrm {mle} - \theta_0\big) \\xrightarrow {d }\\\mathcal {N} (0, \, I^ {-1}).

</Mathematik>

Beweis, die Fachausdrücke auslassend:

Da die Funktion der Klotz-Wahrscheinlichkeit differentiable ist, und θ im Interieur des Parameter-Satzes im Maximum liegt, wird die Bedingung der ersten Ordnung zufrieden sein:

:

\nabla_ {\\! \theta }\\, \hat\ell (\hat\theta|x) = \frac1n \sum_ {i=1} ^n \nabla_ {\\! \theta }\\ln f (x_i |\hat\theta) = 0.

</Mathematik>

Wenn die Klotz-Wahrscheinlichkeit zweimal differentiable ist, kann dieser Ausdruck in eine Reihe von Taylor um den Punkt ausgebreitet werden:

:

0 = \frac1n \sum_ {i=1} ^n \nabla_ {\\! \theta }\\ln f (x_i |\theta_0) + \Bigg [\, \frac1n \sum_ {i=1} ^n \nabla_ {\\! \theta\theta }\\ln f (x_i |\tilde\theta) \, \Bigg] (\hat\theta - \theta_0),

</Mathematik>

wo ein Punkt-Zwischenglied zwischen θ ist und. Von diesem Ausdruck können wir das ableiten

:

\sqrt {n} (\hat {\\theta} - \theta_0) = \Bigg [\, {-\frac {1} {n} \sum_ {i=1} ^n \nabla_ {\\! \theta\theta }\\ln f (x_i |\tilde\theta)} \, \Bigg] ^ {-1} \frac {1} {\\sqrt {n}} \sum_ {i=1} ^n \nabla_ {\\! \theta }\\ln f (x_i |\theta_0)

</Mathematik>

Hier läuft der Ausdruck in eckigen Klammern in der Wahrscheinlichkeit zu H = E [ln f (xθ)] nach dem Gesetz der großen Anzahl zusammen. Der dauernde kartografisch darstellende Lehrsatz stellt sicher, dass das Gegenteil dieses Ausdrucks auch in der Wahrscheinlichkeit zu H zusammenläuft. Die zweite Summe, durch den Hauptgrenzwertsatz, läuft im Vertrieb zu einem multivariate normalen mit der Mittelnull und Abweichungsmatrix zusammen, die der Information von Fisher I gleich ist. So, den Lehrsatz von Slutsky auf den ganzen Ausdruck anwendend, erhalten wir das

:

\sqrt {n} (\hat\theta - \theta_0) \\\xrightarrow {d }\\\\mathcal {N }\\groß (0, \H^ {-1} IH^ {-1 }\\groß).

</Mathematik>

Schließlich versichert die Informationsgleichheit, dass, wenn das Modell richtig angegeben wird, Matrix H der Information von Fisher I gleich sein wird, so dass der Abweichungsausdruck zu gerade mir vereinfacht.

Funktioneller invariance

Der maximale Wahrscheinlichkeitsvorkalkulator wählt den Parameter-Wert aus, der den beobachteten Daten die größtmögliche Wahrscheinlichkeit (oder Wahrscheinlichkeitsdichte, im dauernden Fall) gibt. Wenn der Parameter aus mehreren Bestandteilen besteht, dann definieren wir ihre getrennten maximalen Wahrscheinlichkeitsvorkalkulatoren als der entsprechende Bestandteil des MLE des ganzen Parameters. Im Einklang stehend damit, wenn der MLE für θ ist, und wenn g (θ) eine Transformation von θ ist, dann ist der MLE für α = g (θ) definitionsgemäß

:

Es maximiert die so genannte Profil-Wahrscheinlichkeit:

:

Der MLE ist auch invariant in Bezug auf bestimmte Transformationen der Daten. Wenn Y = g (X), wo g derjenige zu einem ist und von den zu schätzenden Rahmen nicht abhängt, dann befriedigen die Dichte-Funktionen

:

und folglich unterscheiden sich die Wahrscheinlichkeitsfunktionen für X und Y nur durch einen Faktor, der von den Musterrahmen nicht abhängt.

Zum Beispiel sind die MLE Rahmen des Lognormalvertriebs dasselbe, weil diejenigen der Normalverteilung zum Logarithmus der Daten gepasst haben.

Höherwertige Eigenschaften

Der Standard asymptotics sagt, dass der Vorkalkulator der maximalen Wahrscheinlichkeit n-consistent und asymptotisch effizient ist, meinend, dass es reicht, hat der Cramér-Rao gebunden:

:

\sqrt {n} (\hat\theta_\text {mle} - \theta_0) \\\xrightarrow {d }\\\\mathcal {N} (0, \I^ {-1}),

</Mathematik>

wo ich die Informationsmatrix von Fisher bin:

:

I_ {jk} = \operatorname {E} _X\bigg [\; {-\frac {\\Partial^2\ln f_ {\\theta_0} (X_t)} {\\partial\theta_j \,\partial\theta_k} }\

\; \bigg].

</Mathematik>

Insbesondere es bedeutet, dass die Neigung des Vorkalkulatoren der maximalen Wahrscheinlichkeit der Null bis zum Auftrag n gleich ist. Jedoch, wenn wir die höherwertigen Begriffe in der Vergrößerung des Vertriebs dieses Vorkalkulatoren denken, stellt es sich heraus, dass θ Neigung des Auftrags n hat. Diese Neigung ist (componentwise) gleich

:

b_s \equiv \operatorname {E} [(\hat\theta_\mathrm {mle} - \theta_0) _s]

= \frac1n \cdot I^ {Si} I^ {jk} \big (\tfrac12 K_ {ijk} + J_ {j, ik} \big)

</Mathematik>

wo die Summierungstagung von Einstein über die sich wiederholenden Indizes angenommen worden ist; ich zeige den j, k-th Bestandteil des Gegenteils Informationsmatrix von Fisher I, und an

:

\tfrac12 K_ {ijk} + J_ {j, ik} = \operatorname {E} \bigg [\;

\frac12 \frac {\\Partial^3 \ln f_ {\\theta_0} (x_t)} {\\partial\theta_i \,\partial\theta_j \,\partial\theta_k} +

\frac {\\partial\ln f_ {\\theta_0} (x_t)} {\\partial\theta_j} \frac {\\Partial^2\ln f_ {\\theta_0} (x_t)} {\\partial\theta_i \,\partial\theta_k }\

\; \bigg]. </Mathematik>

Mit diesen Formeln ist es möglich, die Neigung der zweiten Ordnung des maximalen Wahrscheinlichkeitsvorkalkulatoren, und richtig für diese Neigung durch das Abziehen davon zu schätzen:

:

\hat\theta^ *_\mathrm {mle} = \hat\theta_\mathrm {mle} - \hat b.

</Mathematik>

Dieser Vorkalkulator ist bis zu den Begriffen des Auftrags n unvoreingenommen, und wird den Neigungskorrigierten maximalen Wahrscheinlichkeitsvorkalkulatoren genannt.

Dieser Neigungskorrigierte Vorkalkulator ist zweite Ordnung effizient (mindestens innerhalb der gekrümmten Exponentialfamilie), meinend, dass es minimalen karierten Mittelfehler unter der ganzen zweiten Ordnung Neigungskorrigierte Vorkalkulatoren bis zu den Begriffen des Auftrags n hat. Es ist möglich, diesen Prozess fortzusetzen, der den Neigungskorrektur-Begriff der dritten Ordnung und so weiter ableiten soll. Durch jedoch, wie gezeigt wurde, ist der Vorkalkulator der maximalen Wahrscheinlichkeit nicht effiziente dritte Ordnung.

Kleinste Quadrate als maximaler Wahrscheinlichkeitsvorkalkulator

Nehmen Sie an, dass uns eine Datei von N-Punkten (x, y) für i=1..., n gegeben wird und wir M Rahmen für j=1..., M schätzen sollen. Das Modell gibt y (x) als eine Funktion:

:

y (x) =y (x |\hat)

</Mathematik>

Man kann die Am-Wenigsten-Quadrate tun, die passend sind, zu minimieren. Das kann mit der Wahrscheinlichkeit von Bayesian wie folgt gerechtfertigt werden:

Nehmen Sie an, dass jeder Datenpunkt einen Fehler gleichförmig und zufällig (iid) verteilt mit der Normalverteilung um das "wirkliche" Modell y (x) hat und nehmen Sie an, dass das die Standardabweichung des Fehlers am Punkt x ist. Dann ist die Wahrscheinlichkeit des dataset das Produkt von Wahrscheinlichkeiten an jedem Punkt:

:

P (data|model) \varpropto \prod_ {i=1} ^ {n} \exp\bigg [\;-\frac {1} {2 }\\bigg (\; \frac {y_ {ich}-y (x_ {ich})} {\\sigma_ {ich} }\\; \bigg) ^ {2 }\\; \bigg] \Delta y

</Mathematik>

Man kann dann den Lehrsatz von Buchten anrufen und, kommen

:

P (model|data) \varpropto P (data|model) P (Modell)

</Mathematik>

Wo, der vorherige Wahrscheinlichkeitsvertrieb über alle Modelle ist. Das wird häufig als unveränderlich (nichtinformativ vorherig) genommen.

Man kann sich dann bemühen, den negativen Logarithmus von demselben zu maximieren oder zu minimieren, das zur Minderung kleinster Quadratsumme gleichwertig ist.

Beispiele

Getrennte Rechteckverteilung

Ziehen Sie einen Fall in Betracht, wohin n Karten, die von 1 bis n numeriert sind, in einen Kasten gelegt werden und einer aufs Geratewohl ausgewählt wird (sieh Rechteckverteilung); so ist die Beispielgröße 1. Wenn n unbekannt ist, dann ist der Vorkalkulator der maximalen Wahrscheinlichkeit von n die Zahl M auf der gezogenen Karte. (Die Wahrscheinlichkeit ist 0 für n, ist (n + 1)/2. Infolgedessen wird der maximale Wahrscheinlichkeitsvorkalkulator für n n durch (n  1)/2 mit einer Beispielgröße 1 systematisch unterschätzen.

Getrennter Vertrieb, begrenzter Parameter-Raum

Nehmen Sie an, dass man gerade bestimmen möchte, wie voreingenommen eine unfaire Münze ist. Nennen Sie die Wahrscheinlichkeit, einen HAUPT-p zu werfen. Die Absicht wird dann, um p zu bestimmen.

Nehmen Sie an, dass die Münze 80mal geworfen wird: D. h. die Probe könnte etwas wie x = H, x = T..., x = T sein, und die Zählung der Zahl von KÖPFEN "H" wird beobachtet.

Die Wahrscheinlichkeit, SCHWÄNZE zu werfen, ist 1 &minus; p (so hier ist p θ oben). Nehmen Sie an, dass das Ergebnis 49 KÖPFE und 31 SCHWÄNZE ist, und nehmen Sie an, dass die Münze von einem Kasten genommen wurde, der drei Münzen enthält: Derjenige, der KÖPFEN mit der Wahrscheinlichkeit p = 1/3, diejenige gibt, die KÖPFEN mit der Wahrscheinlichkeit p = 1/2 und ein anderer gibt, der KÖPFEN mit der Wahrscheinlichkeit p = 2/3 gibt. Die Münzen haben ihre Etiketten so verloren, welcher, der es war, unbekannt ist. Mit der maximalen Wahrscheinlichkeitsbewertung kann die Münze, die die größte Wahrscheinlichkeit hat, gefunden, die Daten gegeben werden, die beobachtet wurden. Durch das Verwenden der Wahrscheinlichkeitsmassenfunktion des binomischen Vertriebs mit der Beispielgröße, die 80, Zahl-Erfolge gleich ist, die 49, aber verschiedene Werte von p (die "Wahrscheinlichkeit des Erfolgs") gleich sind, nimmt die Wahrscheinlichkeitsfunktion (definiert unten) einen von drei Werten:

:

\begin {richten }\aus

\Pr (\mathrm {H} = 49 \mid p=1/3) & = \binom {80} {49} (1/3) ^ {49} (1-1/3) ^ {31} \approx 0.000, \\[6pt]

\Pr (\mathrm {H} = 49 \mid p=1/2) & = \binom {80} {49} (1/2) ^ {49} (1-1/2) ^ {31} \approx 0.012, \\[6pt]

\Pr (\mathrm {H} = 49 \mid p=2/3) & = \binom {80} {49} (2/3) ^ {49} (1-2/3) ^ {31} \approx 0.054.

\end {richten }\aus

</Mathematik>

Die Wahrscheinlichkeit wird maximiert, wenn p = 2/3, und so ist das die maximale Wahrscheinlichkeitsschätzung für p.

Getrennter Vertrieb, dauernder Parameter-Raum

Nehmen Sie jetzt an, dass es nur eine Münze gab, aber sein p könnte jeder Wert 0  p  1 gewesen sein. Die Wahrscheinlichkeitsfunktion, maximiert zu werden, ist

:

L (p) = f_D (\mathrm {H} = 49 \mid p) = \binom {80} {49} p^ {49} (1-p) ^ {31},

</Mathematik>

und die Maximierung ist über alle möglichen Werte 0  p  1.

Eine Weise, diese Funktion zu maximieren, ist durch das Unterscheiden in Bezug auf p und das Setzen zur Null:

:\begin {richten }\aus

{0} & {} = \frac {\\teilweise} {\\teilweise p\\left (\binom {80} {49} p^ {49} (1-p) ^ {31} \right) \\[8pt]

& {}\\propto 49p^ {48} (1-p) ^ {31} - 31p^ {49} (1-p) ^ {30} \\[8pt]

& {} = p^ {48} (1-p) ^ {haben 30 }\\[49 (1-p) - 31 Punkte \right] \\[8pt] verlassen

& {} = p^ {48} (1-p) ^ {haben 30 }\\[49 - 80 Punkte \right] verlassen

\end {richten }\aus</Mathematik>

der Lösungen p = 0, p = 1 und p = 49/80 hat. Die Lösung, die die Wahrscheinlichkeit maximiert, ist klar p = 49/80 (da p = 0 und p = 1 auf eine Wahrscheinlichkeit der Null hinauslaufen). So ist der maximale Wahrscheinlichkeitsvorkalkulator für p 49/80.

Dieses Ergebnis wird durch das Ersetzen eines Briefs wie t im Platz 49 leicht verallgemeinert, um die beobachtete Zahl von 'Erfolgen' unserer Proben von Bernoulli und einen Brief wie n im Platz 80 zu vertreten, um die Zahl von Proben von Bernoulli zu vertreten. Genau gibt dieselbe Berechnung den maximalen Wahrscheinlichkeitsvorkalkulatoren t / n für jede Folge von n Proben von Bernoulli nach, die t 'Erfolge' hinauslaufen.

Dauernder Vertrieb, dauernder Parameter-Raum

Für die Normalverteilung, die Wahrscheinlichkeitsdichte-Funktion hat

:

\exp {\\ist (-\frac {(x-\mu) ^2} {2\sigma^2} \right)}, </Mathematik> abgereist

die entsprechende Wahrscheinlichkeitsdichte-Funktion für eine Probe von n unabhängigen identisch verteilten normalen zufälligen Variablen (die Wahrscheinlichkeit) ist

:

oder günstiger:

:

wo die bösartige Probe ist.

Diese Familie des Vertriebs hat zwei Rahmen: θ = (μ, σ), so maximieren wir die Wahrscheinlichkeit, über beide Rahmen gleichzeitig, oder wenn möglich, individuell.

Da der Logarithmus eine dauernde ausschließlich zunehmende Funktion über die Reihe der Wahrscheinlichkeit ist, werden die Werte, die die Wahrscheinlichkeit maximieren, auch seinen Logarithmus maximieren. Seit der Maximierung des Logarithmus verlangt häufig einfachere Algebra, es ist der Logarithmus, der unten maximiert wird. (Bemerken Sie: Die Klotz-Wahrscheinlichkeit ist nah mit dem Informationswärmegewicht und der Information von Fisher verbunden.)

:\begin {richten }\aus

0 & = \frac {\\teilweise} {\\teilweiser \mu} \log \left (\left (\frac {1} {2\pi\sigma^2} \right) ^ {n/2} \exp\left (-\frac {\sum_ {i=1} ^ {n} (x_i-\bar {x}) ^2+n (\bar {x}-\mu) ^2} {2\sigma^2 }\\Recht) \right) \\[6pt]

& = \frac {\\teilweise} {\\teilweiser \mu} \left (\log\left (\frac {1} {2\pi\sigma^2} \right) ^ {n/2} - \frac {\sum_ {i=1} ^ {n} (x_i-\bar {x}) ^2+n (\bar {x}-\mu) ^2} {2\sigma^2} \right) \\[6pt]

& = 0 - \frac {-2n (\bar {x}-\mu)} {2\sigma^2 }\

\end {richten }\aus</Mathematik>

der durch gelöst wird

:

Das ist tatsächlich das Maximum der Funktion, da es der einzige Wendepunkt in μ ist und die zweite Ableitung ausschließlich weniger ist als Null. Sein Erwartungswert ist dem Parameter μ des gegebenen Vertriebs, gleich

:

was bedeutet, dass der Vorkalkulator der maximalen Wahrscheinlichkeit unvoreingenommen ist.

Ähnlich unterscheiden wir die Klotz-Wahrscheinlichkeit in Bezug auf σ und entsprechen zur Null:

:\begin {richten }\aus

0 & = \frac {\\teilweise} {\\teilweiser \sigma} \log \left (\left (\frac {1} {2\pi\sigma^2} \right) ^ {n/2} \exp\left (-\frac {\sum_ {i=1} ^ {n} (x_i-\bar {x}) ^2+n (\bar {x}-\mu) ^2} {2\sigma^2 }\\Recht) \right) \\[6pt]

& = \frac {\\teilweise} {\\teilweiser \sigma} \left (\frac {n} {2 }\\log\left (\frac {1} {2\pi\sigma^2} \right) - \frac {\sum_ {i=1} ^ {n} (x_i-\bar {x}) ^2+n (\bar {x}-\mu) ^2} {2\sigma^2} \right) \\[6pt]

& =-\frac {n} {\\Sigma} + \frac {\sum_ {i=1} ^ {n} (x_i-\bar {x}) ^2+n (\bar {x}-\mu) ^2} {\\sigma^3 }\

\end {richten }\aus</Mathematik>der durch gelöst wird:

Das Einfügen erhalten wir

:

- \frac {1} {n^2 }\\sum_ {i=1} ^n\sum_ {j=1} ^n x_i x_j. </math>

Um seinen erwarteten Wert zu berechnen, ist es günstig, den Ausdruck in Bezug auf zufällige Nullmittelvariablen (statistischer Fehler) umzuschreiben. Das Ausdrücken der Schätzung in diesen Variablen gibt nach

:

Die Vereinfachung des Ausdrucks oben, das Verwenden der Tatsachen dass und, erlauben uns, zu erhalten

:

Das bedeutet, dass der Vorkalkulator beeinflusst wird. Jedoch, entspricht.

Formell sagen wir, dass der maximale Wahrscheinlichkeitsvorkalkulator dafür ist:

:

In diesem Fall konnte der MLEs individuell erhalten werden. Im Allgemeinen kann das nicht der Fall sein, und der MLEs würde gleichzeitig erhalten werden müssen.

Nichtunabhängige Variablen

Es kann der Fall sein, dass Variablen d. h. aufeinander bezogen ziemlich abhängig werden. Zwei zufällige Variablen X und Y sind nur unabhängig, wenn ihre gemeinsame Wahrscheinlichkeitsdichte-Funktion das Produkt der individuellen Wahrscheinlichkeitsdichte-Funktionen ist, d. h.

:

Nehmen Sie an, dass man eine Ordnung-n Vektor von Gaussian aus zufälligen Variablen baut, wo jede Variable Mittel hat, die dadurch gegeben sind. Lassen Sie außerdem die Kovarianz-Matrix durch angezeigt werden

Durch die gemeinsame Wahrscheinlichkeitsdichte-Funktion dieser n zufälligen Variablen wird dann gegeben:

:

Im zwei variablen Fall wird durch die gemeinsame Wahrscheinlichkeitsdichte-Funktion gegeben:

:

Darin und anderen Fällen, wo eine gemeinsame Dichte-Funktion besteht, wird die Wahrscheinlichkeitsfunktion als oben unter Grundsätzen mit dieser Dichte definiert.

Anwendungen

Maximale Wahrscheinlichkeitsbewertung wird für eine breite Reihe von statistischen Modellen verwendet, einschließlich:

  • geradlinige Modelle und verallgemeinerte geradlinige Modelle;
  • bestätigende und Forschungsfaktorenanalyse;
  • das Strukturgleichungsmodellieren;
  • viele Situationen im Zusammenhang der Hypothese-Prüfung und Vertrauensintervall-Bildung;
  • getrennte auserlesene Modelle.

Dieser Gebrauch entsteht über Anwendungen im weit verbreiteten Satz von Feldern, einschließlich:

  • Nachrichtensysteme;
  • psychometrics;
  • econometrics;
  • Verzögerung der Ankunft (TDOA) in der akustischen oder elektromagnetischen Entdeckung;
  • Daten, die im Kern- und der Partikel-Physik modellieren;
  • Kernspinresonanz-Bildaufbereitung;
  • rechenbetonter phylogenetics;
  • Ursprung/Bestimmungsort und Pfad-Wahl, die in Transportnetzen modelliert.

Geschichte

Bewertung der maximalen Wahrscheinlichkeit wurde empfohlen, (mit fehlerhaften Versuchen von Beweisen) analysiert und gewaltig von R. A. Fisher zwischen 1912 und 1922 verbreitet (obwohl es früher von Gauss, Laplace, T. N. Thiele und F. Y. Edgeworth verwendet worden war). Rezensionen der Entwicklung der maximalen Wahrscheinlichkeit sind von mehreren Autoren zur Verfügung gestellt worden.

Viel von der Theorie der Bewertung der maximalen Wahrscheinlichkeit wurde zuerst für die Statistik von Bayesian entwickelt, und dann von späteren Autoren vereinfacht.

Siehe auch

  • Andere Bewertungsmethoden
  • Eingeschränkte maximale Wahrscheinlichkeit, eine Schwankung mit einer Wahrscheinlichkeitsfunktion hat von einem umgestalteten Satz von Daten gerechnet.
  • Quasimaximaler Wahrscheinlichkeitsvorkalkulator, ein MLE Vorkalkulator, der misspecified, aber noch konsequent ist.
  • Vorkalkulator des Maximums a posteriori (MAP), für eine Unähnlichkeit in der Weise, Vorkalkulatoren zu berechnen, wenn vorherige Kenntnisse verlangt werden.
  • Methode der Unterstützung, eine Schwankung der maximalen Wahrscheinlichkeitstechnik.
  • M Vorkalkulator, eine Annäherung in der robusten Statistik verwendet.
  • Methode von Momenten (Statistik), eine andere populäre Methode, um Rahmen des Vertriebs zu finden.
  • Die verallgemeinerte Methode von Momenten ist Methoden, die mit der Wahrscheinlichkeitsgleichung nach der maximalen Wahrscheinlichkeitsbewertung verbunden sind.
  • Minimale Entfernungsbewertung
  • Maximale Abstand-Bewertung, eine zusammenhängende Methode, die in vielen Situationen robuster ist.
  • Zusammenhängende Konzepte:
  • Fischer-Information, Informationsmatrix, schätzt seine Beziehung zur Kovarianz-Matrix von ML
  • Wahrscheinlichkeitsfunktion, eine Beschreibung darauf, wie Wahrscheinlichkeitsfunktionen sind.
  • Karierter Mittelfehler, ein Maß dessen, wie 'gut' ein Vorkalkulator eines Verteilungsparameters ist (es der maximale Wahrscheinlichkeitsvorkalkulator oder ein anderer Vorkalkulator sein).
  • Vorkalkulator von Extremum, eine allgemeinere Klasse von Vorkalkulatoren, denen MLE gehört.
  • Der Lehrsatz von Rao-Blackwell, ein Ergebnis, das einen Prozess nachgibt, für den bestmöglichen unvoreingenommenen Vorkalkulatoren zu finden (im Sinne, minimalen karierten Mittelfehler zu haben). Der MLE ist häufig ein guter Startplatz für den Prozess.
  • Genügend statistisch, eine Funktion der Daten durch der der MLE (wenn es besteht und einzigartig ist), wird von den Daten abhängen.
  • Der BHHH Algorithmus ist ein nichtlinearer Optimierungsalgorithmus, der für Maximale Wahrscheinlichkeitsbewertungen populär ist.

Zeichen

  • Andersen, Erling B. (1970); "Asymptotische Eigenschaften von Bedingten Maximalen Wahrscheinlichkeitsvorkalkulatoren", Zeitschrift der Königlichen Statistischen Gesellschaft B 32, 283-301
  • Andersen, Erling B. (1980); getrennte Statistische Modelle mit Sozialwissenschaft-Anwendungen, das Nördliche Holland, den 1980
  • Basu, Debabrata (1988); statistische Information und Wahrscheinlichkeit: Eine Sammlung von Kritischen Aufsätzen durch Dr D. Basu; in Ghosh, Jayanta K., Redakteur; Vortrag-Zeichen in Statistik, Band 45, Springer-Verlag, 1988

Links


Lynette Chico / Palmlilie-Bergbehältnis des radioaktiven Abfalls
Impressum & Datenschutz