Statistische Ordnung

In der Statistik ist die einer statistischen Probe statistische Kth-Ordnung seinem kth-kleinsten Wert gleich. Zusammen mit der Reihe-Statistik sind Ordnungsstatistiken unter den grundsätzlichsten Werkzeugen in der nichtparametrischen Statistik und Schlussfolgerung.

Wichtige spezielle Fälle der Ordnungsstatistik sind der minimale und maximale Wert einer Probe, und (mit einigen Qualifikationen, die unten besprochen sind) die Beispielmittellinie und andere Probe quantiles.

Wenn

man Wahrscheinlichkeitstheorie verwendet, Ordnungsstatistik von zufälligen Proben von einem dauernden Vertrieb zu analysieren, wird die kumulative Vertriebsfunktion verwendet, um die Analyse auf den Fall der Ordnungsstatistik der Rechteckverteilung zu reduzieren.

Notation und Beispiele

Nehmen Sie zum Beispiel an, dass vier Zahlen beobachtet oder registriert werden, auf eine Probe der Größe n = 4 hinauslaufend. wenn die Musterwerte sind

:6, 9, 3, 8,

sie werden gewöhnlich angezeigt

:

wo die Subschrift i darin einfach die Ordnung anzeigt, in der die Beobachtungen registriert wurden und gewöhnlich angenommen wird, nicht bedeutend zu sein. Ein Fall, wenn die Ordnung bedeutend ist, ist, wenn die Beobachtungen ein Teil einer Zeitreihe sind.

Die Ordnungsstatistik würde angezeigt

:

wo die in Parenthesen eingeschlossene Subschrift (i) die der Probe statistische Ith-Ordnung anzeigt.

Die erste Ordnung statistisch (oder kleinste Ordnung statistisch) sind immer das Minimum der Probe, d. h.

:

wo, im Anschluss an eine allgemeine Tagung, wir Großbuchstaben verwenden, um auf zufällige Variablen und Kleinbuchstaben (als oben) zu verweisen, sich auf ihre wirklichen beobachteten Werte zu beziehen.

Ähnlich für eine Probe der Größe n sind die n-te Ordnung statistisch (oder größte Ordnung statistisch) das Maximum, d. h.

:

Die Beispielreihe ist der Unterschied zwischen dem Maximum und Minimum. Es ist klar eine Funktion der Ordnungsstatistik:

:

Ein ähnlicher wichtiger statistischer in der Forschungsdatenanalyse, die einfach mit der Ordnungsstatistik verbunden ist, ist die Probe interquartile Reihe.

Die Beispielmittellinie kann oder kann keine statistische Ordnung sein, da es einen einzelnen mittleren Wert nur gibt, wenn die Zahl von Beobachtungen seltsam ist. Genauer, wenn für einige, dann ist die Beispielmittellinie und ist auch eine statistische Ordnung. Andererseits, wenn sogar ist, und es zwei mittlere Werte gibt, und, und die Beispielmittellinie etwas Funktion der zwei (gewöhnlich der Durchschnitt) und folglich nicht eine statistische Ordnung ist. Ähnliche Bemerkungen gelten für die ganze Probe quantiles.

Analyse von Probabilistic

In Anbetracht irgendwelcher zufälligen Variablen sind die Ordnungsstatistiken auch zufällige Variablen, die durch das Sortieren der Werte (Verwirklichungen) in der zunehmenden Ordnung definiert sind.

Wenn die zufälligen Variablen eine Probe bilden, sind sie unabhängig und (iid) identisch verteilt. Das ist der Fall hat unten behandelt. Im Allgemeinen können die zufälligen Variablen durch die Stichprobenerhebung aus mehr als einer Bevölkerung entstehen. Dann sind sie unabhängig, aber nicht notwendigerweise identisch verteilt, und ihr gemeinsamer Wahrscheinlichkeitsvertrieb wird durch den Bapat-bitten Lehrsatz gegeben.

Zukünftig werden wir annehmen, dass die zufälligen Variablen unter der Rücksicht dauernd sind und, wo günstig, werden wir auch annehmen, dass sie eine Dichte haben (d. h. sie sind absolut dauernd). Die Besonderheiten der Analyse des Vertriebs, der Masse Punkten (insbesondere getrennten Vertriebs) zuteilt, werden am Ende besprochen.

Wahrscheinlichkeitsvertrieb der Ordnungsstatistik

In dieser Abteilung zeigen wir, dass die Ordnungsstatistiken der Rechteckverteilung auf dem Einheitszwischenraum Randvertrieb haben, der der Beta-Vertriebsfamilie gehört. Wir geben auch eine einfache Methode, den gemeinsamen Vertrieb jeder Zahl der Ordnungsstatistik abzuleiten, und schließlich diese Ergebnisse zum willkürlichen dauernden Vertrieb mit dem cdf zu übersetzen.

Wir nehmen überall in dieser Abteilung an, die eine zufällige Probe ist, die von einem dauernden Vertrieb mit cdf gezogen ist. Bezeichnung erhalten wir die entsprechende zufällige Probe von der Standardrechteckverteilung. Bemerken Sie, dass die Ordnungsstatistiken auch befriedigen.

Die Ordnungsstatistik der Rechteckverteilung

Die Wahrscheinlichkeit der Ordnung das Statistikfallen im Zwischenraum ist gleich

:

d. h. die der Rechteckverteilung statistische Kth-Ordnung ist ein Beta zufällige Variable.

:

Der Beweis dieser Behauptungen ist wie folgt. Weil man zwischen u und u + du ist, ist es das genau k &minus notwendig; 1 Elemente der Probe sind kleiner als u, und dass mindestens ein zwischen u und u + du sind. Die Wahrscheinlichkeit, dass mehr als ein in diesem letzten Zwischenraum sind, ist bereits, so müssen wir die Wahrscheinlichkeit das genau k &minus berechnen; 1, 1 und n − k Beobachtungen fallen in den Zwischenräumen, und beziehungsweise. Das ist gleich (beziehen Sie sich auf den multinomial Vertrieb für Details)

:

und das Ergebnis folgt.

Der bösartige von diesem Vertrieb ist k / (n + 1).

Der gemeinsame Vertrieb der Ordnungsstatistik der Rechteckverteilung

Ähnlich, weil, wie man zeigen kann, ich bin

:

der (bis zu Begriffen der höheren Ordnung ist als) die Wahrscheinlichkeit dass ich − 1, 1, j − 1 − ich, 1 und n − j Beispielelemente fallen in den Zwischenräumen beziehungsweise.

Man urteilt auf eine völlig analoge Weise vernünftig, den höherwertigen gemeinsamen Vertrieb abzuleiten. Vielleicht überraschend erweist sich die gemeinsame Dichte der N-Ordnungsstatistik, unveränderlich zu sein:

:

Eine Weise, das zu verstehen, besteht darin, dass die nicht eingeordnete Probe wirklich unveränderliche Dichte hat, die 1 gleich ist, und dass es n gibt! verschiedene Versetzungen der Probe entsprechend derselben Folge der Ordnungsstatistik. Das ist mit der Tatsache das 1/n verbunden! ist das Volumen des Gebiets

Der gemeinsame Vertrieb der Ordnungsstatistik eines absolut dauernden Vertriebs

Wenn F absolut dauernd ist, hat er eine solche Dichte, dass, und wir die Ersetzungen verwenden können

:

und

:

die folgenden Wahrscheinlichkeitsdichte-Funktionen (pdfs) für die Ordnungsstatistik einer Probe der Größe n gezogen vom Vertrieb X abzuleiten:

::

: wo

Anwendung: Vertrauensintervalle für quantiles

Eine interessante Frage besteht darin, wie gut die Ordnungsstatistiken als Vorkalkulatoren des quantiles des zu Grunde liegenden Vertriebs leisten.

Ein Beispiel der kleinen Beispielgröße

Der einfachste Fall, um in Betracht zu ziehen, ist, wie gut die Beispielmittellinie die Bevölkerungsmittellinie schätzt.

Als ein Beispiel, denken Sie eine zufällige Probe der Größe 6. In diesem Fall wird die Beispielmittellinie gewöhnlich als der Mittelpunkt des durch die 3. und 4. Ordnungsstatistik abgegrenzten Zwischenraums definiert. Jedoch wissen wir von der vorhergehenden Diskussion, dass die Wahrscheinlichkeit, dass dieser Zwischenraum wirklich die Bevölkerungsmittellinie enthält, ist

:

Obwohl die Beispielmittellinie wahrscheinlich unter den besten vertriebsunabhängigen Punkt-Schätzungen der Bevölkerungsmittellinie ist, was dieses Beispiel illustriert, ist, dass es nicht ein besonders gutes in absoluten Ausdrücken ist. In diesem besonderen Fall ist ein besseres Vertrauensintervall für die Mittellinie dasjenige, das durch die 2. und 5. Ordnungsstatistik abgegrenzt ist, die die Bevölkerungsmittellinie mit der Wahrscheinlichkeit enthält

:

Mit solch einer kleinen Beispielgröße, wenn man mindestens 95 % Vertrauen will, wird eines auf den Ausspruch reduziert, dass die Mittellinie zwischen dem Minimum und dem Maximum der 6 Beobachtungen mit der Wahrscheinlichkeit 31/32 oder etwa 97 % ist. Größe 6, ist tatsächlich, die kleinste solche Beispielgröße, dass der Zwischenraum, der durch das Minimum und das Maximum bestimmt ist, mindestens ein 95-%-Vertrauensintervall für die Bevölkerungsmittellinie ist.

Große Beispielgrößen

Für die Rechteckverteilung weil neigt n zur Unendlichkeit, die p Probe quantile wird asymptotisch normalerweise verteilt, da ihm durch näher gekommen wird

:

Für einen allgemeinen Vertrieb F mit einer dauernden Nichtnulldichte an F (p) gilt eine ähnliche asymptotische Normalität:

:

wo f die Dichte-Funktion ist, und F die mit F vereinigte Quantile-Funktion ist.

Eine interessante Beobachtung kann im Fall gemacht werden, wo der Vertrieb symmetrisch ist, und die Bevölkerungsmittellinie der bösartigen Bevölkerung gleichkommt. In diesem Fall wird die Probe bösartig, durch den Hauptgrenzwertsatz, auch asymptotisch normalerweise verteilt, aber mit der Abweichung σ/n stattdessen. Diese asymptotische Analyse weist darauf hin, dass das bösartige die Mittellinie in Fällen von niedrigem kurtosis, und umgekehrt überbietet. Zum Beispiel erreicht die Mittellinie bessere Vertrauensintervalle für den Vertrieb von Laplace, während das bösartige besser für X leistet, die normalerweise verteilt werden.

Beweis

Ihm kann das gezeigt werden

:wo:

mit Z unabhängige identisch verteilte zufällige Exponentialvariablen mit der Rate 1 zu sein. Da X/n und Y/n asymptotisch normalerweise durch den CLT verteilt werden, folgen unsere Ergebnisse durch die Anwendung der Delta-Methode.

Sich mit getrennten Variablen befassend

Denken Sie sind i.i.d. zufällige Variablen von einem getrennten Vertrieb mit der kumulativen Vertriebsfunktions- und Wahrscheinlichkeitsmassenfunktion. Um die Wahrscheinlichkeiten der Ordnungsstatistik zu finden, sind drei Werte zuerst, nämlich erforderlich

:

Die kumulative Vertriebsfunktion der statistischen Ordnung kann durch die Anmerkung davon geschätzt werden

:

\begin {richten }\aus

P (X_ {(k) }\\leq x) & =P (\text {gibt es höchstens} n-k\text {Beobachtungen, die größer sind als} x), \\

& = \sum_ {j=0} ^ {n-k} {n\choose j} P_3^j (p_1+p_2) ^ {n-j}.

\end {richten }\aus

</Mathematik>

Ähnlich

:\begin {richten }\aus

P (X_ {(k)}

Bemerken Sie, dass die Wahrscheinlichkeitsmassenfunktion dessen gerade der Unterschied dieser Werte, das heißt ist

:\begin {richten }\aus

P (X_ {(k)} =x) &=P (X_ {(k) }\\leq x)-P (X_ {(k)}

Computerwissenschaft der Ordnungsstatistik

Das Problem, das kth kleinste (oder am größten) zu schätzen, wird das Element einer Liste das Auswahl-Problem genannt und wird durch einen Auswahl-Algorithmus gelöst. Obwohl dieses Problem für sehr große Listen schwierig ist, sind hoch entwickelte Auswahl-Algorithmen geschaffen worden, der dieses Problem beheben kann, das rechtzeitig zur Zahl der Elemente in der Liste proportional ist, selbst wenn die Liste völlig nicht eingeordnet ist. Wenn die Daten in bestimmten Spezialdatenstrukturen versorgt werden, kann diese Zeit zu O heruntergebracht werden (loggen Sie n). In vielen Anwendungen sind alle Ordnungsstatistiken erforderlich, in welchem Fall ein Sortieren-Algorithmus verwendet werden kann und die genommene Zeit O ist (n, loggen n).

Siehe auch

  • Rankit
  • Kasten-Anschlag
  • Vertrieb des Fischers-Tippett
  • Bapat-bitten Sie um Lehrsatz um die Ordnungsstatistik des Unabhängigen, aber nicht der notwendigerweise identisch verteilten zufälligen Variablen
  • Polynom von Bernstein

Beispiele der Ordnungsstatistik

  • Beispielmaximum und Minimum
  • Quantile
  • Prozentanteil
  • Zehntelwert
  • Quartile
  • Mittellinie
  • David, H. A., Nagaraja, H. N. (2003) Ordnungsstatistik (3. Ausgabe). Wiley, Seiten von New Jersey 458. Internationale Standardbuchnummer 0-471-38926-9
  • Sefling, R. J. (1980) Annäherungslehrsätze der Mathematischen Statistik. Wiley, New York. Internationale Standardbuchnummer 0-471-02403-1

Links

  • Wiederbekommener Febr 02,2005
Wiederbekommener Febr 02,2005

Emma Thompson / CJK Charaktere
Impressum & Datenschutz