Der Rangkorrelationskoeffizient von Spearman

In der Statistik, dem Rangkorrelationskoeffizienten von Spearman oder dem rho von Spearman, genannt nach Charles Spearman und häufig angezeigt durch den griechischen Brief (rho) oder als, ist ein nichtparametrisches Maß der statistischen Abhängigkeit zwischen zwei Variablen. Es bewertet, wie gut die Beziehung zwischen zwei Variablen mit einer monotonischen Funktion beschrieben werden kann. Wenn es keine wiederholten Datenwerte gibt, kommt eine vollkommene Korrelation von Spearman +1 oder −1 vor, wenn jede der Variablen eine vollkommene Eintönigkeitsfunktion vom anderen ist.

Definition und Berechnung

Der Spearman Korrelationskoeffizient wird als der Korrelationskoeffizient von Pearson zwischen den aufgereihten Variablen definiert. Für eine Probe der Größe n werden die n rohen Hunderte zu Reihen umgewandelt, und ρ wird von diesen geschätzt:

:

Gebundene Werte werden eine Reihe zugeteilt, die dem Durchschnitt ihrer Positionen in der aufsteigenden Reihenfolge der Werte gleich ist. Im Tisch unten, bemerken Sie, wie die Reihe von Werten, die dasselbe sind, der bösartige davon ist, wie ihre Reihen sonst sein würden:

In Anwendungen, wo, wie man bekannt, Bande fehlen, kann ein einfacheres Verfahren verwendet werden, um ρ zu berechnen. Unterschiede zwischen den Reihen jeder Beobachtung auf den zwei Variablen werden berechnet, und durch ρ wird gegeben:

:

Zusammenhängende Mengen

Es gibt mehrere andere numerische Maßnahmen, die das Ausmaß der statistischen Abhängigkeit zwischen Paaren von Beobachtungen messen: Diese werden bei der Korrelation und Abhängigkeit besprochen. Der allgemeinste von diesen ist der Produktmoment-Korrelationskoeffizient von Pearson.

Ein alternativer Name für die Rangkorrelation von Spearman ist die "Rang-Korrelation"; darin wird die "Reihe" einer Beobachtung durch den "Rang" ersetzt. Im dauernden Vertrieb ist der Rang einer Beobachtung, durch die Tagung, immer ein Hälfte weniger als die Reihe, und folglich sind der Rang und die Rangkorrelationen dasselbe in diesem Fall. Mehr allgemein ist der "Rang" einer Beobachtung zu einer Schätzung des Bruchteils einer Bevölkerung weniger als ein gegebene Wert mit der Halbbeobachtungsanpassung an beobachteten Werten proportional. So entspricht das einer möglicher Behandlung von gebundenen Reihen. Während ungewöhnlich, ist der Begriff "Rang--Korrelation" noch im Gebrauch.

Interpretation

Das Zeichen der Korrelation von Spearman zeigt die Richtung der Vereinigung zwischen X (die unabhängige Variable) und Y (die abhängige Variable) an. Wenn Y dazu neigt zuzunehmen, wenn X Zunahmen, der Korrelationskoeffizient von Spearman positiv ist. Wenn Y dazu neigt abzunehmen, wenn X Zunahmen, der Korrelationskoeffizient von Spearman negativ ist. Eine Spearman Korrelation der Null zeigt an, dass es keine Tendenz für Y gibt, um entweder zuzunehmen oder wenn X Zunahmen abzunehmen. Die Spearman Korrelationszunahmen im Umfang als X und Y werden näher daran, vollkommene Eintönigkeitsfunktionen von einander zu sein. Wenn X und Y vollkommen monotonically verbunden sind, wird der Korrelationskoeffizient von Spearman 1. Eine vollkommene Eintönigkeitserhöhungsbeziehung deutet an, dass für irgendwelche zwei Paare von Daten X, Y und X, Y, dass X &minus schätzt; X und Y − Y haben immer dasselbe Zeichen. Eine vollkommene Eintönigkeitsverringern-Beziehung deutet an, dass diese Unterschiede immer entgegengesetzte Zeichen haben.

Der Spearman Korrelationskoeffizient wird häufig beschrieben als, "nichtparametrisch" zu sein. Das kann zwei Bedeutungen haben. Erstens kann der Tatsache, dass eine vollkommene Korrelation von Spearman resultiert, wenn X und Y nach jeder monotonischen Funktion verbunden sind, mit der Korrelation von Pearson gegenübergestellt werden, die nur einen vollkommenen Wert gibt, wenn X und Y nach einer geradlinigen Funktion verbunden sind. Der andere Sinn, in dem die Korrelation von Spearman in diesem seinem genauen ausfallenden Vertrieb nichtparametrisch ist, kann erhalten werden, ohne Kenntnisse zu verlangen (d. h., die Rahmen wissend), des gemeinsamen Wahrscheinlichkeitsvertriebs X und Y.

Beispiel

In diesem Beispiel werden wir die rohen Daten im Tisch unten verwenden, um die Korrelation zwischen dem IQ einer Person mit der Zahl von Stunden zu berechnen, die vor dem Fernsehen pro Woche ausgegeben sind.

Erstens müssen wir den Wert des Begriffes finden. Um so zu tun, verwenden wir die folgenden Schritte, die im Tisch unten widerspiegelt sind.

  1. Sortieren Sie die Daten durch die erste Säule . Schaffen Sie eine neue Säule und teilen Sie sie die aufgereihten Werte 1,2,3... n zu.
  2. Dann sortieren Sie die Daten durch die zweite Säule . Schaffen Sie eine vierte Säule und teilen Sie sie ähnlich die aufgereihten Werte 1,2,3... n zu.
  3. Schaffen Sie eine fünfte Säule, um die Unterschiede zwischen den zwei Reihe-Säulen zu halten (und).
  4. Schaffen Sie eine Endsäule, um den Wert der Säule quadratisch gemacht zu halten.

Mit dem gefundenen können wir sie hinzufügen, um zu finden. Der Wert von n ist 10. So können diese Werte jetzt zurück in die Gleichung, eingesetzt werden

:

der zu ρ = −0.175757575... bewertet

mit einem P-Wert = 0.6864058 (das Verwenden des t Vertriebs)

Dieser niedrige Wert zeigt, dass die Korrelation zwischen IQ und ausgegebenem Fernsehen von Stunden sehr niedrig ist. Im Fall von Banden in den ursprünglichen Werten sollte diese Formel nicht verwendet werden. Statt dessen sollte der Korrelationskoeffizient von Pearson auf den Reihen berechnet werden (wo Bande Reihen, wie beschrieben, oben gegeben werden).

Bestimmung der Bedeutung

Eine Annäherung an die Prüfung, ob ein beobachteter Wert von ρ von der Null bedeutsam verschieden ist (r wird immer 1  r  −1 aufrechterhalten), soll die Wahrscheinlichkeit berechnen, dass es größer oder gleich dem beobachteten r, in Anbetracht der ungültigen Hypothese, durch das Verwenden eines Versetzungstests sein würde. Ein Vorteil dieser Annäherung besteht darin, dass sie automatisch die Zahl von gebundenen Datenwerten in Betracht zieht, gibt es in der Probe und der Weise, wie sie in der Computerwissenschaft der Rangkorrelation behandelt werden.

Eine andere Annäherung passt dem Gebrauch der Transformation von Fisher im Fall vom Produktmoment-Korrelationskoeffizienten von Pearson an. D. h. Vertrauensintervalle und Hypothese-Tests in Zusammenhang mit dem Bevölkerungswert-ρ können mit der Transformation von Fisher ausgeführt werden:

:

Wenn F(r) die Transformation von Fisher von r, dem Beispielrangkorrelationskoeffizienten von Spearman ist, und n die Beispielgröße, dann ist

:

ist eine Z-Kerbe für r, der ungefähr einer Standardnormalverteilung laut der ungültigen Hypothese der statistischen Unabhängigkeit (ρ = 0) folgt.

Man kann auch für die Bedeutung mit prüfen

:

der ungefähr als der t Vertrieb des Studenten mit n &minus verteilt wird; 2 Grade der Freiheit laut der ungültigen Hypothese. Eine Rechtfertigung für dieses Ergebnis verlässt sich auf ein Versetzungsargument.

Eine Generalisation des Koeffizienten von Spearman ist in der Situation nützlich, wo es drei oder mehr Bedingungen gibt, werden mehrere Themen alle in jedem von ihnen beobachtet, und es wird vorausgesagt, dass die Beobachtungen eine besondere Ordnung haben werden. Zum Beispiel könnten mehrere Themen jeder drei Proben an derselben Aufgabe gegeben werden, und es wird vorausgesagt, dass sich Leistung von der Probe bis Probe verbessern wird. Ein Test der Bedeutung der Tendenz zwischen Bedingungen in dieser Situation wurde von E. B. Page entwickelt und wird gewöhnlich den Tendenz-Test von Page auf bestellte Alternativen genannt.

Ähnlichkeitsanalyse auf dem rho von Spearman gestützt

Klassische Ähnlichkeitsanalyse ist eine statistische Methode, die eine Kerbe jedem Wert zwei nomineller Variablen gibt. Auf diese Weise wird der Korrelationskoeffizient von Pearson zwischen ihnen maximiert.

Dort besteht eine Entsprechung von dieser Methode, genannt Rang-Ähnlichkeitsanalyse, die den rho von Spearman oder den tau von Kendall maximiert.

Siehe auch

  • Kendall tau Rangkorrelationskoeffizient
  • Rangkorrelation
  • Tschebyscheffs Summe-Ungleichheit, Neuordnungsungleichheit (Können diese zwei Artikel Licht auf die mathematischen Eigenschaften des ρ von Spearman werfen.)
  • Produktmoment-Korrelationskoeffizient von Pearson, eine ähnliche Korrelationsmethode, die die "geradlinigen" Beziehungen zwischen den rohen Zahlen aber nicht zwischen ihren Reihen misst.
  • G.W. Corder, D.I. Foreman, "nichtparametrische Statistik für Nichtstatistiker: Eine schrittweise Annäherung", Wiley (2009)
  • C. Spearman, "Der Beweis und das Maß der Vereinigung zwischen zwei Dingen" Amer. J. Psychol. 15 (1904) Seiten 72-101
  • M.G. Kendall, "Rangkorrelationsmethoden", Griffin (1962)
  • M. Hollander, D.A. Wolfe, "Nichtparametrische statistische Methoden", Wiley (1973)
  • J. C. Caruso, N. Cliff, "Empirische Größe, Einschluss und Macht von Vertrauensintervallen für den Rho von Spearman", Ed und Psy. Meas. 57 (1997) Seiten 637-654

Links


Blindes Stoß-Erdbeben / Station von Highbury & Islington
Impressum & Datenschutz