Produktmoment-Korrelationskoeffizient von Pearson

In der Statistik ist der Produktmoment-Korrelationskoeffizient von Pearson (manchmal gekennzeichnet als der PPMCC oder PCC oder der r von Pearson, und wird normalerweise durch r angezeigt), ein Maß der Korrelation (geradlinige Abhängigkeit) zwischen zwei Variablen X und Y, einen Wert zwischen +1 und 1 einschließlich gebend. Es wird in den Wissenschaften als ein Maß der Kraft der geradlinigen Abhängigkeit zwischen zwei Variablen weit verwendet. Es wurde von Karl Pearson von einer ähnlichen, aber ein bisschen verschiedenen Idee entwickelt, die von Francis Galton in den 1880er Jahren eingeführt ist.

Definition

Der Korrelationskoeffizient von Pearson zwischen zwei Variablen wird als die Kovarianz der zwei Variablen definiert, die durch das Produkt ihrer Standardabweichungen geteilt sind

Für eine Bevölkerung

Der Korrelationskoeffizient von Pearson, wenn angewandt, auf eine Bevölkerung wird durch den griechischen Brief ρ (rho) allgemein vertreten und kann den Bevölkerungskorrelationskoeffizienten oder die Bevölkerung Korrelationskoeffizient von Pearson genannt werden. Die Formel für ρ ist:

:

Für eine Probe

Der Korrelationskoeffizient von Pearson, wenn angewandt, auf eine Probe wird durch den Brief r allgemein vertreten und kann den Beispielkorrelationskoeffizienten oder die Probe Korrelationskoeffizient von Pearson genannt werden. Wir können eine Formel für r erhalten, indem wir Schätzungen der Kovarianzen und Abweichungen einsetzen, die auf einer Probe in die Formel oben gestützt sind. Diese Formel für r ist:

:

Ein gleichwertiger Ausdruck gibt den Korrelationskoeffizienten als die bösartigen von den Produkten der Standardhunderte. Gestützt auf einer Probe von paarweise angeordneten Daten (X, Y), die Probe ist Korrelationskoeffizient von Pearson

:

wo

:

sind die Standardkerbe, Beispiel-Mittel- und Beispielstandardabweichung beziehungsweise.

Mathematische Eigenschaften

Der absolute Wert sowohl der Probe als auch Bevölkerung Korrelationskoeffizienten von Pearson ist weniger als oder gleich 1. Korrelationen, die 1 oder-1 gleich sind, entsprechen Datenpunkten, die genau auf einer Linie (im Fall von der Beispielkorrelation), oder zu einem bivariate Vertrieb völlig liegen, der auf einer Linie (im Fall von der Bevölkerungskorrelation) unterstützt ist. Der Korrelationskoeffizient von Pearson ist symmetrisch: corr (X, Y) = corr (Y, X).

Das mathematische Eigentum eines Schlüssels des Korrelationskoeffizienten von Pearson besteht darin, dass es invariant (bis zu einem Zeichen) ist, um Änderungen in der Position und Skala in den zwei Variablen zu trennen. D. h. wir können uns X zu + bX verwandeln und Y in c + dY umgestalten, wo a, b, c, und d Konstanten sind, ohne den Korrelationskoeffizienten zu ändern (hält diese Tatsache sowohl für die Bevölkerung als auch für Probe Korrelationskoeffizienten von Pearson). Bemerken Sie, dass allgemeinere geradlinige Transformationen wirklich die Korrelation ändern: Sieh eine spätere Abteilung für eine Anwendung davon.

Die Korrelation von Pearson kann in Bezug auf in den Mittelpunkt ungestellte Momente ausgedrückt werden. Seitdem μ = E (X), σ = E [(X  E (X))] = E (X)  E (X) und

ebenfalls für Y, und seitdem

:

die Korrelation kann auch als geschrieben werden

:

Alternative Formeln für die Probe Korrelationskoeffizient von Pearson sind auch verfügbar:

:

r_ {xy} = \frac {\\summieren x_iy_i-n \bar {x} \bar {y}} {(n-1) s_x s_y} = \frac {n\sum x_iy_i-\sum x_i\sum y_i }\

{\\sqrt {n\sum X_i^2-(\sum x_i) ^2} ~ \sqrt {n\sum Y_i^2-(\sum y_i) ^2}}.

</Mathematik>

Die obengenannte Formel deutet einen günstigen Algorithmus des einzelnen Passes an, um Beispielkorrelationen zu berechnen, aber je nachdem die Zahlen eingeschlossen haben, kann es manchmal numerisch nicht stabil sein.

Interpretation

Der Korrelationskoeffizient erstreckt sich von 1 bis 1. Ein Wert von 1 deutet an, dass eine geradlinige Gleichung die Beziehung zwischen X und Y vollkommen mit allen Datenpunkten beschreibt, die auf einer Linie liegen, für die Y als X Zunahmen zunimmt. Ein Wert von 1 deutet an, dass alle Datenpunkte auf einer Linie liegen, für die Y als X Zunahmen abnimmt. Ein Wert von 0 deutet an, dass es keine geradlinige Korrelation zwischen den Variablen gibt.

Bemerken Sie mehr allgemein das (X &minus) (Y &minus) ist positiv, wenn, und nur wenn X und Y auf derselben Seite ihrer jeweiligen Mittel liegen. So ist der Korrelationskoeffizient positiv, wenn X und Y dazu neigen, gleichzeitig größer zu sein, als, oder gleichzeitig weniger als, ihre jeweiligen Mittel. Der Korrelationskoeffizient ist negativ, wenn X und Y dazu neigen, auf Gegenseiten ihrer jeweiligen Mittel zu liegen.

Geometrische Interpretation

]

Für in den Mittelpunkt ungestellte Daten entspricht der Korrelationskoeffizient dem Kosinus des Winkels sowohl zwischen möglichen Linien des rückwärts Gehens y=g (x) als auch zwischen x=g (y).

Für in den Mittelpunkt gestellte Daten (d. h., Daten, die durch die bösartige Probe ausgewechselt worden sind, um einen Durchschnitt der Null zu haben), kann der Korrelationskoeffizient auch als der Kosinus des Winkels zwischen den zwei Vektoren von Proben angesehen werden, die von den zwei zufälligen Variablen (sieh unten) gezogen sind.

Einige Praktiker bevorzugen einen in den Mittelpunkt ungestellten (non-Pearson-compliant) Korrelationskoeffizienten. Sieh das Beispiel unten für einen Vergleich.

Als ein Beispiel, nehmen Sie an, dass, wie man findet, fünf Länder Bruttosozialprodukte 1, 2, 3, 5, und 8 Milliarden Dollar beziehungsweise haben. Nehmen Sie an, dass, wie man findet, diese dieselben fünf Länder (in derselben Ordnung) 11 %, 12 %, 13 %, 15 %, und 18-%-Armut haben. Dann lassen Sie x und y 5-Elemente-Vektoren bestellt werden, die die obengenannten Daten enthalten: x = (1, 2, 3, 5, 8) und y = (0.11, 0.12, 0.13, 0.15, 0.18).

Durch das übliche Verfahren, für den Winkel zwischen zwei Vektoren zu finden (sieh Punktprodukt), ist der in den Mittelpunkt ungestellte Korrelationskoeffizient:

:

Bemerken Sie, dass die obengenannten Daten absichtlich gewählt wurden, um vollkommen aufeinander bezogen zu werden: y = 0.10 + 0.01 x. Der Korrelationskoeffizient von Pearson muss deshalb genau ein sein. Das Zentrieren der Daten (sich x durch E (x) = 3.8 und y durch E (y) = 0.138 bewegend), gibt x = (2.8, 1.8, 0.8, 1.2, 4.2) und y = (0.028, 0.018, 0.008, 0.012, 0.042), von der nach

:

wie erwartet.

Interpretation der Größe einer Korrelation

Mehrere Autoren haben Richtlinien für die Interpretation eines Korrelationskoeffizienten angeboten. Jedoch sind alle diese Kriterien in mancher Hinsicht willkürlich und sollten zu ausschließlich nicht beobachtet werden. Die Interpretation eines Korrelationskoeffizienten hängt vom Zusammenhang und den Zwecken ab. Eine Korrelation 0.9 kann sehr niedrig sein, wenn man ein physisches Gesetz mit Qualitätsinstrumenten nachprüft, aber als sehr hoch in den Sozialwissenschaften betrachtet werden kann, wo es einen größeren Beitrag davon geben kann, Faktoren zu komplizieren.

Die Entfernung von Pearson

Eine Entfernung, die für zwei Variablen X und als die Entfernung von Pearson bekannten Y metrisch ist, kann von ihrem Korrelationskoeffizienten als definiert werden

:

Denkend, dass der Korrelationskoeffizient von Pearson zwischen [-1, 1] fällt, liegt die Entfernung von Pearson in [0, 2].

Schlussfolgerung

Statistische Schlussfolgerung, die auf dem Korrelationskoeffizienten von Pearson häufig gestützt ist, konzentriert sich auf eines der folgenden zwei Ziele:

  • Ein Ziel ist, die ungültige Hypothese zu prüfen, dass der wahre Korrelationskoeffizient ρ 0, gestützt auf dem Wert des Beispielkorrelationskoeffizienten r gleich ist.
  • Das andere Ziel ist, ein Vertrauensintervall um r zu bauen, der eine gegebene Wahrscheinlichkeit hat, ρ zu enthalten.

Wir besprechen Methoden, ein oder beide dieser Ziele unten zu erreichen.

Verwenden Sie einen Versetzungstest

Versetzungstests stellen eine direkte Annäherung an leistende Hypothese-Tests und Konstruieren-Vertrauensintervalle zur Verfügung. Ein Versetzungstest auf den Korrelationskoeffizienten von Pearson ist mit den folgenden zwei Schritten verbunden:

  • (i) mit den ursprünglichen paarweise angeordneten Daten (x, y), definieren zufällig die Paare wieder, um eine neue Datei (x, y), wo i&prime zu schaffen; sind eine Versetzung des Satzes {1..., n}. Die Versetzung i&prime; wird zufällig mit gleichen auf dem ganzen n gelegten Wahrscheinlichkeiten ausgewählt! mögliche Versetzungen. Das ist zur Zeichnung i&prime gleichwertig; zufällig "ohne Ersatz" vom Satz {1..., n}. Nah zusammenhängend und ebenso gerechtfertigt (das Urladeverfahren) soll Annäherung mich und i&prime getrennt ziehen; "mit dem Ersatz" von {1..., n};
  • (ii) Bauen Sie einen Korrelationskoeffizienten r von den randomized Daten.

Um den Versetzungstest durchzuführen, wiederholen Sie sich (i) und (ii) eine Vielzahl von Zeiten. Der P-Wert für den Versetzungstest ist ein minus das Verhältnis der im Schritt (ii) erzeugten R-Werte, die größer sind als der Korrelationskoeffizient von Pearson, der von den ursprünglichen Daten berechnet wurde. Hier "größer" kann bedeuten, entweder dass der Wert im Umfang größer, oder im unterzeichneten Wert je nachdem größer ist, ob ein zweiseitiger oder einseitiger Test gewünscht wird.

Verwenden Sie eine Stiefelstrippe

Die Stiefelstrippe kann verwendet werden, um Vertrauensintervalle für den Korrelationskoeffizienten von Pearson zu bauen. In der "nichtparametrischen" Stiefelstrippe, n Paare (x, y) werden "mit dem Ersatz" vom beobachteten Satz von n Paaren wiederprobiert, und der Korrelationskoeffizient r wird gestützt auf den wiederprobierten Daten berechnet. Dieser Prozess wird eine Vielzahl von Zeiten wiederholt, und der empirische Vertrieb der wiederprobierten R-Werte wird verwendet, um dem ausfallenden Vertrieb des statistischen näher zu kommen. Ein 95-%-Vertrauensintervall für ρ kann als das Zwischenraum-Überspannen von den 2.5 bis die 97.5 Prozentanteile der wiederprobierten R-Werte definiert werden.

Die Prüfung des T-Vertriebs des verwendenden Studenten

Für Paare von einer unkorrelierten bivariate Normalverteilung folgt der ausfallende Vertrieb des Korrelationskoeffizienten von Pearson dem T-Vertrieb des Studenten mit Graden der Freiheit n &minus; 2. Spezifisch, wenn die zu Grunde liegenden Variablen eine bivariate Normalverteilung, die Variable haben

:

hat einen T-Vertrieb eines Studenten im ungültigen Fall (Nullkorrelation). Das hält auch ungefähr, selbst wenn die beobachteten Werte nichtnormal sind, vorausgesetzt dass Beispielgrößen nicht sehr klein sind. Für die kritischen Werte für r zu bestimmen, ist das Gegenteil dieser Transformation auch erforderlich:

:

Wechselweise können große Beispielannäherungen verwendet werden.

Die frühe Arbeit am Vertrieb des Beispielkorrelationskoeffizienten wurde von R. A. Fisher ausgeführt

und A. K. Gayen.

Ein anderes frühes Papier stellt Graphen und Tische für allgemeine Werte von ρ für kleine Beispielgrößen zur Verfügung, und bespricht rechenbetonte Annäherungen.

Verwenden Sie den genauen Vertrieb

Für Daten, der einer bivariate Normalverteilung folgt, ist die genaue Dichte-Funktion für die Beispielkorrelation eines normalen bivariate

:

wo die Gammafunktion ist, ist Gaussian hypergeometrische Funktion. Im speziellen Fall, wenn die Dichte als geschrieben werden kann:

:

wo die Beta-Funktion ist, die eine Weise ist, die Dichte über einen T-Vertrieb eines Studenten als oben zu schreiben.

Bemerken Sie, dass deshalb r ein voreingenommener Vorkalkulator dessen ist. Ein ungefähr unvoreingenommener Vorkalkulator kann erhalten werden, indem er die Gleichung dafür löst. Jedoch ist die Lösung suboptimal. Ein ungefähr unvoreingenommener Vorkalkulator, mit der minimalen Abweichung für große Werte von n, mit einer Neigung der Ordnung, kann erhalten werden, indem er maximiert, d. h.

Verwenden Sie die Fischer-Transformation

In der Praxis werden Vertrauensintervalle und Hypothese-Tests in Zusammenhang mit ρ gewöhnlich mit der Transformation von Fisher ausgeführt:

:

Wenn F(r) die Transformation von Fisher von r ist, und n die Beispielgröße ist, dann folgt F(r) ungefähr einer Normalverteilung mit

: und Standardfehler

So ist eine Z-Kerbe

:

laut der ungültigen Hypothese davon, in Anbetracht der Annahme, dass die Beispielpaare unabhängig und identisch verteilt sind und einer bivariate Normalverteilung folgen. So kann ein ungefährer P-Wert bei einem normalen Wahrscheinlichkeitstisch erhalten werden. Zum Beispiel, wenn z = 2.2 beobachtet wird und ein zweiseitiger P-Wert gewünscht wird, um die ungültige Hypothese zu prüfen, dass der P-Wert 2 ist · Φ ( 2.2) = 0.028, wo Φ die kumulative normale Standardvertriebsfunktion ist.

Um ein Vertrauensintervall für ρ zu erhalten, schätzen wir zuerst ein Vertrauensintervall für F :

:

Das Gegenteil Transformation von Fisher bringt den Zwischenraum der Korrelationsskala zurück.

:

Nehmen Sie zum Beispiel an, dass wir r = 0.3 mit einer Beispielgröße von n=50 beobachten, und wir ein 95-%-Vertrauensintervall für ρ erhalten möchten. Der umgestaltete Wert ist artanh (r) = 0.30952, so ist das Vertrauensintervall auf der umgestalteten Skala 0.30952 ± 1.96 /  47, oder (0.023624, 0.595415). Das Umwandeln zurück zur Korrelation erklettert Erträge (0.024, 0.534).

Die Korrelation von Pearson und kleinste Quadratregressionsanalyse

Das Quadrat des Beispielkorrelationskoeffizienten, der auch bekannt als der Koeffizient des Entschlusses ist, schätzt den Bruchteil der Abweichung in Y, der durch X in einem einfachen geradlinigen rückwärts Gehen erklärt wird. Als ein Startpunkt kann die Gesamtschwankung im Y um ihren durchschnittlichen Wert wie folgt zersetzt werden

:

\sum_i (Y_i - \bar {Y}) ^2 = \sum_i (Y_i-\hat {Y} _i) ^2 + \sum_i (\hat {Y} _i-\bar {Y}) ^2,

</Mathematik>

wo der taillierten Werte von der Regressionsanalyse zu sein. Das kann umgeordnet werden, um zu geben

:

1 = \frac {\\sum_i (Y_i-\hat {Y} _i) ^2} {\\sum_i (Y_i - \bar {Y}) ^2} + \frac {\\sum_i (\hat {Y} _i-\bar {Y}) ^2} {\\sum_i (Y_i - \bar {Y}) ^2}.

</Mathematik>

Die zwei summands sind oben der Bruchteil der Abweichung in Y, der durch X (Recht) erklärt wird und das durch X (verlassen) unerklärt ist.

Dann wenden wir ein Eigentum von kleinsten Quadratmodellen des rückwärts Gehens an, dass die Beispielkovarianz dazwischen und Null ist. So kann der Beispielkorrelationskoeffizient zwischen den beobachteten und taillierten Ansprechwerten im rückwärts Gehen geschrieben werden

\begin {richten }\aus

r (Y, \hat {Y}) &= \frac {\\sum_i (Y_i-\bar {Y}) (\hat {Y} _i-\bar {Y})} {\\sqrt {\\sum_i (Y_i-\bar {Y}) ^2\cdot \sum_i (\hat {Y} _i-\bar {Y}) ^2} }\\\

&= \frac {\\sum_i (Y_i-\hat {Y} _i +\hat {Y} _i-\bar {Y}) (\hat {Y} _i-\bar {Y})} {\\sqrt {\\sum_i (Y_i-\bar {Y}) ^2\cdot \sum_i (\hat {Y} _i-\bar {Y}) ^2} }\\\

&= \frac {\sum_i [(Y_i-\hat {Y} _i) (\hat {Y} _i-\bar {Y}) + (\hat {Y} _i-\bar {Y}) ^2]} {\\sqrt {\\sum_i (Y_i-\bar {Y}) ^2\cdot \sum_i (\hat {Y} _i-\bar {Y}) ^2} }\\\

&= \frac {\sum_i (\hat {Y} _i-\bar {Y}) ^2} {\\sqrt {\\sum_i (Y_i-\bar {Y}) ^2\cdot \sum_i (\hat {Y} _i-\bar {Y}) ^2} }\\\

&= \sqrt {\\frac {\\sum_i (\hat {Y} _i-\bar {Y}) ^2} {\\sum_i (Y_i-\bar {Y}) ^2}}.

\end {richten }\aus

</Mathematik>

So

:

r (Y, \hat {Y}) ^2 = \frac {\\sum_i (\hat {Y} _i-\bar {Y}) ^2} {\\sum_i (Y_i-\bar {Y}) ^2 }\

</Mathematik>

ist das Verhältnis der Abweichung in Y, der durch eine geradlinige Funktion X erklärt ist.

Empfindlichkeit zum Datenvertrieb

Existenz

Die Bevölkerung Korrelationskoeffizient von Pearson wird in Bezug auf Momente definiert, und besteht deshalb für jeden bivariate Wahrscheinlichkeitsvertrieb, für den die Bevölkerungskovarianz definiert wird und die Randbevölkerungsabweichungen, wird definiert und ist Nichtnull. Etwas Wahrscheinlichkeitsvertrieb wie der Vertrieb von Cauchy hat unbestimmte Abweichung, und folglich wird ρ nicht definiert, wenn X oder Y solch einem Vertrieb folgt. In einigen praktischen Anwendungen, wie diejenigen, die Daten einschließen, die verdächtigt sind, einem Vertrieb mit dem schweren Schwanz zu folgen, ist das eine wichtige Rücksicht. Jedoch ist die Existenz des Korrelationskoeffizienten gewöhnlich nicht eine Sorge; zum Beispiel, wenn die Reihe des Vertriebs begrenzt wird, wird ρ immer definiert.

Große Beispieleigenschaften

Im Fall von der bivariate Normalverteilung die Bevölkerung charakterisiert Korrelationskoeffizient von Pearson den gemeinsamen Vertrieb so lange die Randmittel, und Abweichungen sind bekannt. Für den grössten Teil anderen bivariate Vertriebs ist das nicht wahr. Dennoch ist der Korrelationskoeffizient über den Grad der geradlinigen Abhängigkeit zwischen zwei zufälligen Mengen unabhängig davon hoch informativ, ob ihr gemeinsamer Vertrieb normal ist.

Der Beispielkorrelationskoeffizient ist die maximale Wahrscheinlichkeitsschätzung des Bevölkerungskorrelationskoeffizienten für bivariate normale Daten, und ist asymptotisch unvoreingenommen und effizient, der grob bedeutet, dass es unmöglich ist, eine genauere Schätzung zu bauen, als der Beispielkorrelationskoeffizient, wenn die Daten normal sind und die Beispielgröße gemäßigt oder groß ist. Für nichtnormale Bevölkerungen bleibt der Beispielkorrelationskoeffizient ungefähr unvoreingenommen, aber kann nicht effizient sein. Der Beispielkorrelationskoeffizient ist ein konsequenter Vorkalkulator des Bevölkerungskorrelationskoeffizienten so lange die Beispielmittel, Abweichungen, und Kovarianz entspricht (der versichert wird, wenn das Gesetz der großen Anzahl angewandt werden kann).

Robustheit

Wie viele allgemein verwendete Statistiken ist der statistische Beispielr nicht robust, so kann sein Wert irreführend sein, wenn outliers da sind. Spezifisch ist der PMCC, noch outlier widerstandsfähig weder Verteilungs-robust (sieh Robust statistics#Definition). Die Inspektion des scatterplot zwischen X und Y wird normalerweise eine Situation offenbaren, wo der Robustheit fehlen, könnte ein Problem sein, und in solchen Fällen kann es ratsam sein, ein robustes Maß der Vereinigung zu verwenden. Bemerken Sie jedoch, dass, während die meisten robusten Vorkalkulatoren der Vereinigung statistische Abhängigkeit irgendwie messen, sie allgemein nicht interpretable auf derselben Skala wie der Korrelationskoeffizient von Pearson sind.

Die statistische Schlussfolgerung für den Korrelationskoeffizienten von Pearson ist zum Datenvertrieb empfindlich. Genaue Tests und asymptotische auf der Transformation von Fisher gestützte Tests können angewandt werden, wenn die Daten ungefähr normalerweise verteilt werden, aber sonst irreführend sein können. In einigen Situationen kann die Stiefelstrippe angewandt werden, um Vertrauensintervalle zu bauen, und Versetzungstests können angewandt werden, um Hypothese-Tests auszuführen. Diese nichtparametrischen Annäherungen können bedeutungsvollere Ergebnisse in einigen Situationen geben, wo bivariate Normalität nicht hält. Jedoch verlassen sich die Standardversionen dieser Annäherungen auf die Ex-Wechselhaftigkeit der Daten, bedeutend, dass es keine Einrichtung oder Gruppierung der Datenpaare gibt, die analysieren werden, der das Verhalten der Korrelationsschätzung betreffen könnte.

Eine geschichtete Analyse ist eine Weise, einen Mangel an der bivariate Normalität entweder anzupassen, oder die Korrelation zu isolieren, die sich aus einem Faktor ergibt, während sie für einen anderen kontrolliert. Wenn W Traube-Mitgliedschaft oder einen anderen Faktor vertritt, den es wünschenswert ist zu kontrollieren, können wir die Daten schichten, die auf dem Wert von W gestützt sind, dann einen Korrelationskoeffizienten innerhalb jeder Schicht berechnen. Die Schätzungen des Schicht-Niveaus können dann verbunden werden, um die gesamte Korrelation zu schätzen, während man für W kontrolliert.

Das Rechnen einer belasteten Korrelation

Nehmen Sie an, dass aufeinander zu beziehende Beobachtungen sich unterscheidende wichtige Grade haben, der mit einem Gewicht-Vektoren w ausgedrückt werden kann. Die Korrelation zwischen Vektoren x und y mit dem Gewicht-Vektoren w (die ganze Länge n), zu berechnen

  • Belastet bösartig:

::

  • Belastete Kovarianz
::
  • Belastete Korrelation
::

Das Entfernen der Korrelation

Es ist immer möglich, die Korrelation zwischen zufälligen Variablen mit einer geradlinigen Transformation zu entfernen, selbst wenn die Beziehung zwischen den Variablen nichtlinear ist. Eine Präsentation dieses Ergebnisses für den Bevölkerungsvertrieb wird von Cox & Hinkley gegeben.

Ein entsprechendes Ergebnis besteht für Beispielkorrelationen, in denen die Beispielkorrelation auf die Null reduziert wird. Nehmen Sie an, dass ein Vektor von n zufälligen Variablen probierte M Zeiten ist. Lassen Sie X eine Matrix sein, wo die jth Variable der Probe i ist. Lassen Sie, eine M durch die M Quadratmatrix mit jedem Element 1 zu sein. Dann ist D die umgestalteten Daten, so hat jede zufällige Variable Null bösartig, und T die umgestalteten Daten ist, so haben alle Variablen Null-Mittel- und Nullkorrelation mit allen anderen Variablen - wird die Moment-Matrix von T die Identitätsmatrix sein. Das muss weiter durch die Standardabweichung geteilt werden, um Einheitsabweichung zu bekommen. Die umgestalteten Variablen werden unkorreliert sein, wenn auch sie nicht unabhängig sein können.

::

wo eine Hochzahl von-1/2 die Matrixquadratwurzel des Gegenteils einer Matrix vertritt. Die Kovarianz-Matrix von T wird die Identitätsmatrix sein. Wenn eine neue Datenprobe x ein Zeilenvektor von n Elementen ist, dann verwandelt sich dasselbe kann auf x angewandt werden, um die umgestalteten Vektoren d und t zu bekommen:

::

Dieser decorrelation ist mit der Hauptteilanalyse für multivariate Daten verbunden.

Reflektierende Korrelation

Die reflektierende Korrelation ist eine Variante der Korrelation von Pearson, auf die die Daten um ihre Mittelwerte nicht in den Mittelpunkt gestellt werden. Die Bevölkerung reflektierende Korrelation ist

:

\text {Corr} _r (X, Y) = \frac {E [XY]} {\\sqrt {EX^2\cdot EY^2}}.

</Mathematik>

Die reflektierende Korrelation ist symmetrisch, aber es ist nicht invariant laut der Übersetzung:

:

\text {Corr} _r (X, Y) = \text {Corr} _r (Y, X) = \text {Corr} _r (X, durch) \neq \text {Corr} _r (X, + b Y), \quad ein \neq 0, b> 0.

</Mathematik>

Die reflektierende Beispielkorrelation ist

:

rr_ {xy} = \frac {\\summieren x_i y_i} {\\sqrt {(\sum x_i^2) (\sum y_i^2)}}.

</Mathematik>

Die belastete Version der reflektierenden Beispielkorrelation ist

:

rr_ {xy, w} = \frac {\\summieren w_i x_i y_i} {\\sqrt {(\sum w_i x_i^2) (\sum w_i y_i^2)}}.

</Mathematik>

Schuppige Korrelation

Schuppige Korrelation ist eine Variante der Korrelation von Pearson, in der die Reihe der Daten absichtlich und auf eine kontrollierte Weise eingeschränkt wird, Korrelationen zwischen schnellen Bestandteilen in der Zeitreihe zu offenbaren. Schuppige Korrelation wird als durchschnittliche Korrelation über kurze Segmente von Daten definiert.

Lassen Sie, die Zahl von Segmenten zu sein, die die Gesamtlänge des Signals für eine gegebene Skala einbauen können:

:

Die schuppige Korrelation über die kompletten Signale wird dann als geschätzt

:

wo der Koeffizient von Pearson der Korrelation für das Segment ist.

Durch die Auswahl des Parameters wird der Wertbereich reduziert, und die Korrelationen auf der Skala der langen Zeit, werden nur die Korrelationen auf Skalen der kurzen Zeit herausgefiltert, die offenbaren werden. So werden die Beiträge von langsamen Bestandteilen entfernt, und diejenigen von schnellen Bestandteilen werden behalten.

Siehe auch


Stratford, Ontario / Eirin
Impressum & Datenschutz