Algorithmus (corrcoef)


Es gibt eine Anzahl von Koeffizienten, deren Verwendung sich unter unterschiedlicher Bedingungen am besten eignet. Unter ihnen ist der am häufigsten verwendete Produkt-Moment-Korrelationskoeffizient von Pearson.

Pearsons Produkt-Moment-Korrelationskoeffizient

Pearsons Produkt-Moment-Korrelationskoeffizient misst die lineare Beziehung zwischen zwei Variablen.

Angenommen \sigma _x\, und \sigma _y\, sind die jeweiligen Standardabweichungen der zwei zufälligen Variablen X und Y. Dann ist Pearsons Produkt-Moment-Korrelationskoeffizient zwischen den Variablen

\rho _{x,y}=\frac{cov(X,Y)}{\sigma _x\sigma _y}=\frac{E((X-E(X))(Y-E(Y)))}{\sigma _x\sigma _y}

wobei E(.) den erwarteten Wert der Variablen bezeichnet und cov(.) die Kovarianz.

Um diese Methode zu verwenden, sollte sicher gestellt sein, dass die Intervalldaten in paarweisen Beobachtungen vorliegen und die Variablen normal verteilt sind. Die Daten sollten keine extremen Werte enthalten, weil sie dazu neigen, dass Ergebnis zu beeinträchtigen. Pearsons Produkt-Moment-Korrelationskoeffizient könnte manchmal irreführend klein sein, wenn die Variablen eine nichtlineare Beziehung haben.

Spearman-Korrelationskoeffizient

Der Spearman-Rangkorrelationskoeffizient entspricht einer nicht-parametrischen Messung. Daher ist er für Daten geeignet, die nicht normal verteilt sind. Mit ihm lassen sich nichtlineare Beziehungen zwischen zwei Variablen besser erkennen. Es kann wie folgt berechnet werden:

r^{\prime }=1-6\sum \frac{d^2}{N(N^2-1)}

wobei d die Differenz des statistischen Rangs der entsprechenden Variablen darstellt.

Da der statistische Rang nur eine Ordnungszahl des Werts in einer Liste ist, kann der Spearman-Rangkorrelationskoeffizient sogar berechnet werden, wenn die tatsächlichen Werte unbekannt sind.

Kendall-Korrelationskoeffizient

Der Kendall-Korrelationskoeffizient oder Kendall-tau ist äquivalent zum Spearman R hinsichtlich der Annahmen und statistischen Trennschärfe. Der Kendall-Korrelationskoeffizient bietet mehr als eine intuitive Interpretation. Seine algebraische Struktur ist zudem einfacher. Außerdem erfordert er keine Ordnung der Daten vor der Berechnung.

Der Kendall-Korrelationskoeffizient kann berechnet werden mit

t=\frac{2(C-D)}{n(n-1)}

wobei C die Anzahl der übereinstimmenden Paare (Paare der Beobachtungen, die die gleichen Vorzeichen besitzen) und D die Anzahl der nicht übereinstimmenden Paare (Paare der Beobachtungen, die entgegen gesetzte Vorzeichen besitzen) sind.

Signifikanzniveau von r

  • Typ Pearson und Spearman

Für die Korrelationstypen Pearson und Spearman sei


 t = |r\sqrt{\frac{N-2}{1-r^2}}|

wobei r die Korrelation von zwei Variablen und N die Anzahl der Beobachtungen ist.

t folgt dann einer t-Verteilung mit N-2 Freiheitsgraden. Das beidseitige Signifikanzniveau kann berechnet werden mit:


 p=2(1-\mbox{tcdf} (t,N-2))\;
  • Kendall-Typ

Für den Kendall-Korrelationstyp sei


 z=\frac{r\sqrt{q}}{\sqrt{v}}

wobei

v_0 = N(N-1)(2N+5)\;
\tau = \sum_{k} t_k (t_k-1)\;
\tau_1 = \sum_{k} t_k (t_k-1)(t_k-2)\;
\tau_2 = \sum_{k} t_k (t_k-1)(2t_k+5)\;
t_k \mbox{ is the number of tied values in the kth group of ties for a variable.}\;
q=(N(N-1)/2-\tau(i)/2)(N(N-1)/2-\tau(j)/2)\;
v=(v_0-\tau_2(i)-\tau_2(j))/18 + \tau (i)\tau (j)/(2N(N-1)) + \tau_1 (i)\tau_1 (j)/(9N(N-1)(N-2)) \;
r \mbox{ is the correlation between variable } i \mbox{ and variable } j. \;

z wird dann durch eine Standardnormalverteilung approximiert. Das beidseitige Signifikanzniveau ist:


 p=2(1-\mbox{normcdf} (\mbox{abs} (z)))\;