Algorithmen (Kreuztabelle)


Inhalt


Kreuztabellen werden auch als Kontingenztabellen bezeichnet. Dieses Hilfsmittel wird verwendet, um das Vorhandensein bzw. die Stärke der Assoziation zwischen Variablen zu untersuchen.

Kreuztabellenmethode

  • Häufigkeitszählung
  • Rand und Zelle
  • Tabelle der Chi-Quadrat-Tests
  • Tabelle von Fishers Exaktem Test (nur 2 x 2)
  • Assoziationsmaße
  • Übereinstimmungsmaße
  • Quotenverhältnis und Relatives Risiko (nur 2 x 2)
  • Cochran-Mantel-Haenszel

Häufigkeitszählung

Definieren

X_i sind eindeutige Werte der Zeilenvariable in aufsteigender Reihenfolge, d.h. X_1 < X_2 < \cdots X_R
Y_i sind eindeutige Werte der Spaltenvariable in aufsteigender Reihenfolge, d.h. Y_1 < Y_2 < \cdots Y_C
f_{ij} ist die Häufigkeit in Bezug zur Zelle (i,j)
r_i = \sum_{j=1}^{C}f_{ij} ist die Teilsumme der iten Zeile
c_j = \sum_{i=1}^{R}f_{ij} ist die Teilsumme der jten Spalte
N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i ist die Gesamtanzahl.

Rand und Zelle

Statistik Formel und Erklärung
Anzahl f_{ij}
Erwartete Anzahl E_{ij} = \frac{r_i c_j}{N}
Prozent Zeile 100*\frac{f_{ij}}{r_i}
Prozent Spalte 100*\frac{f_{ij}}{c_j}
Prozent gesamt 100*\frac{f_{ij}}{N}
Residuum R_{ij} = f_{ij} - E_{ij}
Std. Residuum StdR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}}}
Kor. Residuum AdjR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}\left(1-\frac{r_i}{N}\right)\left(1-\frac{c_j}{N}\right)}}

Chi-Quadrat-Statistik

Statistik Formel und Erklärung Freiheitsgrade
Pearsons Chi-Quadrat \chi_p^2 = \sum_{ij} \frac{(f_{ij}-E_{ij})^2}{E_{ij}} (R-1)(C-1)
Likelihood-Verhältnis \chi_{LR}^2 = -2\sum_{ij} f_{ij} \ln (E_{ij}/f_{ij}) (R-1)(C-1)
Lineare Assoziation \chi_{LA}^2 = (N-1)r^2, wobei r der Korrelationskoeffizient nach Pearson ist. 1
Kontinuitätskorrektur \chi_C^2 = \frac{N(|f_{11}f_{22}-f_{12}f_{21}|-0.5N)^2}{r_1r_2c_1c_2} I(|f_{11}f_{22}-f_{12}f_{21}|>0.5N), das nur für 2 x 2-Tabellen berechnet wird. 1

Fishers Exakter Test

Dieser Test ist nützlich, wenn eine erwartete Zellenanzahl gering ist (weniger als 5). Er wird nur für 2 x 2-Tabellen berechnet. Angenommen, Sie haben folgende Tabelle:

X_1 X_2 Teilsumme/Summe
Y_1 n_1 n_3 n_1+n_3
Y_2 n_2 n_4 n_2+n_4
Teilsumme/Summe n_1+n_2 n_3+n_4 N

Unter der Nullhypothese (Unabhängigkeit) ist die Anzahl der ersten Zelle N_1 eine hypergeometrische Verteilung mit einer Wahrscheinlichkeit gegeben mit

Pr(N_1=n_1) = \frac{(n_1+n_2)!(n_3+n_4)!(n_1+n_3)!(n_2+n_4)!}{N!n_1!n_2!n_3!n_4!}, \max(0,n_1-n_4)\leq N_1 \leq \min(n_1+n_2,n_1+n_3).

Einseitiger Test

Das Signifikanzniveau des einseitigen Tests wird berechnet mit

p(left-sided test) = Pr(N_1\leq n_1)
p(right-sided test) = Pr(N_1\geq n_1)

Zweiseitiger Test

Die zweiseitige Signifikanz ist

p_2 = p_1 + p_3

wobei

p_{1}= Pr(N_1\leq n_1), wenn n_{1}\leq (n_{1}+n_{2})(n_{1}+n_{3})/N
p_{1}= Pr(N_1\geq n_1), wenn n_{1}>(n_{1}+n_{2})(n_{1}+n_{3})/N


p_3 = \sum_{x:\text{ between }\min(n_1+n_2,n_1+n_3) \text{ and } (n_1+1); Pr(N_1=x) \leq Pr(N_1=n_1)} Pr(N_1=x)

Assoziationsmaße

Definieren

D_r = N^2 - \sum_{i=1}^{R}r_i^2
D_c = N^2 - \sum_{j=1}^{C}c_j^2
C_{ij} = \sum_{h<i}\sum_{k<j}f_{hk}+\sum_{h>i}\sum_{k>j}f_{hk}
D_{ij} = \sum_{h<i}\sum_{k>j}f_{hk}+\sum_{h>i}\sum_{k<j}f_{hk}
P = \sum_{ij}f_{ij}C_{ij}
Q = \sum_{ij}f_{ij}D_{ij}
r_i = \sum_{j=1}^{C}f_{ij} ist die Teilsumme der iten Zeile
c_j = \sum_{i=1}^{R}f_{ij} ist die Teilsumme der jten Spalte
N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i ist die Gesamtanzahl.
Statistik Formel und Erklärung Standardfehler
Phi-Koeffizient \phi = \sqrt{\chi_p^2/N}, das nicht für 2 x 2-Tabellen berechnet wird. Für eine 2 x 2-Tabelle ist er gleich r

Der Wert reicht von [0,M], wobei M = min(\sqrt{R-1},\sqrt{C-1}),

Cramérs V V = \sqrt{\frac{\chi_p^2}{N\min\{R,C\}}}
Kontingenzkoeffizient CC = \sqrt{\frac{\chi_p^2}{\chi_p^2+N}}
Gamma \gamma = \frac{P-Q}{P+Q} \frac{2}{P+Q}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
Kendall Tau-b \tau_b = \frac{P-Q}{\sqrt{D_rD_c}} 2\sqrt{\frac{1}{D_rD_c}\left[\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2\right]}
Tau-c \tau_c = \frac{(P-Q)q}{N^2(q-1)}, wobei q = \min\{R,C\} \frac{2q}{N^2(q-1)}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
Somers D C|R d_{C|R} = \frac{P-Q}{D_r} \frac{2}{D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
R|C d_{R|C} = \frac{P-Q}{D_c} \frac{2}{D_c}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
Symmetrisch d = 2\frac{P-Q}{D_c+D_r} \frac{4}{D_c+D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
Lambda C|R \lambda_{C|R} = \frac{1}{N-c_m}\left(\sum_{i=1}^{R}f_{im}-c_m\right), wobei f_{im} die größte Anzahl in der i-ten Zeile ist und c_m die größte Spaltenteilsumme. \sqrt{ \frac{ N - \displaystyle\sum_{i=1}^{R} f_{im} }{ (N-c_m)^3 } \left(\sum_{i=1}^{R} f_{im} + c_m -2\sum_{i=1}^{R} (f_{im}|l_i=l) \right) },

wobei l_i der Spaltenindex von f_{im} ist und l der Index der Spaltenteilsumme für c_m.

R|C \lambda_{R|C} = \frac{1}{N-r_m}\left(\sum_{j=1}^{C}f_{mj}-r_m\right),

wobei f_{mj} die größte Anzahl in der j-ten Spalte ist und r_m die größte Zeilenteilsumme.

\sqrt{ \frac{ N - \displaystyle\sum_{j=1}^{C} f_{mj} }{ (N-r_m)^3 } \left(\sum_{j=1}^{C} f_{mj} + r_m -2\sum_{j=1}^{C} (f_{mj}|k_j=k) \right) },

wobei k_j der Zeilenindex von f_{mj} ist und k der Index der Zeilenteilsumme für r_m.

Symmetrisch \lambda = \frac { \displaystyle \sum_{i=1}^{R}f_{im} + \sum_{j=1}^{C}f_{mj} - c_m - r_m }{2N-r_m-c_m} \frac{1}{w^2} \sqrt{ wvy - 2w^2\left( N-\sum_{i=1}^{R} (f_{im}|i=k_{l_i}) \right) - 2v^2(N-f_{kl}) }

wobei w=2N-r_m-c_m, v = 2N - \sum_{i=1}^{R}f_{im} - \sum_{j=1}^{C}f_{mj}, x = \sum_{i=1}^R (f_{im}|l_i=l) + \sum_{j=1}^C (f_{mj}|k_j=k) + f_{km} + f_{ml} und y = 8N - w - v - 2x.

Unsicherheit C|R U_{R|C} = \frac{U(X)+U(Y)-U(XY)}{U(Y)}, wobei U(X) = -\sum_{i=1}^{R}\frac{r_i}{N}\ln\frac{r_i}{N} und U(Y) = -\sum_{j=1}^{C}\frac{c_j}{N}\ln\frac{c_j}{N} und U(XY) = -\sum_{ij}\frac{f_{ij}}{N}\ln\frac{f_{ij}}{N} \frac{1}{NU(Y)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}, wobei P = \sum_{ij}f_{ij}\ln\left(\frac{r_ic_j}{f_{ij}N}\right)^2
R|C U_{C|R} = \frac{U(X)+U(Y)-U(XY)}{U(X)} \frac{1}{NU(X)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}
Symmetrisch U = 2\frac{U(X)+U(Y)-U(XY)}{U(X)+U(Y)} \frac{2}{N(U(X)+U(Y))}\sqrt{P-\frac{1}{N}\left(U(X)+U(Y)-U(XY)\right)^2}

Übereinstimmungsmaße

Diese Tabelle wird nur berechnet, wenn zwei Bedingungen erfüllt sind: (1) quadratische Tabelle, d.h. R=C, und (2) die Zeilenvariable und die Spaltenvariable die gleichen Werte haben.

Die Kappa-Statistik wird berechnet mit:

 \kappa = \frac{N\sum_{i=1}^{R}f_{ii} - \sum_{i=1}^{R}r_ic_i}{N^2 - \sum_{i=1}^{R}r_ic_i}

Der Standardfehler wird geschätzt mit:

SE_1 = \frac{1}{1-p_e} \sqrt{ \frac{A+B-C}{N} }.

wobei p_e = \frac{ \sum_{i=1}^R r_i c_i }{ N^2 },  A = \sum_{i=1}^R \frac{f_{ii}}{N} \left( 1-\frac{(r_i+c_i)(1- \kappa)}{N} \right)^2,
B = (1-\kappa)^2 \sum_{i=1}^R \sum_{j=1, j \ne i}^{C} \frac{f_{ij} (r_i+c_j)^2}{N^3} und C = \Bigl( \kappa - p_e( 1-\kappa ) \Bigr)^2.

Der entsprechende asymptotische Standardfehler unter der Nullhypothese \kappa = 0 ist gegeben mit

SE_0 = \sqrt{\frac{1}{N\left(N^2 - \sum_{i=1}^{R}r_ic_i\right)^2} \left[N^2\sum_{i=1}^{R}r_ic_i + \left(\sum_{i=1}^{R}r_ic_i\right)^2 - N \sum_{i=1}^{R}r_ic_i(r_i+c_i)\right]}

Eine weitere verwandte Statistik ist Bowker, die verwendet wird, um H_0: p_{ij} = p_{ji} für alle Paare zu testen. Wenn R>2, wird die Statistik berechnet als

Bo = \sum_{i=1}^R \sum_{j=1}^{j<i}\frac{(f_{ij}-f_{ji})^2}{f_{ij}+f_{ji}}

Für größere Samples ist Bo die asymptotische Chi-Quadrat-Verteilung mit dem Freiheitsgrad 0.5R(R-1).

Beachten Sie, dass Bowkers Test für 2 x 2-Tabellen gleich McNemars Test ist. Daher wird hier nur Bowkers Test gezeigt.

Quotenverhältnis und Relatives Risiko

Diese Statistik wird nur für 2 x 2-Tabellen berechnet.

Quotenverhältnis

Das Quotenverhältnis wird berechnet mit

OR = \frac{f_{11}f_{22}}{f_{12}f_{21}}

Relatives Risiko

Die relativen Risiken sind gegeben mit

P(Y_1|X_1)/P(Y_1|X_2) = \frac{f_{11}(f_{21}+f_{22})}{f_{21}(f_{11}+f_{12})}
P(Y_1|X_2)/P(Y_1|X_1) = \frac{f_{21}(f_{11}+f_{12})}{f_{11}(f_{21}+f_{22})}
P(Y_2|X_1)/P(Y_2|X_2) = \frac{f_{12}(f_{21}+f_{22})}{f_{22}(f_{12}+f_{11})}
P(Y_2|X_2)/P(Y_2|X_1) = \frac{f_{22}(f_{12}+f_{11})}{f_{12}(f_{21}+f_{22})}

Cochran-Mantel-Haenszel

Definieren

K ist die Anzahl der Layer
f_{ijk} ist die Häufigkeit in der i-ten Zeile, j-ten Spalte und im k-ten Layer
c_{jk} = \sum_{i=1}^{R} f_{ijk} ist die j-te Spalte, Teilsumme des k-ten Layers
r_{ik} = \sum_{j=1}^{C} f_{ijk} ist die i-te Zeile, Teilsumme des k-ten Layers
n_{k} = \sum_{i=1}^{R}\sum_{j=1}^{C} f_{ijk} ist die Teilsumme des k-ten Layers
E_{ijk} = \frac{r_{ik}c_{jk}}{n_k} ist die erwartete Häufigkeit in der i-ten Zeile, j-ten Spalte und im k-ten Layerzelle
\hat{p}_{ik} = \frac{f_{i1k}}{r_{ik}}, d_k = \hat{p}_{1k} - \hat{p}_{2k}, \hat{p}_{k} = \frac{c_{1k}}{n_{k}}

Mantel-Haenszel-Statistik

Die Mantel-Haenszel-Statistik ist gegeben mit

MH = \left(\sum_{k=1}^{K}\frac{r_{1k}r_{2k}}{n_k-1} \hat{p}_{k}(1-\hat{p}_{k}) \right)^{-1/2}\left(\big|\sum_{k=1}^{K} (f_{11k}-E_{11k})\big|-0.5\right)sgn\left(\sum_{k=1}^{K} (f_{11k}-E_{11k})\right)

wobei sgn die Vorzeichenfunktion sgn(x) = I(x>0)-I(x<0)+0*I(x=0) ist.


Breslow-Day-Statistik

Die Breslow-Day-Statistik ist

BD = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2

wobei V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}.

Tarones Statistik

Tarones Statistik ist

T = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2- \frac{\sum_{k=1}^{K}\left[f_{11k}-\hat{f}_{11k}\right]^2}{\sum_{k=1}^{K}\frac {1}{V_k} }

wobei V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}.

Allgemeines Quotenverhältnis

Für eine 2×2×K-Tabelle ist das Quotenverhältnis beim k-ten Layer OR_{k}. Angenommen, dass das wahre allgemeine Quotenverhältnis existiert, das OR_{1}=OR_{2}=...OR_{K} lautet, dann ist Mantel-Haenszels Schätzer des allgemeinen Quotenverhältnisses

\hat OR_{MH}=\frac{\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}{\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}

Die asymptotische Varianz für ln(\hat OR_{MH}) ist:

\hat Var[ln(\hat OR_{MH})]=\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{12k} f_{21k}+(f_{12k}+f_{21k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{12k}+f_{21k})f_{12k} f_{21k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}

Die untere Konfidenzgrenze (UEG) und obere Konfidenzgrenze (OEG) für ln(\hat OR_{MH}) sind:

ln(\hat OR_{MH})-z({alpha}/2)\sqrt{\hat Var[ln(\hat OR_{MH})]} und ln(\hat OR_{MH})+z(alpha/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}