Algorithmen (Kolmogorov-Smirnov-Test bei zwei Stichproben)

Die Vorgehensweise unten basiert auf NAG-Algorithmen.

Es werden zwei unabhängige Stichproben betrachtet, X und Y, mit der Größe n_1\,\! und n_2\,\! . Sie werden als x_1,x_2,\ldots ,x_{n_1}\,\! bzw. y_1,y_2,\ldots ,y_{n_1}\,\! bezeichnet. Angenommen, F(x) und G(x) stellen ihre jeweiligen unbekannten Verteilungsfunktionen dar. Weiterhin wird angenommen, dass  S_1(x)\,\! und  S_2(x)\,\! die Stichprobenwerte der empirischen Verteilungsfunktionen bezeichnen.

Die Nullhypothese: F(x)=G(x)

Die Alternativhypothese ist H_1\,\!:F(x)<>G(x), der zugehörige p-Wert ist eine beidseitige Wahrscheinlichkeit;

oderH_1\,\! :F(x)>G(x), der zugehörige p-Wert ist eine obere Wahrscheinlichkeit,

oder H_1\,\!: F(x)<G(x), der zugehörige p-Wert ist eine untere Wahrscheinlichkeit.

Im ersten Fall von H_1\,\! stellt die Statistik D_{n_1,n_2} \,\! die größte absolute Abweichung der zwei empirischen Verteilungsfunktionen dar.

Im zweiten Fall von H_1\,\! stellt die Statistik D_{n_1,n_2}^{+} \,\! die größte positive Abweichung zwischen der empirischen Verteilungsfunktion der ersten Stichprobe und der empirischen Verteilungsfunktion der zweiten Stichprobe dar, das heißt D_{n_1,n_2}^{+}=\max \{S_1(x)-S_2(x),0\}\,\!.

Im dritten Fall von H_1\,\! stellt die Statistik D_{n_1,n_2}^{-} \,\! die größte positive Abweichung zwischen der empirischen Verteilungsfunktion der zweiten Stichprobe und der empirischen Verteilungsfunktion der ersten Stichprobe dar, das heißt D_{n_1,n_2}^{-}=\max \{S_2(x)-S_1(x),0\}\,\!.

KS-test2 gibt auch die Standardstatistik Z=\sqrt{(n_1*n_2)/(n_1+n_2)}*D\,\! zurück,

wobei D\,\! vielleicht D_{n_1,n_2}\,\!,D_{n_1,n_2}^{+} \,\!, D_{n_1,n_2}^{-} \,\! abhängig von der Wahl der Alternativhypothese.

Die Verteilung der Statistik Z\,\! konvergiert asymptotisch zu einer Verteilung nach Smirnov, wenn n_1\,\! und n_2\,\! steigen. Es wird die Wahrscheinlichkeit berechnet, unter der Nullhypothese einen Wert der Teststatistik zu erhalten, der so extrem ist, wie der beobachtete Wert.

Bei max(n_1,n_2)\leq 2500\,\! und n_1*n_2\leq 10000\,\! steht eine genaue Methode nach Kim und Jinrich zur Verfügung. Ansonsten wird p\,\! berechnet mit Hilfe der von Kim and Jenrich (1973) vorschlagenenen Approximationen.

Beachten Sie, dass die verwendete Methode nur für kontinuierliche theoretische Verteilungen verwendet wird.

Diese Methode berechnet die beidseitige Wahrscheinlichkeit. Die einseitigen Wahrscheinlichkeiten werden mit Hilfe der beidseitigen Wahrscheinlichkeit geschätzt. Dies ist eine gute Schätzung für kleine p\,\!, das heißt p\leq 0.10\,\!, wird aber schwächer für größere p\,\!.

Weitere Einzelheiten zum dem Algorithmus finden Sie unter nag_2_sample_ks_test (g08cdc).