Zusätzliche Informationen zu R-Quadrat

Wie gut ist die Anpassung? Eine nahe liegende Metrik ist die Nähe der angepassten Kurve zu den tatsächlichen Datenpunkten. Vom vorhergehenden Abschnitt wissen wir, dass die Residuensumme der Quadrate (RSS) oder der reduzierte Chi-Quadrat-Wert ein quantitativer Wert ist, der zum Bewerten dieser Abstandsart verwendet werden kann. Der Wert der Summe der Fehlerquadrate (RSS) variiert von Datensatz zu Datensatz, so dass es notwendig ist, diesen Wert in einen einheitlichen Bereich neu zu skalieren. Andererseits wird der Mittelwert des Y-Werts zum Beschreiben des Datenmerkmals möglicherweise bevorzugt. In diesem Fall ist die angepasste Kurve eine horizontale Linie y=\overline{y} und der Prädiktor X kann den Y-Wert nicht linear vorhersagen. Um dies zu prüfen, berechnen wir zunächst die Abweichung zwischen Datenpunkten und dem Mittelwert:

TSS=\sum_{i=1}^n(y_i-\overline{y})^2 \,\!

Bei der Methode der kleinsten Quadrate kann der TSS in zwei Teile geteilt werden: die durch Regression erklärte Abweichung und der ungeklärte Teil:

  • Die Quadratsumme der Regression SSreg ist der Teil der Abweichung, der durch das Regressionsmodell erklärt wird.

SSreg=\sum_{i=1}^n(\widehat{y_i}-\overline{y})^2 \,\!

  • Die Residuensumme der Quadrate RSS ist der Teil der Abweichung, der durch das Regressionsmodell nicht erklärt wird.

RSS=\sum_{i=1}^n(y_i-\widehat{y_i})^2 \,\!

Je näher die angepasste Kurve an den Datenpunkten liegt, desto kleiner ist die RSS und desto größer ist der Anteil der Gesamtabweichung, die durch das SSreg dargestellt wird. Folglich kann das Verhältnis von SSreg zu TSS als ein Maß der Qualität des Regressionsmodells verwendet werden. Diese Menge -- bezeichnet als der Determinationskoeffizient -- wird wie folgt berechnet:

R^2=\frac{SSreg}{TSS}=1-\frac{RSS}{TSS} \,\!

In der obigen Gleichung können Sie sehen, dass bei der Verwendung eines guten Anpassungsmodells R^2 zwischen 0 und 1 variieren sollte. Ein Wert, der nahe an 1 liegt, weist darauf hin, dass die Anpassung gut ist.

Mathematisch gesprochen beeinflusst der Freiheitsgrad R^2. Das heißt, durch Hinzufügen von Variablen zum Modell steigt R^2. Dies bedeutet nicht, dass die Anpassung besser wird. Um diesen Effekt zu vermeiden, können wir das korrigierte R^2 betrachten.

\overline{R}^2=1-\frac{RSS/df_{Error}}{TSS/df_{Total}} \,\!

In der Gleichung können wir sehen, dass das korrigierte R^2 die Steigung von R^2 ausgleicht, insbesondere beim Anpassen einer kleinen Stichprobengröße (n) durch ein Modell mit mehreren Prädiktorvariablen (k). Obwohl wir den Determinationskoeffizienten als "R -Quadrat” bezeichnen, ist er eigentlich kein "Quadrat"-Wert von R. In den meisten Fällen liegt der Wert zwischen 0 und 1. Sie können aber auch negative R-Quadratwerte erhalten, wenn die Anpassung schlecht ist. Dies liegt daran, dass die Gleichung zum Berechnen von R^2 ist R^2 = 1 - RSS / TSS. Der zweite Term wird größer als 1, wenn ein schlechtes Modell verwendet wird.

Dennoch ist die Verwendung von R^2 oder dem korrigierten R^2 nicht ausreichend. Im folgenden Diagramm zum Beispiel mag die angepasste Kurve in den Zeichnungen B-D zwar einen hohen R^2-Wert besitzen, die Modelle sind aber offenbar falsch. Daher ist es nötig, das Regressionsergebnis durch die Residuenanalyse zu prüfen.

Goodness of Fit.jpg

R-Quadrat in linearer Anpassung

Lineare Anpassung für Schnittpunkt mit der Y-Achse eingeschlossen

Wenn der Schnittpunkt mit der Y-Achse in den linearen Fit eingeschlossen ist, gilt die Beziehung:

\sum_{i=1}^n (y_i-\bar{y})^2 = \sum_{i=1}^n (y_i-f(x_i))^2 + \sum_{i=1}^n (f(x_i)-\bar{y})^2

wobei (x_i, y_i) \; i=1..n \; Anpassungsdaten sind, \bar{y} den Mittelwert der abhängigen Variablen bezeichnet und f(x_i) \; der angepasste Wert ist.

Die linke Seite in der oben stehenden Gleichung ist die Gesamtsumme der Quadrate, d.h.

TSS = \sum_{i=1}^n (y_i-\bar{y})^2

Der erste Term rechts ist die Summe der Fehlerquadrate, d.h.

RSS = \sum_{i=1}^n (y_i-f(x_i))^2

Der zweite Term rechts ist die Summe der Quadrate, die auf die Regression zurückzuführen ist, d.h.

SSR = \sum_{i=1}^n (f(x_i)-\bar{y})^2

Daher TSS = RSS + SSR.

Der Koeffizient der Determination (R-Quadrat) wird definiert durch das Verhältnis von SSR zu TSS:

R^2=\frac{SSR}{TSS}=1-\frac{RSS}{TSS}=1-\frac{\sum_{i=1}^n (y_i-f(x_i))^2}{\sum_{i=1}^n (y_i-\bar{y})^2}

Deswegen misst R-Quadrat den Anteil der Variation der abhängigen Variablen über den Mittelwert, der durch die Anpassung erklärt wird, wenn der Schnittpunkt mit der Y-Achse eingeschlossen ist.

Lineare Anpassung für festen Schnittpunkt mit der Y-Achse

Wenn der Schnittpunkt mit der Y-Achse jedoch in der linearen Anpassung festgelegt ist, wird das obenstehende Verhältnis unter Lineare Anpassung für Schnittpunkt mit der Y-Achse eingeschlossen nicht erfüllt. Für eine schlechte Anpassung kann sich ein negativer Wert für R-Quadrat ergeben, wenn die Definition unter Lineare Anpassung für Schnittpunkt mit der Y-Achse eingeschlossen verwendet wird. Dies macht keinen Sinn.

Wenn der Schnittpunkt mit der Y-Achse in die linearen Anpassung eingeschlossen ist, gilt das Verhältnis:

\sum_{i=1}^n y_i^2 = \sum_{i=1}^n (y_i-f(x_i))^2 + \sum_{i=1}^n (f(x_i))^2

TSS und SSR müssen dann neu definiert werden. RSS bleibt unverändert.

TSS = \sum_{i=1}^n y_i^2
SSR = \sum_{i=1}^n (f(x_i))^2

Der Koeffizient der Determination (R-Quadrat) wird folgendermaßen neu definiert:

R^2=\frac{SSR}{TSS}=1-\frac{RSS}{TSS}=1-\frac{\sum_{i=1}^n (y_i-f(x_i))^2}{\sum_{i=1}^n y_i^2}

Auf diese Weise ist der Wert von R-Quadrat immer nicht negativ. Das R-Quadrat misst den Anteil der Variation der abhängigen Variable um den Wert Null wie von der Anpassung erklärt, wenn der Schnittpunkt mit der Y-Achse festgelegt ist.