Algorithmus (Hauptkomponentenanalyse)

Inhalt

1 Listenweiser Ausschluss von fehlenden Werten
- 1.1 Matrixtyp für Analyse
- 1.2 Zu berechnende Eigenschaften
2 Paarweiser Ausschluss von fehlenden Werten
3 Bartletts Test

Die Hauptkomponentenanalyse untersucht die Beziehungen zwischen den Variablen. Sie kann verwendet werden, um die Anzahl der Variablen in Regression, Clustering usw. zu reduzieren.

Jede Hauptkomponente in der Hauptkomponentenanalyse ist die lineare Kombination der Variable und ergibt eine maximierte Varianz. X sein eine Matrix für n Beobachtungen nach p Variablen, und die Kovarianzmatrix sei S. Für eine lineare Kombination der Variablen

$z_1=\sum_{i=1}^p a_{1i}x_i$

, wobei $x_i\$ die i-te Variable ist, sind $a_{1i} \ i=1,2,...,p$ die linearen Kombinationskoeffizienten für $z_1\$ . Sie können die durch einen Spaltenvektor $a_1\$ gekennzeichnet und durch $a_1^Ta_1=1$ normiert werden. Die Varianz von $z_1\$ ist $a_1^TSa_1$ .

Der Vektor $a_1\$ wird durch Maximieren der Varianz gefunden. Und $z_1\$ wird als erste Hauptkomponente bezeichnet. Die zweite Hauptkomponente kann auf die gleiche Weise durch Maximieren gefunden werden:

$a_2^TSa_2$ unterliegt den Nebenbedingungen $a_2^Ta_2=1$ und $a_2^Ta_1=0$

Es ergibt die zweite Hauptkomponente, die wie die erste orthogonal ist. Die verbleibenden Hauptkomponenten können auf ähnliche Weise abgeleitet werden. Tatsächlich können Koeffizienten $a_1, a_2, ..., a_p\$ aus den Eigenvektoren der Matrix S berechnet werden. Origin verwendet verschiedene Methoden je nach der Art und Weise, wie fehlende Werte ausgeschlossen werden.

Listenweiser Ausschluss von fehlenden Werten

Eine Beobachtung, die einen oder mehrere fehlende Werte enthält, wird aus der Analyse ausgeschlossen. Eine Matrix $X_s\$ für SVD kann von X abgeleitet werden, abhängig von dem Matrixtyp für die Analyse.

Matrixtyp für Analyse

Kovarianzmatrix

$X_s\$ sei die Matrix X, bei der von jeder Variable der Mittelwert jeder Spalte subtrahiert wird und jede Spalte nach $\frac{1}{\sqrt{n-1}}$ skaliert wird.

Korrelationsmatrix

$X_s\$ sei die Matrix X, bei der der Mittelwert jeder Spalte von jeder Variable subtrahiert wird und jede Spalte durch $\frac{1}{\sqrt{n-1}\sigma_i}$ skaliert wird, wobei $\sigma_i\$ die Standardabweichung der i-ten Variable ist.

Zu berechnende Eigenschaften

SVD wird durchgeführt für $X_s\$ .

$X_s=V\Lambda P^T\$

wobei V eine n x p-Matrix mit $V^TV=I\$ , P eine p x p-Matrix und eine diagonale Matrix mit diagonalen Elementen $s_i \ i=1, 2, ..., p$ ist.

Eigenwerte

$\lambda_i=s_i^2$

Eigenwerte sind in absteigender Ordnung sortiert. Der Anteil der Varianz erklärt durch die i-te Hauptkomponente lautet $\lambda_i/\sum_{k=1}^p \lambda_k$ .

Eigenvektoren

Eigenvektoren sind auch bekannt als Ladungen oder Koeffizienten für Hauptkomponenten. Jede Spalte in P ist der Eigenvektor, der dem Eigenwert oder der Hauptkomponente entspricht.

Beachten Sie, dass das Vorzeichen des Eigenvektors für SVD nicht einzigartig ist. Origin normiert die Vorzeichen, indem es die Summe jeder Spalte positiv macht.

Scores

Jede Spalte in $\sqrt{n-1}V\Lambda$ entspricht den Scores je nach Hauptkomponente. Scores sind die fehlenden Werte entsprechend einer Beobachtung, die fehlende Werte enthält.

Beachten Sie, dass die Varianz der Scores für jede Hauptkomponente gleich dem entsprechenden Eigenwert für diese Methode ist.

Standardisierte Scores

Scores für jede Hauptkomponente werden standardisiert, so dass sie über Varianz bezüglich der Einheiten verfügen.

Paarweiser Ausschluss von fehlenden Werten

Eine Beobachtung wird aus der Berechnung der Kovarianz oder Korrelation zwischen zwei Variablen nur ausgeschlossen, wenn fehlende Werte in einer der zwei Variablen für die Beobachtung existieren.

Eigenwerte und Eigenvektoren werden aus der Kovarianz- oder Korrelationsmatrix S berechnet.

$SP=PD\$

, wobei P eine p x p -Matrix und D eine Diagonalmatrix mit diagonalen Elementen $\lambda_i \ i=1, 2, ..., p$ ist.

Eigenwerte

$\lambda_i\$ ist der i-te Eigenwert für die i-te Hauptkomponente. Und Eigenwerte werden in absteigender Reihenfolge sortiert.

Beachten Sie, dass Eigenwerte für fehlende Werte, die paarweise ausgeschlossen wurden, negativ sein können, was für Hauptkomponenten keinen Sinn macht. Origin setzt die Ladung und Scores für einen negativen Eigenwert auf Null.

Eigenvektoren

Jede Spalte in P ist der Eigenvektor, der dem Eigenwert oder der Hauptkomponente entspricht.

Beachten Sie, dass das Vorzeichen des Eigenvektors nicht einzigartig ist. Origin normiert die Vorzeichen, indem es die Summe jeder Spalte positiv macht.

Scores

$V=X_0P\$

wobei $X_0\$ die Matrix X ist, bei der der Mittelwert von jeder Spalte von jeder Variablen subtrahiert wurde.

Scores sind die fehlenden Werte entsprechend einer Beobachtung, die fehlende Werte enthält.

Beachten Sie, dass die Varianz der Scores für jede Hauptkomponente gleich dem entsprechenden Eigenwert für diese Methode ist.

Standardisierte Scores

Scores für jede Hauptkomponente werden nach der Quadratwurzel ihres Eigenwerts skaliert.

Bartletts Test

Bartletts Test testet die Gleichheit der verbleibenden p-k Eigenwerte. Er ist nur verfügbar, wenn die Analysematrix eine Kovarianzmatrix ist.

$H_0:\lambda_{k+1}=\lambda_{k+2}=...=\lambda_{p} k=0, 1, ..., p-2\$

Es nähert sich einer $\chi_2\$ Verteilung an mit $\frac{1}{2}(p-k-1)(p-k+2)$ Freiheitsgraden.

$(n-1-(2p+5)/6)\Big\{-\sum_{i=k+1}^p \mathrm{log}(\lambda_i)+(p-k)\mathrm{log}(\sum_{i=k+1}^p \lambda_i/(p-k))\Big\}$

Skip Navigation Links

All Books

Origin Help

Statistics

Multivariate Analysis (Pro Only)

Principal Component Analysis

English | Deutsch | 日本語