Algorithmus (Hauptkomponentenanalyse)

Inhalt


Die Hauptkomponentenanalyse untersucht die Beziehungen zwischen den Variablen. Sie kann verwendet werden, um die Anzahl der Variablen in Regression, Clustering usw. zu reduzieren.

Jede Hauptkomponente in der Hauptkomponentenanalyse ist die lineare Kombination der Variable und ergibt eine maximierte Varianz. X sein eine Matrix für n Beobachtungen nach p Variablen, und die Kovarianzmatrix sei S. Für eine lineare Kombination der Variablen

z_1=\sum_{i=1}^p a_{1i}x_i

, wobei x_i\ die i-te Variable ist, sind a_{1i} \ i=1,2,...,p die linearen Kombinationskoeffizienten für z_1\ . Sie können die durch einen Spaltenvektor a_1\ gekennzeichnet und durch a_1^Ta_1=1 normiert werden. Die Varianz von z_1\ ist a_1^TSa_1.

Der Vektor a_1\ wird durch Maximieren der Varianz gefunden. Und z_1\ wird als erste Hauptkomponente bezeichnet. Die zweite Hauptkomponente kann auf die gleiche Weise durch Maximieren gefunden werden:

a_2^TSa_2 unterliegt den Nebenbedingungen a_2^Ta_2=1 und a_2^Ta_1=0

Es ergibt die zweite Hauptkomponente, die wie die erste orthogonal ist. Die verbleibenden Hauptkomponenten können auf ähnliche Weise abgeleitet werden. Tatsächlich können Koeffizienten a_1, a_2, ..., a_p\ aus den Eigenvektoren der Matrix S berechnet werden. Origin verwendet verschiedene Methoden je nach der Art und Weise, wie fehlende Werte ausgeschlossen werden.

Listenweiser Ausschluss von fehlenden Werten

Eine Beobachtung, die einen oder mehrere fehlende Werte enthält, wird aus der Analyse ausgeschlossen. Eine Matrix X_s\ für SVD kann von X abgeleitet werden, abhängig von dem Matrixtyp für die Analyse.

Matrixtyp für Analyse

  • Kovarianzmatrix
X_s\ sei die Matrix X, bei der von jeder Variable der Mittelwert jeder Spalte subtrahiert wird und jede Spalte nach \frac{1}{\sqrt{n-1}} skaliert wird.
  • Korrelationsmatrix
X_s\ sei die Matrix X, bei der der Mittelwert jeder Spalte von jeder Variable subtrahiert wird und jede Spalte durch \frac{1}{\sqrt{n-1}\sigma_i} skaliert wird, wobei \sigma_i\ die Standardabweichung der i-ten Variable ist.

Zu berechnende Eigenschaften

SVD wird durchgeführt für X_s\ .

X_s=V\Lambda P^T\

wobei V eine n x p-Matrix mit V^TV=I\ , P eine p x p-Matrix und eine diagonale Matrix mit diagonalen Elementen s_i \ i=1, 2, ..., p ist.

  • Eigenwerte
\lambda_i=s_i^2
Eigenwerte sind in absteigender Ordnung sortiert. Der Anteil der Varianz erklärt durch die i-te Hauptkomponente lautet \lambda_i/\sum_{k=1}^p \lambda_k.
  • Eigenvektoren
Eigenvektoren sind auch bekannt als Ladungen oder Koeffizienten für Hauptkomponenten. Jede Spalte in P ist der Eigenvektor, der dem Eigenwert oder der Hauptkomponente entspricht.
Beachten Sie, dass das Vorzeichen des Eigenvektors für SVD nicht einzigartig ist. Origin normiert die Vorzeichen, indem es die Summe jeder Spalte positiv macht.
  • Scores
Jede Spalte in \sqrt{n-1}V\Lambda entspricht den Scores je nach Hauptkomponente. Scores sind die fehlenden Werte entsprechend einer Beobachtung, die fehlende Werte enthält.
Beachten Sie, dass die Varianz der Scores für jede Hauptkomponente gleich dem entsprechenden Eigenwert für diese Methode ist.
  • Standardisierte Scores
Scores für jede Hauptkomponente werden standardisiert, so dass sie über Varianz bezüglich der Einheiten verfügen.

Paarweiser Ausschluss von fehlenden Werten

Eine Beobachtung wird aus der Berechnung der Kovarianz oder Korrelation zwischen zwei Variablen nur ausgeschlossen, wenn fehlende Werte in einer der zwei Variablen für die Beobachtung existieren.

Eigenwerte und Eigenvektoren werden aus der Kovarianz- oder Korrelationsmatrix S berechnet.

SP=PD\

, wobei P eine p x p -Matrix und D eine Diagonalmatrix mit diagonalen Elementen \lambda_i \ i=1, 2, ..., p ist.

  • Eigenwerte
\lambda_i\ ist der i-te Eigenwert für die i-te Hauptkomponente. Und Eigenwerte werden in absteigender Reihenfolge sortiert.
Beachten Sie, dass Eigenwerte für fehlende Werte, die paarweise ausgeschlossen wurden, negativ sein können, was für Hauptkomponenten keinen Sinn macht. Origin setzt die Ladung und Scores für einen negativen Eigenwert auf Null.
  • Eigenvektoren
Jede Spalte in P ist der Eigenvektor, der dem Eigenwert oder der Hauptkomponente entspricht.
Beachten Sie, dass das Vorzeichen des Eigenvektors nicht einzigartig ist. Origin normiert die Vorzeichen, indem es die Summe jeder Spalte positiv macht.
  • Scores
V=X_0P\
wobei X_0\ die Matrix X ist, bei der der Mittelwert von jeder Spalte von jeder Variablen subtrahiert wurde.
Scores sind die fehlenden Werte entsprechend einer Beobachtung, die fehlende Werte enthält.
Beachten Sie, dass die Varianz der Scores für jede Hauptkomponente gleich dem entsprechenden Eigenwert für diese Methode ist.
  • Standardisierte Scores
Scores für jede Hauptkomponente werden nach der Quadratwurzel ihres Eigenwerts skaliert.

Bartletts Test

Bartletts Test testet die Gleichheit der verbleibenden p-k Eigenwerte. Er ist nur verfügbar, wenn die Analysematrix eine Kovarianzmatrix ist.

H_0:\lambda_{k+1}=\lambda_{k+2}=...=\lambda_{p} k=0, 1, ..., p-2\

Es nähert sich einer \chi_2\ Verteilung an mit \frac{1}{2}(p-k-1)(p-k+2) Freiheitsgraden.

(n-1-(2p+5)/6)\Big\{-\sum_{i=k+1}^p \mathrm{log}(\lambda_i)+(p-k)\mathrm{log}(\sum_{i=k+1}^p \lambda_i/(p-k))\Big\}