Hauptkomponentenanalyse

 

Video Image.png Video Text Image.png Website blog icon circle.png Blog Image 33x33px.png

Zusammenfassung

Die Hauptkomponentenanalyse eignet sich zum Reduzieren und Interpretieren von großen multivariaten Datensätzen mit zugrundeliegenden linearen Strukturen und zum Entdecken von unerwarteten Beziehungen.

Es wird von einem Datensatz ausgegangen, der den Eiweißverbrauch in 25 europäischen Ländern für neun Lebensmittelgruppen enthält. Mit Hilfe der Hauptkomponentenanalyse wird das Verhältnis zwischen Eiweißquellen und diesen europäischen Ländern untersucht.

 

Hauptmethoden auswählen

Um die Anzahl der zu verbleibenden Hauptkomponenten zu ermitteln, sollten Sie zuerst die Hauptkomponentenanalyse durchführen und dann auf Grundlage deren Ergebnisses fortfahren:

  1. Öffnen Sie ein neues Projekt oder eine neue Arbeitsmappe. Importieren Sie die Datendatei \samples\Statistics\Protein Consumption in Europe.dat
  2. Markieren Sie das gesamte Arbeitsblatt und wählen Sie dann Statistik: Multivariate Analyse: Hauptkomponentenanalyse.
  3. Akzeptieren Sie die Standardeinstellungen in dem geöffneten Dialog und klicken Sie auf OK
  4. Wählen Sie das Blatt PCA Report aus.
  5. In der Tabelle Eigenwerte der Korrelationsmatrix können Sie sehen, dass die ersten vier Hauptkomponenten 86% der Varianz erklären und die verbleibenden Komponenten jeweils 5% oder weniger beitragen. Wir behalten vier Hauptkomponenten.
    PCA.png
  6. Ein Scree-Diagramm kann als visuelles Hilfsmittel beim Bestimmen der geeigneten Anzahl von Hauptkomponenten nützlich sein. Die Anzahl der Komponenten richtet sich nach dem Punkt, an dem die verbleibenden Eigenwerte relativ klein und ungefähr alle gleich groß sind. Dieser Punkt ist nicht sehr offensichtlich im Scree-Diagramm, trotzdem kann gesagt werden, dass der vierte Punkt dieser besondere Punkt ist.
    Pca scree plot.png
  7. Klicken Sie auf das Schlosssymbol Icon Recalculate Manual Green.png im Ergebnisbaum und wählen Sie Parameter ändern im Kontextmenü. Setzen Sie auf der Registerkarte Einstellungen die Anzahl der zu extrahierenden Komponenten auf 4. Schließen Sie den Dialog nicht; in den nächsten Schritten erstellen Sie die Diagramme der Komponenten.
    DOC-2411 Pca ex1 dialog1a Magenta.png

Abrufen von Hauptkomponentendiagrammen

Im Zweig Zeichnungen des Dialogs können Anwender wählen, ob sie ein Scree- oder ein Komponentendiagramm erstellen möchten.

  • Scree-Diagramm
    Das Scree-Diagramm ist eine nützliche visuelle Hilfe, um eine angemessene Anzahl von Hauptkomponenten zu bestimmen.
  • Komponentendiagramm
    Komponentendiagramme zeigen den Score der Komponenten jeder Beobachtung oder die Komponentenladung jeder Variable für ein Paar von Hauptkomponenten. In der Gruppe Hauptkomponenten zum Zeichnen auswählen können Anwender festlegen, welches Komponentenpaar gezeichnet werden soll. Die Komponentendiagramme umfassen:
    • Ladungsdiagramm
      Das Ladungsdiagramm ist eine Zeichnung der Beziehung zwischen den ursprünglichen Variablen und den Unterraumdimensionen. Es wird verwendet, um die Beziehungen zwischen den Variablen zu interpretieren.
    • Score-Diagramm
      Das Score-Diagramm ist eine Projektion von Daten auf den Unterraum. Es wird verwendet, um die Beziehungen zwischen den Beobachtungen zu interpretieren.
    • Biplot
      Der Biplot zeigt beide Ladungen und die Scores für beide ausgewählte Komponenten parallel.
  1. In dem Dialog, das in den vorherigen Schritten aufgerufen wurde, erweitern Sie den Zweig Zeichnungen. Stellen Sie sicher, dass Scree-Diagramm, Ladungsdiagramm und Biplot aktiviert sind.
  2. Die ersten beiden Komponenten sind normalerweise für den Großteil der Varianz verantwortlich. Deswegen zeichnen Sie das Komponentendiagramm im Raum der ersten beiden Hauptkomponenten. Setzen Sie in der Gruppe Hauptkomponenten zum Zeichnen auswählen die Hauptkomponente für X-Achse auf 1 und die Hauptkomponente für Y-Achse auf 2. Klicken Sie auf OK.
    DOC-2411 Pca ex1 dialog2a Magenta.png

Ergebnisse interpretieren

  1. In der Korrelationsmatrix können Sie sehen, dass die Variablen stark korreliert sind. Viele Werte sind größer als 0,3. Mit der Hauptkomponentenanalyse können Sie die Kollinearität entfernen.
    Pca ex1 correlation matrix.png
  2. Die Hauptkomponentenvariablen werden als lineare Kombinationen der ursprünglichen Variablen definiert. Die Tabelle Extrahierte Eigenwerte bietet Koeffizienten für Gleichungen.
    Pca ex1 extracted eigenvectors.png
    PC1=0.30261*RedMeat + 0.31056*WhiteMeat + 0.42668*Eggs + 0.37773*Milk + 0.13565*Fish - 0.43774*Cereals + 0.29725*Starch - 0.42033*Nuts - 0.11042*FruitsVegetables
    PC2=-0,05625*RedMeat - 0,23685*WhiteMeat - 0,03534*Eggs - 0,18459Milk + 0,64682*Fish - 0,23349*Cereals + 0,35283*Starch + 0,14331*Nuts + 0,53619*FruitsVegetables
    PC1=-0,29758*RedMeat + 0,6239*WhiteMeat + 0,18153*Eggs + 0,38566*Milk + 0,32127*Fish - 0,09592*Cereals + 0,24298*Starch - 0,05439*Nuts - 0,40756*FruitsVegetables
    PC4=0,64648*RedMeat - 0,03699*WhiteMeat + 0,31316Eggs - 0,00332*Milk - 0,21596*Fish - 0,0062*Cereals - 0,33668*Starch + 0,33029*Nuts + 0,46206*FruitsVegetables
  3. Das Ladungsdiagramm macht die Beziehungen zwischen den Variablen im Raum der ersten beiden Komponenten deutlich. Im Ladungsdiagramm ist zu sehen, dass rotes Fleisch, Eier, Milch und weißes Mehl ähnlich starke Ladungen für Hauptkomponente 1 haben. Fisch, Obst und Gemüse haben dagegen eine ähnliche Ladung für Hauptkomponente 2.
    Pca ex1 loading plot.png
  4. Der Biplot zeigt beide Ladungen und die Scores für beide ausgewählte Komponenten parallel. Er kann die Projektion der Beobachtung auf den Unterraum mit den Scorepunkten aufzeigen Außerdem kann er das Verhältnis von Beobachtungen und Variablen im Unterraum der ersten beiden Komponenten darstellen. (Hinweis: Klicken Sie doppelt auf das Diagramm, um es zu öffnen und benutzerdefiniert anzupassen.)
  5. Verwenden Sie das Hilfsmittel Datenkoordinaten Button Data Reader.png, um das Dateninfofenster zu öffnen und die Zeichnung in ihren Einzelheiten zu untersuchen. Klicken Sie auf einen Datenpunkt, um die Komponentenwerte für jedes Land abzulesen. Es ist zu erkennen, dass die Eiweißquellen von Spanien und Portugal sich von denen der anderen europäischen Länder unterscheiden. Spanien und Portugal greifen mehr auf Obst und Gemüse zurück, während osteuropäische Ländern wie Albanien, Bulgarien, Jugoslawien und Rumänien Getreideprodukte und Nüsse bevorzugen.
    Pca ex1 biplot.png
Um Länderinformationen im Fenster Daten Info, wie im Bild oben zu sehen, anzuzeigen,
  1. klicken Sie mit der rechten Maustaste in das Fenster Daten Info und wählen Einstellungen.
  2. Markieren Sie Country im linken Bedienfeld, klicken Sie dann auf die Schaltfläche Auswählen (der nach rechts weisende Pfeil), um das Land zur Anzeige der Dateninfos hinzuzufügen, und klicken Sie dann auf OK.
    Pca data info settings.png

Hinweis: Seit Origin 2019 können Sie einfach mit dem Cursor über einen Datenpunkt fahren, um einen Tooltipp mit Informationen zu den Datenpunktkoordinaten anzuzeigen. Sowohl der Tooltipp als auch die Dateninfoanzeige sind benutzerdefiniert anpassbar. Siehe weitere Informationen zu Das Fenster Dateninfo und der Tooltipp der Datenpunkte.

 

3D-Komponentendiagramm erstellen

  1. Klicken Sie auf das Schlosssymbol Icon Recalculate Manual Green.png im Ergebnisbaum und wählen Sie Parameter ändern im Kontextmenü.
  2. Setzen Sie auf der Registerkarte Diagramme den Komponentendiagrammtyp auf 3D. Geben Sie 4 im Feld Hauptkomponenten für Z-Achse ein.
    PCA 3D plot 01.png
  3. Klicken Sie auf OK, um den Dialog zu schließen. Die Zeichnungsdaten der Hauptkomponentenanalyse und das 3D-Ladungsdiagramm werden, wie folgt, erstellt.
    PCA 3D plot 02.png
    PCA 3D plot 03.png