Ergebnisse der Diskriminanzanalyse interpretieren
Diskriminanzberichtsblatt
Deskriptive Statistik
Die Tabelle der deskriptiven Statistik eignet sich zum Bestimmen der Art der Variablen. Sie erhalten Informationen zu Betrag und fehlenden Werten der Daten. Die Prüfung von Mittelwerten und Standardabweichungen kann univariate/variate Differenzen zwischen Gruppen aufdecken.
Kovarianzmatrix (gesamt)
Die Kovarianzmatrix (gesamt) enthält die Kovarianzmatrix der gesamten Beobachtungen, indem alle Beobachtungen als eine einzelne Stichprobe behandelt werden.
Korrelationsmatrix (gesamt)
Die Tabelle kann verwendet werden, um die Beziehung zwischen den Variablen aufzuzeigen.
Gruppendistanzmatrix
Die Gruppendistanzmatrix enthält die Mahalanobis-Distanzen zwischen Gruppenmittelwerten.
Univariate ANOVA
Die Tabelle dient zum Testen der Differenz von Gruppenmittelwerten für jede Variable. Wenn der Wert von Wahrsch.>F kleiner als 0,05 ist, bedeutet dies, dass die Mittelwerte jeder Gruppe signifikant unterschiedlich sind. Bitte beachten Sie, dass das Ergebnis der Tabelle nicht zuverlässig ist, wenn die Variablen miteinander verwandt sind. Diese univariate Perspektive bedingt keine geteilte Varianz (Korrelation) unter den Variablen.
Gleichheitstest der Kovarianzmatrizen
Die Diskriminanzanalyse setzt voraus, dass die Kovarianzmatrizen äquivalent sind. Wenn die Annahme nicht gerechtfertigt ist, gibt es mehrere Optionen, wie weiter vorgegangen werden kann, u.a. Entfernen der Ausreißer, Datentransformation und Verwenden der separaten Kovarianzmatrizen anstatt der gepoolten, die normalerweise für die Diskriminanzanalyse, d.h. die quadratische Methode, verwendet wird.
Protokoll der Determinanten
Die Tabelle gibt das natürliche Protokoll der Determinanten von der Kovarianzmatrix jeder Gruppe und die gepoolte Kovarianz innerhalb der Gruppen aus. Idealerweise sollten die Determinanten fast gleich sein, um der Annahme der Gleichheit der Kovarianzmatrizen zu entsprechen.
Likelihood-Verhältnis-Test
Der Likelihood-Verhältnis-Test prüft, ob die Kovarianzmatrizen der Grundgesamtheit innerhalb der Gruppen gleich sind. Wenn der p-Wert > 0,05 ist, kann gesagt werden, dass die Kovarianzmatrizen gleich sind. Bitte beachten Sie die Annahme, dass die Daten einer multivariaten Normalverteilung mit der Varianz-Kovarianz-Matrix der Gruppe folgen. Da jedoch die Diskriminanzanalyse eher robust ist gegen den Verstoß dieser Annahmen, müssen Sie im Allgemeinen nicht allzu viel Gewicht auf signifikante Ergebnisse für diesen Test legen.
Gepoolte Kovarianz-/Korrelationsmatrix innerhalb von Gruppen
Die gepoolte Korrelationsmatrix innerhalb der Gruppen bietet bivariate Korrelationen zwischen allen Variablen. Sie kann verwendet werden, um potenzielle Probleme mit Multikollinearität zu erkennen. Bitte achten Sie darauf, ob mehrere Korrelationskoeffizienten größer sind als 0,8.
Kovarianzmatrix innerhalb von Gruppen
Separate Kovarianzmatrizen für jede Gruppe
Kanonische Diskriminanzanalyse
Eigenwerte
Die Tabelle der Eigenwerte gibt die Eigenwerte der Diskriminanzfunktionen aus. Außerdem deckt sie die kanonische Korrelation für die Diskriminanzfunktion auf. Je größer der Eigenwert ist, desto größer ist die Varianzmenge, die die lineare Kombination der Variablen gemeinsam hat. Die Eigenwerte werden in absteigender Ordnung nach Wichtigkeit sortiert. Der erste erklärt immer die Mehrheit der Varianz in der Beziehung.
Die zweite Spalte der Tabelle, Prozentsatz der Varianz, zeigt die Wichtigkeit der Diskriminanzfunktion. Die dritte Spalte, Kumulativ, enthält den kumulativen Prozentsatz der Varian, sobald jede Funktion zu der Tabelle hinzugefügt wird. Wenn es mehrere Diskriminanzfunktionen gibt, können Sie für die ersten paar Funktionen mit kumulativen Prozentsätzen, die größer als 90% sind, festhalten, dass diese die wichtigsten in der Analyse sind.
Die vierte Spalte, Kanonische Korrelation, enthält den kanonischen Korrelationskoeffizienten für jede Funktion. Wir können sagen, dass der kanonische Korrelationswert der r-Wert ist zwischen Diskriminanz-Scores für die Funktion und jeder Gruppe. Er kann auch dazu verwendet werden, die Wichtigkeit jeder Diskriminanzfunktion zu vergleichen.
Wilks' Lambda-Test
Wilks' Lambda-Test prüft, welche Variable Signifikanz zu der Diskriminanzfunktion beiträgt. Je näher Wilks' Lambda bei 0 liegt, desto mehr trägt die Variable zu der Diskriminanzfunktion bei. Die Tabelle beinhaltet auch eine Chi-Quadrat-Statistik, um die Signifikanz von Wilk's Lambda zu testen. Wenn der p-Wert kleiner als 0,05 ist, können wir schließen, dass die entsprechende Funktion die Gruppenzugehörigkeit gut erklären wird.
Standardisierte kanonische Koeffizienten
Die standardisierten kanonischen Diskriminanzkoeffizienten können verwendet werden, um die Wichtigkeit jeder Variablen nach Rang zu ordnen. Eine hoch standardisierte Diskriminanzfunktionskoeffizient kann bedeuten, dass sich die Gruppen bei dieser Variablen sehr unterscheiden.
Nicht standardisierte kanonische Koeffizienten
Die nicht standardisierten kanonischen Koeffizienten sind die Schätzung der Parameter Ci der Gleichung unten:
wobei
- Dj ist der Diskriminanz-Score für die j-te Beobachtung.
- Xij ist die j-teBeobachtung für die i-teVariable.
Der Zweck der kanonischen Diskriminanzanalyse besteht darin, die beste Koeffizientenschätzung herauszufinden, um die Differenz der mittleren Diskriminanz-Scores zwischen den Gruppen zu maximieren.
Kanonische Strukturmatrix
Die kanonische Strukturmatrix offenbart die Korrelationen zwischen den Variablen im Modell und den Diskriminanzfunktionen. Man kann sagen, dass sie Faktorladungen der Variablen für jede Diskriminanzfunktion sind. Auf diese Weise ist es möglich, Korrelationen zu vergleichen und zu sehen, wie eng eine Variable mit jeder Funktion verbunden ist. Im Allgemeinen wird eine Variable mit einer Korrelation von 0,3 oder größer als wichtig betrachtet.
Die kanonische Strukturmatrix sollte verwendet werden, um die Diskriminanzfunktionen mit sinnvollen Beschriftungen zu versehen. Die standardisierten Diskriminanzfunktionskoeffizienten sollten verwendet werden, um die Wichtigkeit des Beitrags jeder unabhängigen Variablen zur Diskriminanzfunktion zu bewerten.
Kanonische Gruppenmittelwerte
Die kanonischen Gruppenmittelwerte werden auch als Gruppenzentroide bezeichnet und stellen den Mittelwert für die Scores der kanonischen Beobachtungen jeder Gruppe da, die mit Gleichung (1) berechnet werden. Je größer die Differenz zwischen den kanonischen Gruppenmittelwerten ist, desto besser ist das Vorhersagevermögen der kanonischen Diskriminanzfunktion beim Klassifizieren der Beobachtungen.
Koeffizienten der linearen Diskriminanzfunktion
Die Tabelle der Koeffizienten der linearen Diskriminanzfunktion interpretiert die Theorie Fishers, d.h., sie ist nur verfügbar, wenn der Modus Linear für die Diskriminanzfunktion ausgewählt.
Die linearen Diskriminanzfunktionen, auch "Klassifizierungsfunktionen" genannt , für jede Beobachtung haben folgende Form:
wobei
- Ck ist der Klassifizierungsscore für Gruppe k.
- C's sind die Koeffizienten in der Tabelle.
Für eine Beobachtung können wir den Score für jede Gruppe durch den Koeffozienten gemäß Gleichung (2) berechnen. Die Beobachtung sollte der Gruppe mit dem höhsten Score zugewiesen werden.
Außerdem sind die Koeffizienten hilfreich bei der Entscheidung, welche Variable bei der Klassifizierung einen größeren Einfluss hat. Beim Vergleichen der Werte zwischen den Gruppen stellt sich heraus, dass der höhere Koeffizient bedeutet, dass die Variable mehr zu dieser Gruppe beiträgt.
Klassifizierungsergebnis für Schulungsdaten
Klassifizierungsanzahl
Die Zeilen in der Tabelle der Klassifizierungsanzahl stellen die beobachteten Gruppen der Beobachtungen dar und die spalten die vorhergesagten Gruppen. Die Werte in der Diagonalen der Tabelle geben die korrekte Klassifizierung der Beobachtungen in Gruppen wieder.
Fehlerrate
Die Tabelle der Fehlerrate listet die A-priori-Zugehörigkeitswahrscheinlichkeit von jeder Gruppe und die Rate der Fehlklassifizierung auf.
Zusammenfassung der Kreuzvalidierung für Schulungsdaten
Bei der Kreuzvalidierung werden die Schulungsdaten wie Testdaten behandelt. Schließen Sie sie aus den Schulungsdaten aus, um zu beurteilen, für welche Gruppe sie klassifiziert werden sollten, und prüfen Sie dann, ob die Klassifizierung korrekt ist oder nicht. Die Tabellen Klassifizierungsanzahl und Fehlerrate haben die gleiche Bedeutung wie der Zweig Klassifizierungszusammenfassung für Schulungsdaten.
Klassifizierungszusammenfassung für Testdaten
Die Tabelle Klassifizierungszusammenfassung für Testdaten fasst zusammen, wie Testdaten klassifiziert sind. Sie listet auf, wie viele Testdaten in jeder Gruppe sind und die entsprechenden Prozentsätze.
Diagramm der Klassifizierungszusammenfassung
Das Diagramm der Klassifizierungszusammenfassung zeigt die beobachtete Gruppe vs. die vorhergesagten Gruppen. Je größer der Anteil der Gruppenfarbe im Balken ist, desto korrekter ist die Klassifizierung.
Diagramm der Klassifizierungsanpassung
Die Werte in der Diagonalen der Klassifizierungstabelle geben die korrekte Klassifizierung der einzelnen Daten in Gruppen wieder, indem die A-posteriori-Zugehörigkeitswahrscheinlichkeit der Beobachtungen vs. ihre Scores in den Diskriminanzdimensionen gezeichnet werden. Hierbei sollte auf die Ausreißer geachtet werden, die die Beobachtung zeigen, die möglicherweise fehlklassifiziert ist.
Kanonisches Score-Diagramm
Das kanonische Score-Diagramm zeigt, wie die ersten zwei kanonischen Funktionen Beobachtungen zwischen Gruppen klassifizieren, indem der Beobachtungsscore, berechnet durch Gleichung (1), gezeichnet wird. Das Diagramm bietet eine kurze Zusammenfassung der Trennung von Beobachtungen. Je deutlicher die Beobachtungen gruppiert werden können, desto besser ist das Diskriminanzmodell.
Hinweis: Es werden nur für die ersten beiden kanonischen Funktionen kanonische Score-Diagramme bereit gestellt, da sie auch diejenigen mit der meisten Varianz im Diskriminanzmodell wiedergeben. Wenn Sie jedoch ein kanonisches Score-Diagramm für andere kanonische Funktionen zeichnen möchten, nutzen Sie bitte die Daten in dem Blatt Canonical Scores. |
Schulungs-/Testergebnis
Klassifizierung
Es werden die Schulungsdaten sowie die beobachtete Gruppe und die vorhergesagte Gruppe in den Schulungsergebnissen gezeigt. Aus den Spalten Aus Gruppe und Zugewiesen zur Gruppe kann die Klassififizierungszusammenfassung für Schulungsdaten geschlussfolgert werden.
A-posteriori-Zugehörigkeitswahrscheinlichkeit
Die A-posteriori-Zugehörigkeitswahrscheinlichkeit gibt die Wahrscheinlichkeit an, dass die Beobachtung in der Gruppe ist. Die Beobachtung wird der Gruppe mit der höhsten A-posteriori-Zugehörigkeitswahrscheinlichkeit zugeordnet.
Typikalitätsindex
Der Typikalitätsindex stellt die Wahrscheinlichkeit dar, eine Beobachtung zu erhalten, die typischer für die vorhergesagte als für die beobachtete Gruppe ist. Wenn die meisten Werte in der Spalte des Typikalitätsindexes nah bei 1 liegen, bedeutet das, dass die Beobachtungen von einer Gruppierung kommen, die nicht im Schulungsdatensatz dargestellt ist.
Distanz
Die Distanz sind die Mahalanobis-Distanzen von jedem Gruppenmittelwert zu der Beobachtung. Die Beobachtung wird in die Gruppe klassifiziert, die ihr am nächsten liegt, d.h. der Distanzwert ist der kleinste.
Kanonische Scores
Das Blatt der kanonischen Scores listet die Beobachtungen in den Schulungs- und Testdatensätzen und die entsprechenden kanonischen Scores, die durch die Gleichung (1) berechnet wurden, auf.
|