Diskriminanzanalyse

Inhalt


Die Diskriminanzanalyse wird verwendet, um eindeutige Beobachtungen zu unterscheiden und neue Beobachtungen in zuvor definierte Gruppen zuzuordnen. Diese Methode wird gemeinhin in biologischen Klassifizierungen von Spezien verwendet, in medizinischen Klassifizierungen von Tumoren, in Gesichtserkennungstechnologien und im Bereich von Kreditkarten und Versicherungen zur Bestimmung von Risiken verwendet.

Ziele

Es gibt zwei Hauptziele für die Diskriminanzanalyse:

  • Diskrimination
    Ein Klassifizierer wird erzeugt, der einen Satz von Beobachtungen in einer bekannten Grundgesamtheit unterscheidet.
  • Klassifizierung
    Unbeschriftete Beobachtungen werden mit Hilfe eines Klassifizierers in beschriftete Gruppen verteilt. Hauptsächlich soll hier ein Klassifizierer abgeleitet werden, der verwendet werden kann, um neue Beobachtungen in beschriftete Klassen zu sortieren.

Annahmen

Das Diskriminanzmodell hat folgende Annahmen:

  • Multivariate Normalverteilung
    Datenwerte stammen aus einer Normalverteilung. Wir können einen Test auf Normalverteilung verwenden, um dies zu verifizieren. Bitte beachten Sie jedoch, dass die Annahme von Normalverteilung normalerweise nicht alles entscheidend ist. Die sich ergebenden Signifikanztests können trotzdem zuverlässig sein[2]
  • Gleichheit der Varianz-Kovarianz innerhalb der Gruppe
    Die Kovarianzmatrix innerhalb jeder Gruppe sollte gleich sein. Der Gleichheitstest der Kovarianzmatrizen kann verwendet werden, um dies zu verifizieren. Sollten Zweifel bestehen, führen Sie die Analysen erneut aus, indem Sie die quadratische Methode verwenden oder mehr Beobachtungen hinzufügen oder eine oder zwei Gruppen ausschließen.
  • Geringe Multikollinearität der Variablen
    Wenn eine hohe Multikollinearität unter zwei oder mehr Variablen besteht, sind die Diskriminanzfunktionskoeffizienten nicht zuverlässig hinsichtlich ihrer Vorhersage der Gruppenzugehörigkeit. Wir können eine gepoolte Korrelationsmatrix innerhalb der Gruppen verwenden, um Multikollinearität zu entdecken. Wenn es Korrelationskoeffizienten gibt, die größer als 0,8 sind, schließen Sie bitte einige Variablen aus oder führen Sie zuerst die Hauptkomponentenanalyse durch.

Verarbeitungsvorgang

Analysedaten vorbereiten

  • Ausreichend großer Stichprobenumfang
    In der Regel sollte der Stichprobenumfang der kleinsten Gruppe die Anzahl von Variablen überschreiten. Normalerweise ist es am besten, wenn es für jede Variable mindestens 20 gibt. Auch wenn ein kleinerer Stichprobenumfang funktionieren kann, wird er nicht empfohlen. Es sollte mindestens 5 Beobachtungen für jede Variable geben.
  • Unabhängige Zufallsstichproben (keine Ausreißer)
    Die Diskriminanzanalyse macht es erforderlich, dass die Beobachtungen unabhängig voneinander sind, d.h. keine wiederholten Messungen oder verbundenen Datenpaare. Außerdem ist die Diskriminanzanalyse sehr empfindlich gegenüber dem Einschließen von Ausreißern. Um Ausreißer zu beobachten, können wir Boxdiagramme verwenden oder verdächtige Punkte in einem Kanonischen Score-Diagramm für jedes Paar kanonischer Funktionen prüfen.
  • Geeignete Variablen auswählen
    Unterdrückende Variablen sollten ausgeschlossen werden. Wir können dies bewerten, indem wir uns die Tabelle der Univariaten ANOVA ansehen.
  • Stichprobe teilen
    Die Klassifizierungszusammenfassung der Schulungsdaten wertet die Beobachtung mit Hilfe der Diskriminanzfunktionen aus, die aus den gleichen Daten abgeleitet werden. Die "Fehlerrate" ist normalerweise größer, wenn der Anwender die Testdaten auswertet, die nicht für die Schätzung der Diskriminanzfunktion verwendet werden. Im Normalfall teilen wir die Beobachtungen zufällig in Teildatensätze. Der erste Teildatensatz wird für die Schätzung des Diskriminanzmodells (Schulungsdatensatz) verwendet und der zweite für das Testen der Zuverlässigkeit der Ergebnisse (Testdatensatz). Wenn der Anwender jedoch die Stichprobe teilen will, sollte sie groß genug sein. Gewöhnlich ist der Stichprobenumfang größer als 100[3],[4].

Annahmen überprüfen

Der Test auf Normalverteilung, der Gleichheitstest der Kovarianzmatrizen und die gepoolte Korrelationsmatrix innerhalb von Gruppen können verwendet werden, um die Annahmen zu verifizieren. Bitte lesen Sie weitere Informationen unter Annahmen.

Diskriminanzmethode auswählen

  • Linear oder quadratisch
    Die quadratische Diskriminanzanalyse (QDA) entspricht der linearen Diskriminanzanalyse (LDA), nur dass die Kovarianzmatrix in der LDA identisch ist. Wenn der Gleichheitstest der Kovarianzmatrizen fehlschlägt, sollten Sie die QDA verwenden.
    Obwohl die QDA hinsichtlich der Kovarianzmatrix flexibler ist als die LDA, muss sie mehr Parameter schätzen. Bei der QDA haben Sie eine separate Kovarianzmatrix für jede Gruppe. Das heißt, wenn Sie viele Gruppen haben, aber nicht so viele Beobachtungen, empfiehlt sich die QDA nicht.
Hinweis: Die LDA ist die lineare Variante der Diskriminanzfunktion und die QDA ist die quadratische Variante.
  • Identifizierbare A-priori-Zugehörigkeitswahrscheinlichkeiten
    Die Diskriminanzanalyse nimmt an, dass die A-priori-Zugehörigkeitswahrscheinlichkeiten der Gruppen identifizierbar sind. Wenn die Größen der Grundgesamtheit der Gruppe nicht gleich sind, unterscheiden sich die A-priori-Zugehörigkeitswahrscheinlichkeiten möglicherweise. Wenn Sie herausfinden, dass N für jede Gruppe in der Tabelle der deskriptiven Statistik unterschiedlich ist, verwenden Sie bitte die Option Proportional zur Gruppengröße für A-priori-Zugehörigkeitswahrscheinlichkeiten.

Ergebnisse interpretieren und verifizieren

Lesen Sie auf der Seite Ergebnisse interpretieren Informationen zum Bearbeiten der Diskriminanzfunktionen, um beurteilen zu können, ob die Diskriminanzfunktionen gut sind oder nicht, und die Beobachtungen zu klassifizieren.

Um die Ergebnisse zu verifizieren, können wir das Ergebnis der Testdaten und der Kreuzvalidierung der Schulungsdaten auswerten. Bitte beachten Sie jedoch, dass beide Methoden von der Größe des Stichprobenumfangs beeinflusst werden. Wenn der Stichprobenumfang klein ist, ist das Ergebnis womöglich nicht zuverlässig.

Hinweis: Die Kreuzvalidierung wird auch als Leave-one-out-Kreuzvalidierung bezeichnet. Wenn Sie N Beobachtungen haben, wird die Diskriminanzanalyse N-mal ausgeführt. Jedes Mal wird die Analyse für alle Daten außer einem Punkt durchgeführt. Für diesen Punkt wird eine Prognose durchgeführt.

Diskriminanzanalyse durchführen

  • Wählen Sie Statistik: Multivariate Analyse: Diskriminanzanalyse.
    Oder
  • Geben Sie discrim -d im Skriptfenster ein.

 

 

Themen, die in diesem Abschnitt behandelt werden: