Diskriminanzanalyse

Diskriminanzanalyse

Diskriminanzanalyse ist im Gegensatz zur Clusteranalyse ein Strukturen-prüfendes Verfahren.

Zur Kategorie der Explorativen Datenanalyse gehörendes, selbstlernendes Verfahren.

Kein datenreduzierendes Verfahren. Auf dem allgemeinen linearen Modell beruhendes Verfahren.

Diskriminanzanalyse ist im Gegensatz zur Clusteranalyse liegt der Fokus nicht auf der Clusterbildung, sondern der Trennung der Objekte bezüglich bestimmter, vorgegebener Merkmale. Die Objekte diesseits und jenseits der Trennlinien (Diskriminanzfunktionen) müssen nicht unbedingt Cluster darstellen.

Von der Struktur her gewissermassen eine Umkehrung der Clusteranalyse, weil die Klassen oder Gruppen fest vorgegeben sind.

Diskriminanzanalyse kann demnach zur Überprüfung einer Clusteranalyse herangezogen werden.

2 Sichtweisen:

In welchen Variablen unterscheiden sich die Mitglieder verschiedener vorgegebener Gruppen?
Kann man eine Gruppenzugehörigkeit mit Hilfe der Diskriminanzfunktion vorhersagen?

Es wird eine Diskriminanzfunktion berechnet, die praktisch ein lineares Gleichungssystem darstellt, mit so vielen Gleichungen, wie Cluster vorgegeben sind.

Die Fragestellung lautet also:

Welche Linearkombinationen der Variablen trennt am Besten zwischen den Clustern?”

Es gilt: Gesamtsreuung = Streuung innerhalb der Cluster + Streuung zwischen den Clustern, also unerklärte Streuung + erklärte Streuung.

Der (hoffentlich kleine) Quotient [Streuung innerhalb der Cluster] / [Gesamtstreuung], "Wilks Lambda" ist das gebräuchlichste Mass für die Güte der Diskriminanzfunktion.

Anwendungsbeispiele:

· medizinische Diagnostik: --> Die Ausprägung bestimmter Symptome deutet auf eine bestimmte Krankheit hin.

· Wettervorhersage: --> Ähnliche Wetterlagen haben ähnliche Wetterfolgen.

· Spracherkennung --> Bestimmte Lautkombinationen deuten auf bestimmte Worte hin.

· Wartungskonzepte --> Die Ausprägung der Fehlzustände deutet auf eine bestimmte Fehlerursache hin.

· Kundenprofile --> Kunden mit bestimmtem Kaufverhalten bezüglich bereits gekaufter Produkte kaufen auch ein bestimmtes neues Produkt.

Beispielskizze:

Anhand eines Trainingsdatensatzes soll ein Lineares Gleichungssystem (LGS) ermittelt werden, das drei Weintypen anhand von Alkoholgehalt, Süsse, Trübung, usw. beschreibt. Das LGS wird an einem weiteren Testdatensatz validiert und ggfs. korrigiert.
Das LGS kann neue Weine anhand von Alkoholgehalt, Süsse, Trübung, usw. klassifizieren.

Wenn sich keine zuverlässige Diskriminanzfunktion finden lässt, dann kann man mit Neuronalen Netzwerken arbeiten.

Datenschutzhinweise