Die
Zusammenhangsmasse Lambda und Tau nach Goodman &Kruskal lassen sich
schlecht in Formeln wiedergeben. Deshalb hier ein paar Beispiele.
Beides sind PRE
Masse, also Masszahlen für den Informationsgewinn, nachdem man eine
Kreuztabelle vollständig ausgewertet hat.
Die Zusammenhangsmasse Lambda und Tau (Goodman&Kruskal)
Lambda und Tau nach Goodman & Kruskal sind nicht ganz einfach zu durchschauende Masse für die Stärke des Zusammenhanges zweier nominalskalierter Variablen in einer Kreuztabelle.
Die beiden Masse werden zwar mathematisch ähnlich berechnet, aber die Art der Informationsgenerierung aus den Tabellen ist sehr unterschiedlich.
Dies wird anhand folgendem Beispiel verdeutlicht.
Gegeben sei folgende zweidimensionale Kreuztabelle.
Raucher/Nichtraucher sei unabhängige Variable, die Altersklasse sei die abhängige Variable
Unabhängige Variable |
Weitere Informationen: 40% aller Menschen seien Raucher Wichtig ist, dass sich die Stufen der Variablen gegenseitig ausschliessen (Man kann nicht zugleich Raucher und Nichtraucher sein, oder nicht zugleich älter und jünger als 50 Jahre sein) |
||||
Raucher | Nichtaucher | ||||
A
l t e r |
bis 20 jährig | 40% | 20% | 0,4*0,4+0,2*0,6 =0,28 | |
21 bis 50 jährig | 30% | 30% | 0,4*0,3+0,6*0,3 =0,3 | ||
ab 51 jährig | 30% | 50% | 0,4*0,3+0,6*0,5 =0.42 | ||
100% | 100% |
1,00 |
Beispiel zum Verständnis:
- Unter den maximal 20-Jährigen befinden sich 40% aller Raucher und 20% aller Nichtraucher.
Daraus kann man jedoch nicht ablesen, wieviele der maximal 20-Jährigen rauchen.
Aussagen bezüglich des Beispiels | Verallgemeinerung |
Ohne Kenntnis des Rauchverhaltens liegt man am wenigsten falsch, wenn man sagt: "Alle Menschen sind 51 oder Älter". Man liegt so in immerhin 42% aller Fälle richtig. |
Ordne die Fälle jener Zeile der Tabelle zu, die
insgesamt die höchste Besetzung aufweist.
Information über die unabhängige Variable (Rauchverhalten) wird NICHT benutzt |
Bezieht man das Rauchverhalten mit ein, so kann man eine genauere Aussage treffen: "Alle Raucher sind über 51 und alle Nichtraucher sind maximal 20" Nun liegt man in 16+30 = 46% aller Fälle richtig und in 54 % aller Fälle falsch |
Ordne innerhalb jeder Spalte die Fälle jener Zelle
zu, die die höchste Besetzung aufweist.
Information über die unabhängige Variable (Rauchverhalten) wird benutzt |
Lambda wird nun wie folgt berechnet:
(Anteil der neu hinzugekommenen richtigen Vorhersagen) / (Anteil der ursprünglich falschen Vorhersagen)
l=(46-42)/54 = 0.074 = 7.4%
Die relative Abnahme falscher Zuordnungen zu den Altersklassen durch Berücksichtigung des Rauchverhaltens liegt also bei 7.4%.
(selbes Zahlenbeispiel wie oben)
Aussagen bezüglich des Beispiels | Verallgemeinerung |
Ohne Kenntnis des Rauchverhaltens liegt man am
wenigsten falsch, wenn man sagt:
"28% sind bis 20-jährig, 30% 21 bis 50-jährig und 42% älter als 50." Man nimmt also einfach die Zeilensummen. Teilt man die Individuen gemäss diesen Prozentanteilen willkürlich in die 3 Altersklassen ein, dann hat somit in 0.282+0.302+0.422 = 0.345 = 34.5% aller Fälle recht und in 65.5% aller Fälle unrecht. |
Ordne jeder Zeile der Tabelle soviele Fälle zu, wie
sie in der Ausgangstabelle enthält.
Information über die unabhängige Variable (Rauchverhalten) wird NICHT benutzt |
Bezieht man das Rauchverhalten mit ein, so kann man
eine genauere Aussage treffen: "40% der Raucher sind maximal 20-jährig, 30% der Raucher zwischen 21 und 50 und 30% der Raucher älter als 50". Bei den Rauchern liegt man in 0.42+0.32+0.32 = 0.34 = 34 % aller Fälle richtig, bei den Nichtrauchern entsprechend in 0.22+0.32+0.52 =0.38 = 38% aller Fälle. Da insgesamt 40% rauchen und 60% nicht, gilt für den Anteil Fälle, bei dem man richtig liegt: 0.34*0.4 + 0.38*0.6 = 0.364 = 36.4% -> Man hat in 63.6% aller Fälle unrecht. |
Ordne
innerhalb jeder Spalte jeder Zelle der Tabelle soviele Fälle zu, wie
sie in der entsprechenden Spalte Ausgangstabelle enthält.
Information über die unabhängige Variable (Rauchverhalten) wird benutzt |
t wird nun wie folgt berechnet:
(Anteil der neu hinzugekommenen richtigen Vorhersagen) / (Anteil der ursprünglich falschen Vorhersagen)
t = (65.5-63.6) / 65.5 = 0.029 = 2.9%
Die relative Abnahme falscher Zuordnungen zu den Altersklassen durch Berücksichtigung des Rauchverhaltens liegt also bei 2.9%.
16.07.2006