Lambda und Tau nach Goodman & Kruskal

Zusammenhangsmasse bei Kreuztabellen

Ohne Frames


Die Zusammenhangsmasse Lambda und Tau nach Goodman &Kruskal lassen sich schlecht in Formeln wiedergeben. Deshalb hier ein paar Beispiele.

Beides sind PRE Masse, also Masszahlen für den Informationsgewinn, nachdem man eine Kreuztabelle vollständig ausgewertet hat.


zurück zum Glossar (lambda) 

 

zurück zum Glossar (tau)

 

Die Zusammenhangsmasse  Lambda und Tau (Goodman&Kruskal)

 

Lambda und Tau nach Goodman & Kruskal sind nicht ganz einfach zu durchschauende Masse für die Stärke des Zusammenhanges zweier nominalskalierter Variablen in einer Kreuztabelle.  

Die beiden Masse werden zwar mathematisch ähnlich berechnet, aber die Art der Informationsgenerierung aus den Tabellen ist sehr unterschiedlich. 

Dies wird anhand folgendem Beispiel verdeutlicht. 

 

                Lambda

 

Gegeben sei folgende zweidimensionale Kreuztabelle

 

Raucher/Nichtraucher sei unabhängige Variable, die Altersklasse sei die abhängige Variable
 

Unabhängige Variable

 

Weitere Informationen: 

40% aller Menschen seien Raucher 

Wichtig ist, dass sich die Stufen der Variablen gegenseitig ausschliessen (Man kann nicht zugleich Raucher und Nichtraucher sein, oder nicht zugleich älter und jünger als 50 Jahre sein) 

Raucher Nichtaucher
A

l

t

e

r

bis 20 jährig  40% 20% 0,4*0,4+0,2*0,6 =0,28
21 bis 50 jährig 30% 30% 0,4*0,3+0,6*0,3 =0,3
ab 51 jährig  30% 50% 0,4*0,3+0,6*0,5 =0.42
  100% 100%

1,00

Beispiel zum Verständnis: 

- Unter den maximal 20-Jährigen befinden sich 40% aller Raucher und 20% aller Nichtraucher. 

        Daraus kann man jedoch nicht ablesen, wieviele der maximal 20-Jährigen rauchen. 

 

Aussagen bezüglich des Beispiels Verallgemeinerung

Ohne Kenntnis des Rauchverhaltens liegt man am wenigsten falsch, wenn man sagt: 

"Alle Menschen sind 51 oder Älter". Man liegt so in immerhin 42% aller Fälle richtig. 

Ordne die Fälle jener Zeile der Tabelle zu, die insgesamt die höchste Besetzung aufweist. 

 Information über die unabhängige Variable (Rauchverhalten)  wird NICHT benutzt

Bezieht man das Rauchverhalten mit ein, so kann man eine genauere Aussage treffen: 

"Alle Raucher sind über 51 und alle Nichtraucher sind maximal 20"

Nun liegt man in 16+30 = 46% aller Fälle richtig und in 54 % aller Fälle falsch

Ordne innerhalb jeder Spalte die Fälle jener Zelle zu, die die höchste Besetzung aufweist.

 Information über die unabhängige Variable (Rauchverhalten) wird benutzt

 

Lambda wird nun wie folgt berechnet: 

(Anteil der neu hinzugekommenen richtigen Vorhersagen) / (Anteil der ursprünglich falschen Vorhersagen)

l=(46-42)/54 = 0.074 = 7.4%

Die relative Abnahme falscher Zuordnungen zu den Altersklassen durch Berücksichtigung des Rauchverhaltens liegt also bei 7.4%.

 

zurück zum Glossar (lambda) 

 

                Tau (Goodman & Kruskal) 

 

zurück zum Glossar (tau)

 

 

(selbes Zahlenbeispiel wie oben)

 
Aussagen bezüglich des Beispiels Verallgemeinerung
Ohne Kenntnis des Rauchverhaltens liegt man am wenigsten falsch, wenn man sagt:  

"28% sind bis 20-jährig, 30% 21 bis 50-jährig und 42% älter als 50." 

Man nimmt also einfach die Zeilensummen. Teilt man die Individuen gemäss diesen Prozentanteilen willkürlich in die 3 Altersklassen ein, dann hat somit in 0.282+0.302+0.422 = 0.345 = 34.5% aller Fälle recht und in 

65.5% aller Fälle unrecht. 

Ordne jeder Zeile der Tabelle soviele Fälle zu, wie sie in der Ausgangstabelle enthält.

 Information über die unabhängige Variable (Rauchverhalten) wird NICHT benutzt

Bezieht man das Rauchverhalten mit ein, so kann man eine genauere Aussage treffen: 
"40% der Raucher sind  maximal 20-jährig, 30% der Raucher zwischen 21 und 50 und 30% der Raucher älter als 50". 

Bei den Rauchern liegt man in 0.42+0.32+0.32 =  0.34 = 34 % aller Fälle richtig, 

bei den Nichtrauchern entsprechend in 0.22+0.32+0.52 =0.38 = 38% aller Fälle. 

Da insgesamt 40% rauchen und 60% nicht, gilt für den Anteil Fälle, bei dem man richtig liegt: 

0.34*0.4 + 0.38*0.6 = 0.364 = 36.4% 

-> Man hat in 63.6% aller Fälle unrecht.

Ordne innerhalb jeder Spalte jeder Zelle der Tabelle soviele Fälle zu, wie sie in der entsprechenden Spalte Ausgangstabelle enthält.

 Information über die unabhängige Variable (Rauchverhalten) wird benutzt

 

t wird nun wie folgt berechnet:  

(Anteil der neu hinzugekommenen richtigen Vorhersagen) / (Anteil der ursprünglich falschen Vorhersagen)

t = (65.5-63.6) / 65.5 = 0.029 = 2.9%

 

Die relative Abnahme falscher Zuordnungen zu den Altersklassen durch Berücksichtigung des Rauchverhaltens liegt also bei 2.9%. 

 

zurück zum Glossar (lambda) 

 

zurück zum Glossar (tau)

 

16.07.2006

Datenschutzhinweise