Cohens Kappa, Cohens weighted Kappa und Fleiss Kappa für Urteilsübereinstimmung

Ohne Frames

Cohens Kappa und Fleiss' Kappa behandeln die Urteilsübereinstimmung von mehreren Urteilern (engl.: rater).
Cohens Kappa gilt für zwei Beurteiler, Fleiss' Kappa für mehr als zwei Urteiler.

Zurück zum Glossar (Cohen's Kappa)

Cohen's Kappa

Masszahl der Urteilsübereinstimmung bei 2 Beurteilern.

Für mehr als 2 Beurteiler siehe Fleiss' Kappa.

Anwendbar bei Nominalem Skalenniveau.

Cohen's Kappa unterscheidet nur pauschal zwischen Urteilsübereinstimmung und Nicht-Übereinstimmung.

Eine detailliertere Betrachtungsweise findet man bei Cohen's weighted Kappa.

Beispiel: Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker.

Allgemeine Tabelle

	Kritiker A
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden. Kritiker B		gut	mittel	schlecht
	gut	h₁₁	h₁₂	h₁₃	h_1x
	mittel	h₂₁	h₂₂	h₂₃	h_2x
	schlecht	h₃₁	h₃₂	h₃₃	h_3x
		h_x1	h_x2	h_x3	N

Zahlenbeispiel

	Kritiker A
Kritiker B		gut	mittel	schlecht
	gut	53	5	2	60
	mittel	11	14	5	30
	schlecht	1	6	3	10
		65	25	10	100
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden.

Die Wahrscheinlichkeit (~ relative Häufigkeit) dafür, dass beide Kritiker sich einig sind, wird durch die Hauptdiagonale repräsentiert und beträgt:

hier im Beispiel: = (53+14+3)/100 = 0.7

Dies muss man auf diejenige Häufigkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen würden.

Die zufällig zu erwartenden Häufigkeiten lassen sich aus den Randhäufigkeiten h_xy berechnen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlicher beschrieben.

hier im Beispiel: =(65*60 + 25*30 + 10*10)/(100*100) =0.475

Cohens Kappa Koeffizient ist definiert als:

Cohens Kappa hier im Beispiel = 0.429

Signifikanztest

Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit

Erwartungswert	0
Standardabweichung

In diesem Beispiel ist Cohens Kappa Standardabweichung Beispiel

=0.079

Das standardisierte k ist Prüfgrösse und berechnet sich zu k/s = 0.429/0.079 = 5.43

Mit der Excelfunktion STANDNORMVERT(5.43) erhält man das einseitige Signifikanzniveau von 99.99972 %.

Die beiden Kritiker sind sich also "deutlich überzufällig" einig.

Zurück zum Glossar (Cohen's Kappa)

21.08.2005

Zurück zum Glossar (Cohen's weighted Kappa)

Cohen's weighted Kappa

Ohne Frames

Mass der Urteilsübereinstimmung bei 2 Beurteilern.

Bei Cohen's Kappa wird lediglich gefragt, ob Urteile übereinstimmen oder nicht.

Nun kann es jedoch sein, dass Nicht-Übereinstimmungen in Urteilen sehr unterschiedliche Folgen haben können.

Wenn beispielsweise für ein Symptom 3 Krankheiten in Frage kommen, 2 davon seien harmlos, die dritte verlaufe schwerwiegend, dann ist es relativ unbedeutend, ob ein Beurteiler auf Krankheit 1 und der andere auf Krankheit 2 tippt.

Bedeutsam wird es erst, wenn ein Beurteiler auf die schwerwiegende Krankheit und der andere auf eine der beiden harmlosen Krankheiten tippt.

Dieser Problematik wird dadurch Rechnung getragen, dass man sich im Vorfeld für jede denkbare Urteilspaarung (bei 2 Beurteilern) auf entsprechende Gewichtungsfaktoren g_ij einigt. Diese Faktoren g_ij müssen natürlich sachlich begründet sein.

Cohens weighted Kappa ist wie folgt definiert:

Cohens weighted Kappa gewichtet

h_(..): real beobachtete bzw. zufällig zu erwartende Häufigkeiten,

g_ij: Gewichtungsfaktoren

Nach der genannten Definition kann Kappa auch kleiner als Null werden, was bedeuten könnte, dass die Urteiler absichtlich nicht übereinstimmen wollen. Dieser Fall ist aber praktisch unbedeutend.

Beispiel (selbes Datenmaterial wie bei Cohen's Kappa)

Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker

Im Gremium hat man sich geeinigt, dass die Urteilspaarungen wie folgt gewichtet werden sollen:

Urteilspaarung	Gewichtungsfaktor
Gut-Mittel	0.25
Mittel-Schlecht	0.5
Gut-Schlecht	1
Gut-Gut	0
Mittel-Mittel
Schlecht-Schlecht

	Kritiker A
Kritiker B		gut	mittel	schlecht
	gut	53 [0]	5 [0.25]	2 [1]	60
	mittel	11 [0.25]	14 [0]	5 [0.5]	30
	schlecht	1 [1]	6 [0.5]	3 [0]	10
		65	25	10	100
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden.

In diesem Beispiel ergibt sich

Cohens weighted Kappa gewichtet Beispiel

Signifikanztest

Falls alle h_ij >5 sind, dann ist Kappa asymptotisch standard-normalverteilt mit

Erwartungswert	0
Standardabweichung

Das standardisierte Kappa ist Prüfgrösse und berechnet sich zu k/s.

Mit der Excelfunktion STANDNORMVERT(k/s) erhält man das einseitige Signifikanzniveau.

Auf die Berechnung wird verzichtet, da sie umfangreich ist, jedoch keine neuen Erkenntnisse bringt. Ausserdem sind nicht alle h_ij >5, was der Signifikanztest aber strenggenommen fordert.

Zurück zum Glossar (Cohen's weighted Kappa)

21.08.2005

Zurück zum Glossar (Fleiss' Kappa)

Fleiss' Kappa

Masszahl der Urteileübereinstimmung bei mehr als 2 Beurteilern.

Anwendbar bei Nominalem Skalenniveau.

Für 2 Beurteiler siehe Cohen's Kappa.

Fleiss’ Kappa angewandt auf 2 Urteiler liefert etwas andere Werte als Cohen’s Kappa.

Beispiel: Beurteilung von N=15 künstlerischen Werken durch 4 Kritiker.

Anders als bei 2 Beurteilern wird die Urteilsübereinstimmung p für jedes der 15 Werke gesondert ermittelt, anschliessend daraus der Durchschnitt berechnet.

Werk -Nr.	gut	mittel	schlecht	gesamt	p	Erläuterungen
1	2	2	0	4	1/3	Pro Werk urteilen 4 Beurteiler. Aus 4 Beurteilern lassen sich 3+2+1 = 6 Paare bilden. Werk 1: Jeweils 2 Beurteiler stimmen überein. Aus den beiden 2er-Gruppen lassen sich insgesamt 2 übereinstimmende Paare bilden. --> _p1 =2/6 = 1/3. Werk 2: 3 Beutreiler stimmen überein. Daraus lassen sich 2+1 = 3 Paare bilden. Aus dem vierten Beurteiler lässt sich kein Paar bilden. --> p₂ = 3/6 = 1/2. Die allgemeine Berechnungsformel lautet k: Anzahl Kategorien (hier: 3) n_ij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i m: Anzahl Beurteiler (hier: 4)
2	1	3	0	4	1/2
3	0	0	4	4	1
4	3	0	1	4	1/2
5	4	0	0	4	1
6	1	3	0	4	1/2
7	4	0	0	4	1
8	0	4	0	4	1
9	0	3	1	4	1/2
10	0	4	0	4	1
11	2	2	0	4	1/3
12	0	4	0	4	1
13	1	0	3	4	1/2
14	1	2	1	4	1/6
15	4	0	0	4	1
Summen bzw. Durchschnitt	23	27	10	60	0.69

Der Durchschnitt aller p ist P₀ = 0,69. Dies ist die Wahrscheinlichkeit, mit der je 2 Urteiler im Mittel identisch geurteilt haben.

Dies muss man auf diejenige Wahrscheinlichkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen würden.

Die zufällig zu erwartenden Häufigkeiten dafür, dass EIN Beurteiler EINE bestimmte Kategorie wählt, lassen sich aus den Randhäufigkeiten in obiger Tabelle (Rot markiert) berechnen. Dabei sind die generell unterschiedlichen Wahrscheinlichkeiten zu berücksichtigen, mit denen "gut", "mittel" und "schlecht" ÜBERHAUPT vorkommen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlich beschrieben.

Hier in diesem Beispiel ergibt sich:

Kategorie	erwartete Häufigkeit	erwartete Wahrscheinlichkeit	Formel für erwartete Wahrscheinlichkeit
gut	=23*4/60 =1.533	=1.533/4=0.383	p_j: Erwartete Wahrscheinlichkeit in der Kategorie j N: Gesamtzahl zu beurteilender Objekte m: Anzahl Urteiler n_ij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i
mittel	=27*4/60=1.8	=1.8/4=0.45
schlecht	=10*4/60=0.67	=0.67/4=0.167
Gesamt	=4	=1

Die Wahrscheinlichkeit, dass ZWEI Beurteiler die selbe Kategorie wählen, erhält man durch quadrieren und anschliessendes Addieren der zuvor berechneten erwarteten Wahrscheinlichkeiten.

Hier in diesem Beispiel:

= 0.377.

Der Fleiss Kappa Koeffizient ist definiert als

Fleiss Kappa

hier im Beispiel: k = (0,69-0,377) / (1-0,377) = 0,50.

Im Gegensatz zu Cohen's Kappa stehen anstatt relativer Häufigkeiten h hier Wahrscheinlichkeiten p, was aber grundsätzlich keinen Unterschied macht. (Siehe hier zu die Abgrenzung Wahrscheinlichkeit – relative Häufigkeit)

Signifikanztest

Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit

Erwartungswert

Standardabweichung

Fleiss Kappa Standardabweichung

N: Anzahl zu beurteilender Objekte

m: Anzahl Beurteiler

In diesem Beispiel ergibt sich für die Standardabweichung s = 0,183.

Das standardisierte k ist Prüfgrösse und berechnet sich zu k/s = 0.5/0.184 = 2.7.

Mit der Excelfunktion STANDNORMVERT(2.7) erhält man das einseitige Signifikanzniveau von 99,65 %.

Oft möchte man wissen, bei welcher Urteilskategorie die Urteilsübereinstimmung am höchsten ist.

Dazu berechnet man das kategorienspezifische k:

, mit Fleiss Kappa und (siehe Tabelle)

Zurück zum Glossar (Fleiss' Kappa)

22.08.2005

Datenschutzhinweise