Cohens Kappa und Fleiss'
Kappa behandeln die Urteilsübereinstimmung von mehreren Urteilern
(engl.: rater).
Cohens Kappa gilt für zwei Beurteiler, Fleiss' Kappa für mehr als zwei
Urteiler.
Zurück zum Glossar (Cohen's Kappa)
Masszahl der Urteilsübereinstimmung bei 2 Beurteilern.
Für mehr als 2 Beurteiler siehe Fleiss' Kappa.
Anwendbar bei Nominalem Skalenniveau.
Cohen's Kappa unterscheidet nur pauschal zwischen Urteilsübereinstimmung und Nicht-Übereinstimmung.
Eine detailliertere Betrachtungsweise findet man bei Cohen's weighted Kappa.
Beispiel: Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker.
Allgemeine Tabelle
Kritiker A |
|||||
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk
wurde von Kritiker B für schlecht, von A dagegen für gut befunden. Kritiker B |
gut | mittel | schlecht | ||
gut | h11 | h12 | h13 | h1x | |
mittel | h21 | h22 | h23 | h2x | |
schlecht | h31 | h32 | h33 | h3x | |
hx1 | hx2 | hx3 | N |
Zahlenbeispiel
Kritiker A |
|||||
Kritiker B |
gut | mittel | schlecht | ||
gut | 53 | 5 | 2 | 60 | |
mittel | 11 | 14 | 5 | 30 | |
schlecht | 1 | 6 | 3 | 10 | |
65 | 25 | 10 | 100 | ||
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden. |
Die
hier im Beispiel: = (53+14+3)/100 = 0.7
Dies muss man auf diejenige Häufigkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen würden.
Die zufällig zu erwartenden Häufigkeiten lassen sich aus den Randhäufigkeiten hxy berechnen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlicher beschrieben.
hier im Beispiel: =(65*60 + 25*30 + 10*10)/(100*100) =0.475
Cohens Kappa Koeffizient ist definiert als:
hier im Beispiel = 0.429
Signifikanztest
Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit
0 |
|
Standardabweichung |
In diesem Beispiel ist
=0.079
Das standardisierte k ist Prüfgrösse und berechnet sich zu k/s = 0.429/0.079 = 5.43
Mit der Excelfunktion STANDNORMVERT(5.43) erhält man das einseitige Signifikanzniveau von 99.99972 %.
Die beiden Kritiker sind sich also "deutlich überzufällig" einig.
Zurück zum Glossar (Cohen's Kappa)
21.08.2005
Mass der Urteilsübereinstimmung bei 2 Beurteilern.
Bei Cohen's Kappa wird lediglich gefragt, ob Urteile übereinstimmen oder nicht.
Nun kann es jedoch sein, dass Nicht-Übereinstimmungen in Urteilen sehr unterschiedliche Folgen haben können.
Wenn beispielsweise für ein Symptom 3 Krankheiten in Frage kommen, 2 davon seien harmlos, die dritte verlaufe schwerwiegend, dann ist es relativ unbedeutend, ob ein Beurteiler auf Krankheit 1 und der andere auf Krankheit 2 tippt.
Bedeutsam wird es erst, wenn ein Beurteiler auf die schwerwiegende Krankheit und der andere auf eine der beiden harmlosen Krankheiten tippt.
Dieser Problematik wird dadurch Rechnung getragen, dass man sich im Vorfeld für jede denkbare Urteilspaarung (bei 2 Beurteilern) auf entsprechende Gewichtungsfaktoren gij einigt. Diese Faktoren gij müssen natürlich sachlich begründet sein.
Cohens weighted Kappa ist wie folgt definiert:
h(..): real beobachtete bzw. zufällig zu erwartende Häufigkeiten,
gij: Gewichtungsfaktoren
Nach der genannten Definition kann Kappa auch kleiner als Null werden, was bedeuten könnte, dass die Urteiler absichtlich nicht übereinstimmen wollen. Dieser Fall ist aber praktisch unbedeutend.
Beispiel (selbes Datenmaterial wie bei Cohen's Kappa)
Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker
Im Gremium hat man sich geeinigt, dass die Urteilspaarungen wie folgt gewichtet werden sollen:
Urteilspaarung | Gewichtungsfaktor |
Gut-Mittel | 0.25 |
Mittel-Schlecht | 0.5 |
Gut-Schlecht | 1 |
Gut-Gut | 0 |
Mittel-Mittel | |
Schlecht-Schlecht |
Kritiker A |
|||||
Kritiker B |
gut | mittel | schlecht | ||
gut | 53 [0] | 5 [0.25] | 2 [1] | 60 | |
mittel | 11 [0.25] | 14 [0] | 5 [0.5] | 30 | |
schlecht | 1 [1] | 6 [0.5] | 3 [0] | 10 | |
65 | 25 | 10 | 100 | ||
Es bedeutet z.B.: 53 Werke wurden von beiden Kritikern für gut befunden. 1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden. |
In diesem Beispiel ergibt sich
Signifikanztest
Falls alle hij >5 sind, dann ist Kappa asymptotisch standard-normalverteilt mit
Erwartungswert | 0 |
Standardabweichung |
Das standardisierte Kappa ist Prüfgrösse und berechnet sich zu k/s.
Mit der Excelfunktion STANDNORMVERT(
Auf die Berechnung wird verzichtet, da sie umfangreich ist, jedoch keine neuen Erkenntnisse bringt. Ausserdem sind nicht alle hij >5, was der Signifikanztest aber strenggenommen fordert.
21.08.2005
Zurück zum Glossar (Fleiss' Kappa)
Masszahl der Urteileübereinstimmung bei mehr als 2 Beurteilern.
Anwendbar bei Nominalem Skalenniveau.
Für 2 Beurteiler siehe Cohen's Kappa.
Fleiss’ Kappa angewandt auf 2 Urteiler liefert etwas andere Werte als Cohen’s Kappa.
Beispiel: Beurteilung von N=15 künstlerischen Werken durch 4 Kritiker.
Anders als bei 2 Beurteilern wird die Urteilsübereinstimmung p für jedes der 15 Werke gesondert ermittelt, anschliessend daraus der Durchschnitt berechnet.
Werk -Nr. | gut | mittel | schlecht | gesamt | p | Erläuterungen |
1 | 2 | 2 | 0 | 4 | 1/3 |
Pro Werk urteilen 4 Beurteiler. Aus 4 Beurteilern lassen sich 3+2+1 = 6 Paare bilden.
Werk 1: Jeweils 2 Beurteiler stimmen überein. Aus den beiden 2er-Gruppen lassen sich insgesamt 2 übereinstimmende Paare bilden. --> p1 =2/6 = 1/3.
Werk 2: 3 Beutreiler stimmen überein. Daraus lassen sich 2+1 = 3 Paare bilden. Aus dem vierten Beurteiler lässt sich kein Paar bilden. --> p2 = 3/6 = 1/2.
Die allgemeine Berechnungsformel lautet k: Anzahl Kategorien (hier: 3) nij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i m: Anzahl Beurteiler (hier: 4) |
2 | 1 | 3 | 0 | 4 | 1/2 | |
3 | 0 | 0 | 4 | 4 | 1 | |
4 | 3 | 0 | 1 | 4 | 1/2 | |
5 | 4 | 0 | 0 | 4 | 1 | |
6 | 1 | 3 | 0 | 4 | 1/2 | |
7 | 4 | 0 | 0 | 4 | 1 | |
8 | 0 | 4 | 0 | 4 | 1 | |
9 | 0 | 3 | 1 | 4 | 1/2 | |
10 | 0 | 4 | 0 | 4 | 1 | |
11 | 2 | 2 | 0 | 4 | 1/3 | |
12 | 0 | 4 | 0 | 4 | 1 | |
13 | 1 | 0 | 3 | 4 | 1/2 | |
14 | 1 | 2 | 1 | 4 | 1/6 | |
15 | 4 | 0 | 0 | 4 | 1 | |
Summen bzw. Durchschnitt | 23 | 27 | 10 | 60 | 0.69 |
Der Durchschnitt aller p ist P0 =
0,69. Dies ist die
Dies muss man auf diejenige Wahrscheinlichkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen würden.
Die zufällig zu erwartenden Häufigkeiten dafür, dass EIN Beurteiler EINE bestimmte Kategorie wählt, lassen sich aus den Randhäufigkeiten in obiger Tabelle (Rot markiert) berechnen. Dabei sind die generell unterschiedlichen Wahrscheinlichkeiten zu berücksichtigen, mit denen "gut", "mittel" und "schlecht" ÜBERHAUPT vorkommen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlich beschrieben.
Hier in diesem Beispiel ergibt sich:
Kategorie | erwartete Häufigkeit | erwartete Wahrscheinlichkeit | Formel für erwartete Wahrscheinlichkeit |
gut | =23*4/60 =1.533 | =1.533/4=0.383 |
pj: Erwartete Wahrscheinlichkeit in der Kategorie j N: Gesamtzahl zu beurteilender Objekte
m: Anzahl Urteiler
nij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i |
mittel | =27*4/60=1.8 | =1.8/4=0.45 | |
schlecht | =10*4/60=0.67 | =0.67/4=0.167 | |
Gesamt | =4 | =1 |
Die Wahrscheinlichkeit, dass ZWEI Beurteiler die selbe Kategorie wählen, erhält man durch quadrieren und anschliessendes Addieren der zuvor berechneten erwarteten Wahrscheinlichkeiten.
Hier in diesem Beispiel:
= 0.377.
Der Fleiss Kappa Koeffizient ist definiert als
hier im Beispiel: k = (0,69-0,377) / (1-0,377) = 0,50.
Im Gegensatz zu Cohen's Kappa stehen anstatt relativer Häufigkeiten h hier Wahrscheinlichkeiten p, was aber grundsätzlich keinen Unterschied macht. (Siehe hier zu die Abgrenzung Wahrscheinlichkeit – relative Häufigkeit)
Signifikanztest
Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit
0 |
|
N: Anzahl zu beurteilender Objekte m: Anzahl Beurteiler |
In diesem Beispiel ergibt sich für die Standardabweichung s = 0,183.
Das standardisierte k ist Prüfgrösse und berechnet sich zu k/s = 0.5/0.184 = 2.7.
Mit der Excelfunktion STANDNORMVERT(2.7) erhält man das einseitige Signifikanzniveau von 99,65 %.
Oft möchte man wissen, bei welcher Urteilskategorie die Urteilsübereinstimmung am höchsten ist.
Dazu berechnet man das kategorienspezifische k:
, mit und (siehe Tabelle)
Zurück zum Glossar (Fleiss' Kappa)