Cohens Kappa, Cohens weighted Kappa und Fleiss Kappa für Urteilsübereinstimmung

Ohne Frames

Cohens Kappa und Fleiss' Kappa behandeln die Urteilsübereinstimmung von mehreren Urteilern (engl.: rater).
Cohens Kappa gilt für zwei Beurteiler, Fleiss' Kappa für mehr als zwei Urteiler.

Zurück zum Glossar (Cohen's Kappa)

Cohen's Kappa 

 

Masszahl der Urteilsübereinstimmung bei 2 Beurteilern. 

Für mehr als 2 Beurteiler siehe Fleiss' Kappa.

Anwendbar bei Nominalem Skalenniveau.  

 

Cohen's Kappa unterscheidet nur pauschal zwischen Urteilsübereinstimmung und Nicht-Übereinstimmung. 

Eine detailliertere Betrachtungsweise findet man bei Cohen's weighted Kappa

 

Beispiel: Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker. 

 

Allgemeine Tabelle

 

Kritiker A

Es bedeutet z.B.: 

53 Werke wurden von beiden Kritikern für gut befunden. 

1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden.

Kritiker B

  gut mittel schlecht  
gut h11 h12 h13 h1x
mittel h21 h22 h23 h2x
schlecht h31 h32 h33 h3x
  hx1 hx2 hx3 N

 

Zahlenbeispiel

 

Kritiker A

Kritiker B

  gut mittel schlecht  
gut 53 5 2 60
mittel 11 14 5 30
schlecht 1 6 3 10
  65 25 10 100

Es bedeutet z.B.: 

53 Werke wurden von beiden Kritikern für gut befunden. 

1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden. 

 

Die Wahrscheinlichkeit (~ relative Häufigkeit) dafür, dass beide Kritiker sich einig sind, wird durch die Hauptdiagonale repräsentiert und beträgt: 

hier im Beispiel: = (53+14+3)/100 = 0.7

 

Dies muss man auf diejenige Häufigkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen würden. 

Die zufällig zu erwartenden Häufigkeiten lassen sich aus den Randhäufigkeiten hxy berechnen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlicher beschrieben.

 

   hier im Beispiel: =(65*60 + 25*30 + 10*10)/(100*100) =0.475 

 

Cohens Kappa Koeffizient ist definiert als: 

Cohens Kappa   hier im Beispiel  = 0.429

 

Signifikanztest 

 

Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit 

Erwartungswert

0

Standardabweichung Cohens Kappa Standardabweichung

 

In diesem Beispiel ist Cohens Kappa Standardabweichung Beispiel

=0.079

 

Das standardisierte  k ist  Prüfgrösse und berechnet sich zu k/s = 0.429/0.079 = 5.43

Mit der Excelfunktion STANDNORMVERT(5.43) erhält man das einseitige Signifikanzniveau von 99.99972 %.

 

Die beiden Kritiker sind sich also "deutlich überzufällig" einig.

 Zurück zum Glossar (Cohen's Kappa)

21.08.2005


Zurück zum Glossar (Cohen's weighted Kappa)

Cohen's weighted Kappa 

 

Ohne Frames


Mass der Urteilsübereinstimmung bei 2 Beurteilern.

Bei Cohen's Kappa wird lediglich gefragt, ob Urteile übereinstimmen oder nicht. 

Nun kann es jedoch sein, dass Nicht-Übereinstimmungen in Urteilen sehr unterschiedliche Folgen haben können. 

 

Wenn beispielsweise für ein Symptom 3 Krankheiten in Frage kommen, 2 davon seien harmlos, die dritte verlaufe schwerwiegend, dann ist es relativ unbedeutend, ob ein Beurteiler auf Krankheit 1 und der andere auf Krankheit 2 tippt. 

Bedeutsam wird es erst, wenn ein Beurteiler auf die schwerwiegende Krankheit und der andere auf eine der beiden harmlosen Krankheiten tippt. 

 

Dieser Problematik wird dadurch Rechnung getragen, dass man sich im Vorfeld für jede denkbare Urteilspaarung (bei 2 Beurteilern) auf entsprechende Gewichtungsfaktoren gij einigt. Diese Faktoren gij müssen natürlich sachlich begründet sein. 

Cohens weighted Kappa ist wie folgt definiert:

 

Cohens weighted Kappa gewichtet   

h(..): real beobachtete bzw. zufällig zu erwartende Häufigkeiten, 

gij: Gewichtungsfaktoren 

 

Nach der genannten Definition kann Kappa auch kleiner als Null werden, was bedeuten könnte, dass die Urteiler absichtlich nicht übereinstimmen wollen. Dieser Fall ist aber praktisch unbedeutend. 

 

Beispiel (selbes Datenmaterial wie bei Cohen's Kappa)

Beurteilung von N=100 künstlerischen Werken durch 2 Kritiker 

Im Gremium hat man sich geeinigt, dass die Urteilspaarungen wie folgt gewichtet werden sollen:

 

Urteilspaarung Gewichtungsfaktor
Gut-Mittel 0.25
Mittel-Schlecht 0.5
Gut-Schlecht 1
Gut-Gut 0
Mittel-Mittel
Schlecht-Schlecht

 

 

Kritiker A

Kritiker B

  gut mittel schlecht  
gut 53 [0] 5 [0.25] 2 [1] 60
mittel 11 [0.25] 14 [0] 5 [0.5] 30
schlecht 1 [1] 6 [0.5] 3 [0] 10
  65 25 10 100

Es bedeutet z.B.: 

53 Werke wurden von beiden Kritikern für gut befunden. 

1 Werk wurde von Kritiker B für schlecht, von A dagegen für gut befunden. 

 

In diesem Beispiel ergibt sich 

Cohens weighted Kappa gewichtet Beispiel

 

 

Signifikanztest 

 

Falls alle hij >5 sind, dann ist Kappa asymptotisch standard-normalverteilt mit 

Erwartungswert 0
Standardabweichung Cohens weighted Kappa gewichtet Standardabweichung

 

Das standardisierte  Kappa ist  Prüfgrösse und berechnet sich zu k/s.

Mit der Excelfunktion STANDNORMVERT(k/s) erhält man das einseitige Signifikanzniveau

 

Auf die Berechnung wird verzichtet, da sie umfangreich ist, jedoch keine neuen Erkenntnisse bringt. Ausserdem sind nicht alle hij >5, was der Signifikanztest aber strenggenommen fordert.

 

Zurück zum Glossar (Cohen's weighted Kappa)

21.08.2005


Zurück zum Glossar (Fleiss' Kappa)

Fleiss' Kappa

 

Masszahl der Urteileübereinstimmung bei mehr als 2 Beurteilern.

Anwendbar bei Nominalem Skalenniveau.  

Für 2 Beurteiler siehe Cohen's Kappa.

 

Fleiss’ Kappa angewandt auf 2 Urteiler liefert etwas andere Werte als Cohen’s Kappa.

 

Beispiel: Beurteilung von N=15 künstlerischen Werken durch 4 Kritiker. 

 

Anders als bei 2 Beurteilern wird die Urteilsübereinstimmung p für jedes der 15 Werke gesondert ermittelt, anschliessend daraus der Durchschnitt berechnet. 

Werk -Nr. gut mittel schlecht gesamt p Erläuterungen
1 2 2 0 4 1/3

Pro Werk urteilen 4 Beurteiler. 

Aus 4 Beurteilern lassen sich 3+2+1 = 6 Paare bilden. 

 

Werk 1: Jeweils 2 Beurteiler stimmen überein. Aus den beiden 2er-Gruppen lassen sich insgesamt 2 übereinstimmende Paare bilden. 

--> p1 =2/6 = 1/3. 

 

Werk 2: 3 Beutreiler stimmen überein. Daraus lassen sich 2+1 = 3 Paare bilden. Aus dem vierten Beurteiler lässt sich kein Paar bilden. 

--> p2 = 3/6 = 1/2.

 

Die allgemeine Berechnungsformel lautet 

k: Anzahl Kategorien (hier: 3) 

nij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i 

m: Anzahl Beurteiler (hier: 4)

2 1 3 0 4 1/2
3 0 0 4 4 1
4 3 0 1 4 1/2
5 4 0 0 4 1
6 1 3 0 4 1/2
7 4 0 0 4 1
8 0 4 0 4 1
9 0 3 1 4 1/2
10 0 4 0 4 1
11 2 2 0 4 1/3
12 0 4 0 4 1
13 1 0 3 4 1/2
14 1 2 1 4 1/6
15 4 0 0 4 1
Summen bzw. Durchschnitt 23 27 10 60 0.69

 

Der Durchschnitt aller p ist P0 = 0,69.  Dies ist die Wahrscheinlichkeit, mit der je 2 Urteiler im Mittel identisch geurteilt haben. 

 

Dies muss man auf diejenige Wahrscheinlichkeit beziehen, mit der 2 rein zufällig urteilende Kritiker übereinstimmende Urteile erzielen  würden. 

 

Die zufällig zu erwartenden Häufigkeiten dafür, dass EIN Beurteiler EINE bestimmte Kategorie wählt,  lassen sich aus den Randhäufigkeiten in obiger Tabelle (Rot markiert) berechnen. Dabei sind die generell unterschiedlichen Wahrscheinlichkeiten zu berücksichtigen, mit denen "gut", "mittel" und "schlecht" ÜBERHAUPT vorkommen. Dieser Rechengang ist im Beispiel bei Chi Quadrat Test ausführlich beschrieben. 

Hier in diesem Beispiel ergibt sich: 

Kategorie erwartete Häufigkeit erwartete Wahrscheinlichkeit Formel für erwartete Wahrscheinlichkeit
gut =23*4/60 =1.533 =1.533/4=0.383

pj: Erwartete Wahrscheinlichkeit in der Kategorie j

N: Gesamtzahl zu beurteilender Objekte

 

m: Anzahl Urteiler 

 

nij: Anzahl Urteilsergebnisse in der Kategorie j beim Objekt i 

mittel =27*4/60=1.8  =1.8/4=0.45
schlecht =10*4/60=0.67 =0.67/4=0.167
Gesamt =4 =1

 

Die Wahrscheinlichkeit, dass ZWEI Beurteiler die selbe Kategorie wählen, erhält man durch quadrieren und anschliessendes Addieren der zuvor berechneten erwarteten Wahrscheinlichkeiten. 

Hier in diesem Beispiel: 

= 0.377. 

 

Der Fleiss Kappa Koeffizient ist definiert als

Fleiss Kappa

 

hier im Beispiel: k = (0,69-0,377) / (1-0,377) = 0,50.

 

Im Gegensatz zu Cohen's Kappa stehen anstatt relativer Häufigkeiten  h hier Wahrscheinlichkeiten p, was aber grundsätzlich keinen Unterschied macht. (Siehe hier zu die Abgrenzung Wahrscheinlichkeit – relative Häufigkeit)

 

Signifikanztest 

 

Bei Gültigkeit der Nullhypothese ( k = 0) ist der Kappa Koeffizient ab N =20 standardnormalverteilt mit

Erwartungswert

0

Standardabweichung

Fleiss Kappa Standardabweichung

N: Anzahl zu beurteilender Objekte

m: Anzahl Beurteiler

 

In diesem Beispiel ergibt sich für die Standardabweichung s = 0,183.

Das standardisierte  k ist  Prüfgrösse und berechnet sich zu k/s = 0.5/0.184 = 2.7.

Mit der Excelfunktion STANDNORMVERT(2.7) erhält man das einseitige Signifikanzniveau von 99,65 %.

 

Oft möchte man wissen, bei welcher Urteilskategorie die Urteilsübereinstimmung am höchsten ist.

Dazu berechnet man das kategorienspezifische k:

,   mit  Fleiss Kappa und  (siehe Tabelle)

 

Zurück zum Glossar (Fleiss' Kappa)

22.08.2005


Datenschutzhinweise