Kollinearität

Kollinearität bei multipler linearer Regression

Kollinearität ist der bei multipler linearer Regression gelegentlich auftretende Sachverhalt, dass unabhängige Variablen untereinander korrelieren.

Dies kann dazu führen, dass

das Regressionsmodell mit zu vielen unabhängigen Variablen gefahren wird, und in Wirklichkeit vorhandene Signifikanzen nicht aufgedeckt werden, oder andersherum gesagt: Für die Erklärung von Zusammenhängen werden zu viele Variablen verwendet.
geringe Änderungen in den Ausgangsdaten grosse Änderungen in den mittels Regressionsanalyse berechneten Parametern, bzw. deren Vertrauensintervallen bewirken.

Vorhandensein von Kollinearität im Datenmaterial kann beispielsweise mit folgenden Testverfahren überprüft werden:

Toleranzkoeffizienten

Es werden zwischen allen unabhängigen Variablenpaaren die Korrelationskoeffizienten berechnet.

Die Korrelation wird immer zwischen einer unabhängigen Variablen und allen restlichen unabhängigen Variablen berechnet. Es handelt sich also um multiple Korrelationskoeffizienten.

Eins minus einem quadrierten multiplen Korrelationskoeffizienten (sozusagen Eins minus dem "multiplen Bestimmtheitsmass") ergibt dann den jeweiligen Toleranzkoeffizienten.

Im Idealfall, also bei völliger Unabhängigkeit der abhängigen Variablen untereinander, sind alle multiplen Korrelationskoeffizient = 0 und die Toleranzkoeffizienten somit =1.

Anmerkung:

Es ist hier stets die Rede von Korrelation der unabhängigen Variablen untereinander; die abhängige(n) Variable(n)

kommen beim Toleranzkoeffizienten nicht ins Spiel.

Der Kehrwert des Toleranzindex ist der Varianzinflationsfaktor, VIF.
Konditionsindex

Hierzu sei zunächst nochmal die Matrixform des Beispiels unter multipler linearer Regression erwähnt

Dieses Beispiel beinhaltet 3 unabhängige Variablen, zu denen jeweils 4 Messwerte vorliegen.

Berechnet man alle Korrelationskoeffizienten der einzelnen unabhängigen Variablen und ordnet dies in Matrixform an,

so erhält man für dieses Beispiel eine 3*3 Korrelationsmatrix, welche in der Diagonalen 3 Einsen enthält (Korrelation von Variablen mit sich selbst ist ja immer = 1).

Die Eigenwerte dieser Korrelationsmatrix sind Ausgangspunkt der Konditionsindizes.

Der Konditionsindex K_i ist wie folgt definiert:

Ist der grösste Konditionsindex deutlich grösser als 15, dann liegt sehr wahrscheinlich Kollinearität vor.
- Die Berechtigung des Konditionsindex als Mass für Kollinearität beruht auf folgendem Sachverhalt:
  
  Wenn alle unabhängigen Variablen hoch miteinander korrelieren, dann liegen die Korrelationswerte alle in der Nähe von 1 oder -1.
  
  Korrelationsmatrizen mit ausschliesslich Werten nahe bei +/-1 haben Eigenwerte, deren relativer Unterschied sehr gross ist.
  
  -> grosse Konditionsindizes.
  
  Umgekehrt haben Korrelationsmatrizen, deren Nichtdiagonalelemente nahe bei 0 liegen (was bedeutet, dass die unabhängigen Variablen kaum korrelieren), Eigenwerte, deren relativer Unterschied sehr klein ist. -> kleine Konditionsindizes.
- Der Verfasser ist der Auffassung, dass im Zweifelsfall die Toleranzkoeffizienten massgebend sind.

Siehe auch White Test.

Datenschutzhinweise