Bestimmtheitsmass

Bestimmtheitsmass

Multiples und Adjustiertes Bestimmtheitsmass oder Determinationskoeffizient

Das Bestimmtheitsmass, Reliabilität oder Determinationskoeffizient, ist das Quadrat des Korrelationskoeffizienten. Es ist ein unmittelbares Mass für die Güte eines Modells, während der wesentlich bekanntere Korrelationskoeffizient kaum interpretierbar ist.

zurück zum Glossar (Bestimmtheitsmass)

Bestimmtheitsmass (auch multiples)

Auch Determinationskoeffizient, Güte oder (in den Sozialwissenschaften) Reliabilität genannt.

Quadrat des Korrelationskoeffizienten r.

Drückt den Anteil der aufgeklärten Varianz an der Gesamtvarianz aus:

Bestimmtheitsmass , oder bzw.

(Es gilt : QS Gesamt = QS Aufgeklärt + QS Error; QS Error = nichtaufgeklärte Varianz, oder Varianz der Residuen)

QS = Quadratesumme (=Summe aller quadrierten Werte)

Man sieht durch die Definition über das Varianzverhältnis, dass keine Einschränkung bezüglich der Anzahl Variablen gemacht wird. Ab 3 Variablen handelt es sich um ein multiples Bestimmtheitsmass.

Veranschaulichung des Begriffes Aufgeklärte Varianz anhand zweier Beispiele

Einfache linearen Regression (y sei abhängige Variable, x unabhängige Variable):

Gegeben sei eine Punktewolke aus n Punkten, vorerst ohne Regressionsgerade.

Die Punkte haben einen Mittelwert und eine Varianz. Dies kann man sich bildlich als eine horizontale gerade vorstellen, die durch den Mittelwert von y geht und den gesamten Wertebereich von x abdeckt.

Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf diese horizontale Gerade dividiert durch (n-1) sind die Gesamtvarianz der Punktewolke.

unaufgeklärte Varianz

Nun lege man eine nach der Kleinsten Quadrate Methode "optimale" Gerade durch die Punktewolke.

Natürlich wird die Gerade in den allermeissten Fällen dann nicht mehr horizontal sein, sondern "schräg".

Aufgeklärte Varianz

Die kumulierten quadrierten vertikalen Abstände (also nicht die Lote!) der y-Werte auf diese Gerade dividiert durch (n-1) sind die Restvarianz der Punktewolke. Diese Restvarianz ist um die Aufgeklärte Varianz geringer, verursacht durch das Modell "schräge Gerade".

einfaktorielle ANOVA

Gegeben seien 2 Gruppen von Werten. (Aus Anschaulichkeitsgründen die selben Werte wie in vorigem Beispiel)

Zunächst werden die 2 Gruppen als Eine betrachtet und Mittelwert und Varianz daraus bestimmt.

Hier kann man sich wie im Beispiel zuvor eine horizontale Gerade denken, die durch beide Gruppen (Punktewolken) horizontal "hindurchgeht". Die Gerade hat hier nur die Funktion, den Mittelwert zu veranschaulichen.

unaufgeklärte Varianz

Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf diese horizontale Gerade dividiert durch (n-1) sind die Gesamtvarianz der Punktewolke.

Nun berechne man die Mittelwerte der beiden Gruppen einzeln und lege entsprechende horizontale Geraden hindurch.

Auch hier haben die Geraden nur die Funktion, die Mittelwerte zu veranschaulichen.

Aufgeklärte Varianz

Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf die jeweils gültige Gerade dividiert durch (n-1) sind die Restvarianz der Punktewolke. Diese Restvarianz ist um die Aufgeklärte Varianz geringer, verursacht durch das Modell "Nur EIN Mittelwert".

Zusammenhang mit dem F-Wert:

F = [MQS Aufgeklärt]/[MQS Error]

MQS = Mittlere Quadratesumme = QS / [Anzahl zugehöriger Freiheitsgrade.] = Varianz.

Siehe auch weiter unten, Adjustiertes Bestimmtheitsmass.

04.07.2006

zurück zum Glossar (Bestimmtheitsmass)

zurück zum Glossar (adjustiertesBestimmtheitsmass)

Adjustiertes Bestimmtheitsmass

Modifiziertes Bestimmtheitsmass, das bei linearer Regression mit mehreren Variablen (-->multiple lineare Regression) bedeutsam wird.

Durch Hinzunahme von weiteren Modellparametern in das Regressionsmodell kann das gemeinsame Bestimmtheitsmass nämlich nur zunehmen (bis hin zu 1), selbst wenn die dadurch gewonnene Zunahme an Erklärungskraft völlig unbedeutend ist.

Extrembeispiel zur Erläuterung:

Man kann ein Polynom 25-ter Ordnung an eine aus 25 Datenpunkten bestehende Wolke perfekt annähern, das heisst, ohne jeglichen Fehler: Die Kurve wird exakt durch alle 25 Punkte laufen. Das Modell wäre statistisch perfekt, weil es die gesamte Varianz erklärt, hat aber keinerlei Aussagekraft, verglichen mit einer Geraden (Polynom 1. Ordnung), die die Punktewolke nur anzunähern in der Lage ist, jedoch eine offensichtlich viel höhere "fachliche" Erklärungskraft besitzt.

Anmerkung: Das adjustierte Bestimmtheitsmass ist ein multiples Bestimmtheitsmass, da es erst ab 3 Variablen "zum Tragen" kommt.

Das adjustierte Bestimmtheitsmass relativiert dies, indem es die Quadratesummen durch die jeweilige zugehörige Anzahl Freiheitsgrade teilt.

Das (nichtadjustierte) Bestimmtheitsmass lautet: Adjustiertes Bestimmtheitsmass [1], oder [2]

Das adjustierte Bestimmtheitsmass dagegen ist definiert zu:

Adjustiertes Bestimmtheitsmass [3], oder [4]

Hier bedeuten QS: Quadratesumme und MQS: Mittlere Quadratesumme = Quadratesumme dividiert durch zugehörige Anzahl Freiheitsgrade.

Zusammenhang zwischen adjustiertem und nicht-adjustiertem Bestimmtheitsmass:

Adjustiertes Bestimmtheitsmass [5] ; die Konstante zählt als zu bestimmender Parameter. Bei einer Gerade sind es also 2 Parameter.

Anhand der Formel [3] für r_adjustiert erkennt man, dass der Nenner bei Hinzunahme weiterer Parameter in das Regressionsmodell zwar konstant bleibt, der Zähler jedoch grösser oder kleiner werden kann, je nachdem, ob der Einfluss durch die Erhöhung der erklärten Quadratesumme oder der Einfluss durch die Erhöhung der Anzahl Freiheitsgrade grösser ist.

Durch Hinzunahme weiterer Modellparameter wird man also zurecht bestraft, da man ja zur besseren Erklärung das Modell komplizierter macht.

Bei einem multiplen linearen Regressionsmodell ergibt sich :

Adjustiertes Bestimmtheitsmass , oder , oder ,

mit R= QS_Error/QS_Gesamt = "nichtadjustiertes Bestimmtheitsmass".

Hier bedeuten dF... die Anzahl Freiheitsgrade, n: Anzahl aller Messwerte, k: Anzahl zu bestimmender Regressionsparameter.

Im eindimensionalen Fall ist k=1 (Gerade geht durch Nullpunkt) oder 2 (Gerade geht nicht durch Nullpunkt).

k=3 wäre dann eine quadratische Regression, usw...

r²_adjustiert hängt mit der F-Verteilung: wie folgt zusammen

, wobei R= QS_Error/QS_Gesamt = "nichtadjustiertes Bestimmtheitsmass".

19.08.2005

zurück zum Glossar (adjustiertesBestimmtheitsmass)

Datenschutzhinweise