zurück zum Glossar (Bestimmtheitsmass)
Bestimmtheitsmass (auch multiples)
Auch Determinationskoeffizient, Güte oder (in den Sozialwissenschaften) Reliabilität genannt.
Quadrat des Korrelationskoeffizienten r.
Drückt den Anteil der aufgeklärten Varianz an der Gesamtvarianz aus:
, oder bzw.
(Es gilt : QS Gesamt = QS Aufgeklärt + QS Error; QS Error = nichtaufgeklärte Varianz, oder Varianz der Residuen)
QS = Quadratesumme (=Summe aller quadrierten Werte)
Man sieht durch die Definition über das Varianzverhältnis, dass keine Einschränkung bezüglich der Anzahl Variablen gemacht wird. Ab 3 Variablen handelt es sich um ein multiples Bestimmtheitsmass.
Veranschaulichung des Begriffes Aufgeklärte Varianz anhand zweier Beispiele
Einfache linearen Regression (y sei abhängige Variable, x unabhängige Variable):
Gegeben sei eine Punktewolke aus n Punkten, vorerst ohne Regressionsgerade.
Die Punkte haben einen Mittelwert und eine Varianz. Dies kann man sich bildlich als eine horizontale gerade vorstellen, die durch den Mittelwert von y geht und den gesamten Wertebereich von x abdeckt.
Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf diese horizontale Gerade dividiert durch (n-1) sind die Gesamtvarianz der Punktewolke.
Nun lege man eine nach der Kleinsten Quadrate Methode "optimale" Gerade durch die Punktewolke.
Natürlich wird die Gerade in den allermeissten Fällen dann nicht mehr horizontal sein, sondern "schräg".
Die kumulierten quadrierten vertikalen Abstände (also nicht die Lote!) der y-Werte auf diese Gerade dividiert durch (n-1) sind die Restvarianz der Punktewolke. Diese Restvarianz ist um die Aufgeklärte Varianz geringer, verursacht durch das Modell "schräge Gerade".
einfaktorielle ANOVA
Gegeben seien 2 Gruppen von Werten. (Aus Anschaulichkeitsgründen die selben Werte wie in vorigem Beispiel)
Zunächst werden die 2 Gruppen als Eine betrachtet und Mittelwert und Varianz daraus bestimmt.
Hier kann man sich wie im Beispiel zuvor eine horizontale Gerade denken, die durch beide Gruppen (Punktewolken) horizontal "hindurchgeht". Die Gerade hat hier nur die Funktion, den Mittelwert zu veranschaulichen.
Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf diese horizontale Gerade dividiert durch (n-1) sind die Gesamtvarianz der Punktewolke.
Nun berechne man die Mittelwerte der beiden Gruppen einzeln und lege entsprechende horizontale Geraden hindurch.
Auch hier haben die Geraden nur die Funktion, die Mittelwerte zu veranschaulichen.
Die kumulierten quadrierten vertikalen Abstände (Lote) der y-Werte auf die jeweils gültige Gerade dividiert durch (n-1) sind die Restvarianz der Punktewolke. Diese Restvarianz ist um die Aufgeklärte Varianz geringer, verursacht durch das Modell "Nur EIN Mittelwert".
Zusammenhang mit dem F-Wert:
F = [MQS Aufgeklärt]/[MQS Error]
Siehe auch weiter unten, Adjustiertes Bestimmtheitsmass.
zurück zum Glossar (Bestimmtheitsmass)
zurück zum Glossar (adjustiertesBestimmtheitsmass)
Adjustiertes Bestimmtheitsmass
Modifiziertes Bestimmtheitsmass, das bei linearer Regression mit mehreren Variablen (-->multiple lineare Regression) bedeutsam wird.
Durch Hinzunahme von weiteren Modellparametern in das Regressionsmodell kann das gemeinsame Bestimmtheitsmass nämlich nur zunehmen (bis hin zu 1), selbst wenn die dadurch gewonnene Zunahme an Erklärungskraft völlig unbedeutend ist.
Extrembeispiel zur Erläuterung:
Man kann ein Polynom 25-ter Ordnung an eine aus 25 Datenpunkten bestehende Wolke perfekt annähern, das heisst, ohne jeglichen Fehler: Die Kurve wird exakt durch alle 25 Punkte laufen. Das Modell wäre statistisch perfekt, weil es die gesamte Varianz erklärt, hat aber keinerlei Aussagekraft, verglichen mit einer Geraden (Polynom 1. Ordnung), die die Punktewolke nur anzunähern in der Lage ist, jedoch eine offensichtlich viel höhere "fachliche" Erklärungskraft besitzt.
Anmerkung: Das adjustierte Bestimmtheitsmass ist ein multiples Bestimmtheitsmass, da es erst ab 3 Variablen "zum Tragen" kommt.
Das adjustierte Bestimmtheitsmass relativiert dies, indem es die Quadratesummen durch die jeweilige zugehörige Anzahl Freiheitsgrade teilt.
Das (nichtadjustierte) Bestimmtheitsmass lautet: [1], oder [2]
Das adjustierte Bestimmtheitsmass dagegen ist definiert zu:
[3], oder [4]
Hier bedeuten QS: Quadratesumme und MQS: Mittlere Quadratesumme = Quadratesumme dividiert durch zugehörige Anzahl Freiheitsgrade.
Zusammenhang zwischen adjustiertem und nicht-adjustiertem Bestimmtheitsmass:
[5] ; die Konstante zählt als zu bestimmender Parameter. Bei einer Gerade sind es also 2 Parameter.
Anhand der Formel [3] für radjustiert erkennt man, dass der Nenner bei Hinzunahme weiterer Parameter in das Regressionsmodell zwar konstant bleibt, der Zähler jedoch grösser oder kleiner werden kann, je nachdem, ob der Einfluss durch die Erhöhung der erklärten Quadratesumme oder der Einfluss durch die Erhöhung der Anzahl Freiheitsgrade grösser ist.
Durch Hinzunahme weiterer Modellparameter wird man also zurecht bestraft, da man ja zur besseren Erklärung das Modell komplizierter macht.
Bei einem multiplen linearen Regressionsmodell ergibt sich :
, oder , oder ,
mit R= QSError/QSGesamt = "nichtadjustiertes Bestimmtheitsmass".
Hier bedeuten dF... die Anzahl Freiheitsgrade, n: Anzahl aller Messwerte, k: Anzahl zu bestimmender Regressionsparameter.
Im eindimensionalen Fall ist k=1 (Gerade geht durch Nullpunkt) oder 2 (Gerade geht nicht durch Nullpunkt).
k=3 wäre dann eine quadratische Regression, usw...
r2adjustiert hängt mit der F-Verteilung: wie folgt zusammen
, wobei R= QSError/QSGesamt = "nichtadjustiertes Bestimmtheitsmass".
19.08.2005