Zurück zu statistische Hypothese
Diese Seite enthält die folgenden, aufeinander aufbauenden Rubriken:
Logische Aussage über eine Eigenschaft einer Grundgesamtheit, die man einem Test unterziehen will.
Da diese logische Aussage sich evtl. als falsch herausstellen kann, bezeichnet man die Aussage als Hypothese.
Diese Hypothese kann ein mathematischer Ausdruck oder eine eindeutige verbale Formulierung sein.
Beispiele:
| Hypothesenart | Beispiel einer maximal genauen Formulierung |
| Unspezifische Hypothese | a ungleich b |
| Spezifische Hypothese | a ist um 2 grösser als b |
| Ungerichtete Hypothese | a und b unterscheiden sich um 2 |
| Gerichtete Hypothese | a ist grösser als b |
| Zusammenhangshypothese | "a = 2*b" |
| Unterschiedshypothese | a >< b |
Alle in der Tabelle genannten Hypothesenarten haben weniger mathematischen, sondern eher sprachlichen Stellenwert.
Siehe auch das Beispiel unter Poweranalyse.
Die Hypothese wird mit H0, Nullhypothese, bezeichnet.
Das Gegenteil davon, also die "Gegenhypothese" dazu, wird mit H1, Alternativhypothese, bezeichnet.
Es ist also in der realen (fast immer unbekannten) Welt in jedem Fall entweder H0 oder H1 wahr.
In der Praxis jedoch
weiss man nie, ob H0 oder H1 richtig ist, weil man
lediglich eine Stichprobe der Grundgesamtheit zur Entscheidungsfindung heranzieht.
Letzteres ist Ursache dafür, dass der Testausgang, egal in welcher Richtung, mit einem Irrtumsrisiko behaftet ist.
Diese Risiken sind graphisch weiter unten und tabellarisch noch weiter unten in der Rubrik Risikoarten_bei_statistischen_Hypothesentests dargestellt.
Beispiele zu Hypothesenformulierungen
Zweiseitig (ungerichtet):
H0: Die durchschnittlichen Körpergrössen von Männern und Frauen sind gleich.
H1: Die durchschnittliche Körpergrösse von Männern ist anders (also grösser oder kleiner) als die von Frauen
Einseitig (gerichtet):
H0: Die durchschnittlichen Körpergrössen von Männern und Frauen sind gleich.
H1: Die durchschnittliche Körpergrösse von Männern ist grösser als die von Frauen
1. Einseitige statistische Hypothese, gerichtete statistische Hypothese
Angenommen, es existierte in Wirklichkeit kein Unterschied zwischen den Durchschnittsgrössen der Geschlechter.
(Wir tun für dieses Beispiel so, als wüssten wir es wirklich nicht - so wie in realen Fällen)
Führte man wiederholt Stichproben durch und berechnete den sich aus den Stichproben ergebenden durchschnittlichen Grössenunterschied zwischen den Geschlechtern, dann würden die Ergebnisse irgendwie um Null verteilt sein, das heisst, manche Stichproben würden ergeben, dass Männer im Mittel grösser sind und wiederum andere würden ergeben, dass Frauen im Mittel grösser sind.
Über alle Stichproben betrachtet wäre aber der Bereich um Null (kein Grössenunterschied) der Wahrscheinlichste.
Folgendes Bild veranschaulicht dies.
Es sei nochmals betont, dass das obige Bild die Verteilung des Stichprobenergebnisses darstellt, und nichts Anderes.
Nun sei folgende Hypothese formuliert:
Einseitig (gerichtet):
H0: Die durchschnittlichen Körpergrössen von Männern und Frauen sind gleich.
H1: Die durchschnittliche Körpergrösse von Männern ist grösser als die von Frauen
Zur Überprüfung der Hypothese erhebe man eine Stichprobe.
Wenn es -wie eingangs bemerkt- in Wirklichkeit keinen Unterschied zwischen den Durchschnittsgrössen der Geschlechter geben würde, dann würde das Stichprobenergebnis sehr wahrscheinlich eine Durchschnittsgrössendifferenz nahe bei Null ergeben.
Mit einer zwar kleinen, aber vorhandenen Wahrscheinlichkeit jedoch würde man eine Durchschnittsgrössendifferenz ermitteln, die "deutlich" von Null verschieden ist.
Der rote Flächenanteil in obigem Bild macht etwa 10% der Gesamtfläche der Wahrscheinlichkeitsverteilung des Stichprobenergebnisses aus. Dieser Bereich erscheint zunächst willkürlich gewählt, ergibt aber im weiteren Kontext einen Sinn
Mit einer Wahrscheinlichkeit von 10% fällt das Stichprobenergebnis in diesen Bereich.
Wenn das Stichprobenergebnis in diesen Bereich gefallen ist, dann sagt man:
"Die Nullhypothese (kein Unterschied zwischen den Geschlechtern) muss zum Signifikanzniveau von 90% (=100% -10%) verworfen werden", bzw.
Das Testergebnis ist zu >= 90% signifikant (je nachdem, wo genau im roten Bereich das Ergebnis liegt),
denn wenn es wirklich keinen Unterschied zwischen den Geschlechtern geben würde, dann würde man nur mit 10% Wahrscheinlichkeit ein Stichprobenergebnis bekommen, welches in den roten Bereich fällt.
Man sieht hier sehr deutlich, dass man aus der Stichprobe eigentlich keinerlei Schluss auf die wahre (aber unbekannte) Welt ziehen dürfte, denn diese kann sich mittels Stichproben ja fast beliebig manifestieren (wenn auch umso unwahrscheinlicher, je "extremer" die Manifestation).
In der Praxis jedoch folgert man aus obigem Beispiel:
"Die durchschnittliche Körpergrösse zwischen den Geschlechtern ist zum Signifikanzniveau 90% nicht gleich".
Man macht also eine Aussage über die Grundgesamtheit und versieht sie mit 90% Sicherheit.
Dass diese Schlussweise eigentlich nicht zulässig ist, wurde bereits bemerkt. Dennoch ist sie Stand der Technik. Es verbirgt sich dahinter der Bayes'sche Wahrscheinlichkeitsbegriff, der im Prinzip die Sicherheit in der persönlichen Einschätzung eines Sachverhaltes meint.
Aus praktischer Erfahrung jedoch hat sich diese Schlussweise durchgesetzt und ist "Stand der Technik", weil sie die "erlebte Realität" wiedergibt.
Auf jeden Fall falsch ist es jedoch, wenn man folgern würde:
"Männer sind mit 90% Wahrscheinlichkeit grösser als Frauen"
Begründung:
Wenn in Wahrheit kein Unterschied bestünde, oder Frauen im Durchschnitt gar grösser wären als Männer, dann ist die Behauptung offensichtlich falsch.
Wenn in Wahrheit Männer im Durchschnitt tatsächlich grösser wären als Frauen, dann würde eine grössere (kleinere) Stichprobe ein höheres (niedrigeres) Signifikanzniveau ergeben.
Warum wurde in diesem Beispiel der rote Bereich gerade im rechten Eck gewählt?
Weil man bei der Formulierung der Hypothesen
Einseitig (gerichtet):
H0: Die durchschnittlichen Körpergrössen von Männern und Frauen sind gleich.
H1: Die durchschnittliche Körpergrösse von Männern ist grösser als die von Frauen
bereits "insgeheim" gehofft hat, dass Männer in Wahrheit durchschnittlich grösser sind als Frauen, oder etwas positiver formuliert:
Per fachmännischen Beschluss wurde von vorneherein ausgeschlossen, dass Frauen grösser sind als Männer.
Deswegen hat man die 10% Flächenanteil ganz nach rechts gelegt, weil es unter der Voraussetzung, Männer seien tatsächlich grösser als Frauen (das ist ja die Hoffnung), leichter zu signifikanten Testergebnissen kommt (bei festgelegtem Signifikanzniveau, hier 90%).
"Hoffnungen" müssen immer sachlich begründet werden, idealerweise mittels unabhängiger Methoden.
2. Zweiseitige statistische Hypothese, ungerichtete statistische Hypothese
Alles zuvor unter der Rubrik "Einseitige Statistische Hypothese" Gesagte gilt auch hier.
Allerdings sei jetzt folgende Hypothese formuliert:
Zweiseitig (ungerichtet):
H0: Die durchschnittlichen Körpergrössen von Männern und Frauen sind gleich.
H1: Die durchschnittliche Körpergrösse von Männern ist anders (also grösser oder kleiner) als die von Frauen
Man erhebe wieder eine Stichprobe
Es gilt wieder alles unter der Rubrik "Einseitige Statistische Hypothese" Gesagte.
Der rote Flächenanteil in obigem Bild macht wieder etwa 10% der Gesamtfläche der Wahrscheinlichkeitsverteilung des Stichprobenergebnisses aus.
Dieser Bereich ist nun aber anders gewählt und erscheint zunächst wieder willkürlich, ergibt aber im weiteren Kontext einen Sinn.
Mit einer Wahrscheinlichkeit von 10% fällt das Stichprobenergebnis wieder in diesen Bereich.
Wenn das Stichprobenergebnis in diesen Bereich gefallen ist, dann sagt man wieder:
"Die Nullhypothese (kein Unterschied zwischen den Geschlechtern) muss zum Signifikanzniveau von 90% (=100% -10%) verworfen werden", bzw.
Das Testergebnis ist zu >= 90% signifikant (je nachdem, wo genau im roten Bereich das Ergebnis liegt)
Die beiden Formulierungen sind mit den Formulierungen der Rubrik "Einseitige Statistische Hypothese" absolut identisch.
In der Praxis folgert man wieder:
"Die durchschnittliche Körpergrösse zwischen den Geschlechtern ist zum Signifikanzniveau 90% nicht gleich".
Dass diese Schlussweise eigentlich nicht zulässig ist, wurde bereits bemerkt.
Es sei nochmals erwähnt, dass aufgrund praktischer Erfahrung diese Schlussweise "Stand der Technik" ist.
Wieder wäre es auf jeden Fall falsch, wenn man folgern würde:
"Männer sind mit 90% Wahrscheinlichkeit grösser oder kleiner als Frauen"
Begründung:
Wenn in Wahrheit kein Unterschied bestünde, dann ist die Behauptung offensichtlich falsch.
Wenn in Wahrheit tatsächlich ein Unterschied bestünde, dann würde eine grössere (kleinere) Stichprobe ein höheres (niedrigeres) Signifikanzniveau ergeben.
Was ist denn nun anders im Vergleich zum einseitigen Fall?
Der einzige Unterschied besteht darin, dass in dieser (zweiseitig formulierten) Hypothese im Vorhinein kein fachmännischer Beschluss stattgefunden hat bzw. keine "Hoffnung" gehegt worden ist.
Aus diesem Grunde musste man die "extremsten" 10% denkbarer Stichprobenmanifestationen auf beide "Schwänze" der Wahrscheinlichkeitsverteilung verteilen.
Wenn nun in Wirklichkeit Männer im Durchschnitt grösser wären als Frauen, dann wäre in dieser zweiseitigen Hypothesenformulierung das Erreichen von Signifikanz erschwert, weil die Grenzen zu den roten Teilbereichen weiter von Null weg liegen als die Grenze der Fläche im einseitigen Fall.
Es ist wohl deutlich geworden, dass das einseitige testen ohne vorausgehenden fachmännischen Beschluss eine geeignete Quelle für "statistisches Lügen" darstellt, weil man sich das Erreichen von signifikanten Ergebnissen zu Unrecht erleichtert.
Zurück zu statistische Hypothese
15.09.2005
Zurück zu Anmerkungen zu statistischen Hypothesen
Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen
Anmerkungen zu statistischen Hypothesen
Statistische Hypothesen müssen immer im Voraus formuliert werden, das heisst, vor den Tests, die die Hypothese bestätigen oder widerlegen sollen.
Nachträglich formulierte oder unüberprüfte Hypothesen sind ohne wissenschaftlichen Wert und -leider- eine weitere Quelle für statistische Lügen.
Es gibt auch statistische Methoden, welche vor der Formulierung statistischer Hypothesen angewandt werden; sie heissen hypothesegenerierende Verfahren. (--> explorative Datenanalyse).
a) Alternativhypothese ist lediglich Negation der Nullhypothese
Hypothesen (egal ob Null- oder Alternativ-) können verworfen oder nicht verworfen werden. Sie können jedoch nicht angenommen oder gar bestätigt werden.
Durch die Wahl eines Signifikanzniveaus, welches in der Regel bei 90% oder darüber liegt, geht man ja schon ein erhebliches Risiko ein, einen tatsächlich vorhandenen Sachverhalt gar nicht zu bemerken (Beta Risiko).
Man stelle sich zum Beispiel vor, die Nullhypothese kann bei einem geforderten Signifikanzniveau von 90% nicht verworfen werden, weil das Datenmaterial lediglich für ein Signifikanzniveau von 80% "ausreicht".
Angesichts der 80% zu behaupten, die Nullhypothese kann "angenommen" werden, ist allein deshalb falsch, weil man sich in 80% aller vergleichbaren Fälle täuschen würde (aber man wollte ja unbedingt 90% sicher sein).
Es sei hier angemerkt, dass über das Beta Risiko nichts ausgesagt werden kann, da man nicht näher angibt, ein wie grosser Unterschied als relevant gilten soll. Es wird lediglich die Nullhypothese explizit formuliert. Sollte die Nullhypothese (in Wahrheit zurecht) verworfen werden müssen, dann kann man ohne Weiteres nichts über die Grösse des erkannten Unterschiedes aussagen. Man kann lediglich Aussagen machen über die Wahrscheinlichkeitsverteilung des erkannten Unterschiedes, aber bei diesem Ansinnen hätte man die Alternativhypothese gleich zu Anfang explizit formulieren können und den Test entsprechend führen können. Siehe dazu den nächsten Unterabschnitt b).
Es gibt aber noch einen rein logischen Grund, weshalb man eine Hypothese nicht "annehmen", sondern lediglich "nicht verwerfen" kann:
Der wahre (unbekannte) Sachverhalt ist ja, obwohl wir ihn nicht kennen, determiniert, d.h., er wird sich wohl kaum nach dem Ergebnis eines Hypothesentests richten.
Bei einseitigen Hypothesenformulierungen sollte man wenigstens etwas fachliches Vorwissen haben.
In dem unter Statistische Hypothese genannten Beispiel vermutet man, dass die durchschnittliche Körpergrösse von Männern mindestens nicht kleiner ist als die von Frauen, man vermutet also schon, dass Männer grösser sind als Frauen. Der Test soll nun offenbaren, ob diese Vermutung signifikant ist..
Bei einseitiger Hypothesenformulierung lässt man also eine Seite unbeachtet, was dazu führt, dass es auf der anderen Seite leichter zu Signifikanz kommt als es bei zweiseitiger Formulierung der Fall wäre.
Nachträgliche einseitige Formulierung ist übrigens ein geeignetes "Mittel", bei knapp verfehlter zweiseitiger Signifikanz doch noch (einseitige) Signifikanz herbeizuführen.
b) Explizite und eigenständige Formulierung der Alternativhypothese
Die effektivste Gestaltung eines Tests beinhaltet neben der Formulierung der Nullhypothese
(mit dem dazu gehörenden Alpha Risiko) zusätzlich
die explizite Formulierung der Alternativhypothese (mit dem zugehörigen Beta Risiko)
Daraus ergibt sich dann
die explizite Festlegung einer Effektgrösse, die die Nullhypothese von der Alternativhypothese klar trennt.
Beispiel:
H0: Männer und Frauen sind im Mittel gleich gross.
H1: Männer sind im Schnitt mindestens 6 cm grösser als Frauen. (Effektgrösse = 6 cm)
Folgendes Bild verdeutlicht dies
Die blaue Kurve gibt die Verteilung der Stichprobenergebnisse wieder unter der Annahme, dass in Wahrheit die H0 gilt
(kein Unterschied zwischen den Geschlechtern).
Die rosa Kurve gibt die Verteilung der Stichprobenergebnisse wieder unter der Annahme, dass in Wahrheit die H1 "gerade noch" gilt (also das Wort "mindestens" durch "genau" ersetzt wird -> Männer im Schnitt genau 6 cm grösser als Frauen).
Die 6 cm in diesem Beispiel ist die Effektgrösse, also derjenige Mindestunterschied, der "technisch" gerade noch für bedeutsam erachtet wird.
Effektgrössen sind im Vorhinein auf Grundlage fachmännischer Kriterien festzulegen.
Es sei hier betont, dass die beiden Kurven die Verteilungen der Stichprobendurchschnitte darstellen, nicht die Verteilungen der Körpergrössen selbst. Erstere sind nach dem zentralen Grenzwertsatz deutlich schmäler als letztere, nämlich prpoprtional zu n1/2 .
Die hellgrüne senkrechte Linie schneidet die rechten 10% der Fläche unter der blauen Kurve ab und symbolisiert das Signifikanzniveau 90% bezüglich der Nullhypothese (->Alpha Risiko = 10%).
Von der Fläche unter der rosa Kurve schneidet die senkrechte grüne Linie nur ca. 1% links ab.
Dies symbolisiert das "Signifikanzniveau" 99% bezüglich der Alternativhypothese (->Beta Risiko = 1%)
Nun nehmen wir beispielhaft an, das Stichprobenergebnis sei genau auf die grüne Linie gefallen.
Dann bedeuten die letzten 3 Sätze konkret folgendes:
Wenn die H0 gilt, dann würde das Stichprobenergebnis nur mit 10% Wahrscheinlichkeit eine derartige oder gar noch extremere Ausprägung annehmen. ->Eine in Wirklichkeit geltende H0 würde man mit 90% Sicherheit "erkennen", da man in nur 10% aller Fälle rechts der grünen Linie liegen würde.
Wenn die H1 gilt, dann würde das Stichprobenergebnis nur mit 1% Wahrscheinlichkeit eine derartige oder gar noch extremere Ausprägung annehmen. -> Eine in Wirklichkeit geltende H1 würde man mit 99% Sicherheit "erkennen" , da da man in nur 1% aller Fälle links der grünen Linie liegen würde.
Legt man die grüne Linie weiter nach rechts, beispielsweise:
dann gilt (Zahlen sind geschätzt):
Wenn die H0 gilt, dann würde das Stichprobenergebnis nur mit 1% Wahrscheinlichkeit eine derartige oder gar noch extremere Ausprägung annehmen. ->Eine in Wirklichkeit geltende H0 würde man mit 99% Sicherheit "erkennen", da man in nur 1% aller Fälle rechts der grünen Linie liegen würde.
Wenn die H1 gilt, dann würde das Stichprobenergebnis nur mit 10% Wahrscheinlichkeit eine derartige oder gar noch extremere Ausprägung annehmen. -> Eine in Wirklichkeit geltende H1 würde man mit 90% Sicherheit "erkennen" , da da man in nur 10% aller Fälle links der grünen Linie liegen würde.
Offensichtlich hat sich die "Erkennnungsstärke" der H0 erhöht zuungunsten der "Erkennungsstärke" der H1.
Man hat also zum besseren Erkennen einer in Wahrheit geltenden H0 die Empfindlichkeit des Erkennens einer in Wahrheit geltenden H1 verringert.
Hier wird deutlich, dass Alpha Risiko und Beta Risiko in Konkurrenz stehen. Will man beide Risiken minimieren, so bleibt nur noch die Erhöhung der Stichprobengrösse.
In der Praxis wird man aber in der Regel einen Kompromiss eingehen. Dabei kann es von unterschiedlicher Wichtigkeit sein, einen tatsächlichen Unterschied möglichst sicher entdecken zu wollen, oder einen tatsächlich nicht vorhandenen Unterschied sicher erkennen zu wollen.
Im Gegensatz zu denjenigen Tests, bei denen sich die Alternativhypothese lediglich aus der Negierung der Nullhypothese ergibt (und das Beta Risiko in der Regel unbekannt bleibt, eine Effektgrösse erst gar nicht formuliert wird),
gibt es bei dieser Testform 2 eindeutige Ergebnisse:
Die Nullhypothese wird angenommen
Die Alternativhypothese wird angenommen
Man beachte, dass bei konventioneller Testform infolge des Fehlens einer expliziten eigenständigen Alternativhypothese es nur 2 "schwammige" Ergebnisse gab, die zudem noch anders zu formulieren sind:
Die Nullhypothese wird abgelehnt /verworfen,
Die Nullhypothese kann nicht abgelehnt / verworfen werden.
Bei konventionellen Tests können Hypothesen nicht "angenommen" werden, sondern lediglich "nicht abgelehnt" werden .
Dieser sehr bedeutsame Unterschied wird unter a) eingehend erläutert.
Beispiele für Tests mit expliziter Formulierung der Alternativhypothese und Festlegung einer Effektgrösse finden sich unter
Zurück zu Anmerkungen zu statistischen Hypothesen
29.08.2005
Zurück zu statistischer Hypothesentest
Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen
A priori Test, bei dem (im Gegensatz zur eplorativen Datenanalyse)
vorher formulierte statistische Hypothesen überprüft werden.
aufgrund des Informationsgehaltes von Stichproben Schlüsse auf die zugehörige Grundgesamtheit gezogen werden.
Diese Schlüsse sind mit einer genau zu definierenden Irrtumswahrscheinlichkeit behaftet.
Alle statistischen Hypothesentests berechnen eine sogenannte Prüfgrösse, deren Wert unmittelbar über das Schicksal der Nullhypothese entscheidet.
Statistische Hypothesentests führt man deshalb durch, damit man nicht die gesamte Grundgesamtheit untersuchen muss (was oft unmöglich ist), sondern mit Stichproben arbeiten kann.
Bei statistischen Hypothesentests ist stets ein Abwägen vonnöten zwischen statistischer Unsicherheit und Aufwand des Tests.
Vorgehensweise:
(Verbale) Formulierung einer Hypothese, festlegen ob ein- oder zweiseitig.
Beispiele für ein- oder zweiseitige Hypothesen siehe weiter oben.
Festlegen der Testparameter, entweder:
Signifikanzniveau (=1- Alpha Risiko) und Stichprobengrösse
-> das Beta Risiko ergibt sich daraus und ist oft leider nicht näher bekannt.
Signifikanzniveau, Beta Risiko und Effektgrösse.
-> die Stichprobengrösse ergibt sich daraus.
Durchführung des Tests, Ermittlung der Prüfgrösse
Interpretation des Ergebnisses
Verwerfen oder Nicht-Verwerfen der Nullhypothese
Nullhypothese annehmen oder Alternativhypothese annehmen
Siehe auch Design eines zweiseitigen Tests als Beispiel.
Für einen Überblick über die wichtigsten statistischen Tests in Abhängigkeit des Skalenniveaus siehe hier.
Für einen allgemeineren Einstieg siehe Statistische Hypothese.
Für eine Auflistung sämtlicher in diesem Glossar vorkommenden Tests siehe hier.
Zurück zu statistischer Hypothesentest
08.09.2005
Zurück zu Risikoarten bei statistischen Hypothesentests
Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen
Risikoarten bei statistischen Hypothesentests
In folgender Tabelle sind die Risikoarten sowie weitere Kenngrössen statistischer Hypothesentests tabellarisch dargestellt.
Die zum Teil redundanten Kenngrössenbezeichnungen stammen aus unterschiedlichen Fachbereichen.
|
Verschiedene Begriffe über Risikoarten von Hypothesentests |
Reale Welt (unbekannt) |
||
| H0 trifft zu | H1 trifft zu | ||
|
Welt des Hypothesen- tests |
Test ergibt H0 |
Konfidenzkoeffizient |
Überschreitungswahrscheinlichkeit falsch negativ Risiko 1. Art |
|
Test ergibt H1 |
falsch positiv Risiko 2. Art Güte |
Trennschärfe, Teststärke Teststärke Epsilon, Konfidenzkoeffizient |
|
Anmerkung:
Hohe Signifikanzniveaus bedeuten zwar niedriges Alpha Risiko, also ein geringes Risiko, fälschlicherweise einen Sachverhalt zu erkennen.
Andererseits wird dadurch jedoch das Beta Risiko erhöht, also das Risiko, einen tatsächlich vorhandenen Sachverhalt nicht zu erkannen.
Alpha und Beta Risiko stehen somit in Konkurrenz zueinander.
Dieser Konkurrenz kann man nur durch Vergrössern der Stichprobe wirksam begegnen.
Zur weiteren Vertiefung des Themas "Risikoarten bei statistischen Tests" siehe
Diagnostische Tests: Medizinisch bedeutsame Kennwerte..
Zurück zu Risikoarten bei statistischen Hypothesentests
29.08.2005