Zurück zu statistische Hypothese

Diese Seite enthält die folgenden, aufeinander aufbauenden Rubriken:

 

(Statistische) Hypothese

 

Logische Aussage über eine Eigenschaft einer Grundgesamtheit, die man einem Test unterziehen will. 

Da diese logische Aussage sich evtl. als falsch herausstellen kann, bezeichnet man die Aussage als Hypothese. 

Diese Hypothese kann ein mathematischer Ausdruck oder eine eindeutige verbale Formulierung sein.

Beispiele:

Hypothesenart Beispiel einer maximal genauen Formulierung
Unspezifische Hypothese a ungleich b
Spezifische Hypothese a ist um 2 grösser als b
Ungerichtete Hypothese a und b unterscheiden sich um 2
Gerichtete Hypothese a ist grösser als b
Zusammenhangshypothese "a = 2*b"
Unterschiedshypothese a >< b

 

Alle in der Tabelle genannten Hypothesenarten haben weniger mathematischen, sondern eher sprachlichen Stellenwert.

 

Siehe auch das Beispiel unter Poweranalyse.

 

Die Hypothese wird mit H0, Nullhypothese, bezeichnet. 

Das Gegenteil davon, also die "Gegenhypothese" dazu, wird mit H1, Alternativhypothese, bezeichnet. 

Es ist also in der realen (fast immer unbekannten) Welt in jedem Fall entweder H0 oder H1 wahr.

In der Praxis jedoch 

Letzteres ist Ursache dafür, dass der Testausgang, egal in welcher Richtung, mit einem Irrtumsrisiko behaftet ist.  

Diese Risiken sind graphisch weiter unten und tabellarisch noch weiter unten in der Rubrik  Risikoarten_bei_statistischen_Hypothesentests dargestellt. 

 

Beispiele zu Hypothesenformulierungen

1. Einseitige statistische Hypothese, gerichtete statistische Hypothese

 

Angenommen, es existierte in Wirklichkeit kein Unterschied zwischen den Durchschnittsgrössen der Geschlechter.

    (Wir tun für dieses Beispiel so, als wüssten wir es wirklich nicht - so wie in realen Fällen)

Führte man wiederholt Stichproben durch und berechnete den sich aus den Stichproben ergebenden durchschnittlichen Grössenunterschied zwischen den Geschlechtern, dann würden die Ergebnisse irgendwie um Null verteilt sein, das heisst, manche Stichproben würden ergeben, dass Männer im Mittel grösser sind und wiederum andere würden ergeben, dass Frauen im Mittel grösser sind.

Über alle Stichproben betrachtet wäre aber der Bereich um Null (kein Grössenunterschied) der Wahrscheinlichste.

Folgendes Bild veranschaulicht dies.

Es sei nochmals betont, dass das obige Bild die Verteilung des Stichprobenergebnisses darstellt, und nichts Anderes.

 

Nun sei folgende Hypothese formuliert:

Zur Überprüfung der Hypothese erhebe man eine Stichprobe.

 

Wenn es -wie eingangs bemerkt- in Wirklichkeit keinen Unterschied zwischen den Durchschnittsgrössen der Geschlechter geben würde, dann würde das Stichprobenergebnis sehr wahrscheinlich eine Durchschnittsgrössendifferenz nahe bei Null ergeben.

Mit einer zwar kleinen, aber vorhandenen Wahrscheinlichkeit jedoch würde man eine Durchschnittsgrössendifferenz ermitteln, die "deutlich" von Null verschieden ist.

 

Der rote Flächenanteil in obigem Bild macht etwa 10% der Gesamtfläche der Wahrscheinlichkeitsverteilung des Stichprobenergebnisses aus. Dieser Bereich erscheint zunächst willkürlich gewählt, ergibt aber im weiteren Kontext einen Sinn

 

Mit einer Wahrscheinlichkeit von 10% fällt das Stichprobenergebnis in diesen Bereich.

Wenn das Stichprobenergebnis in diesen Bereich gefallen ist, dann sagt man:

denn wenn es wirklich keinen Unterschied zwischen den Geschlechtern geben würde, dann würde man nur mit 10% Wahrscheinlichkeit ein Stichprobenergebnis bekommen, welches in den roten Bereich fällt.

 

Man sieht hier sehr deutlich, dass man aus der Stichprobe eigentlich keinerlei Schluss auf die wahre (aber unbekannte) Welt ziehen dürfte, denn diese kann sich mittels Stichproben ja fast beliebig manifestieren (wenn auch umso unwahrscheinlicher, je "extremer" die Manifestation).

In der Praxis jedoch folgert man aus obigem Beispiel:

Aus praktischer Erfahrung jedoch hat sich diese Schlussweise durchgesetzt und ist "Stand der Technik", weil sie die "erlebte Realität" wiedergibt.

 

Auf jeden Fall falsch ist es jedoch, wenn man folgern würde:

Warum wurde in diesem Beispiel der rote Bereich gerade im rechten Eck gewählt?

Weil man bei der Formulierung der Hypothesen

bereits "insgeheim" gehofft hat, dass Männer in Wahrheit durchschnittlich grösser sind als Frauen, oder etwas positiver formuliert:

Per fachmännischen Beschluss wurde von vorneherein ausgeschlossen, dass Frauen grösser sind als Männer.

Deswegen hat man die 10% Flächenanteil ganz nach rechts gelegt, weil es unter der Voraussetzung, Männer seien tatsächlich grösser als Frauen (das ist ja die Hoffnung), leichter zu signifikanten Testergebnissen kommt (bei festgelegtem Signifikanzniveau, hier 90%).

"Hoffnungen" müssen immer sachlich begründet werden, idealerweise mittels unabhängiger Methoden.

 

 

2. Zweiseitige statistische Hypothese, ungerichtete statistische Hypothese

 

Alles zuvor unter der Rubrik "Einseitige Statistische Hypothese" Gesagte gilt auch hier.

Allerdings sei jetzt folgende Hypothese formuliert:

Man erhebe wieder eine Stichprobe

 

 

Es gilt wieder alles unter der Rubrik "Einseitige Statistische Hypothese" Gesagte.

 

Der rote Flächenanteil in obigem Bild macht wieder etwa 10% der Gesamtfläche der Wahrscheinlichkeitsverteilung des Stichprobenergebnisses aus.

Dieser Bereich ist nun aber anders gewählt und erscheint zunächst wieder willkürlich, ergibt aber im weiteren Kontext einen Sinn.

 

Mit einer Wahrscheinlichkeit von 10%  fällt das Stichprobenergebnis wieder in diesen Bereich.

Wenn das Stichprobenergebnis in diesen Bereich gefallen ist, dann sagt man wieder:

Die beiden Formulierungen sind mit den Formulierungen der Rubrik "Einseitige Statistische Hypothese" absolut identisch.

In der Praxis folgert man wieder:

Wieder wäre es auf jeden Fall falsch, wenn man folgern würde:

Was ist denn nun anders im Vergleich zum einseitigen Fall?

Der einzige Unterschied besteht darin, dass in dieser (zweiseitig formulierten) Hypothese im Vorhinein kein fachmännischer Beschluss stattgefunden hat bzw. keine "Hoffnung" gehegt worden ist.

Aus diesem Grunde musste man die "extremsten" 10% denkbarer Stichprobenmanifestationen auf beide "Schwänze" der Wahrscheinlichkeitsverteilung verteilen.

 

Wenn nun in Wirklichkeit Männer im Durchschnitt grösser wären als Frauen, dann wäre in dieser zweiseitigen Hypothesenformulierung das Erreichen von Signifikanz erschwert, weil die Grenzen zu den roten Teilbereichen weiter von Null weg liegen als die Grenze der Fläche im einseitigen Fall.

 

Es ist wohl deutlich geworden, dass das einseitige testen ohne vorausgehenden fachmännischen Beschluss eine geeignete Quelle für "statistisches Lügen" darstellt, weil man sich das Erreichen von signifikanten Ergebnissen zu Unrecht erleichtert.

 

Zurück zu statistische Hypothese

15.09.2005


Zurück zu Anmerkungen zu statistischen Hypothesen

Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen

 

Anmerkungen zu statistischen Hypothesen 

 

Statistische Hypothesen müssen immer im Voraus formuliert werden, das heisst, vor den Tests, die die Hypothese bestätigen oder widerlegen sollen.

Nachträglich formulierte oder unüberprüfte Hypothesen sind ohne wissenschaftlichen Wert und -leider- eine weitere Quelle für statistische Lügen.

Es gibt auch statistische Methoden, welche vor der Formulierung statistischer Hypothesen angewandt werden; sie heissen hypothesegenerierende Verfahren. (--> explorative Datenanalyse).

 

a) Alternativhypothese ist lediglich Negation der Nullhypothese

 

Hypothesen (egal ob Null- oder Alternativ-) können verworfen oder nicht verworfen werden. Sie können jedoch nicht angenommen oder gar bestätigt werden. 

Durch die Wahl eines Signifikanzniveaus, welches in der Regel bei 90% oder darüber liegt, geht man ja schon ein erhebliches Risiko ein, einen tatsächlich vorhandenen Sachverhalt gar nicht zu bemerken (Beta Risiko). 

Man stelle sich zum Beispiel vor, die Nullhypothese kann bei einem geforderten Signifikanzniveau von 90% nicht verworfen werden, weil das Datenmaterial lediglich für ein Signifikanzniveau von 80% "ausreicht". 

Angesichts der 80% zu behaupten, die Nullhypothese kann "angenommen" werden, ist allein deshalb falsch, weil man sich in 80% aller vergleichbaren Fälle täuschen würde (aber man wollte ja unbedingt 90% sicher sein). 

Es sei hier angemerkt, dass über das Beta Risiko nichts ausgesagt werden kann, da man nicht näher angibt, ein wie grosser Unterschied als relevant gilten soll. Es wird lediglich die Nullhypothese explizit formuliert. Sollte die Nullhypothese (in Wahrheit zurecht) verworfen werden müssen, dann kann man ohne Weiteres nichts über die Grösse des erkannten Unterschiedes aussagen. Man kann lediglich Aussagen machen über die Wahrscheinlichkeitsverteilung des erkannten Unterschiedes, aber bei diesem Ansinnen hätte man die Alternativhypothese gleich zu Anfang explizit formulieren können und den Test entsprechend führen können. Siehe dazu den nächsten Unterabschnitt b).

Es gibt aber noch einen rein logischen Grund, weshalb man eine Hypothese nicht "annehmen", sondern lediglich "nicht verwerfen" kann:

Der wahre (unbekannte) Sachverhalt ist ja, obwohl wir ihn nicht kennen, determiniert, d.h., er wird sich wohl kaum nach dem Ergebnis eines Hypothesentests richten.

 

Bei einseitigen Hypothesenformulierungen sollte man wenigstens etwas fachliches Vorwissen haben. 

In dem unter Statistische Hypothese genannten Beispiel vermutet man, dass die durchschnittliche Körpergrösse von Männern mindestens nicht kleiner ist als die von Frauen, man vermutet also schon, dass Männer grösser sind als Frauen. Der Test soll nun offenbaren, ob diese Vermutung signifikant ist.. 

Bei einseitiger Hypothesenformulierung lässt man also eine Seite unbeachtet, was dazu führt, dass es auf der anderen Seite leichter zu Signifikanz kommt als es bei zweiseitiger Formulierung der Fall wäre. 

Nachträgliche einseitige Formulierung ist übrigens ein geeignetes "Mittel", bei knapp verfehlter zweiseitiger Signifikanz doch noch (einseitige) Signifikanz herbeizuführen. 

 

b) Explizite und eigenständige Formulierung der Alternativhypothese 

 

Die effektivste Gestaltung eines Tests beinhaltet neben der Formulierung der Nullhypothese

(mit dem dazu gehörenden  Alpha Risiko) zusätzlich 

Beispiel:

H0: Männer und Frauen sind im Mittel gleich gross.

H1: Männer sind im Schnitt mindestens 6 cm grösser als Frauen. (Effektgrösse = 6 cm)

 

Folgendes Bild verdeutlicht dies

 

Die blaue Kurve gibt die Verteilung der Stichprobenergebnisse wieder unter der Annahme, dass in Wahrheit die H0 gilt

(kein Unterschied zwischen den Geschlechtern).

Die rosa Kurve gibt die Verteilung der Stichprobenergebnisse wieder unter der Annahme, dass in Wahrheit die H1 "gerade noch" gilt (also das Wort "mindestens" durch "genau" ersetzt wird -> Männer im Schnitt genau 6 cm grösser als Frauen).

Die 6 cm in diesem Beispiel ist die Effektgrösse, also derjenige Mindestunterschied, der "technisch" gerade noch für bedeutsam erachtet wird.

Effektgrössen sind im Vorhinein auf Grundlage fachmännischer Kriterien festzulegen.

Es sei hier betont, dass die beiden Kurven die Verteilungen der Stichprobendurchschnitte darstellen, nicht die Verteilungen der Körpergrössen selbst. Erstere sind nach dem zentralen Grenzwertsatz deutlich schmäler als letztere, nämlich prpoprtional zu n1/2 .

Die hellgrüne senkrechte Linie schneidet die rechten 10% der Fläche unter der blauen Kurve ab und symbolisiert das Signifikanzniveau 90% bezüglich der Nullhypothese (->Alpha Risiko = 10%).

Von der Fläche unter der rosa Kurve schneidet die senkrechte grüne Linie nur ca. 1% links ab.

Dies symbolisiert das "Signifikanzniveau" 99% bezüglich der Alternativhypothese (->Beta Risiko = 1%)

 

Nun nehmen wir beispielhaft an, das Stichprobenergebnis sei genau auf die grüne Linie gefallen.

Dann bedeuten die letzten 3 Sätze konkret folgendes:

 

Legt man die grüne Linie weiter nach rechts, beispielsweise:

 

dann gilt (Zahlen sind geschätzt):

 

Offensichtlich hat sich die "Erkennnungsstärke" der H0 erhöht zuungunsten der "Erkennungsstärke" der H1.

Man hat also zum besseren Erkennen einer in Wahrheit geltenden H0 die Empfindlichkeit des Erkennens einer in Wahrheit geltenden H1 verringert.

Hier wird deutlich, dass Alpha Risiko und Beta Risiko in Konkurrenz stehen. Will man beide Risiken minimieren, so bleibt nur noch die Erhöhung der Stichprobengrösse.

 

In der Praxis wird man aber in der Regel einen Kompromiss eingehen. Dabei kann es von unterschiedlicher Wichtigkeit sein, einen tatsächlichen Unterschied möglichst sicher entdecken zu wollen, oder einen tatsächlich nicht vorhandenen Unterschied sicher erkennen zu wollen.

 

Im Gegensatz zu denjenigen Tests, bei denen sich die Alternativhypothese lediglich aus der Negierung der Nullhypothese ergibt (und das Beta Risiko in der Regel unbekannt bleibt, eine Effektgrösse erst gar nicht formuliert wird), 

gibt es bei dieser Testform 2 eindeutige Ergebnisse: 

  1. Die Nullhypothese wird angenommen 

  2. Die Alternativhypothese wird angenommen 

Man beachte, dass bei konventioneller Testform infolge des Fehlens einer expliziten eigenständigen Alternativhypothese es nur 2 "schwammige" Ergebnisse gab, die zudem noch anders zu formulieren sind: 

  1. Die Nullhypothese wird abgelehnt /verworfen,

  2. Die Nullhypothese kann nicht abgelehnt / verworfen werden. 

Bei konventionellen Tests können Hypothesen nicht "angenommen" werden, sondern lediglich "nicht abgelehnt" werden .  

Dieser sehr bedeutsame Unterschied wird unter a) eingehend erläutert. 

 

Beispiele für Tests mit expliziter Formulierung der Alternativhypothese und Festlegung einer Effektgrösse finden sich unter 

Zurück zu Anmerkungen zu statistischen Hypothesen  

29.08.2005


Zurück zu statistischer Hypothesentest

Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen

 

Statistischer Hypothesentest 

 

A priori Test, bei dem (im Gegensatz zur eplorativen Datenanalyse)

Diese Schlüsse sind mit einer genau zu definierenden Irrtumswahrscheinlichkeit behaftet. 

Alle statistischen Hypothesentests berechnen eine sogenannte Prüfgrösse, deren Wert unmittelbar über das Schicksal der Nullhypothese entscheidet. 

 

Statistische Hypothesentests führt man deshalb durch, damit man nicht die gesamte Grundgesamtheit untersuchen muss (was oft unmöglich ist), sondern mit Stichproben arbeiten kann.

Bei statistischen Hypothesentests ist stets ein Abwägen vonnöten zwischen statistischer Unsicherheit und Aufwand des Tests.

 

Vorgehensweise: 

  1. (Verbale) Formulierung einer Hypothese, festlegen ob ein- oder zweiseitig. 

    Beispiele für ein- oder zweiseitige Hypothesen siehe weiter oben.

  2. Festlegen der Testparameter, entweder:

    1. Signifikanzniveau (=1- Alpha Risiko) und Stichprobengrösse 

      -> das Beta Risiko ergibt sich daraus und ist oft leider nicht näher bekannt.

    2. Signifikanzniveau, Beta Risiko und Effektgrösse.

      -> die Stichprobengrösse ergibt sich daraus. 

  3. Durchführung des Tests, Ermittlung der Prüfgrösse 

  4. Interpretation des Ergebnisses

    1. Verwerfen oder Nicht-Verwerfen der Nullhypothese 

    2. Nullhypothese annehmen oder Alternativhypothese annehmen

Siehe auch Design eines zweiseitigen Tests als Beispiel

Für einen Überblick über die wichtigsten statistischen Tests in Abhängigkeit des Skalenniveaus siehe hier.

Für einen allgemeineren Einstieg siehe Statistische Hypothese.

Für eine Auflistung sämtlicher in diesem Glossar vorkommenden Tests siehe hier.

Zurück zu statistischer Hypothesentest  

08.09.2005


Zurück zu Risikoarten bei statistischen Hypothesentests

Anmerkung: Es ist ratsam, diese Seite von ganz oben nach unten durchzulesen

 

Risikoarten bei statistischen Hypothesentests

 

In folgender Tabelle sind die Risikoarten sowie weitere Kenngrössen statistischer Hypothesentests tabellarisch dargestellt.

Die zum Teil redundanten Kenngrössenbezeichnungen stammen aus unterschiedlichen Fachbereichen.

 

Verschiedene 

Begriffe über 

Risikoarten von Hypothesentests

Reale Welt (unbekannt)

H0 trifft zu H1 trifft zu

Welt 

des 

Hypothesen- 

tests

Test ergibt H0

Signifikanznivau, p-Wert,

 diagnostische Sensitivität

Konfidenzkoeffizient

[Positiv Prädikativer Wert]

Alpha Risiko

Abnehmerrisiko, 

Überschreitungswahrscheinlichkeit

falsch negativ

Risiko 1. Art

Test ergibt H1

Beta Risiko

Lieferantenrisiko

falsch positiv

Risiko 2. Art 

Güte

Power

Trennschärfe, Teststärke

Teststärke Epsilon, 

diagnostische Spezifität

Konfidenzkoeffizient

[Negativ Prädikativer Wert]

 

Anmerkung:

Hohe Signifikanzniveaus bedeuten zwar niedriges Alpha Risiko, also ein geringes Risiko, fälschlicherweise einen Sachverhalt zu erkennen. 

Andererseits wird dadurch jedoch das Beta Risiko erhöht, also das Risiko, einen tatsächlich vorhandenen Sachverhalt nicht zu erkannen.  

Alpha und Beta Risiko stehen somit in Konkurrenz zueinander. 

Dieser Konkurrenz kann man nur durch Vergrössern der Stichprobe wirksam begegnen.

 

Zur weiteren Vertiefung des Themas "Risikoarten bei statistischen Tests" siehe 

Diagnostische Tests: Medizinisch bedeutsame Kennwerte..  

 

Zurück zu Risikoarten bei statistischen Hypothesentests

29.08.2005