6 6.1 Testen von Hypothesen Grundbegriffe Statistische Tests dienen zur Lösung von Entscheidungsproblemen auf der Grundlage von Daten. Beispiel: Qualitätskontrolle (Fortsetzung) Eine Maschine soll bestimmte Werkstücke mit einer Länge von 18.3 (mm) herstellen. Zufallsschwankungen um die mittlere Länge sind normalverteilt mit Standardabweichung σ = 0, 18. Es ist bekannt, dass es aus technischen Gründen möglich ist, dass sich die Maschine im Laufe der Zeit dejustieren kann. Für eine Zufallsstichprobe von n = 9 Werkstücken aus der aktuellen Produktion ergab sich: x1 x2 x3 x4 x5 18.42 18.26 18.53 18.45 18.62 x6 x7 x8 x9 18.39 18.5 18.71 18.44 ⇒ Geschätzter Mittelwert: x̄ = 18.48 Frage: Kann man nach wie vor davon ausgehen, dass die Maschine „im Mittel“ Werkstücke der Länge 18, 3 mm herstellt, oder muss man vielmehr annehmen, dass sich die Justierung verändert hat? Statistik_II@finasto 6–1 Es handelt sich hier um ein Entscheidungsproblem, das allein auf der Grundlage der erhobenen Daten zu lösen ist. Man spricht von einem statistischen Testproblem. Man entscheidet zwischen der Nullhypothese (abgekürzt „H0 “): µ = 18, 3, d.h der wahre Mittelwert µ ist gleich 18, 3 und der Alternative (abgekürzt „H1 “): µ ̸= 18, 3, d.h der wahre Mittelwert µ ist nicht gleich 18, 3 Man spricht auch von einem statistischen Test (oder „Signifikanztest“) der Nullhypothese H0 gegen die Alternative H1 . Ansatz: Der aus den Daten berechnete empirische Mittelwert x̄ = 18, 48 ist größer als 18, 3. • Die Nullhypothese kann nur dann richtig sein, wenn sich der Unterschied zwischen den beiden Werten noch „plausibel“ durch Zufallsschwankungen erklären lässt • Die Nullhypothese ist abzulehnen, wenn es sehr unwahrscheinlich ist, dass der beobachtete Wert x̄ noch unter H0 zustande gekommen ist. Statistik_II@finasto 6–2 Der entscheidende Schritt besteht nun in einer Analyse der Verteilung von X̄ unter der Nullhypothese. • Wenn H0 : µ = 18, 3 richtig ist, so gilt X̄ ∼ N (18, 3 , σ 2 /n) bzw. Z= X̄ − 18, 3 √ ∼ N (0, 1) σ/ n Diese Umschreibung hat den Vorteil, dass die Quantile der Standardnormalverteilung bekannt sind. Es gilt σ = 0, 18, n = 9 und daher √σn = 0.06. Der beobachtete (standardisierte) Unterschied zwischen x̄ = 18, 48 und dem hypothetischen Wert 18, 3 ist daher zbeob x̄ − 18, 3 1̄8, 48 − 18, 3 √ = = =3 0.06 σ/ n • Die Nullhypothese ist abzulehnen, falls es unter der Standardnormalverteilung sehr unwahrscheinlich ist, einen Wert zu beobachten, der betragsmäßig größer oder gleich zbeob = 3 ist. H0 wahr: Z ~ N(0,1) 0.4 0.3 0.2 0.1 0.0 -3 Statistik_II@finasto -2 -1 0 1 2 3 zbeob 6–3 Signifikanztest zum Signifikanzniveau α: • Man bestimmt z1−α/2 , das 1 − α/2-Quantil der Standardnormalverteilung. Wenn H0 : µ = 18, 3 √ , dass richtig ist, so gilt für Z = X̄−18,3 σ/ n P [|Z| > z1−α/2 ] = α, d.h die Wahrscheinlichkeit, einen Wert zu beobachten, der betragsmäßig größer als z1−α/2 ist, ist nur α • Die Nullhypothese wird abgelehnt, falls |zbeob | > z1−α/2 Die Menge aller Punkte z mit |z| > z1−α/2 heißt auch „Ablehnungsbereich“ des Tests. H0 wird abgelehnt, wenn zbeob in den Ablehnungsbereich fällt. • Die Nullhypothese wird dagegen angenommen, falls |zbeob | ≤ z1−α/2 • In der Praxis spielen die Wahrscheinlichkeiten α = 0, 05 und α = 0, 01 eine herausragende Rolle. Signifikanztest zum Niveau α=0.05 0.4 0.3 Ablehnbereich Ablehnbereich 0.2 0.1 0.0 -3 Statistik_II@finasto -2 -z0.975 -1 0 1 2 z0.975 3 zbeob 6–4 Signifikanztest zum Niveau α=0.01 0.4 Ablehn0.3 bereich Ablehnbereich 0.2 0.1 0.0 -3 -z0.995 -2 -1 0 1 2 3 zbeob z0.995 Durchführung von Signifikanztests im Beispiel Qualitätskontrolle: • Test zum Signifikanzniveau α = 0.05: Es gilt z1−α/2 = z0.975 = 1.96 ⇒ |zbeob | = 3 > 1.96 = z1−α/2 ⇒ Ablehnung der Nullhypothese; • Test zum Signifikanzniveau α = 0.01: Es gilt z1−α/2 = z0.995 = 2.576 ⇒ |zbeob | = 3 > 2.576 = z1−α/2 ⇒ Ablehnung der Nullhypothese Für beide Signifikanzniveaus führt also der zugehörige Signifikanztest zur Ablehnung der Hypothese, dass µ = 18, 3. Man wird daraus schließen, dass sich die Maschine wohl tatsächlich dejustiert hat, und dass eine Neujustierung vorgenommen werden sollte. Statistik_II@finasto 6–5 6.2 Allgemeine Prinzipien eines statistischen Signifikanztests 1. Schritt • Quantifizierung des inhaltlichen Problems und Darstellung als statistisches Testproblem • Formulierung von Nullhypothese H0 und Alter native H1 Beispiel Qualitätskontrolle: Inhaltliches Problem: Welche mittlere Länge besitzen die Werkstücke der aktuellen Produktion? Entspricht sie dem „Sollwert“ 18,3? Man testet H0 : µ = 18, 3 gegen H1 : µ ̸= 18, 3 2. Schritt • Bestimmung einer geeigneten Prüfgröße (oder Teststatistik aus X1 , . . . , Xn . „Geeignet“ bedeutet hier, dass die jeweiligen Werte der Prüfgröße Rückschlüsse darauf zulassen, ob eher H0 oder H1 zutrifft, d.h. die Teststatistik muss sensibel für das Testproblem sein. • Ermittlung der zugehörigen Prüfverteilung, d.h. der Verteilung der Prüfgröße unter der Nullhypothese. Statistik_II@finasto 6–6 Beispiel Qualitätskontrolle: Eine geeignete Prüfgröße ist der empirische Mittelwert √ . X̄ bzw. der standardisierte Mittelwert Z = X̄−18,3 σ/ n Sehr große oder sehr kleine Werte von Z sprechen eher für H1 , während Werte nahe 0 eine Annahme von H0 nahelegen. Prüfverteilung: Unter H0 gilt Z ∼ N (0, 1) 3. Schritt Festlegung des Signifikanzniveaus α und Konstruktion des zugehörigen Ablehnungsbereichs: • Die Wahrscheinlichkeit des Ablehnungsbereichs unter H0 darf höchstens gleich α sein • Die Berechnung der Grenze(n) des Ablehnungsbereichs, erfolgt über die entsprechenden Quantile der Prüfverteilung Beispiel Qualitätskontrolle: Ablehnungsbereich: |z| > z1−α/2 Hier ist z1−α/2 das 1 − α/2-Quantil der Standardnormalverteilung z1−α/2 bestimmt die Grenzen des Ablehnungsbereichs und wird auch kritischer Wert des Tests genannt. Statistik_II@finasto 6–7 4. Schritt Berechnung des realisierten Werts der Prüfgröße aus den Daten und Entscheidung über Beibehaltung oder Ablehnung der Nullhypothese: • H0 wird beibehalten, falls der berechnete Wert der Teststatistik nicht im Ablehnungsbereich liegt (man sagt dann auch, dass der betreffende Wert im „Annahmebereich“ liegt). • H0 wird abgelehnt, falls der berechnete Wert der Prüfgröße tatsächlich im Ablehnungsbereich liegt. Beispiel Qualitätskontrolle: Berechneter Wert der Prüfgröße: zbeob = 3; Signifikanztest zum Signifikanzniveau α = 5% |zbeob | = 3 > 1.96 = z1−α/2 ⇒ Ablehnung von H0 • Ein Testergebnis heißt „statistisch signifikant zum Niveau α“, falls ein Test zum Signifikanzniveau α die Nullhypothese ablehnt. • Ein Testergebnis heißt „statistisch nicht signifikant zum Niveau α“, falls ein Test zum Signifikanzniveau α die Nullhypothese beibehält. Statistik_II@finasto 6–8 Die in der Praxis wichtigsten Werte von α sind α = 5% und α = 1%. In den Anwendungen findet man häufig folgende Sprachregelung, bei der das zugrundeliegende Signifikanzniveau nicht mehr explizit erwähnt wird: • Beibehaltung der Nullhypothese durch einen Test zum Signifikanzniveau α = 0, 05 ⇒ „Testergebnis nicht signifikant“ • Ablehnung der Nullhypothese durch einen Test zum Signifikanzniveau α = 0, 05 ⇒ „Testergebnis signifikant“ • Ablehnung der Nullhypothese durch einen Test zum Signifikanzniveau α = 0, 01 ⇒ „Testergebnis hochsignifikant“ Statistik_II@finasto 6–9 Im Beispiel „Qualitätskontrolle“ führt ein Signifikanztest zum Niveau α = 5% zu einer Ablehnung der Nullhypothese, da der aus den Daten berechnete Wert zbeob = 3 im Ablehnungsbereich liegt (das Ergebnis ist sogar hochsignifikant, da auch ein Test zum Niveau α = 1% die Hypothese ablehnt). Signifikanztest zum Niveau α=0.05 0.4 0.3 Ablehnbereich Ablehnbereich 0.2 Annahmebereich 0.1 0.0 -3 -2 -z0.975 -1 0 1 2 z0.975 3 zbeob Nehmen wird jedoch z.B. an, dass die Daten für eine zweite Maschine auf zbeob = 0, 5 führen, so lautet die Entscheidung auf Beibehaltung der Nullhypothese. Signifikanztest zum Niveau α=0.05 0.4 0.3 Ablehnbereich Ablehnbereich 0.2 Annahmebereich 0.1 0.0 -3 -2 -z0.975 -1 0 zbeob 1 2 z0.975 3 Das in diesem Beispiel verwendete Testverfahren wird als Gauß-Test bezeichnet. Statistik_II@finasto 6–10 6.3 Fehlentscheidungen Fehler 1. Art, Fehler 2. Art In einem statistischen Testproblem H0 gegen H1 und einem geeigneten statistischen Test (≡ statistisches Entscheidungsverfahren) spricht man von einem • Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist • Fehler 2. Art, wenn H0 beibehalten wird, ob wohl H1 wahr ist Folgende Ausgänge eines statistischen Tests sind möglich: Wahrer Zustand Testentscheidung H0 trifft zu H0 trifft nicht zu (H1 trifft zu) Richtige Fehler 2. Art abgelehnt: “H0 ” Entscheidung (β-Fehler) H0 wird Fehler 1. Art Richtige (α-Fehler) Entscheidung H0 wird nicht abgelehnt: “H1 ” Statistik_II@finasto 6–11 Analogie: Mordprozess In einem Gerichtsprozess wird ein Angeklagter beschuldigt, einen Mord begangen zu haben. Nullhypothese: Angeklagter ist unschuldig Alternative: Angeklagter ist schuldig Gerichtsprozess ⇔ Test Entscheidung Freispruch Verurteilung Wirklichkeit Angeklagter Angeklagter unschuldig schuldig Richtige Fehler Entscheidung β Fehler Richtige α Entscheidung „Unschuldsvermutung“: Die Schuld des Angeklagten muss bewiesen werden. Die Nullhypothese ist nur dann abzulehnen, wenn gewichtiges Beweismaterial präsentiert wird. Der Prozess muss so angelegt sein, dass die Wahrscheinlichkeit α, eine unschuldige Person zu verurteilen, sehr klein ist. Statistik_II@finasto 6–12 Im Rahmen eines Signifikanztests werden die beiden Fehlertypen unterschiedlich behandelt. Nur die Wahrscheinlichkeit eines Fehlers 1. Art wird durch das Signifikanzniveau α kontrolliert. Signifikanztest Ein statistischer Test heißt Test zum Signifikanzniveau α, 0 < α < 1, oder Signifikanztest, falls P [H0 ablehnen | H0 wahr ] ≤ α, oder mit anderen Worten P [ Fehler 1. Art ] ≤ α, Beispiel „Qualitätskontrolle“ (Gauß-Test): √ Unter H0 : Z = n(X̄−18,3) ∼ N (0, 1) σ Ablehnungsbereich: |z| > z1−α/2 ⇒ P [ Fehler 1. Art ] = P [|Z| > z1−α/2 ] = α Signifikanztest zum Niveau α=0.05 N(0,1) 0.4 0.3 Ablehnbereich α/2=0,025 Ablehnbereich α/2=0,025 0.2 0.1 0.0 -3 Statistik_II@finasto -2 -z0.975 -1 0 1 2 z0.975 3 6–13 • Wenn H1 wahr ist, so hängt die Wahrscheinlichkeit β eines Fehlers 2. Art von dem wahren Parameterwert ab. Beispiel „Qualitätskontrolle“ (Gauß-Test): Sei H1 wahr und µ = 18, 36 wahrer Parameterwert √ ⇒ Z = n(X̄−18,3) ∼ N (1, 1) σ ⇒ β = P [|Z| ≤ z1−α/2 |µ = 18, 36] = 0, 832 H1 wahr und µ=18,36: Z~N(1,1) 0.4 0.3 0.2 β 0.1 0.0 -2 -z0.975 0 2 4 z0.975 Sei H1 wahr und µ = 18, 48 wahrer Parameterwert √ ⇒ Z = n(X̄−18,3) ∼ N (3, 1) σ ⇒ β = P [|Z| ≤ z1−α/2 |µ = 18, 48] = 0, 127 H_1 wahr und µ=18,48: Z~N(3,1) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.975 Statistik_II@finasto 0 2 4 z0.975 6–14 • Es ist nicht möglich, beide Fehlerwahrscheinlichkeiten gleichzeitig beliebig klein zu machen. Je kleiner α, desto größer die Wahrscheinlichkeit β eines Fehlers 2. Art. Beispiel „Qualitätskontrolle“ (Gauß-Test): Sei H1 wahr und µ = 18, 48 wahrer Parameterwert ⇒ Z ∼ N (3, 1) α = 0, 05 ⇒ β = P [|Z| ≤ z0,975 |µ = 18, 48] = 0, 127 | {z } 1,96 Niveau α=0,05 (H_1 wahr und µ=18,48) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.975 0 2 4 z0.975 α = 0, 01 ⇒ β = P [|Z| ≤ z0,995 |µ = 18, 48] = 0, 337 | {z } 2,576 Niveau α=0,01 (H 1 wahr, µ=18,48) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.995 Statistik_II@finasto 0 2 z0.995 4 6–15 • Für festes Signifikanzniveau wird β jedoch umso kleiner, je größer der Stichprobenumfang n ist. Beispiel „Qualitätskontrolle“ (Gauß-Test): • H0 wahr: Unabhängig von n gilt Z = N (0, 1) √ n(X̄−18,3) σ ⇒ P [ Fehler 1. Art ) = P [|Z| > z1−α/2 ] = α • Sei H1 wahr und µ = 18, 36. Dann gilt √ √ 1 n(X̄ − 18, 3) Z= ∼ N ( n , 1) σ 3 und es ergibt sich Statistik_II@finasto n=9 β = 0.832 n = 36 β = 0.484 n = 81 β = 0.127 n = 144 β = 0.021 6–16 ∼ 6.4 Statistische Tests und Konfidenzintervalle Es besteht ein enger Zusammenhang zwischen Signifikanztests und der Konstruktion von Konfidenzintervallen. Beispiel „Qualitätskontrolle“ (Gauß-Test): Der in den vorangegangen Abschnitten besprochene Signifikanztest beruht auf dem Ablehnungsbereich: Lehne H0 : µ = 18, 3 ab, falls √ n(x̄ − 18, 3) > z1−α/2 |zbeob | = σ Man beachte nun, dass √ n(x̄ − 18, 3) > z1−α/2 σ σ σ √ √ ⇔ 18, 3 ̸∈ [x̄ − z1−α/2 , x̄ + z1−α/2 ] n n Der Ablehnungsbereich des Tests kann daher in äquivalenter Weise auch folgendermaßen definiert werden: Lehne H0 ab, falls σ σ 18, 3 ̸∈ [x̄ − z1−α/2 √ , x̄ + z1−α/2 √ ], n n d.h. falls der hypothetische Wert 18,3 nicht im (realisierten) (1 − α)-Konfidenzintervall für µ liegt. Statistik_II@finasto 6–17 Verallgemeinerung: Für einen Parameter θ betrachte man einen Test von gegen H1 : θ ̸= θ0 , H0 : θ = θ0 wobei θ0 ein vorgegebener Wert sei (z.B. θ0 = 18, 3). Konstruktion eines Signifikanztests auf der Basis eines Konfidenzintervalls: • Testproblem H 0 : θ = θ0 gegen H1 : θ ̸= θ0 • Symmetrisches (1 − α)-Konfidenzintervall [Gu , Go ] • Signifikanztest: Lehne H0 ab, falls θ0 ̸∈ [gu , go ] Dies ist ein Signifikanztest zum Niveau α, denn falls H0 wahr ist, so gilt P [Fehler 1.Art] = P [θ0 ̸∈ [Gu , Go ]| θ = θ0 ] = α Statistik_II@finasto 6–18 6.5 Überschreitungswahrscheinlichkeit („p-Wert“) • p-Werte bzw. Überschreitungswahrscheinlichkeiten werden standardmäßig von statistischen Programmpaketen ausgegeben. • Anstatt die Prüfgröße mit einem bestimmten kritischen Bereich zu vergleichen, um über die Ablehnung der Nullhypothese zu entscheiden, vergleicht man den p-Wert direkt mit dem jeweiligen Signifikanzniveau Gauß-Test (wie im Beispiel „Qualitätskontrolle“) : Idee: Unter H0 gilt Z ∼ N (0, 1). Man berechnet aus den Daten den realisierten Wert zbeob . Der p-Wert ist nun die Wahrscheinlichkeit, unter der Standardnormalverteilung einen Wert zu beobachten, der betragsmäßig größer oder gleich zbeob ist. Für Z ∼ N (0, 1) errechnet man p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] • p-Werte ergeben sich jeweils in Abhängigkeit von den beobachteten Daten. Sie können als „Maß“ für die Glaubwürdigkeit von H0 interpretiert werden. Je kleiner der p-Wert, desto weniger glaubwürdig ist die Nullhypothese Statistik_II@finasto 6–19 Man beachte: p-Wert = P [|Z| ≥ |zbeob |] und α = P [|Z| ≥ z1−α/2 ] ⇒|zbeob | > z1−α/2 , falls α > p-Wert |zbeob | < z1−α/2 , falls α < p-Wert • Für einen gegebenen Datensatz lässt sich aus dem p-Wert ablesen, zu welchem Niveau α der zugehörige Signifikanztest die Nullhypothese gerade noch verworfen hätte. – Falls α > p-Wert, so gilt |zbeob | > z1−α/2 . Ein Test zu einem Niveau α > p-Wert führt also zur Ablehnung der Nullhypothese. – Falls α < p-Wert, so gilt |zbeob | < z1−α/2 . Ein Test zu einem Niveau α < p-Wert führt also zur Beibehaltung der Nullhypothese. Illustration: Sei zbeob = 1.77 ⇒ p-Wert = 0.076 α = 0, 1 > p-Wert ⇒ Ablehnung von H0 z0.95 =1.645<z beob -z0.95 =-1.645 0.4 0.3 0.2 0.1 α/2=0.05 α/2=0.05 0.0 -2.5 Statistik_II@finasto -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 6–20 α = 0, 076 = p-Wert z0.962 =1.77=z beob -1.77=-z beob 0.4 0.3 0.2 0.1 α/2=0.038 α/2=0.038 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 α = 0, 02 < p-Wert ⇒ Annahme von H0 z0.99 =2.326>z beob -z0.99 =-2.326 0.4 0.3 0.2 0.1 α/2=0.01 α/2=0.01 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 zbeob Statistik_II@finasto 6–21 Beispiel „Qualitätskontrolle“ (Gauß-Test): Der in diesem Beispiel tatsächlich beobachtete Wert ist zbeob = 3. ⇒ p-Wert = P [|Z| ≥ 3] = 2 · P [Z ≥ 3] = 0, 0026 Aus p-Wert = 0, 0026 lässt sich direkt schließen, dass sowohl ein Test zum Signifikanzniveau α = 0, 05 als auc ein Test zum Niveau α = 0, 01 zur Ablehnung von H0 führen. Das Testergebnis ist „hochsignifikant“. p-Werte lassen sich für ein beliebiges Testproblem einer Nullhypothese H0 gegen eine Alternative H1 bestimmen. p-Wert (Allgemeine Definition) Der p-Wert ist definiert als die Wahrscheinlichkeit, unter H0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. p-Wert und Signifikanztests Sei α ∈ (0, 1). Falls α >p-Wert, so führt der zugehörige Signifikanztest zum Niveau α zur Ablehnung von H0 Statistik_II@finasto 6–22 6.6 Einseitige Tests Je nach Struktur von Nullhypothese und Alternative sind bei statistischen Testproblemen weitere Unterscheidungen üblich. Beispiel „Qualitätskontrolle“: Inhaltliches Problem: Welche mittlere Länge besitzen die Werkstücke der aktuellen Produktion? Entspricht sie dem „Sollwert“ 18,3? Man testet H0 : µ = 18, 3 gegen H1 : µ ̸= 18, 3 Man spricht hier von einem „zweiseitigen Testproblem“. Andererseits könnte es z.B. sein, dass man weiß, dass aus technischen Günden eine Dejustierung nur zu einem µ > 18, 3 führen kann. In einem solchen Fall wäre es sinnvoll, das Testproblem als Test von H0 : µ = 18, 3 gegen H1 : µ > 18, 3 zu formulieren. Man spricht man dann von einem „einseitigen Testproblem“. Statistik_II@finasto 6–23 Einseitige und zweiseitige Testprobleme Ein zweiseitiges Testproblem ist von der Form H0 : „=“gegen H1 : „̸=“ Testprobleme der Form H0 : „=“ gegen H1 : „>“ oder H0 : „=“ gegen H1 : „<“ heißen einseitig. Bestehen H0 bzw. H1 nur aus einem einzelnen Punkt, so spricht man von einer einfachen Hypothese bzw. Alternative. Umfassen H0 bzw. H1 mehrere Punkte, so spricht man von zusammengesetzten Hypothesen bzw. Alternativen. • Die Entscheidung über den Typ des Testproblems ist in jeder Anwendung in Abhängigkeit von der zugrundeliegenden Fragestellung zu treffen. • Die Unterscheidung zwischen einseitigen und zweiseitigen Testproblemen ist wichtig für die Durchführung eines Signifikanztests, da jeweils unterschiedliche Ablehnungsbereiche zu definieren sind. Statistik_II@finasto 6–24 Gauß-Test: Man betrachte das einseitige Testproblem H0 : µ = µ0 gegen H1 : µ > µ0 , wobei µ0 ein vorgegbener Wert sei (z.B. µ0 = 18, 3) Als Prüfgröße wird wiederum der standardisierte em√ 0) pirische Mittelwert Z = n(X̄−µ benutzt. σ √ n(X̄ − µ0 ) Unter H0 : Z = ∼ N (0, 1) σ Im Unterschied zu einem zweiseitigen Testproblem ist hier H0 nur dann abzulehnen, falls der beobachtete Wert zbeob zu groß ist. Signifikanztest zum Niveau α: Lehne H0 ab, falls zbeob > z1−α Unter H0 : P [Fehler 1. Art] = P [Z > z1−α ] = α Der p-Wert des einseitigen Tests ergibt sich als p-Wert = P [Z ≥ zbeob ] Test ( α=0.05) von H 0 :µ=µ 0 gegen H 1 :µ>µ0 0.4 Ablehnbereich 0.3 0.2 0.1 Annahmebereich 0.0 -3 Statistik_II@finasto -2 -1 0 1 2 z0.95 3 6–25 Illustration: Sei zbeob = 1.77 ⇒ p-Wert = 0.038 z0.962 =1.77=z beob 0.4 0.3 0.2 0.1 0.038 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 Beispiel „Qualitätskontrolle“: Wir betrachten das einseitige Testproblem H0 : µ = 18, 3 gegen H1 : µ > 18, 3 Aus den Daten ergibt sich wiederum zbeob = 3 • (Einseitiger) Signifikanztest zum Niveau α = 0, 05 zbeob = 3 > z0,95 = 1, 645 ⇒ Ablehnung von H0 • p-Wert des einseitigen Tests p-Wert = P [Z ≥ 3] = 0, 0013 Hieraus folgt, dass auch z.B. ein Test des Niveaus α = 0, 01 die Nullhypothese ablehnt. Das Testergebnis ist hochsignifikant. Statistik_II@finasto 6–26 Anmerkung: Bei einem Test von H0 : µ ≤ µ0 gegen H1 : µ > µ0 sind die Ablehnungsbereiche bzw. p-Werte die gleichen wie beim Test von H0 : µ = µ0 gegen H1 : µ > µ0 . • Falls H0 wahr und µ = µ0 , so gilt Z ∼ N (0, 1) ⇒ P [Fehler 1.Art] = P [Z ≥ z1−α ] = α • Falls H0 wahr und µ < µ0 , so gilt Z = √ 0) N ( n(µ−µ , 1) σ √ n(X̄−µ0 ) σ ∼ und P [Fehler 1.Art] = P [Z ≥ z1−α ] < α • Unter H0 gilt also in jedem Fall P [Fehler 1.Art] = P [Z ≥ z1−α ] ≤ α Vorgehen bei einem Test von H0 : µ = µ0 (bzw. H0 : µ ≥ µ0 gegen H1 : µ < µ0 : Signifikanztest zum Niveau α: Lehne H0 ab, falls zbeob < −z1−α p-Wert = P [Z ≤ zbeob ], Statistik_II@finasto Z ∼ N (0, 1) 6–27 6.7 Überblick: Gauß-Test Gauß-Test Annahmen: X1 , . . . , Xn unabhängig und identisch verteilt mit X ∼ N (µ, σ 2 ) (bzw. beliebig verteilt bei großem n); Varianz σ 2 bekannt Hypothesen: (1) H0 : µ = µ0 gegen H1 : µ ̸= µ0 (2) H0 : µ = µ0 (bzw. H0 : µ ≤ µ0 ) gegen H1 : µ > µ0 (3) H0 : µ = µ0 (bzw. H0 : µ ≥ µ0 ) gegen H1 : µ < µ0 Teststatistik: √ Z= n(X̄ − µ0 ) σ unter H0 : Z ∼ N (0, 1) Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] Statistik_II@finasto 6–28 7 Spezielle Testprobleme In diesem Kapitel werden wichtige Testverfahren zu einigen statistischen Standardproblemen behandelt. Zur Einführung werden kurz die zugehörigen Problemstellungen und Datensituationen skizziert. Ein-Stichproben-Fall: Zufallsstichprobe X1 , . . . , Xn eines einzelnen Merkmals X • Wichtige Fragestellungen betreffen oft die Lage des Zentrums der Verteilung. Typische Testprobleme beinhalten dann den Vergleich des wahren Mittelwerts von X mit einem vorgegebenen Wert ⇒ Gauß-Test (Kap. 6), t-Test im Falle von unbekannten Varianzen (Kap. 7.1) oder approximativer Binomialtest (Kap. 7.2) Zwei unabhängige Stichproben: Ein interessierendes Merkmal wird unter zwei unterschiedlichen Bedingungen bzw. in unterschiedlichen Teilgesamtheiten getrennt erhoben. Es ergeben sich zwei unabhängige Stichproben X1 , . . . , Xn und Y1 , . . . , Yn . Beispiel: X- Einkommen von Männern, Y -Einkommen von Frauen Statistik_II@finasto 7–1 • Ein wichtiges Problem besteht darin zu testen, ob beide Verteilungen „im Mittel“ gleich sind. ⇒ tTest (Zwei-Stichproben-Fall; Kap. 7.3) Zwei verbundene Stichproben: Ein interessierendes Merkmal wird unter zwei unterschiedlichen Bedingungen (X und Y ) an denselben Untersuchungseinheiten erhoben. Es ergeben sich verbundene Messungen (X1 , Y1 ), . . . , (Xn , Yn ). Beispiel: X- Umsatz vor einer Werbekampagne, Y -Umsatz nach einer Werbekampagne • Vergleich der Mittelwerte ⇒ t-Test für verbundene Stichproben (Kap. 7.4) Zusammenhangsanalyse: Analyse des Zusammenhangs zweier verschiedener Merkmale X und Y anhand von Messungen (X1 , Y1 ), . . . , (Xn , Yn ). Beispiel: X - Alter, Y - Einkommen • X, Y diskret, Test auf Unabhängigkeit ⇒ χ2 Unabhängigkeitstest (Kap. 7.5) • X, Y metrisch skaliert ⇒ lineare Einfachregression (Kap. 8) Statistik_II@finasto 7–2 7.1 Der t-Test (Ein-Stichproben-Fall) Seien X1 , . . . , Xn unabhängig und identisch verteilt, Xi ∼ N (µ, σ 2 ) mit unbekannter Varianz σ 2 . Wir betrachten wiederum das Problem zu testen, ob man annehmen kann, dass der wahre Mittelwert µ gleich einem hypothetischen Wert µ0 ist (z.B. µ0 = 18, 3). Das grundsätzliche Vorgehen ist analog zum GaußTest. Allerdings ist es notwendig, die unbekannte Varianz σ 2 aus den Daten zu schätzen. Als Teststatistik benutzt man daher √ n ∑ 1 n(X̄ − 18, 3) T = mit S 2 = (Xi − X̄)2 S n − 1 i=1 Falls H0 : µ = µ0 wahr ist, so gilt T ∼ t(n − 1), d.h. T folgt einer t-Verteilung mit n − 1 Freiheitsgraden. Der Ablehnbereich eines Signifikanztests berechnet sich daher aus den jeweiligen Quantilen der t-Verteilung mit n − 1 Freiheitsgraden Statistik_II@finasto 7–3 Beispiel „Qualitätskontrolle“ (Fortsetzung): Man nehme an, dass bei Übermittlung der Daten die Information σ = 0.18 vergessen wurde. Die Varianz ist in diesem Falle unbekannt. Testproblem: H0 : µ = 18, 3 gegen H1 : µ ̸= 18, 3 Man erhält: x̄ = 18, 48, s = 0, 131 √ n(x̄ − 18, 3) 3 · 0, 180 ⇒ tbeob = = = 4, 12 s 0, 131 • Signifikanztest zum Niveau α = 0, 05 tbeob = 4, 12 > t0,975;8 = 2, 306 ⇒ Ablehnung von H0 • Mit T ∼ t(8) berechnet sich der p-Wert durch p-Wert = P [|T | ≥ 4.12] = 2 · P [T ≥ 4, 12] Aus den Tabellen ist zu entnehmen, dass 0, 01 > p-Wert > 0, 002 (der exakte p-Wert ist 0,0046). Hieraus folgt, dass auch z.B. ein Test des Niveaus α = 0, 01 die Nullhypothese ablehnt. Das Testergebnis ist hochsignifikant. Statistik_II@finasto 7–4 Beispiel „Qualitätskontrolle“: grafische Illustration eines t-Tests zum Niveau α = 0, 05 Signifikanztest zum Niveau α=0.05 0.4 t(8) 0.3 0.2 Ablehnbereich α/2=0,025 Ablehnbereich α/2=0,025 0.1 0.0 -4 -t0.975-2(8) 0 2 t0.975 (8) 4 tbeob Beispiel „Qualitätskontrolle“: grafische Illustration des p-Werts p-Wert = P [|T | ≥ 4.12] = 2 · P [T ≥ 4, 12] = 0, 0046 p-Wert=0,0046 0.4 t(8) 0.3 0.2 0.1 0,0023 0,0023 0.0 -4 Statistik_II@finasto -2 0 2 4 tbeob =4,12 7–5 t-Test (Ein-Stichproben-Fall) Annahmen: X1 , . . . , Xn unabhängig und identisch verteilt mit Xi ∼ N (µ, σ 2 ) (bzw. beliebig verteilt bei großem n); Varianz σ 2 unbekannt Hypothesen: (1) H0 : µ = µ0 gegen H1 : µ ̸= µ0 (2) H0 : µ = µ0 (bzw. H0 : µ ≤ µ0 ) gegen H1 : µ > µ0 (3) H0 : µ = µ0 (bzw. H0 : µ ≥ µ0 ) gegen H1 : µ < µ0 Teststatistik: √ n(X̄ − µ0 ) T = S n ∑ 1 mit S 2 = (Xi − X̄)2 n − 1 i=1 unter H0 : T ∼ t(n − 1) Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < −t1−α;n−1 Für n > 100 ersetze t-Quantile durch N (0, 1)-Quantile Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] Statistik_II@finasto 7–6 7.2 Der approximative Binomialtest Dichotome Grundgesamtheit: X ∼ Bernoulli(p) ⇒ E(X) = P [X = 1] = p, σ 2 = Var(X) = p(1 − p) ∑n Für n unabhängige Wiederholungen ist i=1 Xi binomialverteilt. Einen Schätzer für p = µ erhält man aus der relativen Häufigkeit: 1∑ p̂ = X̄ = Xi n i=1 n Testproblem: Kann man annehmen, dass der wahre Anteilswert p gleich einem hypothetischen Wert p0 ist (z.B. p0 = 50%)? Beispiel: Meinungsforschung (Fortsetzung) Frage: Welcher Anteil p der Bevölkerung ist „für“ eine bestimmte wirtschaftspolitische Maßnahme der Bundesregierung? Datenerhebung: Befragung von n = 1000 zufällig ausgewählten Bürgerinnen und Bürgern. Von den befragten Personen waren 513 für die Maßnahme ⇒ p̂ = 0.513 Kann man hieraus schließen, dass eine Mehrheit der Bevölkerung für die Maßnahme der Bundesregierung ist? Statistik_II@finasto 7–7 Aus dem zentralen Grenzwertsatzes lässt sich schließen, dass für großes n approximativ p̂ − p √ ∼ N (0, 1) p(1 − p)/n Falls also H0 : p = p0 gültig ist, so gilt approximativ p̂ − p0 √ ∼ N (0, 1) p0 (1 − p0 )/n Prüfgröße des approximativen Binomialtests: p̂ − p0 Z=√ p0 (1 − p0 )/n Diese Teststatistik ist offensichtlich „sensibel“ für das Testproblem. Sehr große (bzw. sehr kleine) Werte von z sprechen für eine Ablehnung von H0 : p = p0 . Prüfverteilung: Falls p = p0 , so gilt Z ∼ N (0, 1) Ablehnbereiche für ein- oder zweiseitige Signifikanztests sowie p-Werte berechnen sich vollkommen analog wie im Fall eines Gauß-Tests. Statistik_II@finasto 7–8 Approximativer Binomialtest Annahmen: X1 , . . . , Xn unabhängig und identisch verteilt mit X ∼ Bernoulli(p); großer Stichprobenumfang (Faustregel: n ≥ 30, np0 > 5, n(1 − p0 ) > 5) Hypothesen: (1) H0 : p = p0 gegen H1 : p ̸= p0 (2) H0 : p = p0 (bzw. H0 : p ≤ p0 ) gegen H1 : p > p0 (3) H0 : p = p0 (bzw. H0 : p ≥ p0 ) gegen H1 : p < p0 Teststatistik: Z= √ p̂ − p0 p0 (1 − p0 )/n Approximative Verteilung unter H0 : Z ∼ N (0, 1) Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] Statistik_II@finasto 7–9 Beispiel: Meinungsforschung (Fortsetzung) Aus der Fragestellung ergibt sich folgendes (einseitiges) Testproblem: H0 : p ≤ 0, 5 gegen H1 : p > 0, 5 Man erhält: zbeob √ p̂ − p0 1000 · (0, 513 − 0, 5) =√ = = 0, 82 0, 5 p0 (1 − p0 )/n • Signifikanztest zum Niveau α = 0, 05 zbeob = 0, 822 < z0,95 = 1, 645 ⇒ Beibehaltung von H0 • Mit Z ∼ N (0, 1) berechnet sich der p-Wert durch p-Wert = P [Z ≥ 0, 822] = 0, 206 Das Testergebnis ist nicht signifikant. p-Wert=0,206 0.4 0.3 0.2 0.1 0.206 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 zbeob =0,822 Statistik_II@finasto 7–10 7.3 Vergleiche aus unabhängigen Stichproben Im folgenden werden zwei Merkmale X und Y unterschieden, deren Verteilungen wir vergleichen wollen. Von besonderem Interesse sind üblicherweise Unterschiede in den Zentren der Verteilungen, d.h. eventuelle Unterschiede der Mittelwerte. Wir betrachten zunächst den Fall, dass sich die Daten als unabhängige Realisationen ergeben, d.h. X1 , . . . , Xn unabhängig und ident. verteilt wie X Y1 , . . . , Ym unabhängig und ident. verteilt wie X Alle Xi und Yj sind voneinander unabhängig Beispiel: Kaffee und Schreibgeschwindigkeit In einem Experiment wurde der Einfluss von Koffein auf die Schreibgeschwindigkeit auf einer ComputerTastatur gemessen. 20 trainierte Probanden wurden zufällig in zwei Gruppen von jeweils 10 Personen aufgeteilt. Während die erste Gruppe keine Getränke erhielt, wurde der zweiten Gruppe 200 mg Koffein in Form von mehreren Tassen Kaffee verabreicht. Danach wurden bei jedem Probanden die Zahl der Anschläge pro Minute auf der Computer-Tastatur gemessen. Statistik_II@finasto 7–11 kein Koffein (X) 200 mg Koff. (Y) ⇒ x̄ = 244, 8, ȳ = 248, 3, 242 245 244 248 242 244 246 242 246 248 250 252 246 248 245 250 √ 247 248 248 250 ∑10 2 sX = i=1 (xi − x̄) = 2, 39 √ ∑10 1 sY = n−1 i=1 (yi − ȳ)2 = 2, 21 1 n−1 Frage: Gibt es „im Mittel“ einen Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koffein? Allgemein betrachtet man bei einem zweiseitigen Testproblem das Hypothesenpaar H0 : µX = µY gegen H1 : µX ̸= µY oder äquivalent H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 • X̄ − Ȳ erwartungstreuer Schätzer von µX − µY • Voraussetzung: X̄ und Ȳ normalverteilt 2 X̄ ∼ N (µX , σX /n), Ȳ ∼ N (µY , σY2 /m) • X̄ und Ȳ sind voneinander unabhängig ( ) 2 2 σX σY ⇒ X̄ − Ȳ ∼ N µX − µY , + n m Statistik_II@finasto 7–12 Das weitere Vorgehen hängt nun von dem Vorwissen über die Werte von σX und σY ab. • σX und σY bekannt – Teststatistik X̄ − Ȳ Z=√ 2 2 σX σY n + m – unter H0 : Z ∼ N (0, 1) ⇒ Ablehnbereiche, p-Werte Im Falle von unbekannten Varianzen sind zwei Fälle zu unterscheiden. • unbekannte aber gleiche Varianzen, σX = σY ∑n 1 2 – Man bestimmt SX = n−1 i=1 (Xi − X̄)2 , ∑m 1 2 SY = m−1 i=1 (Yi − Ȳ )2 und 2 (n − 1)SX + (m − 1)SY2 S = n+m−2 2 S 2 benutzt beide Stichproben zur Schätzumg 2 der gemeinsamen Varianz σ 2 = σX = σY2 (S 2 2 ist wirksamer als die Einzelschätzer SX , SY2 ). – Teststatistik T = X̄ − Ȳ √ S 1/n + 1/m – unter H0 : T ∼ t(n + m − 2) Statistik_II@finasto 7–13 • unbekannte Varianzen, σX , σY (allgemeiner Fall) – Teststatistik X̄ − Ȳ √ T = 2 2 SX SY n + m ∑n 1 2 mit SX = n−1 i=1 (Xi − X̄)2 , ∑m 1 2 SY = m−1 i=1 (Yi − Ȳ )2 – unter H0 : T ∼ t(k), wobei k die größte ganze Zahl mit ( ) 2 2 2 SX SY2 2 1 SX 1 S k≤( + ) / ( )2 + ( Y )2 n m n−1 n m−1 m ist. ⇒ Ablehnbereiche, p-Werte Statistik_II@finasto 7–14 Vergleich der Erwartungswerte, bekannte Varianzen Annahmen: Zwei unabhängige Stichproben X1 , . . . , Xn und Y1 , . . . , Ym (X, Y normalverteilt bzw. n, m groß); 2 σX und σY2 bekannt Hypothesen: (1) H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 (2) H0 : µX − µY = 0 gegen H1 : µX − µY > 0 (3) H0 : µX − µY = 0 gegen H1 : µX − µY < 0 Teststatistik: Z= √ X̄ − Ȳ 2 σX n + 2 σY m Verteilung unter H0 : Z ∼ N (0, 1) Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] Statistik_II@finasto 7–15 t-Test (Zwei-Stichproben-Fall) Spezialfall: gleiche Varianzen Annahmen: Zwei unabhängige Stichproben X1 , . . . , Xn und Y1 , . . . , Ym (X, Y normalverteilt bzw. n, m groß); 2 σX = σY2 unbekannt Hypothesen: (1) H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 (2) H0 : µX − µY = 0 gegen H1 : µX − µY > 0 (3) H0 : µX − µY = 0 gegen H1 : µX − µY < 0 Teststatistik: X̄ − Ȳ T = √ S 1/n + 1/m 2 (n − 1)SX + (m − 1)SY2 mit S = n+m−2 2 Verteilung unter H0 : T ∼ t(n + m − 2) Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n+m−2 (2) zbeob > t1−α;n+m−2 (3) zbeob < −t1−α;n+m−2 Überschreitungswahrscheinlichkeit: Für T ∼ t(n + m − 2) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] Statistik_II@finasto 7–16 t-Test (Zwei-Stichproben-Fall) Annahmen: Zwei unabhängige Stichproben X1 , . . . , Xn und Y1 , . . . , Ym (X, Y normalverteilt bzw. n, m groß); 2 σX und σY2 unbekannt Hypothesen: (1) H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 (2) H0 : µX − µY = 0 gegen H1 : µX − µY > 0 (3) H0 : µX − µY = 0 gegen H1 : µX − µY < 0 Teststatistik: T = √ X̄ − Ȳ ; 2 2 SX /n + SY /m unter H0 : T ∼ t(k) k gößte ganze Zahl( mit S2 S2 S2 1 k ≤ ( nX + mY )2 / n−1 ( nX )2 + 2 SY 1 ( m−1 m 2 ) ) Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n+m−2 (2) zbeob > t1−α;n+m−2 (3) zbeob < −t1−α;n+m−2 Überschreitungswahrscheinlichkeit: Für T ∼ t(n + m − 2) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] Statistik_II@finasto 7–17 Beispiel: Kaffee und Schreibgeschwindigkeit (Fortsetzung) Frage: Gibt es „im Mittel“ einen Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koffein? Testproblem: H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 Die Varianzen von X und Y sind unbekannt. Wir wenden daher den t-Test an. Wert der Teststatistik: tbeob = √ x̄ − ȳ s2X n + s2Y m 244, 8 − 248, 3 =√ = −3, 40 (2,21)2 (2,39)2 + 10 10 Freiheitsgrade für den t-Test: ( ) 2 2 2 2 s 1 s 1 s s ( X )2 + ( Y )2 = 17, 89 ( X + Y )2 / n m n−1 n m−1 m ⇒ unter H0 : T ∼ t(17) • Signifikanztest zum Niveau α = 0, 05 |tbeob | = 3, 40 > t0,975;17 = 2, 110 ⇒ Ablehnung von H0 • Mit T ∼ t(17) berechnet sich der p-Wert durch p-Wert = P [|T | ≥ 3.40] = 2 · P [T ≥ 3, 40] Statistik_II@finasto 7–18 Aus den Tabellen ist zu entnehmen, dass 0, 01 > p-Wert > 0, 002 (der exakte p-Wert ist 0,0033). Hieraus folgt, dass auch z.B. ein Test des Niveaus α = 0, 01 die Nullhypothese ablehnt. Das Testergebnis ist hochsignifikant. Grafische Illustrationen: Signifikanztest zum Niveau α=0.05 0.4 t(17) 0.3 0.2 Ablehnbereich α/2=0,025 Ablehnbereich α/2=0,025 0.1 0.0 -4 -2 tbeob -t0.975 (17) 0 2 4 2 4 t0.975 (17) p-Wert=0,0032 0.4 t(17) 0.3 0.2 0.1 0.0 -4 -2 0 tbeob =-3,4 Statistik_II@finasto 7–19 7.4 Vergleiche aus verbundenen Stichproben Verbundene Stichproben: Ein interessierendes Merkmal wird unter zwei unterschiedlichen Bedingungen (X und Y ) an denselben Untersuchungseinheiten erhoben. Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) X1 , . . . , Xn unabhängig und ident. verteilt wie X Y1 , . . . , Ym unabhängig und ident. verteilt wie Y Xi und Yi sind jeweils voneinander abhängig, (Xi , Yi ) Messung an der gleichen Untersuchungseinheit Beispiel: Werbekampgane Die nachfolgende Tabelle gibt die wöchentlichen Umsätze (in 10000 Euro) von 6 Filialen einer Handelskette vor und nach einer Werbekampagne wieder. Filiale 1 2 3 4 5 6 vor W.k. (X) 18,5 15,6 20,1 17,2 21,1 19,3 nach W.k. (Y) 20,2 16,6 19,8 19,3 21,9 19,0 ⇒ x̄ = 18, 63, ȳ = 19, 47 Frage: War die Werbekampagne erfolgreich? Hat sie zu „signifikant“ höheren Umsätzen geführt? Statistik_II@finasto 7–20 • Die im vorangegengen Abschnitt vorgestellten Tests sind nicht anwendbar, da X̄ und Ȳ nicht unabhängig voneinander sind. 2 σX σY2 Var(X̄ − Ȳ ) = + − 2 Cov(X̄, Ȳ ) | {z } n n ̸=0 Ansatz: Zum Test z.B. des Hypothesenpaars H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 betrachtet man die Differenzen Di = Xi − Yi . • H0 entspricht der Hypothese µD = E(X −Y ) = 0, die Alternative H1 lässt sich in der Form µD ̸= 0 schreiben. ⇒ Anwendung eines Ein-Stichproben t-Tests (mit µ0 = 0) auf die Differenzen Di = Xi − Yi • Teststatistik √ nD̄ T = SD ∑n 1 mit D̄ = n i=1 Di = X̄ − ∑n 1 2 SD = n−1 i=1 (Di − D̄)2 Ȳ , • unter H0 : T ∼ t(n − 1) ⇒ Ablehnbereiche, p-Werte Statistik_II@finasto 7–21 t-Test (verbundene Stichproben) Annahmen: Verbundene Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) Xi und Yi voneinander abhängig Hypothesen: (1) H0 : µX − µY = 0 gegen H1 : µX − µY ̸= 0 (2) H0 : µX − µY = 0 gegen H1 : µX − µY > 0 (3) H0 : µX − µY = 0 gegen H1 : µX − µY < 0 Berechnung der Teststatistik über die Differenzen Di = X i − Y i : √ n ∑ 1 nD̄ 2 = T = mit SD (Di − D̄)2 SD n − 1 i=1 Verteilung unter H0 : T ∼ t(n − 1) (D1 , . . . , Dn normalverteilt bzw. n groß) Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < −t1−α;n−1 Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] Statistik_II@finasto 7–22 Beispiel: Werbekampgane (Fortsetzung) Frage: War die Werbekampagne erfolgreich? Hat sie zu „signifikant“ höheren Umsätzen geführt? Testproblem: H0 : µX − µY ≥ 0 gegen H1 : µX − µY < 0 In einem ersten Schritt ist eine Berechnung der Differenzen di = xi − yi notwendig. Filiale 1 2 3 4 5 6 Diff. (D) -1,7 -1,0 0,3 -2,1 -0,8 -1,5 ⇒ d¯ = −0, 833, sD = 0, 995 Wert der Teststatistik: √ ¯ √ nd 6 · −0, 833 tbeob = = = −2, 051 sD 0, 995 ⇒ unter H0 : T ∼ t(17) • Signifikanztest zum Niveau α = 0, 05 tbeob = −2, 051 < −t0,95;5 = −2, 015 ⇒ Ablehnung von H0 • Mit T ∼ t(5) berechnet sich der p-Wert durch p-Wert = P [T ≤ −2, 051] = 0, 048 Hieraus folgt, dass ein Test des Niveaus α = 0, 01 die Nullhypothese beibehält. Das Testergebnis ist nur „knapp“ signifikant. Statistik_II@finasto 7–23 Grafische Illustrationen: Signifikanztest zum Niveau α=0.05 -t0,95 (5) 0.4 0.3 0.2 t(5) Ablehnbereich α=0,05 0.1 0.0 -4 -2 0 2 4 2 4 tbeob p-Wert=0,048 0.4 t(5) 0.3 0.2 0.1 0,048 0.0 -4 -2 0 tbeob =-2,051 Statistik_II@finasto 7–24 7.5 χ2 -Unabhängigkeitstest Wir betrachten nun die Analyse des Zusammenhangs zweier Merkmale X und Y . Ausgangspunkt sind unabhängige Wiederholungen (X1 , Y1 ), . . . , (Xn , Yn ) der Zufallsgröße (X, Y ). Für diskrete Merkmale X und Y erhält man eine sinnvolle Zusammenfassung durch Berechnung einer Kontingenztabelle. Besitzen X bzw. Y genau k bzw. m mögliche Ausprägungen a1 , . . . , ak bzw. b1 , . . . , bm , ergibt sich eine (k × m) Kontingenztabelle der Form: X\Y b1 ... bm a1 .. . h11 .. . ... h1m .. . h1· .. . ak hk1 ... hkm hk· h·1 ... h·m n Hier bezeichnet hij jeweils die absolute Häufigkeit von Beobachtungen mit den Ausprägungen X = ai und Y = bj . Testproblem: H0 : „X und Y sind unabhängig“ gegen H1 : „X und Y sind nicht unabhängig“ Statistik_II@finasto 7–25 Beispiel: Qualifikation - Arbeitslosigkeit 2 × 2 Kontingenztabelle X - berufliche Qualifikation (niedrig, hoch) Y - Arbeitslosigkeit (ja, nein) n=100 Personen Kontingenztabelle in absoluten Häufigkeiten: Arbeitslosigkeit Y Qualifikation X ja (b1 ) nein (b2 ) RV X niedrig (a1 ) 10 35 45 (h1• ) hoch (a2 ) 2 53 55 (h2• ) RV Y 12 (h•1 ) 88 (h•2 ) 100 (n) Statistik_II@finasto 7–26 Mathematisch lässt sich H0 folgendermaßen umformulieren: H0 : P [X = ai , Y = bj ] = P [X = ai ] · P [Y = bi ] für alle i, j | {z } | {z } | {z } pi· pij • hij ∼ B(n, pij ) ⇒ E(hij ) = npij , fij = treuer Schätzer von pij hij n p·j ist ein erwartungs- • Entsprechend: fi· = hni· und f·j = treue Schätzer von pi· und p·j h·j n erwartungs- • Unabhängigkeit ⇒ npij = npi· p·j ⇒ bis auf Zufallsschwankungen (Stichprobe!) hi· h·j hi· h·j = hij ≈ n n n n • Die Nullhypothese kann nur dann wahr sein, wenn sich die Unterschiede zwischen hij ≈ npij und hi· h·j ≈ npi· p·j noch sinnvoll durch Zufallsschwann kungen erklären lassen. Statistik_II@finasto 7–27 Statistik I: • empirische Unabhängigkeit: hi· h·j hij = n • Zusammenhangsmaß: χ2 -Koeffizient (bzw. normierte Versionen wie der Kontingenzkoeffizient, etc.) Der χ2 -Koeffizient ist eine sinnvolle Prüfgröße zum Test von H0 gegen H1 : χ2 = k ∑ m ∑ (hij − i=1 j=1 hi· h·j 2 n ) hi· h·j n Falls H0 wahr ist, wird χ2 tendenziell kleine Werte annehmen; große Werte von χ2 sprechen dagegen eher für H1 . Prüfverteilung unter H0 : approximativ χ2 -Verteilung mit (k − 1)(m − 1) Freiheitsgraden. χ2 ∼ χ2 ((k − 1)(m − 1)), ⇒ Ablehnbereiche, p-Werte Achtung: Diese Verteilungsaussage beruht auf einer asymptotischen Approximation! h h Bedingung (Faustregel): i·n ·j ≥ 5 für alle i, j Statistik_II@finasto 7–28 χ2 -Unabhängigkeitstest Annahmen: Unabh. Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) gruppiert in eine (k × m) Kontingenztabelle Hypothese: H0 : „X und Y sind voneinander unabhängig“ gegen H1 : „X und Y sind nicht unabhängig“ Teststatistik: χ2 = k ∑ m ∑ (hij − i=1 j=1 hi· h·j 2 ) n hi· h·j n Verteilung unter H0 : approximativ χ2 ((k − 1)(m − 1)) h h (Bedingung: i·n ·j ≥ 5 für alle i, j) Ablehnungsbereich (Test zum Niveau α): χ2beob > χ21−α;(k−1)(m−1) Überschreitungswahrscheinlichkeit: Für χ2 ∼ χ2 ((k − 1)(m − 1)) p-Wert = P [χ2 ≥ χ2beob ] Statistik_II@finasto 7–29 Beispiel: Qualifikation - Arbeitslosigkeit (Fortsetzung) Frage: Sind Qualifikation und Arbeitslosigkeit unabhängig voneinander, oder besteht ein „signifikanter“ Zusammenhang? Wert des χ2 -Koeffizienten: χ2beob = 8, 096 unter H0 : χ2 ∼ χ2 (1) • Signifikanztest zum Niveau α = 0, 05 χ2beob = 8, 096 > χ20,95;1 = 3, 84 ⇒ Ablehnung der Nullhypothese, dass Qualifikation und Arbeitslosigkeit voneinander unabhängig sind. • Mit χ2 ∼ χ2 (1) berechnet sich der p-Wert durch p-Wert = P [χ2 ≥ 8, 096] Aus der Tabelle folgt, dass p-Wert≤ 0, 005. Hieraus folgt, dass auch z.B. ein Test des Niveaus α = 0, 01 die Nullhypothese ablehnt. Das Testergebnis ist hochsignifikant. Statistik_II@finasto 7–30 7.6 χ2 -Anpassungstest Daten: • Einfache Zufallsstichprobe X1 , . . . , Xn • Xi nimmt nur k verschiedene Werte a1 , . . . , ak an • Berechnung der absoluten Häufigkeiten hi der einzelnen Ausprägungen: Ausprägungen von X a1 ... ai ... ak abs. Häufigkeiten h1 ... hi ... hk Verteilungshypothese: Für vorgegebene Werte p1 , . . . , pk ist die Verteilung von X durch P (X = ai ) = pi , i = 1, . . . , k charakterisiert. Ansatz: • Unter H0 gilt hi ∼ B(n, pi ) ⇒ E(hi ) = npi • Falls die Nullhypothese P (X = ai ) = pi richtig ist, sollte also bis auf Zufallsschwankungen (Stichprobe!) hi ≈ npi gelten Statistik_II@finasto 7–31 • Die Nullhypothese kann nur dann wahr sein, wenn sich die Unterschiede zwischen hi und npi noch sinnvoll durch Zufallsschwankungen erklären lassen. Teststatistik: Q= k ∑ (hi − npi )2 npi i=1 Unter H0 : Q ∼ χ2k−1 (npi ≥ 5 für i = 1, . . . , k) ⇒ Ablehnung von H0 , falls Q ≥ χ2k−1,1−α Würfelspiel: n = 240 Würfe eines Würfels Ausprägungen 1 2 3 4 5 6 abs. Häufigkeiten 29 35 43 32 44 57 Problem: Ist der Würfel fair? Nullhypothese H0 : P (X = i) = 1/6, i = 1, . . . , 6 Signifikanztest zum Niveau α = 0.05: χ2beob = 13, 1 > χ20,075;5 = 11, 07 ⇒ Ablehnung der Nullhypothese Statistik_II@finasto 7–32 χ2 -Anpassungstest • Annahmen: – X1 , . . . , Xn unabhängig und identisch verteilt – Gruppiert in eine k Gruppen, mit absoluten Häufigkeiten hi Ausprägungen a1 ... ai ... ak Häufigkeiten h1 ... hi ... hk • Hypothese: H0 : „P (X = ai ) = pi i = 1, . . . , k “ gegen H1 : „P (X = ai ) ̸= pi für mindestens ein i“ • Teststatistik: k ∑ (hi − npi )2 χ = npi i=1 2 • Approximative Verteilung von χ2 unter H0 : χ2 ∼ χ2 (k − 1) falls npi ≥ 5 für alle i • Ablehnungsbereich (Test zum Niveau α): χ2beob > χ21−α (k − 1) • Überschreitungswahrscheinlichkeit: Für χ2 ∼ χ2 (k − 1) p-Wert = P [χ2 ≥ χ2beob ] Statistik_II@finasto 7–33 Anwendung: Test auf univariate Standardnormalverteilung • Unterteilung der reellen Achse in k Klassen benachbarte Intervalle (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ) (c0 = −∞, ck = ∞). • Berechnung der abs. Häufigkeiten hi von Beobachtungen in jeder der i = 1, . . . , k Klassen. • Berechnung der theoretischen Wahrscheinlichkeiten pi = P (ci−1 ≤ X ≤ ci ) = Φ(ci ) − Φ(ci−1 ) • Teststatistik Q= k ∑ (hi − npi )2 i=1 npi H0 wahr: Q ∼ χ2k−1 Statistik_II@finasto 7–34 Verallgemeinerung: Test auf Normalverteilung (Xi ∼ N (µ, σ 2 )) Man beachte: X ∼ N (µ, σ 2 ) ⇒ Z = X−µ σ ∼ N (0, 1) In einem ersten Schritt schätzt man daher µ, σ 2 durch X̄, S 2 und definiert dann eine Teststatistik wie folgt; • Unterteilung der reellen Achse in k Klassen (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ) (c0 = −∞, ck = ∞). • Berechnung der abs. Häufigkeiten hi von transformierten Beobachtungen ẑi = xis−x̄ in jeder der i = 1, . . . , k Klassen. • Berechnung der theoretischen Wahrscheinlichkeiten pi = P (ci−1 ≤ X ≤ ci ) = Φ(ci ) − Φ(ci−1 ) • Teststatistik Q= k ∑ (hi − npi )2 i=1 npi • Unter H0 (approximativ): Q ∼ χ2q−1−2 Allgemein: Zusammengesetzte Verteilungshypothese r unbekannte Parameter zu schätzen ⇒ Unter H0 : Q ∼ χ2q−r−1 Statistik_II@finasto 7–35 Schmerzpatienten In einer Studie zu Behandlungsverfahren bei Patienten mit chronischen Schmerzen wird ein standardisierter Befindlichkeitsscore zu verschiedenen Zeitpunkten der Behandlung erhoben. Es soll getestet werden, ob davon ausgegangen werden kann, daß der Befindlichkeitsscore standardnormalverteilt ist. i Klasse Ki abs. Haeufigkeit 1 [-2.5, -1.5) 6 2 [-1.5, -0.5) 10 3 [-0.5, 0.5) 5 4 [0.5, 1.5) 7 5 [1.5, 2.5) 22 H0 : X ∼ N (0, 1) gegen H1 : X ̸∼ N (0, 1) Statistik_II@finasto 7–36 p1 = P (−∞ < X < −1.5) = 1 − Φ(1.5) = 0.0668 p2 = P (−1.5 < X < −0.5) = Φ(−0.5) − Φ(−0.5) = 1 − Φ(0.5) − (1 − Φ(1.5)) = 0.2417 p3 = P (−0.5 < X < 0.5) = Φ(0.5) − Φ(−0.5) = Φ(0.5) − (1 − Φ(0.5)) = 2Φ(0.5) − 1 = 2 · 0.6915 − 1 = 0.383 p4 = h2 = 0.2417 p5 = h1 = 0.0668 hi npi (hi −npi )2 npi 6 3.34 2.118 10 12.09 0.361 5 19.15 10.455 7 12.09 2.143 22 3.34 104.250 H0 wird zum Niveau α = 0.05 verworfen, falls χ2 > χ20.95 (k − 1) = χ20.95 (4) = 9.49 Da hier χ2 = 119.327 > 9.49, wird H0 verworfen. Statistik_II@finasto 7–37 7.7 Einfaktorielle Varianzanalyse • Problem: Vergleich der Verteilungen mehrerer unabhängiger Stichproben • Man konzentriert sich auf Unterschiede in den Mittelwerten (Zentrum) der Verteilungen • Statistischer Test (F-Test): Entscheidung, ob die beobachteten Unterschiede in den Mittelwerten der einzelnen Gruppen groß genug sind, um davon auf Unterschiede in den zugehörigen Grundgesamtheiten schließen zu können • Der Test basiert auf einer Prüfgröße, die misst, wie groß die Variabilität zwischen den Gruppen im Vergleich zur Variablilität innerhalb der Gruppen ist. Statistik_II@finasto 7–38 Ausgaben Zielgröße – Ausgaben für Milchprodukte Frage: Unterschiede im Ausgabeverhalten von Haushalten in unterschiedlichen Regionen eines Landes? Studie eines Marktforschungsinstituts: c = 4 Regionen: In jeder Region wurden 30 Haushalte zufällig ausgewählt und ihre Ausgaben für Milchprodukte erfasst. Daten: Nr. AD1 AD2 AD3 AD4 Nr. AD1 AD2 AD3 AD 1 20.02 25.89 15.01 24.45 16 57.89 32.18 33.00 39.9 2 25.07 47.45 24.12 27.99 17 75.75 41.00 37.64 54.4 3 38.25 54.13 29.73 45.16 18 81.68 48.74 53.43 68.4 4 48.62 70.97 33.78 53.79 19 15.67 27.61 8.62 26.4 5 54.88 78.20 44.75 63.71 20 21.59 39.18 23.65 48.2 6 60.18 83.72 54.48 89.31 21 24.99 55.17 28.67 64.2 7 36.38 19.89 23.39 32.77 22 34.35 69.29 34.82 82.1 8 45.73 25.11 30.70 55.80 23 53.94 71.61 43.40 100.1 9 59.29 45.55 38.13 52.71 24 52.39 91.73 61.85 101.2 10 66.70 50.40 53.93 65.27 25 32.34 22.18 22.95 24.4 11 75.54 63.68 55.80 84.29 26 30.60 32.01 34.73 34.4 12 78.78 74.03 76.87 100.37 27 45.78 45.13 52.44 47.6 13 26.63 9.21 3.57 14.50 28 53.33 55.07 63.37 49.0 14 28.36 4.64 24.77 29.37 29 54.66 59.30 75.58 67.5 15 50.33 33.11 24.88 31.73 30 70.01 68.90 79.11 81.5 Statistik_II@finasto 7–39 Daten: • Beobachtungen Xij von i = 1, . . . , c verschiedenen Stichproben (Gruppen) • Für jede einzelnen Gruppe: n unabhängige Beobachtungen der interessierenden Zielvariable X Faktor Gruppe 1 Gruppe 2 ... Gruppe c X11 .. . X21 .. . ... .. . Xc1 .. . X1n X2n ... Xcn X̄1· X̄2· ... X̄c· s21 s22 ... s2c empirische Mittelwerte empirische Varianzen Statistik_II@finasto 7–40 Wichtige Annahmen: • X11 , . . . , Xcnc sind voneinander unabhängig • Normalverteilung aller Variablen Xij • Homoskedastizität: Alle Varianzen sind gleich. Modell: Xij = µi + ϵij , i = 1, . . . , c, j = 1, . . . , ni wobei • ϵ11 , . . . , ϵcnc voneinander unabhängig • ϵij ∼ N (0, σ 2 ) für alle i, j Frage: Unterschiedliche Auswirkung der Faktorstufen auf die Zielgröße? ⇒ Testproblem: H0 : µ1 = µ2 = · · · = µc gegen H1 : µi ̸= µj für mindestens ein Paar (i, j) Statistik_II@finasto 7–41 • Schätzungen – Mittelwerte µi , i = 1, . . . c: ni 1 ∑ X̄i· = Xij ni j=1 – Grand Mean (globaler Mittelwert): X̄·· = c 1 ∑ ni X̄i· = N i=1 c ni 1 ∑∑ Xij , N i=1 j=1 ∑c wobei N = i=1 ni die Gesamtzahl der Beobachtungen ist. Testfamilien: Stufe 1 Stufe 2 Stufe 3 Stufe 4 Xi· 37.2 39.6 34.5 51.0 X̄·· 40.6 40.6 40.6 40.6 X̄i· − X̄·· −3.4 −1.0 −6.1 10.4 s2i 430.3 547.6 354.2 605.3 ⇒ geschätzte Mittelwerte sind ungleich! • Aber: Zufallsschwankungen! • Frage: Unterschiede signifikant? ⇒ Definition einer Prüfgröße, Test Statistik_II@finasto 7–42 Die Streuungszerlegung ni c ∑ ∑ (Xij − X̄·· )2 i=1 j=1 | {z } SQT ni ni c ∑ c ∑ ∑ ∑ (X̄i· − X̄·· )2 + (Xij − X̄i· )2 = i=1 j=1 | {z } i=1 j=1 | SQE {z } SQR • SQT - Gesamtstreuung der beobachteten Werte von X ni c ∑ c ∑ ∑ 2 • SQE = (X̄i· − X̄·· ) = ni (X̄i· − X̄·· )2 i=1 j=1 i=1 – “erklärte Streuung” – Streuung zwischen den Stichproben • SQR = ni c ∑ ∑ (Xij − X̄i· )2 i=1 j=1 – “Residualstreuung” – Streuung innerhalb der Stichproben • M QR := 1 N −c SQR = 1 N −c ni c ∑ ∑ (Xij − X̄i· )2 i=1 j=1 ist erwartungstreuer Schätzer von σ 2 . Statistik_II@finasto 7–43 • H0 wahr ⇒ µ := µ1 = · · · = µc , ⇒ tendenziell: SQE = c ∑ c ∑ ni (µi − µ)2 = 0 i=1 ni (X̄i· − X̄·· )2 klein im Ver- i=1 gleich zu SQR • H1 wahr ⇒ c ∑ ni (µi − µ)2 > 0 i=1 ⇒ tendenziell: SQE = c ∑ ni (X̄i· − X̄·· )2 groß im Ver- i=1 gleich zu SQR Teststatistik (H0 gegen H1 ): SQE/c − 1 M QE F = = SQR/N − c M QR ] [ c 1 ∑ ni (X̄i· − X̄·· )2 M QE := c − 1 i=1 Unter H0 : F ∼ Fc−1,N −c ⇒ Ablehung von H0 , falls der beobachtete Wert Fbeobachtet zu groß ist (Niveaus: α = 0.05, α = 0.01) • Fbeobachtet > Fc−1,N −c;1−α • p-Wert = P (Fc−1,N −c > Fbeobachtet ) < α Statistik_II@finasto 7–44 Unter H0 : X 1× X 2× X 3× Unter H1 : X 1× X 2× X 3× Statistik_II@finasto 7–45 Varianzanalysetabelle Streu- Frei- mittlere ungs- Streu- heits- quadratische ursache ung grade Abweichung Faktor SQE c−1 Residuen SQR N −c SQE c−1 SQR N −c = M QE F M QE M QR = M QR Testfamilien Streu- Frei- mittlere ungs- Streu- heits- quadratische ursache ung grade Abweichung F Werbung 4585.7 3 1528.6 3.16 Residuen 56187.4 116 484.4 Für die Überschreitungswahrscheinlichkeit ergibt sich: p-Wert = P (F3,116 > 3.16) = 0.0275 < 5% H0 ist daher abzulehnen. Statistik_II@finasto 7–46