Stochastik Seminar (LA) Konfidenzintervalle und Hypothesentests Alexander Schmalstieg Betreuung: Dr. Sebastian Mentemeier Lehrstuhl IV (Stochastik und Analysis) Inhaltsverzeichnis Einleitung 3 1 Konfidenzintervalle 1.1 Definition: Grundlagen und Schreibweisen . . . . . . . . . . . . . . 1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Definition: Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . 1.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Praktisches Vorgehen bei der Bestimmung eines Konfidenzintervalls 1.6 Beispiel: Normalverteilung mit unbekanntem Erwartungswert . . . 1.7 Beispiel: Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . 1.8 Definition: Mehrdimensionale Konfidenzbereiche . . . . . . . . . . 1.9 Bemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 5 5 5 5 5 6 8 8 . . . . . . . 9 9 9 10 11 12 14 14 2 Das Testen von Hypothesen 2.1 Motivation: VW-Skandal . . . . . . . . . . . . . . . . . . . . 2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Bemerkung und Definition . . . . . . . . . . . . . . . . . . . 2.4 Praktisches Vorgehen beim Hypothesentest . . . . . . . . . . 2.5 Beispiel: Normalverteilung mit unbekanntem Erwartungswert 2.6 Beispiel: Binomialverteilung . . . . . . . . . . . . . . . . . . . 2.7 Beisiel: Schulbuchaufgabe, vgl. [LS] S. 407, Aufgabe 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abkürzungsverzeichnis 16 Literatur 17 2 Einleitung In der vorliegenden Arbeit werden zwei wichtige Konzepte der beurteilenden Statistik eingeführt. Dabei wird stets von einem parametrischen statistischen Modell ausgegangen, d.h. für jedes θ aus einem geeigneten Parameterraum Θ ist Pθ eine Verteilung, die einer gemessenen Stichprobe X zugrunde liegen kann. Der wahre Parameter θ0 ist unbekannt und soll möglichst gut geschätzt werden. Beim Schätzen des unbekannten Wertes durch einen Punktschätzer ist unklar, wie gut die Schätzung ist. Im ersten Teil der Ausarbeitung geht es darum Bereiche zu finden, in denen der wahre Wert mit hoher Wahrscheinlichkeit liegt, so genannte Konfidenzintervalle. Dabei gibt es den klassischen frequentistischen und den bayesianischen Ansatz [vgl. 1.4]. Wie Konfidenzintervalle in der Praxis konstruiert werden können wird allgemein in [1.5] vorgestellt und dann für die Normalverteilung exakt und die Binomialverteilung approximativ mit Hilfe des zentralen Grenzwertsatzes umgesetzt. Das Konzept der Konfidenzintervalle kann auch auf höhere Dimensionen verallgemeinert werden. Dabei wird sich herausstellen, dass Produkte von Konfidenzintervallen solche Konfidenzbereiche liefern, aber zu einem geringeren Konfidenzniveau [vgl. 1.9]. Im zweiten Teil der Arbeit geht es um statistische Tests, mit deren Hilfe Hypothesen überprüft werden sollen. Zu Beginn wird in Absatz [2.1] unter anderem die Philosophie empirischer Testverfahren vorgestellt (Stichwort: Falsifizierbarkeit). Die Begriffe Hypothese, Test, Fehler & Testgüte werden in [2.2] mathematisch präzisiert. Nach einer kurzen Diskussion dieser Begriffe [2.3] wird ein allgemeines Konstruktionsverfahren für Hypothesentests vorgestellt und exakt auf die Normalverteilung und approximativ auf die Binomialverteilung mit Hilfe des zentralen Grenzwertsatzes angewendet. Da das Themenfeld Stochastik und insbesondere statistische Tests mittlerweile verpflichtender Bestandteil der Abiturprüfung sind (vgl. [NRW] S. 3), wird am Ende des Kapitels zum Hypothesentest auch eine Beispielaufgabe aus einem Schulbuch [LS] vorgestellt. Konfidenzintervalle hingegen sind kein ausdrücklicher Bestandteil der Obligatorik für das Abitur in NRW. Insgesamt folgt diese Arbeit der Darstellung in [CS]. Die Absätze zu den praktischen Konstruktionen orientieren sich grob an den Vorlesungsskripten [SP] und [ZK]. 3 1 Konfidenzintervalle 1 Konfidenzintervalle Im Folgenden seien (Ω, Σ) ein Messraum, Θ ⊆ R und X1 , . . . , Xn : Ω → R unabhängige identisch verteilte (u.i.v.) Zufallsvariablen. Falls man konkrete Daten x = (x1 , . . . , xn ) ∈ Rn einer Zufallsstichprobe (X1 , . . . , Xn ) beobachtet, so ist dies gleichbedeutend mit dem Ereignis {X = x} := {ω ∈ Ω | X(ω) = x} ∈ Σ. Zufallsvariablen werden im weiteren Verlauf stets mit Großbuchstaben bezeichnet, während deren Realisierungen die entsprechenden Kleinbuchstaben zugewiesen werden. Im Folgenden werden einige Grundlagen wiederholt und weitere Konventionen für den weiteren Verlauf festgelegt. 1.1 Definition: (Grundlagen und Schreibweisen) a) Sei M(Ω, Σ) := {P : Σ → [0, 1] | P ist Wahrscheinlichkeitsmaß} die Menge aller Wahrscheinlichkeitsmaße auf (Ω, Σ). b) Für eine Familie von Wahrscheinlichkeitsmaßen P := {Pθ ∈ M(Ω, Σ) | θ ∈ Θ} heißt (Ω, Σ, P) statistisches Modell zum Parameterraum Θ. Ein statistisches Modell heißt regulär, falls eine der beiden folgenden Bedingungen erfüllt ist: (1) Alle Pθ , θ ∈ Θ sind stetig mit Dichtefunktion fθ . (2) Alle Pθ , θ ∈ Θ sind diskret mit Wahrscheinlichkeitsfunktion (Zähldichte) fθ . Im Folgenden wird stets von solchen regulären Modellen ausgegangen. c) Sei g : Rn → R eine messbare Funktion. Dann heißt die Zufallsvariable T := T (X) := T (X1 , . . . , Xn ) := g(X1 , . . . , Xn ) eine Statistik. Falls g den Parameterraum Θ als Wertebereich hat, bezeichnet man T als (Punkt-) Schätzer. Schätzer sind also spezielle Statistiken. Eine Realisierung t := T (x) ∈ Θ eines Schätzers T heißt Schätzwert. d) Für α ∈ (0, 1) sei qα das α-Quantil der Verteilung mit Verteilungsfunktion F , d.h. die Lösung der Gleichung F (qα ) = α.1 e) Für die Verteilungsfunktion Φ der Normalverteilung gilt Φ(−x) = 1 − Φ(x). Daraus folgt für die α-Quantile Φ(q1−α ) = 1 − α = 1 − Φ(qα ) = Φ(−qα ). Da die Verteilungsfunktion der Normalverteilung streng monoton wachsend ist, ist sie auch bijektiv und es folgt q1−α = −qα (1) 1 Nach Voraussetzung 1.1 b) sind alle betrachteten Modelle regulär, d.h. F ist stetig, folglich existiert für jedes α ∈ (0, 1) auch das zugehörige α-Quantil nach dem Zwischenwertsatz. 4 1 Konfidenzintervalle 1.2 Motivation: Sei eine Stichprobe (X1 , . . . , Xn ) gegeben, wobei Xi ∼ Pθ ∈ P für einen Parameter θ ∈ Θ. Mit Hilfe eines geeigneten Punktschätzers kann ein Schätzwert θ̂ für den „wahren“ Parameter θ angegeben werden. Man geht dann von θ = θ̂ oder zumindest θ ≈ θ̂ aus. Bei diesem Vorgehen hat man allerdings keine Information über die Verlässlichkeit dieser Schätzung. Man ist in vielen Fällen also daran interessiert einen (möglichst kleinen) Bereich θ̂ ± ε anzugeben, der den tatsächlichen Wert mit hoher Wahrscheinlichkeit überdeckt. Dies führt zum Konzept des Konfidenzintervalls. 1.3 Definition: (Konfidenzintervall) Seien α ∈ (0, 1) und T − , T + : Rn → R zwei Statistiken mit T − ≤ T + . Das Zufallsintervall [T − (X), T + (X)] heißt Konfidenzintervall zum Konfidenzniveau 1 − α, falls Pθ (θ ∈ [T − (X), T + (X)]) ≥ 1 − α für alle in Frage kommenden Parameter θ ∈ Θ gilt. 1.4 Bemerkungen: a) Seien [T − (X), T + (X)] ein 1 − α Konfidenzintervall für θ und x eine Beobachtung des zugrunde liegenden Zufallsexperiments. Die Aussage, „Der wahre Wert θ liegt mit einer Wahrscheinlichkeit von 1−α im Intervall [T − (x), T + (x)].“, ist falsch, denn [T − (x), T + (x)] und θ sind konkrete feste Werte und θ liegt in der Realisierung des Intervalls drin oder nicht. Die korrekte Interpretation ist: „Hat man n Beobachtungen x1 , . . . , xn , so liegt der echte Wert θ näherungsweise in n · (1 − α) Intervallen [T − (xi ), T + (xi )].“ b) Es gibt auch ein Konzept, bei dem die erste Interpretation korrekt ist. Bei so genannten Bayesianischen Intervallschätzern wird der Parameter θ als zufällig angenommen. Dann kann unter der bedingten Verteilung θ|X = x eine Wahrscheinlichkeit dafür angegeben werden, ob θ in [T − (x), T + (x)] liegt (vgl. [CS] 5.1). 1.5 Praktisches Vorgehen bei der Bestimmung eines Konfidenzintervalls: a) Suche eine Pivot-Statistik, d.h. eine Statistik T (X, θ), die von θ abhängt, deren Verteilung aber unabhängig von θ ist. Es soll also gelten Pθ (T (X, θ) ≤ t) = F (t), wobei F die von θ unabhängige Verteilungsfunktion von T ist. b) Seien α1 + α2 = α ∈ (0, 1). Bestimme das 1 − α1 -Quantil und das α2 -Quantil. Dann gilt offenbar für alle θ ∈ Θ: 1 − α = 1 − α1 − α2 = F q1−α1 − F qα2 = Pθ qα2 ≤ T (X, θ) ≤ q1−α1 . (2) c) Formt man diese Gleichung nach θ um, erhält man ein Konfidenzintervall für θ. 5 1 Konfidenzintervalle 1.6 Beispiel: (Normalverteilung mit unbekanntem Erwartungswert) Seien σ 2 > 0 bekannt und X1 , . . . , Xn ∼ Nθ,σ2 unabhängig. a) Betrachte den Standardschätzer für den Erwartungswert n 1X X= Xk ∼ Nθ, σ2 n n k=1 und die standardisierte Zufallsvariable T (X, θ) = X −θ √σ n ∼ N0,1 . b) Seien α1 + α2 = α ∈ (0, 1). Dann gilt nach (2) für alle θ ∈ Θ = R ! X −θ σ σ 1 − α = Pθ qα2 ≤ σ ≤ q1−α1 = Pθ X − √ q1−α1 ≤ θ ≤ X − √ qα2 . √ n n n Damit hat man das Konfidenzintervall σ σ X − √ q1−α1 , X − √ qα2 . n n 1.7 Beispiel: (Binomialverteilung) a) Seien X1 , . . . , Xn unabhängige B1,θ -verteilte Zufallsvariablen. Betrachte den Standardschätzer für den Parameter θ ∈ (0, 1) n 1X X= Xk n k=1 mit Erwartungswert θ und Varianz riable θ(1−θ) . n Betrachte nun die standardisierte Zufallsva- X −θ T (X, θ) = q . θ(1−θ) n Nach dem zentralen Grenzwertsatz konvergiert die Verteilungsfunktion von T punktweise gegen die der Normalverteilung (Konvergenz in Verteilung). Für α ∈ (0, 1) wird nun ein approximatives symmetrisches Kofidenzintervall berechnet. Für alle θ ∈ (0, 1) gilt dann nach (2) X −θ 1 − α ≈ P θ q α ≤ q ≤ q1− α 2 2 θ(1−θ) n 6 1 Konfidenzintervalle X −θ = Pθ −q1− α ≤ q ≤ q1− α (1) 2 r X − q1− α = Pθ 2 θ(1−θ) n 2 θ(1 − θ) ≤ θ ≤ X + q1− α 2 n r θ(1 − θ) n ! Diese Approximation ist gut, wenn2 min{nθ, n(1 − θ)} ≥ 5. Man kann die zweite Zeile der obigen Rechnung so umformen, dass sich eine quadratische Gleichung für θ ergibt, die leicht (mit etwas Rechenaufwand) gelöst werden kann. Im Folgenden setze q := q1− α . Man erhält dann als Konfidenzintervall 2 X+ q2 2n − √q n q X(1 − X) + 1+ q2 2n q2 4n X+ , q2 2n + √q n q X(1 − X) + 1+ q2 2n q2 4n . (3) Für hinreichend große n können die Terme mit n1 vernachlässigt werden und man erhält das etwas einfachere Intervall s s X − q X(1 − X) , X + q X(1 − X) . n n Ein sehr einfaches Intervall erhält man, wenn man in der letzten Zeile der obigen Rechnung die Abschätzung (4) θ(1 − θ) ≤ 41 verwendet q q X− √ ≤θ≤X+ √ . 2 n 2 n (5) Natürlich vergrößert man dadurch das Konfidenzintervall zusätzlich. b) Problem: Bei einer Wahlumfrage sollen n Personen befragt werden, ob sie eine Partei A wählen. Es soll ein Konfidenzintervall zum Konfidenzniveau 1 − α = 0.95 (also α = 0, 05, d.h. 1 − α2 = 0, 975) für den Stimmenanteil θ ∈ (0, 1) konstruiert werden, dessen Länge höchstens 0.02 sein soll. Wie viele Personen müssen dafür befragt werden? Lösung: Die Befragung kann als n-malige unabhängige Wiederholung eines B1,θ Experiments mit θ ∈ (0, 1) modelliert werden. Besonders günstig ist in diesem Fall die 2 Diese Faustregel kann mit dem Satz von Berry-Esseen begründet werden (vgl. [CS] 5.1). Der Satz von Berry-Esseen macht eine Aussage über die Güte der Konvergenz im Zentralen Grenzwertsatz. Qualitativ ist die Konvergenz beim zentralen Grenzwertsatz wie √1n (vgl. [WIK]). 7 1 Konfidenzintervalle Verwendung des Konfidenzintervalls aus (5). Damit folgt für die Intervalllänge q0,975 q0,975 q0,975 ⇒X+ √ − X− √ = √ ≤ 0.02 2 n 2 n n 2 q0,975 2 = 2500 · q0,975 ≈ 2500 · 1, 962 ≈ 9604. ⇒n≥ 0, 0004 Führt man dieselbe (aber nun deutlich aufwendigere) Rechnung mit dem komplizierten Konfidenzintervall aus Gleichung (3) durch, so erhält man als Untergrenze für n dasselbe Ergebnis (n ≥ 9063, 9996, im Laufe der Rechnung wurde auch die Abschätzung aus (4) verwendet). Das Konzept des Konfidenzintervalls lässt sich auch auf den mehrdimensionalen Fall übertragen. Man spricht dann nicht mehr von einem Konfidenzintervall, sondern von einem Konfidenzbereich. 1.8 Definition: (Mehrdimensionale Konfidenzbereiche) Seien α ∈ (0, 1), θ ∈ Θ ⊆ Rm und Tj− , Tj+ : Rn → R Statistiken mit Tj− ≤ Tj+ für j = 1, . . . , m. Der m-dimensionale Quader Q(X) := {x ∈ Rm | Tj− (X) ≤ xj ≤ Tj+ (X), j = 1, . . . , m} heißt Konfidenzbereich zum Konfidenzniveau 1 − α, falls Pθ (θ ∈ Q(X)) ≥ 1 − α für alle in Frage kommenden Parameter θ ∈ Θ gilt. 1.9 Bemerkung: Seien Qj (X) := [Tj− (X), Tj+ (X)] jeweils 1 − αj Konfidenzintervalle für θj und alle (Tj− (X), Tj+ (X)) für j = 1, . . . , m unabhängig. Dann gilt Pθ ({θ ∈ Θ | θj ∈ Qj (X), j = 1, . . . , m}) = m Y j=1 m Y Pθ ({θ ∈ Θ | θj ∈ Qj (X)}) ≥ (1 − αj ). j=1 Also ist Q(X) := Q1 (X) × · · · × Qm (X) Q ein Konfidenzbereich zum Niveau m j=1 (1−αj ). Bei der Produktbildung von Konfidenzintervallen erhält man also wieder einen Konfidenzbereich (wenn die beteiligten Statistiken unabhängig sind), allerdings zu einem geringeren Konfidenzniveau. 8 2 Das Testen von Hypothesen 2 Das Testen von Hypothesen Es seien eine Zufallsstichprobe X = (X1 , . . . , Xn ) von unabhängigen, identisch verteilten Zufallsvariablen Xi und eine konkrete Stichprobe x = (x1 , . . . , xn ) ∈ Rn , die als Realisierung von X interpretiert wird, gegeben. Sei Θ ⊆ R ein Parameterraum und P := {Pθ | θ ∈ Θ} die Menge aller potentiellen Verteilungen, die der Stichprobe (d.h. den Xi ) zugrunde liegen können. Ziel des statistischen Testens ist es, sich anhand der Stichprobe zwischen Hypothesen über den wahren Parameter θ ∈ Θ zu entscheiden. Dabei macht man zwangsläufig Fehler, da natürlich nur Wahrscheinlichkeitsaussagen möglich sind. Als Anwender muss man dabei immer abwägen, welche Unsicherheit man beim Test akzeptiert. 2.1 Motivation: (VW-Skandal) Eine US-Bundesbehörde untersucht Abgaswerte für Autos. Sie möchte nachweisen, dass der mittlere Abgaswert θ bei einer bekannten deutschen Automarke höher als der erlaubte Grenzwert θ0 ist. Dazu werden n ∈ N Autos untersucht. Der gemessene Abgaswert jedes Autos wird dabei für θ ∈ Θ = R als Nθ,σ2 -verteilte Zufallsvariable Xi , i = 1, . . . , n modelliert (zur Vereinfachung sei angenommen, dass die Standardabweichung σ bekannt sei, z.B. durch Untersuchungen des Prüfstands). Sinnvolle Hypothesen zu dieser Untersuchung sind: • H0 : Die Marke hält den Grenzwert ein, d.h. θ ≤ θ0 . • H1 : Die Marke übersteigt den Grenzwert, d.h. θ > θ0 . Bei der Durchführung der Untersuchung kann sich jetzt herausstellen, dass der gemessene Abgaswert deutlich höher ist θ >> θ0 , dass er deutlich niedriger ist θ << θ0 oder, dass er etwa dem Grenzwert entspricht θ ≈ θ0 . Im ersten Fall wäre man geneigt H0 zu verwerfen, im zweiten Fall würde man H0 akzeptieren und im dritten Fall tut man sich schwer eine Entscheidung zu treffen, da das Ergebnis der Stichprobe nur zufällig etwas höher oder niedriger gewesen sein könnte. Es stellt sich jetzt die Frage: Wieviel muss θ von θ0 abweichen, damit man H0 mit großer Sicherheit verwerfen kann? Im Folgenden werden auf Wahrscheinlichkeitsaussagen basierende Entscheidungsregeln für diese Problematik eingeführt und untersucht. Dabei ist stets zu beachten, dass sich empirische Aussagen immer nur als falsch erweisen können (Stichwort: Falsifizierbarkeit). Man kann also auch von statistischen Tests nicht erwarten, dass sie besagen: Eine Hypothese ist wahr. Es wird lediglich möglich sein, eine Hypothese zu verwerfen. Damit einher geht aber auch immer ein gewisses Risiko, falsch zu liegen. 2.2 Definition: a) Es seien Θ0 , Θ1 ⊆ Θ disjunkt mit Θ0 ∪ Θ1 = Θ. Dann heißt H0 : θ ∈ Θ0 die NullHypothese (von engl. to nullify = entkräften) und H1 : θ ∈ Θ1 die Alternative. b) Eine messbare Funktion δ : Rn → [0, 1] heißt Test. Dabei bedeutet 9 2 Das Testen von Hypothesen • δ(X) = 0: Die Null-Hypothese wird akzeptiert. • δ(X) = 1: Die Null-Hypothese wird verworfen. c) Fehlerarten: H0 wahr H1 wahr H0 wird akzeptiert kein Fehler Fehler 2-ter Art H0 wird verworfen Fehler 1-ter Art kein Fehler d) Sei δ : Rn → [0, 1] ein Test. Dann heißt Gδ : Θ → [0, 1], Gδ (θ) := Eθ (δ(X)) Gütefunktion für δ. 2.3 Bemerkung und Definition: a) Tests mit Wertebereich {0, 1} heißen nichtrandomisierte Tests. Bei randomisierten Tests kann auch δ(x) = p ∈ (0, 1) auftreten. Man generiert dann eine von X unabhängige Zufallsvariable Y ∼ B1,p mit Werten aus {0, 1} und verwirft H0 , falls Y = 1. Randomisierte Tests heißen so, weil die Entscheidung neben den erhobenen Daten auch von dem zusätzlichen B1,p Zufallsexperiment abhängt. Solche Tests sind hauptsächlich von theoretischer Bedeutung für die Konstruktion „optimaler“ Tests. Im weiteren Verlauf dieser Arbeit werden nur nichtrandomisierte Tests betrachtet (im Folgenden einfach nur Tests δ : Rn → {0, 1} genannt). b) Sei δ : Rn → {0, 1} ein Test. Die Menge K0 := δ −1 ({0}) ⊆ Rn heißt Annahmebereich 3 für H0 und K1 := δ −1 ({1}) = Rn \K0 heißt Ablehnungsbereich für H0 . Man kann dann den Test auch als charakteristische Funktion schreiben δ(X) = 1K1 (X). Damit ergibt sich für die Gütefunktion Z Z Gδ (θ) = Eθ (δ(X)) = 1K1 (X) dPθ = dPθ = Pθ (K1 ) = Pθ (δ(X) = 1). Rn (6) K1 c) Für θ ∈ Θ0 (d.h. H0 ist wahr) ist Gδ (θ) nach Gleichung (6) gerade die Wahrscheinlichkeit für einen Fehler 1-er Art. Für θ ∈ Θ1 (d.h. H0 ist wahr) ist dieser Ausdruck die Wahrscheinlichkeit dafür, dass der Test der Alternative, wenn sie tatsächlich zutrifft, auch zustimmt. Die Bezeichnung Gütefunktion ist also sinnvoll. Die Wahrscheinlichkeit für einen Fehler 2-ter Art ist ebenfalls nach Gleichung (6) gegeben durch 1 − Gδ (θ) für θ ∈ Θ1 . 3 Dabei bedeutet Annahmebereich nicht, dass H0 richtig ist, sondern nur, dass man bisher keinen ausreichenden Nachweis dafür hat, H0 zu verwerfen. 10 2 Das Testen von Hypothesen d) Für α ∈ (0, 1) und einen Test δ gelte Gδ (θ) = Pθ (δ(X) = 1) ≤ α, ∀ θ ∈ Θ0 . (7) Dann heißt δ ein Test zum Signifikanzniveau α. Gilt in Gleichung (7) stets Gleichheit, so spricht man von einem Level-α Test. Man gibt eine obere Schranke für den Fehler erster Art an, damit man bei der Entscheidung für die Alternative H1 (falls der Test zu diesem Ergebnis kommt) sagen kann, dass man mit Wahrscheinlichkeit 1 − α davon ausgeht, dass die Nullhypothese H0 falsch ist. Typische Signifikanzniveaus sind etwa 5% oder 1%. 2.4 Praktisches Vorgehen beim Hypothesentest: a) Wähle die Hypothese, die man „zeigen“ möchte als H1 und die, die man verwerfen möchte als H0 . b) Lege das Signifikanzniveau α ∈ (0, 1), d.h. eine Obergrenze für die Wahrscheinlichkeit eines Fehlers 1-er Art, fest. c) Finde eine geeignete Statistik T : Rn → R, deren Verteilung unabhängig von θ ist und zwar ∀ θ ∈ Θ0 . Dann gilt für alle θ ∈ Θ0 und α1 + α2 = α ∈ (0, 1) stets 1 − α = 1 − α1 − α2 = F q1−α1 − F qα2 = Pθ qα2 ≤ T (X) ≤ q1−α1 . Daraus folgt sofort α = 1 − Pθ qα2 ≤ T (X) ≤ q1−α1 = Pθ T (X) ∈ / qα2 , q1−α1 . (8) Mit K1 := R\ qα2 , q1−α1 ergibt sich daraus α = Pθ (1K1 (T (X)) = 1) . Also hat man mit δ(X) := 1K1 (T (X)) einen Level-α Test. d) Seien I(X) := [T − (X), T + (X)] ein 1 − α Konfidenzintervall für θ und θ0 ∈ Θ fest. Dann wird durch δ(X) := 1R\I(X) (θ0 ) ein Test für H0 : θ = θ0 gegen H1 : θ 6= θ0 zum Signifikanzniveau α definiert, denn ähnlich zu Teil c) folgert man: Für alle θ ∈ Θ gilt 1 − α ≤ Pθ (θ ∈ I(X)) also insbesondere auch für θ0 . Daher hat man 1 − α ≤ Pθ0 (θ0 ∈ I(X)) = 1 − Pθ0 (θ0 ∈ / I(X)). Subtrahiert man auf beiden Seiten 1 und multipliziert mit −1, so erhält man α ≥ Pθ0 (θ0 ∈ / I(X)) = Pθ0 1R\I(X) (θ0 ) = 1 . Man kann also aus einem Konfidenzintervall stets einen Test konstruieren. Ebenso kann 11 2 Das Testen von Hypothesen man aus Tests unter entsprechenden Annahmen auch Konfidenzintervalle konstruieren (vgl. [CS], 5.3.2) 2.5 Beispiel: (Normalverteilung mit unbekanntem Erwartungswert) Seien σ 2 > 0 bekannt und X1 , . . . , Xn ∼ Nθ,σ2 unabhängig. a) Für Θ0 , Θ1 ⊆ Θ = R disjunkt mit Θ0 ∪ Θ1 = R soll die Hypothese H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 getestet werden. Das Signifikanzniveau sei α ∈ (0, 1). Betrachte den Standardschätzer für den Erwartungswert n 1X X= Xk ∼ Nθ, σ2 n n k=1 und als Teststatistik die standardisierte Zufallsvariable T (X) = X −θ √σ n ∼ N0,1 . Seien α1 , α2 = α ∈ (0, 1). Dann gilt nach (8) für alle θ ∈ Θ0 σ σ α = Pθ T (X) ∈ / qα2 , q1−α1 = Pθ X − θ ∈ / qα2 √ , q1−α1 √ . n n (9) b) Zweiseitiger Test: Seien θ0 ∈ R fest und Θ0 = {θ0 }, sowie Θ1 = R\{θ0 }. Mit α1 = α2 = α2 folgt nach (9): σ σ σ σ (1) = Pθ0 X − θ0 ∈ . α = Pθ0 X − θ0 ∈ / q α √ , q1− α √ / −q1− α √ , q1− α √ 2 2 2 2 n n n n h i σ σ √ √ Mit K1 := R\ θ0 − q1− α n , θ0 + q1− α n ergibt sich daraus der zweiseitige Level-α Test 2 2 δ(X) := 1K1 (X). c) Einseitiger Test 1: Seien θ0 ∈ R fest und Θ0 = (−∞, θ0 ], sowie Θ1 = (θ0 , ∞). Mit α1 = α und α2 = 0 folgt4 für θ ≤ θ0 nach (9): σ σ α = Pθ X − θ ∈ / −∞, q1−α √ = Pθ0 X − θ0 ∈ / −∞, q1−α √ . n n i Mit K1 := R\ −∞, θ0 + q1−α √σn = θ0 + q1−α √σn , ∞ ergibt sich daraus der einseitige Level-α Test δ(X) := 1K1 (X) für das Anfangsbeispiel 2.1. D.h. für σ X ≤ θ0 + q1−α √ n 4 q0 = −∞ 12 2 Das Testen von Hypothesen kann keine Überschreitung des Grenzwerts nachgewiesen werden. Andererseits entscheidet man sich im Fall σ X > θ0 + q1−α √ n dafür, dass der Abgaswert zu hoch ist. d) Einseitiger Test 2: Seien θ0 ∈ R fest und Θ0 = [θ0 , ∞), sowie Θ1 = (−∞, θ0 ). Mit α1 = 0 und α2 = α folgt5 für θ ≥ θ0 nach (9): σ σ α = Pθ X − θ ∈ / qα √ , ∞ = Pθ0 X − θ0 ∈ / qα √ , ∞ . n n h σ σ √ √ Mit K1 := R\ θ0 + qα n , ∞ = −∞, θ0 + qα n ergibt sich daraus der einseitige Level-α Test δ(X) := 1K1 (X) für das Anfangsbeispiel 2.1 bei Vertauschung der Hypothesen. Dieser Test entspricht dem Gegentest des Autounternehmens, das nachweisen möchte, dass der Grenzwert eingehalten wird. Für σ X ≥ θ0 + qα √ n kann nicht nachgewiesen werden, dass Grenzwert eingehalten wird. Andererseits entscheidet man sich im Fall σ X < θ 0 + qα √ n dafür, dass der Abgaswert die Vorgaben erfüllt. e) Konkretes Signifikanzniveau: Sei α = 5% = 0.05. Dann ergibt sich q0,05 = −1, 645 1 und q0,95 = q1−0,05 = 1, 645. Beim den Tests aus c) und d) ergeben sich also die jeweiligen Annahmebereiche σ c) X ≤ θ0 + 1, 645 · √ n σ d) X ≥ θ0 − 1, 645 · √ n bzw. Ablehnungsbereiche σ c) X > θ0 + 1, 645 · √ n σ d) X < θ0 − 1, 645 · √ . n Bei einem Messergebnis in σ σ θ0 − 1, 645 · √ , θ0 + 1, 645 · √ n n kann die Behörde im Rahmen des Tests nicht nachweisen, dass der Wert überschritten wird, während die Automarke nicht nachweisen kann, dass sie den Abgaswert einhält. 5 q1−0 = q1 = ∞ 13 2 Das Testen von Hypothesen Mit Hilfe des zentralen Grenzwertsatzes kann man wie auch bei Konfidenzintervallen approximativ Tests konstruieren. Dies wird hier exemplarisch für die Binomialverteilung vorgestellt. 2.6 Beispiel: (Binomialverteilung) Seien X1 , . . . , Xn unabhängige B1,θ0 -verteilte Zufallsvariablen. Betrachte den Standardschätzer für den Parameter θ0 ∈ (0, 1) n X= mit Erwartungswert θ0 und Varianz variable 1X Xk n k=1 θ0 (1−θ0 ) . n Betrachte nun die standardisierte Zufalls- X − θ0 T (X, θ) = q . θ0 (1−θ0 ) n Nach dem zentralen Grenzwertsatz konvergiert die Verteilungsfunktion von T punktweise gegen die der Normalverteilung (Konvergenz in Verteilung). Im Folgenden wird die Hypothese H0 : θ = θ0 gegen H1 : θ > θ0 getestet Für θ0 gilt dann nach (8) mit α1 = α2 = α2 α ≈ Pθ0 T (X) ∈ / qα , q α 1− 2 "2 #! r r θ0 (1 − θ0 ) θ0 (1 − θ0 ) (1) = Pθ0 X − θ0 ∈ / −q α ,q α 1− 1− n n 2 2 " #! r r θ0 (1 − θ0 ) θ0 (1 − θ0 ) = Pθ 0 X ∈ / θ0 − q α , θ0 + q α . 1− 1− n n 2 2 Man erhält als Ablehnungsbereich " K1 := (0, 1)\ θ0 − q 1− r α 2 θ0 (1 − θ0 ) , θ0 + q α 1− n 2 r # θ0 (1 − θ0 ) . n Daraus ergibt sich α = Pθ0 1K1 (X) = 1 . Also hat man mit δ(X) := 1K1 (X) einen approximativen Level-α Test.6 2.7 Beisiel: (Schulbuchaufgabe, vgl. [LS] S. 407, Aufgabe 2) Aufgabe: Pralinenbeutel werden mit einem Sollgewicht von µ = 500 g bei einer Standardabweichung von σ = 5 g befüllt. Bei einer Produktionskontrolle wird das Gewicht 6 Die Approximation ist gut, wenn gilt min{nθ, n(1 − θ)} ≥ 5 [vgl. 1.7]. 14 2 Das Testen von Hypothesen einer Stichrobe aus zehn Tüten kontrolliert. Das mittlere Gewicht betrug 495 g. Muss man die Hypothese µ = 500 g verwerfen und die Maschine neu einstellen? Lösung: Die Nullhypothese lautet H0 : µ = 500, die Alternative H1 : µ 6= 500. Das Gewicht einer Tüte wird als N500,52 -verteilte Zufallsvariable modelliert. Dann ist auch der Mittelwert aus zehn Gewichten normalverteilt mit Erwartungswert µ = 500 und Standardabweichung σ = √510 . Zum Signifikanzniveau α = 0, 05 (wird in der Aufgabe nicht angegeben, da im Buch stets von 5% Signifikanzniveau ausgegangen wird) ergibt sich nach 2.5 b) 5 5 K1 = 500 − 1, 96 · √ , 500 + 1, 96 · √ ≈ [496, 90; 503, 10] . 10 10 Für den gemessenen Wert von 495 g liefert der zugehörige Test also δ(495) = 1R\[496,90;503,10] (495) = 1. Die Nullhypothese wird also verworfen und die Maschine muss verstellt werden. c) Anmerkungen: Vom vorliegenden Schulbuch wird die Lösung natürlich ohne den Test δ und die Formalisierung der Hypothesen erwartet. Am Anfang des Kapitels über Tests wird die Formel für den Annahmebereich eines 5% Tests angegeben. Alle Aufgaben bestehen nur daraus, die gegebenen Werte für µ und σ einzusetzen und zu prüfen, ob der angegebene Wert in dem zuvor berechneten Intervall liegt oder nicht. Andererseits gibt es allerdings viele verschiedene Kontexte, die zum Teil sogar authentisch sind. 15 2 Das Testen von Hypothesen Abkürzungsverzeichnis X ∼ P : Die Zufallsvariable X ist P -verteilt ( 1, ω ∈ S 1S : Charakteristische Funktion 1S : Ω → {0, 1}, 1S (ω) = 0, ω ∈ /S 16 Literatur Literatur [CS] Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer. 2011. [LS] Lambacher Schweizer: Mathematik für Gymnasien - Qualifikationsphase, Leistungskurs, NRW. 1. Auflage. Klett. 2011. [NRW] Schulministerium NRW: Vorgaben zu den unterrichtlichen Voraussetzungen für die schriftlichen Prüfungen im Abitur in der gymnasialen Oberstufe im Jahr 2016 - Vorgaben für das Fach Mathematik. https://www.standardsicherung. schulministerium.nrw.de/abitur-gost/getfile.php?file=3404 [SP] Evgeny Spodarev: Vorlesungsskript Statistik II. Universität Ulm. 2009 https://www.uni-ulm.de/fileadmin/website_uni_ulm/mawi.inst.110/ mitarbeiter/spodarev/publications/scripts/statistik.pdf [WIK] Wikipedia. Satz von Berry-Esseen. https://de.wikipedia.org/wiki/Satz_ von_Berry-Esseen [ZK] Zakhar Kabluchko: Vorlesungsskript Stochastik I (Statistik). Universität Ulm. 2013 https://www.uni-ulm.de/fileadmin/website_uni_ulm/mawi. inst.110/lehre/ss13/Stochastik_I/Skript_Stochastik_I.pdf 17