Definition 1. X = (X1, . . . , Xn) heißt Stichprobe vom Umfang n wenn X1, . . . , Xn stochastisch unabhängig und alle identisch so wie eine Zufallsvariable Y verteilt sind. x = (x1, . . . , xn) heißt Realisierung. Verteilungsfunktion von Y bis auf deren Parameter θ bekannt. Unbekannten Parameter werden mittels der Stichprobe geschätzt. Definition 2. Die Zufallsvariable T = T (X1, . . . , Xn) heißt Schätzfunktion (Schätzer) und die Realisation t = t(x1, . . . , xn) Schätzwert. Gütekriterien für eine Folge von Schätzern (Tn)n∈N für θ: • (asymptotische) Erwartungstreue: ( lim )E(Tn) = θ, n→∞ b(T, θ) := E(T ) − θ den Bias. 1 • Konsistenz: Tn heißt konsistent, falls lim P (|Tn − θ| > ²) = 0 n→∞ gilt. • Effizienz: T ist wirksamster (effektiver) Schätzer für θ, wenn für alle anderen Schätzer T 0 gilt: E((T − θ)2) ≤ E((T 0 − θ)2), d.h. T hat den kleinsten mittleren quadratischen Fehler (MSE). Unter allen erwartungstreuen Schätzern hat der wirksamste Schätzer die kleinste Varianz. 2 Schätzmethoden • Die Momentenmethode liefert erwartungstreue und konsistente Schätzer. • Die Maximum–Likelihood (ML) Methode liefert keinesfalls immer erwartungstreue Schätzer. Existiert jedoch ein effektiver Schätzer, so wird dieser durch die ML Methode bestimmt. 3 Momente und Quantile 1. Moment um Null: Z µ = E(X) := Empirische Mittel X = 1 n P xdF (x) Xi ist erwartungstreu für E(Xi) = µ. X ist konsistent und effektivster linearer Schätzer. Falls var(Xi) = σ 2, dann var(X) = σ 2/n. ¡ ¢ iid 2 2 Xi ∼ N (µ, σ ) impliziert X ∼ N µ, σ /n . 4 2. zentrales Moment: σ 2 = var(X) := E((X − µ)2). 2 S = 1 n−1 P (Xi − X)2 ist erwartungstreu und konsistent für σ 2. iid Xi ∼ N (µ, σ 2), so sind X und S 2 unabhängig und es gilt n−1 2 2 S ∼ χ n−1 , σ2 S12 = 1 n P sowie (Xi − X)2 ist wegen E(S12) = X −µ √ ∼ tn−1. S/ n n−1 2 n σ Er ist aber effektiver Schätzer für σ 2. 5 nicht erwartungstreu. k-tes zentrales Moment: µk = E((X − µ)k ). I.a. standardisierte Formen verwendet • Schiefe α3 = µ3/σ 3 mit Schätzer α̂3 = 1 n P (Xi − X)3 , 3 S1 var(α̂3) ≈ 6/n • Kurtosis (Exzeß, Schwänzigkeit) α4 = µ4/σ 4 − 3 mit Schätzer α̂4 = 1 n P (Xi − X)4 − 3, S14 6 var(α̂4) ≈ 24/n Momente einiger ausgewählter Verteilungen. Verteilung Normal(0, 1) Uniform(−1, 1) DoppelExp(1) Exponential(1) χ210 E(X) 0 0 0 1 10 var(X) 1 1/3 2 1 20 7 α3 0 0 0 2 0.894 α4 0 -1.2 3 6 1.2 Geordnete Stichprobe: Definition 3. Sei g(x1, . . . , xn) = (x(1), . . . , x(n)) mit x(1) ≤ · · · ≤ x(n). x(.) = (x(1), . . . , x(n)) ist die geordnete Stichprobe zu x = (x1, . . . , xn). X(.) = (X(1), . . . , X(n)) ist die geordnete Statistik (Ordnungsstatistik) und X(i) die i-te geordnete Statistik. Quantile: Definition 4. xp für (0 < p < 1) mit P (X < xp) ≤ p ≤ P (X ≤ xp) heißt theoretisches p-tes Quantil von X. Das empirische p-tes Quantil ½ Q(p) = 1 2 (X(np) + X([np]+1) X(np+1)) für ganzzahliges np sonst ist ein asymptotisch erwartungstreuer und konsistenter Schätzer für xp. 8 1 P(X < xp) ≤ p P(X ≤ xp) ≥ p 0 P(X ≤ xp) ≥ p 0 0 P(X < xp) ≤ p xp F(x|θ) p 1 F(x|θ) p p 1 F(x|θ) xp 9 xp xp Empirische Quantile schätzen die (unbekannten) theoretischen Quantile. Aussagen über deren Güte liefert der folgende Satz. Satz 1. Sei X1, . . . , Xn eine Stichprobe für eine stetig verteilte Population mit Dichte f (x|θ) und Verteilungsfunktion F (x|θ). Für 0 < p < 1 sei xp das p-te Quantil zu F (x|θ). Ist k = [np] + 1 und f (x) in xp stetig und positiv, so gilt µ as X(k) ∼ N xp , 1 p(1 − p) f 2(xp|θ) n ¶ . X(k) ist also asymptotisch erwartungstreuer und konsistenter Schätzer für xp. 10 Beispiel 1. Empirische Median X̃ = Q(0.5) hat also asymptotische Varianz var(X̃) = 1/(4nf 2(x0.5|θ)). √ iid 2 2 Falls Xi ∼ N (µ, σ ), folgt f (x0.5|µ, σ ) = 1/ 2πσ 2 und damit 2π σ 2 σ2 var(X̃) ≈ = 1.5708 . 4 n n Da var(X) = σ 2/n < var(X̃) = 1.5708σ 2/n, ist X effizienter als X̃. Die asymptotische relative Effizienz von X gegenüber X̃ ist somit are(X, X̃) = var(X̃)/var(X) = π/2 = 1.5708 . Um var(X̃) oder var(X) zu schätzen benötigt man einen Schätzer für σ 2. • Momentenschätzer hat Nachteil, dass X̃ auf ordinalen Aspekt beruht, S 2 aber auf einen intervallskalierten. 11 • Daher verwendet man einen auf Quantile beruhenden Schätzer für σ 2. Üblich ist die Verwendung des Inter-Quartile Range IQR = Q(0.75) − Q(0.25). iid Unter Xi ∼ N (µ, σ 2) gilt iqr = x0.75 − x0.25 = (µ + z0.75σ) − (µ + z0.25σ) = 2z0.75σ mit zp dem p-ten Quantil der N (0, 1)-Verteilung. Wegen z0.75 = 0.6745 folgt hierfür σ = iqr/(2 · 0.6745), was den robusten Varianzschätzer 2 IQR 2 σ̂IQR = 1.3492 motiviert. Dieser liefert schließlich c X̃) = 1.5708 var( 2 σ̂IQR n 12 IQR2 = 0.8639 . n iid Gleichverteilung: Xi ∼ U (−a, a), 0 < a. Da E(X) = 0, var(X) = a2/3 folgt var(X̃) = 4a2/(4n) = a2/n , var(X) = a2/(3n) , also var(X) < var(X̃). iid Doppel-Exponential- (Laplace-)verteilung: Xi ∼ DExp(µ, σ 2) mit Dichte f (x|µ, σ 2) = 1/(2σ) exp(−|x − µ|/σ), x, µ ∈ R, σ > 0 . Da E(X) = µ, var(X) = 2σ 2 folgt var(X̃) = 4σ 2/(4n) = σ 2/n , var(X) = 2σ 2/n , also var(X) > var(X̃) mit asymptotisch relativer Effizienz 1/2. 13 Variationskoeffizient Momenten-Verhältnis von Standardabweichung zu Erwartung, also θ = σ/µ . Ist somit ein relatives (dimensionsloses) Streuungsmaß mit Einheit µ. Empirischer Variationskoeffizient θ̂ = S/X . Für eine normalverteilte Stichprobe gilt var(θ̂) = θ2/2n. Für eine exponentialverteilte Stichprobe mit E(X) = λ und var(X) = λ2 erhält man θ = λ/λ = 1, d.h. der Variationskoeffizient ist konstant. Liegt eine √ Stichprobe √ aus einer Poissonverteilung vor mit E(X) = var(X) = λ, so ist θ = λ/λ = 1/ λ. 14 Konfidenzintervalle iid Annahme: X1, . . . , Xn ∼ Fθ . Gesucht: U = U (X1, . . . , Xn), O = O(X1, . . . , Xn), sodass für das wahre θ gilt Pθ (U ≤ θ ≤ O) = 1 − α, α ∈ (0, 1). Das Intervall [U, O] ist ein Konfidenzintervall (KIV) für θ zum Niveau 1 − α. Intuitive Bedeutung: KIV ist ein Intervall, das mit Wahrscheinlichkeit 1 − α (groß) den unbekannten Parameter θ überdeckt. Aber: Sei (x1, . . . , xn) eine Realisation, dann enthält [u, o] den wahren Parameter θ oder eben nicht. Zu sagen, dass θ ∈ [u, o] mit W! 1 − α ist somit unsinnig! 15 Und trotzdem: Sei [Ur , Or ], r = 1, . . . , R, eine Folge iid KIVs für θ zum Niveau 1 − α, dann resultiert mit dem Starken Gesetz der großen Zahlen (SLLN) R 1X f.s. I[Ur ,Or ](θ) → 1 − α. R r=1 iid Hierbei gilt für die Indikatoren I[Ur ,Or ](θ) ∼ Bernoulli(1 − α), also ³ ´ E I[Ur ,Or ](θ) = 1 − α . Das heißt ? 16 iid Konfidenzintervalle bei Normalverteilung: Xi ∼ N (µ, σ 2) 1. Für µ (σ bekannt): µ X∼N P (zα/2 σ2 µ, n ¶ ⇒ X −µ √ ∼ N (0, 1) Z := σ/ n ¶ µ σ σ ≤ Z ≤ z1−α/2) = P X − √ z1−α/2 ≤ µ ≤ X + √ z1−α/2 n n = 1 − α. 17 2. Für µ (σ unbekannt): X −µ √ ∼ tn−1 T := S/ n P (tn−1;α/2 ≤ T ≤ tn−1;1−α/2) = µ ¶ S S √ √ P X− tn−1;1−α/2 ≤ µ ≤ X + tn−1;1−α/2 = 1 − α . n n 18 3. Für σ 2 (µ unbekannt): Y := (n − 1) 2 2 S ∼ χ n−1 σ2 à P (χ2n−1;α/2 ≤Y ≤ χ2n−1;1−α/2) = P (n − 1)S 2 (n − 1)S 2 2 ≤σ ≤ 2 2 χn−1;1−α/2 χn−1;α/2 = 1 − α. 19 ! Für eine beliebige Verteilung F mit E(Xi) = µ und var(Xi) = σ 2 folgt mit ZGWS X − µ as √ ∼ N (0, 1) . σ/ n KIVs wie zuvor, aber mit asymptotischer Überdeckungwahrscheinlichkeit 1 − α. 20 Nichtparametrische KIVs iid X1, . . . , Xn ∼ F , F streng monoton und stetig, somit xp eindeutig. Ansatz: P (X(k) < xp < X(`)) = 1 − α mit k < `. (X(k), X(`)) ein Konfidenzintervall für xp zum Niveau 1 − α. Sei dazu ½ Yi(x) = 0 1 falls Xi > x falls Xi < x , iid so ist Yi(x) ∼ Binomial(1, F (x)) und T (x) = 21 P i Yi (x) ∼ Binomial(n, F (x)). Damit folgt P (X(k) < xp < X(`)) = P (X(k) < xp, X(`) > xp) = P (#(Xi < xp) ≥ k, #(Xi < xp) ≤ ` − 1) = P (k ≤ T (xp) ≤ ` − 1) = 1 − α . • Exakte Berechnung mittels Binomial-Verteilung, da T (xp) ∼ Binomial(n, p) • Approximation durch DeMoivre-Laplace: P (X(k) < xp < X(`)) = P (k ≤ T (xp) ≤ ` − 1) ! à ! à k − np − 1/2 ` − 1 − np + 1/2 p −Φ p ≈ 1 − α. ≈ Φ np(1 − p) np(1 − p) | {z } | {z } 1−α/2 22 α/2 • Bei n groß wird Verteilung des Medians durch die Normal approximiert. Dafür ist IQR2 c X̃) = 0.8639 var( . n Als alternatives approximatives Konfidenzintervall für den theoretischen Median resultiert µ ¶ q q c X̃) ≤ x0.5 ≤ X̃ + z1−α/2 var( c X̃) ≈ 1 − α . P X̃ − z1−α/2 var( 23 0.0 −0.2 −0.4 CIV(median) 0.2 0.4 0.6 R = 100 , N(0,1): alpha.mc = 0.08 0 20 40 60 repetition 24 80 100 Hypothesentests Zweck: Aussagen oder Hypothesen über Verteilung einer ZV’en Y anhand der Stichprobe X1, . . . , Xn zu untermauern. Ein Hypothesentest beinhaltet: • Testproblem: Nullhypothese H0 und Alternativhypothese H1. • Teststatistik: T = T (X1, . . . , Xn). • Entscheidungsregel: Jeder Realisation von T wird Entscheidung für oder gegen die vorliegende Hypothese zugeordnet: (a) Entscheidung für H0, falls T nicht in C realisiert. (b) Entscheidung für H1, falls T in C realisiert. C heißt kritischer Bereich. 25 Parametrische Statistik: Hypothesen über Werte eines Parameters θ. Bezeichne Ω0 die unter H0 zulässigen Parameterwerte und Ω1 die unter H1 zulässigen. Je nach Gestalt dieser Mengen unterscheiden wir (a) einfache (b) zusammengesetzte Testprobleme. Bei univariaten Testproblemen gibt es im wesentlichen (a) einseitige und (b) zweiseitige Fragestellungen. 26 Die Entscheidung für H0 oder H1 kann richtig oder falsch sein: H0 richtig falsch Entscheidung annehmen ablehnen 1−α α 1−β β Ziel: α und 1 − β möglichst klein halten. (Widersprüchliche Forderung!!) Üblich: α vorgegeben, Annahmebereich bestimmen und Fehler 1 − β berechnen. 1 − β kann groß werden. Da der wahre Wert des Parameters unbekannt, kann man über Fehler 2. Art keine genaue Auskunft geben. Nur Fehler 1. Art ist unter Kontrolle und damit nur die damit verbundene Entscheidung: “H0 verwerfen”. Richtige Entscheidungen: (a) P (T ∈ / C|H0 richtig) = 1 − α (durch Niveau bestimmt!!) (b) P (T ∈ C|H1 richtig) = β (Macht des Tests). 27 f(x|H0) f(x|H1) 1−β µ0 α tc 28 µ1 Parametrische Tests bei Normalverteilung 1. Test auf µ bei σ bekannt (Gaußtest): H0 H1 µ = µ0 µ 6= µ0 Entscheidung gegen H0, falls X < c3 oder X > c4 µ ≤ µ0 µ ≥ µ0 µ > µ0 µ < µ0 X > c1 X < c2 29 kritische Werte c3 c4 c1 c2 √ = µ0 − z1−α/2 σ/√n = µ0 + z1−α/2 σ/ n √ = µ0 + z1−α σ/ n √ = µ0 − z1−α σ/ n 2. Test auf µ bei σ unbekannt (t–Test): H0 H1 µ = µ0 µ 6= µ0 Entscheidung gegen H0, falls X < c3 oder X > c4 µ ≤ µ0 µ ≥ µ0 µ > µ0 µ < µ0 X > c1 X < c2 2 −1 mit S = (n − 1) n P i=1 (Xi − X)2. 30 kritische Werte c3 c4 c1 c2 √ = µ0 − tn−1;1−α/2 S/√n = µ0 + tn−1;1−α/2 S/ n √ = µ0 + tn−1;1−α S/ n √ = µ0 − tn−1;1−α S/ n 3. Test auf σ 2 bei µ bekannt (χ2-Test): H0 H1 σ 2 = σ02 σ 2 6= σ02 Entscheidung gegen H0, falls T < c3 oder T > c4 σ 2 ≤ σ02 σ 2 ≥ σ02 σ 2 > σ02 σ 2 < σ02 T > c1 T < c2 mit T = n P i=1 (Xi − µ)2. 31 kritische Werte c3 c4 c1 c2 = σ02χ2n;α/2 = σ02χ2n;1−α/2 = σ02χ2n;1−α = σ02χ2n;α 4. Test auf σ 2 bei µ unbekannt (χ2-Test): H0 H1 σ 2 = σ02 σ 2 6= σ02 Entscheidung gegen H0, falls T < c3 oder T > c4 σ 2 ≤ σ02 σ 2 ≥ σ02 σ 2 > σ02 σ 2 < σ02 T > c1 T < c2 mit T = n P i=1 (Xi − X)2. 32 kritische Werte c3 c4 c1 c2 = σ02χ2n−1;α/2 = σ02χ2n−1;1−α/2 = σ02χ2n−1;1−α = σ02χ2n−1;α p-Wert Für Tests liefern Computerprogramme keine logische Entscheidung sondern den p-Wert. Dieser ist die anhand der Stichprobe beobachtete Type I Error Rate. Satz 2. [Probability Integral Transformation] Habe X stetige Verteilungsfunktion FX (x) und sei Y = FX (X). Dann ist Y gleichverteilt auf (0, 1), d.h. P (Y ≤ y) = y , 0 < y < 1. Beweis: −1 −1 P (Y ≤ y) = P (FX (X) ≤ y) = P (FX (FX (X)) ≤ FX (y)) −1 −1 = P (X ≤ FX (y)) = FX (FX (y)) = y . Bemerkung: Ist X diskret, so gilt: P (Y ≤ y) ≤ y, für 0 ≤ y ≤ 1. 33 Definition 5. FX ist stochastisch größer als FY , falls FX (t) ≤ FY (t) für alle t gilt. Für X ∼ FX und Y ∼ FY folgt P (X ≤ t) = FX (t) ≤ FY (t) = P (Y ≤ t) und für alle t gilt P (X > t) ≥ P (Y > t) . Nach dem Test wird Ergebnis mitgeteilt. Eine Möglichkeit ist es α und damit die Entscheidung bzgl. H0 zu berichten. Alternativ kann p-Wert übermittelt werden. Definition 6. Der p-Wert p(X) ist eine Teststatistik mit 0 ≤ p(x) ≤ 1. Kleine Werte von p(X) weisen auf die Richtigkeit von H1 hin. Ein p-Wert ist gültig, falls für jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1 gilt Pθ (p(X) ≤ α) ≤ α . Ist p(X) gültig, kann damit ein Level α Test konstruiert werden. Der Test, der H0 genau dann verwirft wenn p(X) ≤ α ist ein Level α Test. Wie kann nun ein gültiger p-Wert definiert werden? 34 Satz 3. Sei W (X) eine Teststatistik. Große Werte von W sprechen gegen H0. Definiere für einen beliebigen Stichprobenpunkt x p(x) = sup Pθ (W (X) ≥ W (x)) . θ∈Θ0 Damit ist p(X) ein gültiger p-Wert. Beweis: Fixiere ein θ ∈ Θ0. Sei dafür Fθ (w) die cdf von −W (X). Definiere dafür pθ (x) = Pθ (W (X) ≥ W (x)) = Pθ (−W (X) ≤ −W (x)) = Fθ (−W (x)) . Für dieses θ entspricht die ZV’e pθ (X) dem Fθ (−W (X)). Mit Satz 2 folgt, dass die Verteilung von pθ (X) stochastisch größer oder gleich einer Uniform(0, 1) ist. D.h. für jedes 0 ≤ α ≤ 1 gilt Pθ (pθ (X) ≤ α) ≤ α. 35 Nun ist der p-Wert definiert über alle θ ∈ Θ0, und es gilt dafür für jedes x p(x) = sup pθ0 (x) ≥ pθ (x) , θ 0 ∈Θ0 da der größte p-Wert für alle Elemente in Θ0 zumindest so groß ist als für unseren Wert θ. Somit gilt auch für jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1 Pθ (p(X) ≤ α) ≤ Pθ (pθ (X) ≤ α) ≤ α und p(X) ist daher ein gültiger p-Wert. 36 Beispiel: Sei X1, . . . , Xn Zufallsstichprobe aus N (µ, σ 2) und teste H0: µ = µ0 gegen H1: µ 6= µ0. √ LRT verwirft H0 für große Werte von W (X) = |X − µ0|/(S/ n). √ Für µ = µ0 folgt (X − µ0)/(S/ n) einer tn−1-Verteilung, unabhängig von σ. Deshalb gilt hierfür ³ √ ´ p(x) = Pθ0 (W (X) ≥ W (x)) = 2P Tn−1 ≥ (x − µ0)/(s/ n) . 37 Tests auf Güte der Anpassung Zweck: Prüfe ob beobachtetes Merkmal aus bestimmter Verteilung stammt. Definition 7. Sei X1, . . . , Xn Zufallsstichprobe aus der Verteilungsfunktion F . 1 Fn(x) = (Anzahl der Xi ≤ x) , n −∞ < x < ∞ nennt man die empirische Verteilungsfunktion der Xi, d.h. jedem Xi wird die Wahrscheinlichkeit 1/n zugeordnet. 38 Eigenschaften von Fn Als Realisation: • monoton steigende Treppenfunktion mit Unstetigkeitsstellen in x(1), . . . , x(n). • ungebundene Beobachtung: Sprung der Höhe 1/n; Bindung von k Beobachtungen: Höhe des Treppensprungs k/n. • Für jede Realisation x1, . . . , xn ist Fn(x) eine Verteilungsfunktion. 39 Als Zufallsvariable: • Für jedes x ist Fn(x) eine Zufallsvariable. • Fn(x) ist diskret mit den Realisationen i/n, i = 0, . . . , n. Genauer gilt: Für alle x ∈ R gilt, dass nFn(x) ∼ Binomial(n, F (x)). • Es gilt der sogenannte Zentralsatz der Statistik (Satz von Glivenko-Cantelli) iid Satz 4. Sei X1, . . . , Xn ∼ F dann gilt f.s. sup |Fn(x) − F (x)| → 0 , x∈R also die fast sichere gleichmäßige Konvergenz. 40 (n → ∞), iid Satz 5. Seien X1, . . . , Xn ∼ F . Dann gilt für jedes feste x ∈ R µ ¶ µ ¶ n i = F i(x)(1 − F (x))n−i , P Fn(x) = n i i = 0, . . . , n . Es gilt also nFn(x) ∼ Binomial(n, F (x)), und daher E(Fn(x)) = F (x) sowie var(Fn(x)) = F (x)(1 − F (x))/n. 41 Der Kolmogorov-Smirnov Test (1933) iid X1, . . . , Xn ∼ F , stetig jedoch unbekannt. Testproblem: F = F0, wobei F0 vollständig spezifiziert ist. Alternative: F 6= F0. Teststatistik: Zentralsatz der Statistik (Glivenko-Cantelli) legt als KS-Statistik (für die zweiseitige Fragestellung) Kn = supx∈R |Fn(x) − F0(x)| nahe. Entscheidungsregel: Unter H0 sollte Kn klein sein. Daher wird bei großen Realisationen H0 abgelehnt. Bei Verletzung der Voraussetzungen, z.B. F0 diskret, oder nur bis auf die Parameter vollständig spezifiziert, ist der KS-Test konservativ. 42 Hypothesen • Test A: H0 : F (x) = F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F (x) 6= F0(x) • Test B: H0 : F (x) ≤ F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F (x) > F0(x) • Test C: H0 : F (x) ≥ F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F (x) < F0(x) KS-Teststatistiken • Test A: Kn = supx∈R |F0(x) − Fn(x)| • Test B: Kn− = supx∈R(Fn(x) − F0(x)) • Test C: Kn+ = supx∈R(F0(x) − Fn(x)) 43 Entscheidungsregel: H0 wird abgelehnt, wenn • Test A: kn ≥ kn;1−α; P (Kn ≥ kn;1−α) = α − − ; P (Kn− ≥ kn;1−α )=α • Test B: kn− ≥ kn;1−α + + • Test C: kn+ ≥ kn;1−α ; P (Kn+ ≥ kn;1−α )=α 44 Begriff: Verteilungsfreiheit Lemma 1. Unter der Annahme der Stetigkeit von F0 sind Kn, Kn+ und Kn− unter H0 verteilungsfrei, d.h. unabhängig vom konkreten F0. Beweis: Betrachte streng monotones F0, dann gilt ³ ´ F0−1(y) = y , ∃ F0−1 mit F0 ³ ´ P F0(X) ≤ u = u , y ∈ (0, 1) (1) d.h. F0(X) ∼ U (0, 1) . (2) Damit folgt unter H0 Kn ¯ ³ ´ ³ ´¯ ¯ ¯ = sup |F0(x) − Fn(x)| = sup ¯F0 F0−1(y) − Fn F0−1(y) ¯ (1) x∈R y∈(0,1) ¯ ¯ ¯ ¯ n n ¯ ¯ ¯ ¯ 1X 1X ¯ ¯ ¯ ¯ I(−∞,F −1(y)](Xi)¯ = sup ¯y − I(0,y](F0(Xi))¯ = sup ¯y − 0 ¯ y∈(0,1) ¯ ¯ n n y∈(0,1) ¯ i=1 i=1 45 Satz 6. Ist F0 stetig, so gilt für alle z > 0 µ ¶ ∞ X z k−1 −2k2 z 2 (1) lim P Kn ≤ √ = L(z) = 1 − 2 (−1) e , n→∞ n k=1 ¶ µ z + −2z 2 + √ = L (z) = 1 − e . (2) lim P Kn ≤ n→∞ n Aus Punkt (2) folgt µ lim P n→∞ z + Kn ≤ √ n ¶ µ = lim P n→∞ 4nKn+2 z2 ≤ 4n n ¶ =1−e Mit Vn = 4nKn+2 und v = 4z 2 folgt weiters lim P (Vn ≤ v) = 1 − e−v/2 = Fχ2 (v) . n→∞ 2 46 −2z 2 . Daher ist Vn = 4nKn+2 asymptotisch χ22-verteilt. Also resultiert asymptotisch P ¡ Kn+ ≤ + kn;α ¢ ¡ = α ≈ P Vn ≤ d.h. +2 4nkn;α ¢ ¡ = P Vn ≤ χ22;α ¢ s + kn;α ≈ Für 1 − α = 0.95 gilt χ22;0.95 = 5.99, also χ22;α . 4n + kn;0.95 q √ 2 ≈ χ2;0.95/4n = 1.22/ n. Quantile kn;α sind für n ≤ 40 exakt tabelliert. Für n > 40 kann auf Quantile der asymptotischen Verteilung zurückgegriffen werden. Beispiel: Bezinverbrauch ∼ N (12, 1). Stichprobe vom Umfang n = 10. Testproblem: H0 : F (x) = Φ(x|12, 1) gegen H1 : F (x) 6= Φ(x|12, 1). Entscheidung zum Niveau α = 0.05. 47 Daten: i 1 2 3 4 5 6 7 8 9 10 x(i) 11.5 11.8 12.0 12.4 12.5 12.6 12.8 12.9 13.0 13.2 Φ(x(i)) 0.309 0.421 0.500 0.655 0.691 0.726 0.788 0.816 0.841 0.885 Fn+ 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 48 Fn− 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 d+ n 0.209 0.221 0.200 0.255 0.191 0.126 0.088 0.016 0.059 0.115 d− n 0.309 0.321 0.300 0.355 0.291 0.226 0.188 0.116 0.041 0.015 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 ecdf(milage) 10 11 12 13 x 49 14 15 Folgerung: In x(4) = 12.4 realisiert Kn in k10 = 0.355. Wegen k10;0.95 = 0.409 kann H0 nicht abgelehnt werden. > milage <- c(11.5,11.8,12.0,12.4,12.5,12.6,12.8,12.9,13.0,13.2) > ks.test(milage, "pnorm", 12, 1) One-sample Kolmogorov-Smirnov test data: milage D = 0.3554, p-value = 0.1598 alternative hypothesis: two.sided 50 Der χ2-Test, Pearson 1900 Anpassungstest der auf Häufigkeiten basiert. Daten daher beliebig skaliert. Prinzip: Beobachtungen x1, . . . , xn in k disjunkte Klassen einteilen. Teststatistik erfasst Abweichungen der beobachteten Häufigkeiten nj von den theoretischen Häufigkeiten npj unter H0. Klasse Anzahl d. Beobachtungen 1 n1 2 n2 Testproblem A: Falls F0 vollständig spezifiziert Teste H0 : F (x) = F0(x) gegen H1 : F (x) 6= F0(x), 51 ... ... k nk Teststatistik: Tχ2 = k X (Nj − npj )2 j=1 npj as ∼ χ2k−1. Entscheidungsregel: H0 kann abgelehnt werden, falls tχ2 ≥ χ2k−1;1−α. Beispiel: Würfel 120 mal werfen. Teste Hypothese Würfel ist fair (k = 6 Klassen) H0 : pj = 1/6 , j = 1, . . . , 6 ; 52 H1 : pj 6= 1/6 . Daten Klasse nj npj (nj − npj )2 npj 1 20 20 2 30 20 3 20 20 4 25 20 5 15 20 6 10 20 Summe 120 120 0 5 0 5/4 5/4 5 12.5 Folgerung: Für α = 0.01 ist χ25,0.99 = 15.08 > tχ2 der Würfel als fair zu werten. Bei α = 0.05 wegen χ25,0.95 = 11.07 < tχ2 jedoch als unfair. > dice <- c(20, 30, 20, 25, 15, 10) > chisq.test(dice, p = rep(1/6, 6)) Chi-squared test for given probabilities data: dice X-squared = 12.5, df = 5, p-value = 0.02854 53 Testproblem B: Unbekannte Parameter θ1, . . . , θr in F0, modifizierter χ2-Test: H0 : F (x) = F0(x|θ1, . . . , θr ) gegen H1 : F (x) 6= F0(x|θ1, . . . , θr ). Teststatistik: ³ Tχm2 = ´2 k Nj − npj (θ̂1, . . . , θ̂r ) X npj (θ̂1, . . . , θ̂r ) j=1 as ∼ χ2k−r−1 , falls θ1, . . . , θr nach der ML-Methode bzgl. gruppierter Daten geschätzt wurden, d.h. max θ1 ,...,θr k Y pj (θ1, . . . , θr )nj , j=1 oder nach der Minimum-χ2 Methode, bei der θ̂1, . . . , θ̂r so bestimmt werden, dass Tχm2 minimal. 54 Frage nach der Klasseneinteilung: Für welches n und für welche pj ist die Approximation der Verteilung von Tχ2 durch die χ2-Verteilung gerechtfertigt? Faustregel: npj ≥ 5. > breaks <- c(-Inf, seq(-2, 2), +Inf); breaks [1] -Inf -2 -1 0 1 2 Inf > p0 <- 2:length(breaks) # init > mean <- 0; sd <- 1 > for (k in 2:length(breaks)) p0[k-1] <- pnorm(breaks[k], mean, sd) - pnorm(breaks[k-1], mean, sd) > p0 [1] 0.02275 0.13591 0.34134 0.34134 0.13591 0.02275 > 5/p0[1] [1] 219.7789 > x <- rnorm(250, mean=0.3, sd=1) 55 > n <- table(cut(x, b=breaks)); (-Inf,-2] (-2,-1] (-1,0] 5 20 82 n (0,1] 89 (1,2] 48 (2,Inf] 6 > (n-p0*250)^2/(p0*250) (-Inf,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,Inf] 0.08311189 5.74919955 0.13042697 0.15730172 5.78829424 0.01716661 > chisq.test(n, p=p0) Chi-squared test for given probabilities data: n X-squared = 11.9255, df = 5, p-value = 0.03582 > plot(seq(-3,3,0.05), dnorm(seq(-3,3,0.05)), xlab="x", ylab="N(0,1) Dichte") > e <- round(p0*250) > for (k in 2:length(breaks)) { text(-4.7+k, 0, n[k-1]) text(-4.3+k, 0, e[k-1]) } 56 0.4 0.3 N(0,1) Dichte 0.2 0.1 0.0 5 −3 6 20 34 −2 82 85 −1 89 85 0 x 57 48 34 1 6 2 6 3 Vergleich KS-Test mit χ2-Test • KS-Test ist exakt für kleine n ≤ 40. Der χ2-Test ist ein approximativer Test. • χ2-Test: Klasseneinteilung ⇒ Informationsverlust. • Der KS-Test basiert auf Annahme einer stetigen Verteilung, der χ2-Test nicht. • Bei Schätzung der Parameter in F0(x) hat K̂n (Schätzer für die Parameter substituiert) nicht dieselbe Verteilung wie Kn; Fehler ist nicht unter Kontrolle. Beim χ2-Test verringert sich in diesem Fall die Anzahl der Freiheitsgrade um die Anzahl der geschätzten Parameter. • χ2-Test nur zweiseitig anwendbar, KS-Test auch einseitig. 58 Shapiro-Wilk Test Erkennt Abweichungen von der Normalverteilung: H0 : Xi ∼ N (µ, σ 2) gegen H1 : Xi 6∼ N (µ, σ 2) KS-Test und auch χ2-Test dafür nicht geeignet. Die Shapiro-Wilk W Statistik vergleicht 2 Schätzungen für die Varianz unter Normalverteilung £Pn W = Pn i=1 ai X(i) i=1 (Xi − ¤2 X)2 . Zähler ist proportional dem Quadrat des besten (minimale Varianz, unbiased) linearen Schätzers für die Standardabweichung. Nenner ist die Quadratsumme der Abweichungen der Beobachtungen vom Mittel. Die Koeffizienten ai werden approximiert. 59 Beispiel: Benzinverbrauch: µ = 12 und σ 2 = 1 verwendet, jedoch > mean(milage) [1] 12.47 > var(milage) [1] 0.3045556 > shapiro.test(milage) Shapiro-Wilk normality test data: milage W = 0.9529, p-value = 0.7026 KS-Test lieferte p-Wert von 0.16. KS-Test mit geschätzter Hypothese liefert > ks.test(milage, "pnorm", mean(milage), sd(milage)) One-sample Kolmogorov-Smirnov test data: milage D = 0.1495, p-value = 0.9787 alternative hypothesis: two.sided 60 Binomial-Test: Für k = 2 Klassen. Aufteilung der X1, . . . , Xn in zwei Klassen K1, K2. Sei P (Xi ∈ K1) = p (für alle i gleich, da Xi identisch verteilt). Testproblem: H0 : p = p0 gegen H1 : p 6= p0 H Teststatistik: T = Anzahl (Xi ∈ K1) ∼0 Binomial(n, p0). Testprozedur: Da T diskret gibt es für bel. α kein tα mit P (T ≤ tα) = α exakt. Deshalb Ungleichungen der Form P (T ≤ tα) ≤ α verwenden. Seien t1−α1 = mint {t|P (T ≥ t) ≤ α1}, und tα2 = maxt {t|P (T ≤ t) ≤ α2} mit α1 + α2 = α. H0 ablehnen, falls t ≥ t1−α1 oder t ≤ tα2 61 Beispiel: Es wird behauptet, dass Maschine maximal 5% defekte Geräte produziert. In Stichprobe (n = 20) sind 3 defekte Stücke. Kann damit die Behauptung widerlegt werden (α = 0.10)? Teste H0 : p ≤ 0.05 gegen H1 : p > 0.05 Bestimme kritisches Quantil t1−α ∈ {0, 1, . . . , n} wofür gilt max Pp(T ≥ t1−α) = P0.05(T ≥ t1−α) ≤ α . p≤0.05 > n <- 20; p <- 0.05; 1 - pbinom(seq(0, n), n, p) [1] 6.415141e-01 2.641605e-01 7.548367e-02 1.590153e-02 ... P (T ≥ 2) = 1 − P (T ≤ 1) = 0.2642 > α P (T ≥ 3) = 1 − P (T ≤ 2) = 0.0755 < α somit t1−α = 3. Folgerung: Lehne H0 auf exaktem Niveau α∗ = 0.0755 ab. 62 > binom.test(x=3, n=20, p=0.05, alternative="greater") Exact binomial test data: 3 and 20 number of successes = 3, number of trials = 20, p-value = 0.07548 alternative hypothesis: true probability of success is greater than 0.05 95 percent confidence interval: 0.04216941 1.00000000 sample estimates: probability of success 0.15 > binom.test(x=3, n=20, p=0.05, alt="greater", conf.level=0.90)$conf.int [1] 0.0564179 1.0000000 attr(,"conf.level") [1] 0.9 63 Normalverteilungsapproximation Für n groß verwende DeMoivre-Laplace. Für T ∼ Binomial(n, p) gilt approximativ à P (t1−α ≤ T ) ≈ 1 − Φ t1−α − np − 1/2 p np(1 − p) Approximation umso besser, je näher p bei 1/2 liegt. 64 ! = α. Tests für Quantile Teste nichtparametrisch mit Vorzeichentest auf ein beliebiges Quantil und mit Wilcoxon Vorzeichen-Rangtest auf den Median. Die Wilcoxon-Statistik verwendet Ränge der Stichprobenvariablen. Definition 8. Seien X1, . . . , Xn ∼ F stetig. Der Rang Ri = R(Xi) gibt die Anzahl aller Xj an die Xi nicht übertreffen R(Xi) = ](Xj ≤ Xi) , j = 1, . . . , n . R(Xi) ist diskretverteilt mit den Realisationen 1, 2, . . . , n. Beispiel: Zu (8, 4, 2, 6, 10) gehören die Ränge (4, 2, 1, 3, 5). 65 • Da F stetig gilt P (Xi = Xj ) = 0 für i 6= j. Bindungen treten mit W! 0 auf. • R(Xi) legt die Position von Xi in der geordneten Statistik fest. Der Index j von X(j) ist der Rang von Xi, das diesem X(j) entspricht. > d <- rnorm(10); d [1] 0.1699 -1.0629 0.4213 -1.0949 -2.1660 -0.0686 0.6761 1.3970 0.7524 0.6316 > rank(d) [1] 5 3 6 2 1 4 > order(d) [1] 5 4 2 6 1 3 10 8 10 7 9 7 9 8 > d[order(d)] [1] -2.1660 -1.0949 -1.0629 -0.0686 0.1699 0.4213 0.6316 0.6761 0.7524 1.3970 > sort(d) [1] -2.1660 -1.0949 -1.0629 -0.0686 0.1699 0.4213 0.6316 0.6761 0.7524 1.3970 66 Satz 7. Seien X1, . . . , Xn ∼ F stetig. Dann gilt: 1. P (R1 = r1, . . . , Rn = rn) = 1/n!, wobei r1, . . . , rn eine Permutation der Zahlen 1, . . . , n ist 2. P (Ri = ri) = 1/n, für i = 1, . . . , n 3. P (Ri = ri, Rj = rj ) = 1/(n(n − 1)), für i 6= j 4. E(Ri) = (n + 1)/2 5. var(Ri) = (n2 − 1)/12 6. cov(Ri, Rj ) = −(n + 1)/12 7. cor(Ri, Rj ) = −1/(n − 1) 67 Dieser Satz zeigt: • Die Verteilungseigenschaften der Ränge sind unabhängig von der Verteilung der Grundgesamtheit F . • Mit zunehmendem n streuen die Ränge mehr während die Korrelationen abnehmen. 68 Vorzeichen-Test – Sign test Test auf Quantile xγ mit F (xγ ) = γ, 0 < γ < 1, F stetig. • Test A: H0 : xγ = x0; • Test B: H0 : xγ ≤ x0; • Test C: H0 : xγ ≥ x0; H1 : xγ = 6 x0 H1 : xγ > x0 H1 : xγ < x0 Teststatistik D= n X ½ h(x0 − Xi) , mit h(z) = i=1 1 0 für z > 0 für z < 0 Somit P (h(x0 − Xi) = 1) = P (Xi < x0) = P (Xi ≤ x0) = F (x0) = γ H also D ∼0 Binomial(n, γ). 69 Beispiel: Körpergröße von n = 15 Personen. Unterscheidet sich der Median signifikant (α = 0.05) von 180cm? xi 180 − xi 179 1 177 3 178 2 174 6 170 10 185 −5 175 5 179 1 176 4 169 11 186 −6 189 −9 168 12 170 10 174 6 Test A: H0 : x.50 = 180 gegen H1 : x.50 6= 180 n = 15, γ = 0.5 und d = 12 beobachtet. P (D ≥ 12) = P (D ≤ 3) = 0.0176 < α/2, P (D ≥ 11) = P (D ≤ 4) = 0.0592 > α/2. d = 12 ≥ d0.975 = 12 ⇒ H0 auf exaktem Niveau α = 2 ∗ 0.0176 abzulehnen. 70 Wilcoxon Vorzeichen-Rangtest Annahmen: Stetigkeit und Symmetrie der Verteilungsfunktion F um x̃. Testproblem: • Test A: H0 : x̃ = x̃0; • Test B: H0 : x̃ ≤ x̃0; • Test C: H0 : x̃ ≥ x̃0; H1 : x̃ 6= x̃0 H1 : x̃ > x̃0 H1 : x̃ < x̃0 Teststatistik: Vorzeichen der Differenzen Di = Xi − x̃0 und Ränge der |Di|. Wegen Stetigkeit von F gilt: P (Di = 0) = 0 und P (|Dk | = |Dl|) = 0, W+ = n X i=1 ZiR(|Di|) , W− k 6= l . ½ n X 1 für Di > 0 = (1−Zi)R(|Di|) mit Zi = 0 für Di < 0 i=1 71 Umformung: Indextransformation liefert W+ = n X ½ iZ(i) , mit Z(i) = i=1 1 für Dj > 0 0 für Dj < 0 i = r(|Dj |) W + (W −): Summe der Ränge der positiven (negativen) Di. Beachte: Wegen W + + W − = n(n + 1)/2 genügt es (z.B.) W + zu betrachten. Verteilung von W + unter H0: Wegen der Symmetrie von F um x̃0 gilt: P ((Xj − x̃0) > 0) = P ((Xj − x̃0) < 0) = 1/2 . | {z } | {z } Dj Dj Somit P (Z(i) = 1) = P (Z(i) = 0) = 1/2 =⇒ E(Z(i)) = 1/2 , 72 var(Z(i)) = 1/4 . Also E(W +) = E à n X ! iZ(i) i=1 n X n 1X n(n + 1) = iE(Z(i)) = i= . 2 i=1 4 i=1 Z(i) unabhängig liefert à var(W +) = var n X i=1 ! iZ(i) n X n 1 X 2 n(n + 1)(2n + 1) 2 i = . = i var(Z(i)) = 4 i=1 24 i=1 Realisationsbereich: 0 ≤ w+ ≤ n(n + 1)/2 Stichprobenraum Ω: Menge aller Tupel (z(1), . . . , z(n)): Ω = {(0, 0, . . . , 0), (1, 0, . . . , 0), . . . , (1, 1, . . . , 1)} 73 mit |Ω| = 2n. Unter H0 hat jedes Tupel Auftritts-W! 1/2n (Laplace Raum!) Definiere die Anzahl a(w) durch P (W + = w) = 1 2n à #Tupel mit n X ! iz(i) = w i=1 = a(w) . n 2 Bestimmung von a(w) ist aufwendig, aber prinzipiell leicht (also schwierig). Aber: wegen P (W + = w) = P (W − = w) und W + + W − = n(n + 1)/2 gilt ³ ´ ³ P (W + = w) = P W − = n(n + 1)/2 − w = P W + = n(n + 1)/2 − w Also ist W + unter H0 symmetrisch um E(W +) = n(n + 1)/4 verteilt. 74 ´ Beispiel: a(w) für n = 5: w 15 14 13 12 11 10 9 8 Rangtupel positiver Di (1,2,3,4,5) (2,3,4,5) (1,3,4,5) (3,4,5); (1,2,4,5) (2,4,5); (1,2,3,5) (1,4,5); (2,3,5); (1,2,3,4) (4,5); (2,3,4); (1,3,5) (3,5); (1,3,4); (1,2,5) a(w) 1 1 1 2 2 3 3 3 P (W + = w) 1/32 1/32 1/32 2/32 2/32 3/32 3/32 3/32 z.B.: P (W + ≥ 13) = 3/32 ≈ 0.094 Symmetrie: P (W + = 15) = P (W + = 0) oder P (W + = 8) = P (W + = 7). Quantile wα von W + im Anhang. 75 Entscheidungsregel: Verwerfe H0 falls • Test A: w+ ≥ w1−α/2 oder w+ ≤ wα/2 • Test B: w+ ≥ w1−α • Test C: w+ ≤ wα. p Für n > 20 sei Z = (W − E(W ))/ var(W +) ∼ N (0, 1) und verwerfe H0 falls + + • Test A: |z| ≥ z1−α/2 • Test B: z ≥ z1−α • Test C: z ≤ zα 76 Beispiel: Kann H0 : x̃ = 5 auf Niveau α = 0.05 abgelehnt werden? i xi d i = xi − 5 r(|di|) zi z(i) 1 3.5 −1.5 3 0 0 2 4.5 −0.5 1 0 0 3 4.0 −1.0 2 0 0 4 0.5 −4.5 8 0 1 5 2.5 −2.5 5 0 0 6 7.0 2.0 4 1 1 7 8.5 3.5 7 1 1 8 8.0 3.0 6 1 0 Teststatistik: w+ = n X zir(|di|) = 17 , n X w− = (1 − zi)r(|di|) = 19 i=1 i=1 + + Folgerung: Laut Tabelle F gilt w0.025 = 3 und w0.975 = 33. Wegen 3 < 17 < 33 wird H0 nicht abgelehnt. 77 > x <- c(3.5, 4.5, 4.0, 0.5, 2.5, 7.0, 8.5, 8.0) > wilcox.test(x, mu = 5) Wilcoxon signed rank test data: x V = 17, p-value = 0.9453 alternative hypothesis: true mu is not equal to 5 Für Körpergrößen ergibt Wilcoxon-Test auf H0 : x̃ = 180 gegen H0 : x̃ 6= 180: > wilcox.test(height, mu = 180) Wilcoxon signed rank test with continuity correction data: height V = 26.5, p-value = 0.06053 alternative hypothesis: true mu is not equal to 180 Warning message: Cannot compute exact p-value with ties in: wilcox.test.default(height, mu = 180) > sort(abs(height-180)) [1] 1 1 2 3 4 5 5 6 6 6 9 10 10 11 12 78 Dichteschätzer Unbekannte Dichte f (x) einer Population aus der Stichprobe X1, . . . , Xn stammt soll durch fˆ(x) geschätzt werden. Lokales Fehlermaß: ³ ´2 ³ ´ ³ ´ MSE(x) = E fˆ(x) − f (x) = var fˆ(x) + bias2 fˆ(x), f (x) Globales Fehlermaß: Z IMSE = MSE(x) dx oder 79 ¯ ¯ ¯ ¯ˆ MAD = max ¯f (x) − f (x)¯ x Explorative graphische Verfahren Box-Plot: (Tukey 1977) 400 500 600 700 > boxplot(VC) 80 Histogramm: (Playfair 1786) Darstellung der Häufigkeiten von in ` disjunkte Klassen ([t0, t1), [t1, t2), . . . , [t`−1, t`]) unterteilten Daten als Stabdiagramm. Varianten: Was wird über einer Klasse aufgetragen? • Absolute Häufigkeiten (Anzahlen) • Relative Häufigkeiten • normierte relative Häufigkeiten ⇒ Dichteschätzer“. ” Problematik: Wahl der Klassenbreite h = tj − tj−1, j = 1, . . . , `. 81 Histogramm als Dichteschätzer Darstellung des Histogramms als Funktion auf R: ½ fˆ(x) = Nj /nh für tj−1 ≤ x < tj 0 sonst, Nj ist die (zufällige) Anzahl der Daten in der j-ten Klasse. Dichteeigenschaft: und fˆ(x) ≥ 0 Z fˆ(x) dx = R X̀ Nj j=1 82 nh h = 1. Wahl von h (bzw. `): In der Literatur existieren diverse Faustregeln für die geeignete Wahl von `, nämlich • Sturges: `St = dlog2 ne + 1, √ • Velleman: `V = d2 ne für n < 100, • Dixon: `D = d10 log10 ne für n > 100. 83 Theoretische Kriterien basieren auf Minimierung von IMSEh oder MADh µ Z ¶−1/3 minimiert IMSEh. • Scott: hS = 6 n f 0(x)2dx iid Für Xi ∼ N (0, σ 2) folgt ĥS = 3.49ŝn−1/3. • Freedman: hF = c(f ) (log(n)/n) iid Für Xi ∼ N (0, σ 2) folgt 1/3 1.66 (log(n)) ŝn−1/3. 1/3 minimiert den MADh. ĉ(f ) = 1.66ŝ und damit ĥF = • Freedman/Diaconis (robust): ĥF ∗ = 2IQRn−1/3 ist einfacher und entspricht einer robusten Version von ĥF . 84 Beispiel: VC-Daten > nclass.Sturges(VC) [1] 8 > nclass.scott(VC) [1] 7 > nclass.FD(VC) [1] 8 > VCmin <- min(VC)-5; VCmax > hist(VC, breaks=seq(VCmin, > hist(VC, breaks=seq(VCmin, > hist(VC, breaks=seq(VCmin, <- max(VC)+5 VCmax, length = 7), freq=FALSE) VCmax, length = 8), freq=FALSE) VCmax, length =16), freq=FALSE) 85 400 500 600 VC 700 800 400 500 600 VC 86 700 800 400 500 600 VC 700 800 0.000 0.000 0.000 0.002 0.002 0.002 Density Density Density 0.004 0.004 0.004 0.006 0.006 0.006 Vergleich: Faustregeln/Optimierungskriterien Annahme: N (0, 1)-Population Für Berechnung von hF ∗ wurde E(IQR) = Φ−1(0.75) − Φ−1(0.25) = 1.349 verwendet. Umformung von h zu ` mittels µ ¶ ¡ ¢ n − 3/8 E(Range) = E X(n) − X(1) ≈ 2Φ−1 n + 1/4 und ` = E(R)/h. 87 30 20 15 Friedman−Diaconis Friedman Scott 5 10 Sturges 0 number of bins 25 Velleman/Dixon 0 100 200 300 sample size n 88 400 500 600 Naiver Dichteschätzer Es gilt 1 P (x − h < X < x + h) . h→0 2h f (x) = lim Schätze P (x − h < X < x + h) durch relativen Anteil der Beobachtungen die ins Intervall (x ± h) fallen, also durch Nh(x)/n. Dadurch ergibt sich der Naiver Dichteschätzer 1 Nh(x) 1 Nh(x) fˆ(x) = = . 2h n nh 2 89 Umformulierung des naiven Schätzers mittels Gewichtsfunktion w ½ w(u) = 1/2 |u| < 1 0 sonst. Damit µ ¶ n X x − X 1 i w . fˆ(x) = nh i=1 h Interpretation: fˆ(x) ist eine Summe von Rechtecksflächen mit Breite 2h und Höhe 1/(2nh), platziert über Einzelbeobachtungen xi. Dies führt direkt zur Idee des Kernschätzers. 90 400 500 600 VC 700 800 0.006 0.004 0.000 0.002 naive estimate 0.004 naive estimate 0.000 0.002 0.004 0.002 0.000 naive estimate 0.006 h <- 33; x <- seq(350, 800, 5); nx <- length(x); fhat <- 1:nx w <- function(data, x, h) 1/2*(abs(data-x)/h < 1) for (j in 1:nx) fhat[j] <- sum(w(VC, x[j], h)/(length(VC)*h)) plot(x, fhat, type="l") 0.006 > > > > 400 500 600 VC 91 700 800 400 500 600 VC 700 800 Kernschätzer Gewicht w durch nicht-negative Kernfunktion K ersetzen mit Dichte-Eigenschaft Z K(x)dx = 1. R (zB. Gaußkern). Definition des Kernschätzers analog zum naiven Schätzer µ ¶ n X x − Xi 1 ˆ K . f (x) = nh i=1 h h ist der zu wählende Glättungsparameter. Interpretation: Kernschätzer ist eine Summe von Beulen, die über den Beobachtungen zentriert sind. Kern K bestimmt die Gestalt der Beulen und h deren Breite. 92 −3 −2 −1 0 1 2 3 x 0.8 0.0 0.2 0.4 kernel estimate 0.6 0.8 0.0 0.2 0.4 kernel estimate 0.6 0.8 0.6 kernel estimate 0.4 0.2 0.0 −4 −4 −3 −2 −1 0 x 1 2 3 −4 −3 −2 −1 0 1 x Dichteeigenschaft? Ja, denn Z µ ¶ n Z n Z X X x − X 1 1 i K dx = hK(x) dx = 1 . fˆ(x) dx = nh h nh R i=1 R i=1 R 93 2 3 Asymptotische Betrachtungen Ziel: Bestimmung von h und K, welche IMSE minimieren. Gelte Z Z K(t) dt = 1 , Z tK(t) dt = 0 , 2 t2K(t) dt = σK > 0. Idealer Wert von h minimiert approximativen IMSE ½Z −4/5 hopt = σK ¾1/5 ½ Z ¾−1/5 K 2(t)dt n f 00(x)2dx . • Hängt von unbekannter (zu schätzenden) Dichte f (x) ab • Mit wachsendem n geht hopt langsam gegen 0 94 Setzt man hopt in den IMSE-Term ein, erhält man 5 IMSE ≈ C(K) 4 ½Z ¾1/5 n−4/5 f 00(x)2dx mit ½ Z ¾4/5 C(K) = σK K 2(t)dt . ⇒ Kerne mit kleinen Werten C(K) 2 = 1) Gaußkern verwendet mit Häufig wird standardisierter (σK ½Z C(K) = 1 −t e 2π 2 ¾4/5 ½ ¾4/5 1 √ dt = . 2 π Minimierung von C(K) über alle standardisierten Kerne liefert EpanechnikovKern ( √ √ 3 1 2 √ (1 − t ) für − 5≤t≤ 5 5 4 5 K(t) = 0 sonst 95 400 500 600 VC 700 800 900 0.006 0.000 0.002 Density 0.004 0.006 0.000 0.002 Density 0.004 0.006 0.004 0.000 0.002 Density 300 300 400 500 600 700 800 VC 900 300 400 500 600 700 800 900 VC Kernschätzung der VC-Dichte mittels Epanechnikov-Kern mit Bandbreiten h = 8, h = 33 und h = 70. > plot(density(VC, bw=33, kern="epanechnikov")) 96 Gaußkern + Normalverteilung Wir verwenden den Gaußkern µ 2¶ 1 t K(t) = √ exp − 2 2π für Stichprobe aus N (0, σ 2) mit Dichte f (x), so erhält man µ 2 ¶ 1 x 2 2 2 (x − σ ) exp − 2πσ 10 σ2 Z 3 00 2 √ 5 ≈ 0.212σ −5 f (x) dx = 8 πσ µ ¶− 15 µ ¶ 15 1 3 −1 4 − 15 − 15 − 51 − 10 2 π σn = σn ≈ 1.06σn hopt = (4π) 8 3 f 00(x)2 = Liefert annehmbare Ergebnisse auch für andere Populationen. 97 Kern Epanechnikov Biweight Cosinus Dreieck Gauß Rechteck K(t) ³ für ´ 2 3 t √ 1 − 5 4 5 ¡ ¢ 15 −5/2 2 2 7−t 16 7 q √ ¡ 1 π 2 −6 1 + cos t π 2 2π 3 ¡√ ¢ 1 6 − |t| 6 t2 1 − √ e 2 2π 1 √ 2 3 98 √ ¢ − 6/ 3 √ |t| ≤ 5 √ |t| ≤ 7 q |t| ≤ π π23−6 √ |t| ≤ 6 t∈R √ |t| ≤ 3 hopt 1.04867σn−1/5 1.04996σn−1/5 1.05086σn−1/5 1.05166σn−1/5 1.05922σn−1/5 1.06412σn−1/5 −3 −2 −1 Triangular 0 1 2 3 3 0.4 2 0.3 Epanechnikov −3 −3 −2 −2 −1 −1 0 Gauss 0 99 1 1 2 2 3 0.2 0.4 0.4 1 Density 0.3 0.3 0 0.2 Density 0.2 Density −1 0.1 0.1 0.1 −2 0.0 0.0 0.0 −3 Biweight 3 −3 −3 −2 −2 −1 Cosine −1 0 Rectangular 0 1 2 3 1 2 3 0.0 0.0 0.0 0.1 0.1 0.1 0.2 Density 0.2 Density 0.2 Density 0.3 0.3 0.3 0.4 0.4 0.4 Graphische Darstellungen Symmetrie-Plot: Diagnoseplot für Symmetrie einer Verteilung. Differenzen über dem Median ui gegen Differenzen unter dem Median vi mit ui = x(n−i+1) − x̃ , vi = x̃ − x(i) , i = 1, . . . , [ n+1 ] 2 auftragen. Referenz: Gerade u = v. Bedeutung der Symmetrie: • • • • Eindeutiges Zentrum (Median, arithmetisches Mittel, Modalwert) Einfache Datenbeschreibung viele statistische Prozeduren beruhen auf Symmetrie Beseitigung einer möglichen Asymmetrie durch Transformationen 100 x <- VC; n <- length(x); i <- 1:trunc((n+1)/2) u <- sort(x)[n+1-i] - median(x); v <- median(x) - sort(x)[i] lim <- c(0, max(u,v)) plot(v, u, xlim=lim, ylim=lim); abline(0,1) 10 u u 0 5 10 15 v 20 25 0 0 0 5 50 5 10 100 u 15 150 20 200 15 25 > > > > 0 50 100 150 200 0 v Symmetrie-Plots von age (links), VC (Mitte), FEV1.VC (rechts). 101 5 10 v 15 Empirische Verteilungsfunktion Empirische Quantile q(pi) gegen Wahrscheinlichkeiten pi auftragen mit pi = F (x(i)) = i/n , q(pi) = x(i) , i = 1, . . . , n Daraus ersichtlich: Quartile, IQR, Range, Extremwerte sowie andere Charakteristiken. Basiert auf den Rohdaten und beinhaltet damit die vollständige Information. 102 20 30 40 50 60 1.0 0.8 0.0 0.2 0.4 Fn(x) 0.6 0.8 0.6 Fn(x) 0.4 0.2 0.0 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 plot.ecdf(age) 1.0 > library(stepfun); 400 500 600 age 700 800 65 VC 70 75 80 85 90 95 100 FEV1/VC Empirische Verteilungen von age (links), VC (Mitte), FEV1.VC (rechts). Konfidenzband für F (x): Punktweises Band (nur in x ist Überdeckung 1 − α) Fn(x) ± z1−α/2 p Fn(x)(1 − Fn(x))/n . 103 Simultanes Band (U (x), O(x)) P (∀x ∈ R| U (x) ≤ F (x) ≤ O(x)) = 1 − α . Mit der Kolmogorov-Smirnov Statistik kann ein solches konstruiert werden. µ ¶ 1 − α = P sup |F (x) − Fn(x)| ≤ k1−α x µ ¶ ¡ ¢ ¡ ¢ = P sup F (x) − Fn(x) ≤ k1−α und sup Fn(x) − F (x) ≤ k1−α x x = P (∀x ∈ R| Fn(x) − k1−α ≤ F (x) ≤ Fn(x) + k1−α) Wegen 0 ≤ F (x) ≤ 1 folgt das simultane Konfidenzband ³ ´ P ∀x ∈ R| max(0, Fn(x) − k1−α) ≤ F (x) ≤ min(1, Fn(x) + k1−α) = 1 − α . x x 104 Beispiel: Benzinverbrauch Für α = 0.05 resultiert k0.95 = 0.409 und als 95%Konfidenzband für F (x) folgt 0 ≤ Fn(x) ± 0.409 ≤ 1 ∀x ∈ R . > lines(c(0, milage, 16), pmin(1, (0:(n+1))/n + 0.409), type="s") > lines(c(0, milage, 16), pmax(0, (0:(n+1))/n - 0.409), type="s") 105 1.0 0.8 0.6 0.0 0.2 0.4 Fn(x) 10 11 12 13 milage (x) 106 14 15 Vergleich von empirischer mit theoretischer Verteilung Warum vergleichen? 1. Rechtfertigung eines Datenmodells, z.B. Normalverteilung. 2. Besseres Verständnis des physikalischen Mechanismuses. 3. Transformation auf Normalverteilung leichter durchführbar, wenn theoretische Verteilung bekannt. Graphische Methoden: Theoretischer Quantil-Quantil-Plot, und Prozent-ProzentPlot. 107 Theoretischer Quantil-Quantil-Plot (TQQ-Plot) Empirische Quantile gegen entsprechende Quantile einer theoretischen Verteilung F (x) auftragen q(pi) = x(i) gegen qF (pi) = F −1(pi) mit pi = i − 1/2 n für i = 1, . . . , n Falls als theoretische Verteilung die Normalverteilung gewählt spricht man vom Normal-Probability-Plot. Falls die Stichprobe X1, . . . , Xn aus Population G(x) stammt, so folgt für n groß X(i) ≈ E(X(i)) ≈ qG(pi) . Betrachte den TQQ-Plot, in dem als theoretische Verteilung F (x) verwendet ist. Wurde F darin richtig gewählt, d.h. F = G, dann ist x(i) ≈ qF (pi) annähernd eine Gerade. 108 Falls G(x) = F ((x − a)/b), also G und F unterschiedliche Lokations- und Skalenparameter haben, gilt ¡ ¢ ¡ ¢ pi = G qG(pi) = F (qG(pi) − a)/b ⇒ qF (pi) = (qG(pi) − a)/b , also qG(pi) = bqF (pi) + a. Für x(i) wird daher gelten x(i) ≈ bqF (pi) + a , und der TQQ-Plot mit F wird Punkte beinhalten, die auf einer Geraden mit Intercept a und Steigung b liegen. 109 Folgende Aussagen können daher aus dem Verlauf der Punkte im TQQ-Plot mit F getroffen werden: Bilden die Punkte 1. die Gerade y = x, so ist die theoretische Verteilung F eine gute Approximation von G, d.h. x(i) ≈ E(X(i)), 2. eine Gerade parallel zu y = x, so liegt der Unterschied zwischen F und G nur im Lageparameter, d.h. x(i) + a ≈ E(X(i)), 3. eine Gerade, die y = x schneidet, so beruht der Unterschied im Skalierungsparameter, d.h. bx(i) ≈ E(X(i)), 4. kein Geradenmuster, so liegt der Stichprobe eine andere Verteilung als F zu Grunde. 110 Das lineare Muster kann aus vielerlei Gründen verfälscht werden: 1. Sind einige wenige Punkte an den Enden der Geraden weiter entfernt, so kann dies Ausreißer hinweisen. 2. Zeigt am rechten Ende die Krümmung nach oben (oder links nach unten), so hat die empirische Verteilung rechts (bzw. links) längere Schwänze als die theoretische. 3. Vergleicht man eine unsymmetrische Verteilung gegen eine symmetrische theoretische Verteilung, so erhält man ein Kurvenmuster mit von links nach rechts steigender Krümmung (Daten sind rechtsschief) oder entsprechend umgekehrt. 4. Plateaus oder Sprünge im Plot weisen auf hohe Datenkonzentrationen an einer Stelle oder fehlende Beobachtungen über einen größeren Bereich hin. 111 400 500 600 N(550, 75)−Quantiles 700 700 600 400 500 VC 600 400 500 VC 600 500 400 VC # direct calculation of the p_i’s # the same as above but much faster produces N(550,75)-plot produces N(550,75)-plot, no sorting requ. produces N(mean(VC),50)-plot produces N(600,sd(VC))-plot 700 n <- length(VC); p <- (1:n - 1/2)/n p <- ppoints(n) plot(qnorm(p, 550, 75), sort(VC)) # qqplot(qnorm(p, 550, 75), VC) # qqplot(qnorm(p, mean(VC), 50), VC) # qqplot(qnorm(p, 600, sd(VC)), VC) # 700 > > > > > > 400 500 600 N(x, 50)−Quantiles 112 700 400 500 600 N(600,s)−Quantiles 700 > qqnorm(VC) > qqline(VC) # directly produces a N(0,1)-plot for VC # adds a line which passes through 1st and 3rd quartiles 90 85 70 20 75 80 Sample Quantiles 50 40 30 Sample Quantiles 700 600 500 400 Sample Quantiles 95 100 > qqplot(16+qexp(p, 1/15), age); abline(0,1) # produces Exp-plot for age > qqplot(mean(FEV1.VC)+qt(p,10)*5.75, FEV1.VC); abline(0,1) #t-plot for FEV1.VC −2 −1 0 1 Theoretical Quantiles 2 20 40 60 Exponential−Quantiles 113 80 65 70 75 80 85 t_10−Quantiles 90 95 100 Theoretischer Prozent-Prozent-Plot (TPP-Plot) TQQ-Plot auf Unterschieden im Verteilungszentrum nicht sensitiv! TPP-Plot erkennt jedoch keine Unterschiede in den Schwänzen, da q(p) eine stark wachsende Funktion für extreme p ist, während F (x) eher im Zentralbereich einen steilen Verlauf hat. Daher oft kombiniert. Beim TPP-Plot werden empirische gegen theoretische Prozentwerte aufgetragen pi = i − 1/2 n µ gegen F x(i) − µ σ ¶ . Das Punktemuster des TPP-Plots ist bei Übereinstimmung linear. Bei Lokations- oder Streuungsunterschieden ist Muster allerdings nicht linear. > plot(pnorm(sort(VC), mean(VC), sd(VC)), p) > plot(pnorm(sort(age), mean(age), sd(age)), p) 114 1.0 0.0 0.2 0.4 p 0.6 0.8 1.0 0.8 0.6 p 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.2 Normal−Quantiles 0.4 0.6 Normal−Quantiles TPP-Plot der Variablen VC (links) und age (rechts). 115 0.8 1.0