Statistik Bachelorstudiengang Betriebswirtschaft/Management Prof. Dr. Stefan Etschberger Hochschule Weingarten Sommersemester 2008 Organisatorisches zur Vorlesung Vorlesungsbegleitende Unterlagen: ◮ Foliensatz ◮ Aufgabenskript ◮ Bamberg et al.: Statistik, Oldenbourg-Verlag, 13. Aufl. 2006 Vorlesungskonzept: ◮ Vorlesung und Übung gemischt ◮ Folien sind nur Grundlage für eigene Anmerkungen und Ergänzungen ◮ Fragenstellen ist jederzeit erwünscht Klausur: ◮ Am Ende des Semesters ◮ 60 Minuten Bearbeitungszeit ◮ Hilfsmittel: Schreibzeug, nicht-programmierbarer Taschenrechner, ein DIN-A4 Blatt mit handgeschriebenen Notizen (Vorder- und Rückseite kann beschrieben werden, keine Kopien oder Ausdrucke), ein beliebiges Statistik-Buch 1. Einführung Übersicht 1 Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Begriff Statistik Grundbegriffe der Datenerhebung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheoretische Grundlagen 4 Induktive Statistik Etschberger (HS Weingarten) Statistik 1. Einführung Sommersemester 2008 3 Berühmte Leute zur Statistik Zitate ◮ Leonard Henry Courtney (1832-1918): ◮ There are three kinds of lies: lies, damned lies and statistics.“ ” Winston Curchill (angeblich): ◮ Ich glaube nur den Statistiken, die ich selbst gefälscht habe.“ ” Andrew Lang (1844-1912): Wir benutzen die Statistik wie ein Betrunkener einen ” Laternenpfahl: Vor allem zur Stütze unseres Standpunktes und weniger zum Beleuchten eines Sachverhalts.“ Etschberger (HS Weingarten) Statistik Sommersemester 2008 4 1. Einführung Begriff Statistik Bedeutungen des Begriffs Statistik“ ” Statistik Zusammenstellung von Zahlen Statistische Methodenlehre Wahrscheinlichkeitstheorie Deskriptive Statistik Induktive Statistik Etschberger (HS Weingarten) Statistik 1. Einführung Sommersemester 2008 15 Begriff Statistik Einfaches Beispiel Beispiel 12 Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4, 11, 1, 3, 5, 4, 20, 4, 6, 16, 10, 6 ◮ deskriptiv: - Durchschnittliche Entfernung: 7,5 - Klassenbildung: Klasse [0; 5) [5; 15) [15; 30) 5 Häufigkeit 5 2 ◮ induktiv: - Schätze die mittlere Entfernung aller Beschäftigten. - Prüfe, ob die mittlere Entfernung geringer als 10 km ist. Etschberger (HS Weingarten) Statistik Sommersemester 2008 16 1. Einführung Grundbegriffe der Datenerhebung Merkmale ◮ Merkmalsträger: Untersuchte statistische Einheit ◮ Merkmal: Interessierende Eigenschaft des Merkmalträgers ◮ (Merkmals-)Ausprägung: Konkret beobachteter Wert‘ des Merkmals ’ ◮ Grundgesamtheit: Menge aller relevanen Merkmalsträger ◮ Typen von Merkmalen: a) qualitativ – quantitativ · qualitativ: z.B. Geschlecht · quantitativ: z.B. Schuhgröße · Qualitative Merkmale sind quantifizierbar (weiblich: 1, männlich: 0) b) diskret – stetig · diskret: Abzählbar viele unterschiedliche Ausprägungen · stetig: Alle Zwischenwerte realisierbar Etschberger (HS Weingarten) Statistik 1. Einführung Sommersemester 2008 17 Grundbegriffe der Datenerhebung Skalenniveaus Nominalskala: ◮ ◮ Zahlen haben nur Bezeichnungsfunktion z.B. Artikelnummern Ordinalskala: ◮ ◮ ◮ zusätzlich Rangbildung möglich z.B. Schulnoten Differenzen sind aber nicht interpretierbar! ➠ Addition usw. ist unzulässig. Kardinalskala: ◮ ◮ zusätzlich Differenzbildung sinnvoll z.B. Gewinn Etschberger (HS Weingarten) Statistik Sommersemester 2008 18 1. Einführung Grundbegriffe der Datenerhebung Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: ◮ Grundsätzlich können alle Merkmale nominal skaliert werden. ◮ Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: ◮ Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. ◮ Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Etschberger (HS Weingarten) Statistik 1. Einführung Sommersemester 2008 19 Grundbegriffe der Datenerhebung Klassische Informationsniveaus Absolutskala Ordinal Verhältnisskala Intervallskala Nominal Metrisch Informationsniveau hoch niedrig Etschberger (HS Weingarten) Statistik Sommersemester 2008 20 2. Deskriptive Statistik Übersicht 1 Einführung 2 Deskriptive Statistik Univariate Daten Multivariate Daten Verhältnis- und Indexzahlen 3 Wahrscheinlichkeitstheoretische Grundlagen 4 Induktive Statistik Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 21 Univariate Daten Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial ◮ Merkmal X wird an n Merkmalsträgern beobachtet ➠ Urliste (x1 , . . . , xn ) Im Beispiel: x1 = 4, x2 = 11, . . . , x12 = 6 ◮ Urlisten sind oft unübersichtlich, z.B.: 4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 2 5 4 7 5 ◮ Dann zweckmäßig: Häufigkeitsverteilungen Ausprägung (sortiert) aj P 1 2 3 4 5 6 7 1 1 2 12 17 9 8 50 h(ai ) 1 2 4 16 33 42 50 − f(aj ) = h(aj )/n 1 50 1 50 2 50 12 50 17 50 9 50 8 50 1 1 50 2 50 4 50 16 50 33 50 42 50 1 − absolute Häufigkeit h(aj ) = hj kumulierte abs. Häufigkeit H(aj ) = j P i=1 relative Häufigkeit kumulierte rel. Häufigkeit F(aj ) = j P f(ai ) i=1 Etschberger (HS Weingarten) Statistik Sommersemester 2008 22 2. Deskriptive Statistik Univariate Daten Graphische Darstellungen 0 5 10 15 ➊ Balken- oder Stabdiagramm 1 2 3 4 5 6 7 (Höhe proportional zu Häufigkeit) Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 23 Univariate Daten Graphische Darstellungen ➋ Kreissektorendiagramm 4 Winkel: wj = 360◦ · f(aj ) 3 2 z.B. 5 w1 = 360◦ · w7 = 360◦ · 1 50 8 50 1 = 7,2◦ = 57,6◦ 7 (Fläche proportional zu Häufigkeit) 6 Etschberger (HS Weingarten) Statistik Sommersemester 2008 24 2. Deskriptive Statistik Univariate Daten Graphische Darstellungen ➌ Histogramm - für klassierte Daten - Fläche proportional zu Häufigkeit: Höhej · Breitej = c · h(aj ) Höhej = c · ⇒ h(aj ) Breitej - Im Beispiel mit c = 15: Klasse [0; 5) [5; 15) [15; 30] 15 h(aj ) Breitej Höhej 5 5 15 5 10 7,5 2 15 2 7,5 2 5 Etschberger (HS Weingarten) 15 Statistik 2. Deskriptive Statistik 30 Sommersemester 2008 25 Univariate Daten Lageparameter ◮ Modus xMod : häufigster Wert Beispiel: aj h(aj ) 1 4 2 4 3 1 ⇒ xMod = 1 Sinnvoll bei allen Skalenniveaus. ◮ Median xMed : mittlerer Wert‘, d.h. ’ 1. Urliste aufsteigend sortieren: x1 ≦ x2 ≦ · · · ≦ xn 2. Dann xMed = x n+1 , falls n ungerade 2 ∈ [x n2 ; x n2 +1 ], falls n gerade (meist xMed = 1 2 (x n2 + x n2 +1 )) Im Beispiel oben: 1, 1, 1, 1, 2, 2, 2, 4 ⇒ xMed ∈ [1; 2], z.B. xMed = 1,5 Sinnvoll ab ordinalem Skalenniveau. Etschberger (HS Weingarten) Statistik Sommersemester 2008 27 2. Deskriptive Statistik Univariate Daten Lageparameter (2) ◮ Arithmetisches Mittel x̄: Durchschnitt, d.h. n k i=1 j=1 1X 1X x̄ = xi = aj · h(aj ) n n Im Beispiel: x̄ = 1 8 2 + 2} + |{z} 4 ) = 1,75 · (1 + 1 + 1} + 2 | + {z | + 1 {z 1·4 4·1 2·3 Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: P x̄∗ = n1 Klassenmitte · Klassenhäufigkeit Im Beispiel: x̄∗ = 1 12 · (2,5 · 5 + 10 · 5 + 22,5 · 2) = 8,96 6= 7,5 = x̄ Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 28 Univariate Daten Streuungsparameter ◮ ◮ ◮ Voraussetzung: kardinale Werte x1 , . . . , xn Beispiel: a) xi 1950 2000 2050 je x̄ = 2000 b) xi 0 0 6000 Spannweite: SP = max xi − min xi i i Im Beispiel: a) SP = 2050 − 1950 = 100 b) SP = 6000 − 0 = 6000 ◮ Mittlere quadratische Abweichung: n n 1X 1X 2 2 s = (xi − x̄) = xi − x̄2 n n i=1 | i=1{z } 2 Verschiebungssatz Etschberger (HS Weingarten) Statistik Sommersemester 2008 29 2. Deskriptive Statistik Univariate Daten Streuungsparameter (2) ◮ Mittlere quadratische Abweichung im Beispiel: a) s2 = = b) s2 = 1 3 1 3 1 3 1 3 · (502 + 02 + 502 ) · (19502 + 20002 + 20502) − 20002 = 1666,67 · (20002 + 20002 + 40002) · (02 + 02 + 60002) − 20002 √ ◮ Standardabweichung: s = s2 Im Beispiel: √ a) s = 1666,67 = 40,82 √ b) s = 8000000 = 2828,43 = ◮ = 8000000 Variationskoeffizient: V = x̄s (maßstabsunabhängig) Im Beispiel: = 0,02 (b = 2 %) a) V = 40,82 2000 b) V = 2828,43 2000 = 1,41 (b = 141 %) Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 30 Univariate Daten Konzentrationsmaße ◮ Gegeben: kardinale Werte 0 ≦ x1 ≦ x2 ≦ · · · ≦ xn ◮ Achtung! Die Werte müssen aufsteigend sortiert werden! ◮ Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? ◮ Beispiel: Die 90 % ärmsten besitzen 20 % des Gesamtvermögens. ◮ Streckenzug: (0, 0), (u1 , v1 ), . . . , (un , vn ) = (1, 1) mit vk = Anteil der k kleinsten MM-Träger an der MM-Summe = k P i=1 n P xi xi i=1 uk = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = Etschberger (HS Weingarten) Statistik k n Sommersemester 2008 31 2. Deskriptive Statistik Univariate Daten Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3, 11, 2, 3 (Mio. €) 5 P vk xk = 25 ⇒ n = 5, k=1 • k 1 2 3 4 5 xk 2 3 3 6 11 pk vk uk 2 25 2 25 1 5 3 25 5 25 2 5 3 25 8 25 3 5 6 25 14 25 4 5 11 25 45 ◦ -L in ie 1 14 25 1 1 8 25 5 25 2 25 Etschberger (HS Weingarten) • • • • • 1 5 2 5 3 5 Statistik 2. Deskriptive Statistik L 4 5 uk 1 Sommersemester 2008 32 Univariate Daten Lorenzkurve ◮ Knickstellen: - Bei i-tem Merkmalsträger ⇐⇒ xi+1 > xi - Empirische Verteilungsfunktion liefert Knickstellen: ◮ aj 2 3 6 11 h(aj ) f(aj ) F(aj ) 1 2 1 1 1 5 1 5 2 5 3 5 1 5 4 5 1 5 1 Vergleich von Lorenzkurven: • • • • ➀ ➀ ➁ ➁ • Gleichverteilung • extreme Konzentration Etschberger (HS Weingarten) • ➁ höher konzentriert als ➀ Statistik • unvergleichbar Sommersemester 2008 33 2. Deskriptive Statistik Univariate Daten Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP 1.0 0.8 Anteil am BSP Bangladesch Brasilien Deutschland Ungarn USA 0.6 0.4 (Stand 2000) 0.2 0 0 0.2 0.4 0.6 0.8 1.0 Anteil der Bevölkerung Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 34 Univariate Daten Gini-Koeffizient ◮ Numerisches Maß der Konzentration: Fläche zwischen 45◦ -Linie und L G= = Fläche unter 45◦ -Linie ◮ Aus den Daten: 2 G= n P i xi − (n + 1) i=1 n P xi i=1 n n P xi 2 = n P i pi − (n + 1) i=1 n xi pi = P n xi i=1 i=1 ◮ Problem: Gmax = wobei n−1 n ➠ Normierter Gini-Koeffizient: G∗ = Etschberger (HS Weingarten) n · G ∈ [0; 1] n−1 Statistik Sommersemester 2008 35 2. Deskriptive Statistik Univariate Daten Gini-Koeffizient: Beispiel Beispiel: i xi pi G= Mit Gmax = 2· 1· 4−1 4 1 20 1 1 2 2 3 2 4 15 1 20 2 20 2 20 15 20 2 20 +2· +3· 4 2 20 +4· 15 20 P 20 1 − (4 + 1) = 0,525 = 0,75 folgt G∗ = 4 · 0,525 = 0,7 4−1 Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 36 Univariate Daten Weitere Konzentrationsmaße ◮ Konzentrationskoeffizient: CRg = Anteil, der auf die g größten entfällt = n X pi = 1 − vn−g i=n−g+1 ◮ Herfindahl-Index: H= n X p2i (∈ [ n1 ; 1]) i=1 Es gilt: H = 1 n (V 2 + 1) V= bzw. ◮ Exponentialindex: E= n Y ppi i i=1 ∈ [ n1 ; 1] √ n·H−1 wobei 00 = 1 ◮ Im Beispiel: CR2 = 17 20 = 0,85; H = Etschberger (HS Weingarten) 1 2 20 + ··· + 15 2 20 Statistik = 0,59; E = 1 20 201 ··· 15 20 15 20 = 0,44 Sommersemester 2008 37 2. Deskriptive Statistik Multivariate Daten Auswertungsmethoden für mehrdimensionales Datenmaterial Kontingenztabelle und Streuungsdiagramm ◮ Gegeben: Urliste vom Umfang n zu zwei Merkmalen X und Y: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) ◮ Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 38 Multivariate Daten Kontingenztabelle Unterscheide: ◮ Gemeinsame Häufigkeiten: hij = h(ai , bj ) ◮ Randhäufigkeiten: hi· = l X hij und j=1 ◮ h·j = k X hij i=1 Bedingte (relative) Häufigkeiten: f1 (ai | bj ) = Etschberger (HS Weingarten) hij h·j und Statistik f2 (bj | ai ) = hij hi· Sommersemester 2008 39 2. Deskriptive Statistik Multivariate Daten Häufigkeiten Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt (= b1 ) (= b2 ) angegurtet (= a1 ) nicht angegurtet (= a2 ) f2 (b3 | a2 ) = f1 (a2 | b3 ) = 4 40 4 10 tot (= b3 ) 264 (= h11 ) 2 (= h21 ) 90 (= h12 ) 34 (= h22 ) 6 (= h13 ) 4 (= h23 ) 360 (= h1· ) 40 (= h2· ) 266 (= h·1 ) 124 (= h·2 ) 10 (= h·3 ) 400 (= n) = 0,1 = 0,4 (10 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 40 Multivariate Daten Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.B. stetige Merkmale) ➠ Alle (xi , yi ) sowie (x̄, ȳ) in Koordinatensystem eintragen. y Beispiel: i 1 2 3 4 5 xi yi 2 4 3 9 7 4 3 6 7 8 ⇒ x̄ = ȳ = 25 5 28 5 x̄ 8 =5 = 5,6 P 25 28 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 • • • • • ȳ • 0 0 1 2 3 4 5 6 7 8 9 x 1 2 3 4 5 6 7 8 9 Etschberger (HS Weingarten) Statistik Sommersemester 2008 41 2. Deskriptive Statistik Multivariate Daten Korrelationsrechnung ◮ Frage: Wie stark ist der Zusammenhang zwischen X und Y? ◮ Antwort: Korrelationskoeffizienten ◮ Wahl abhängig vom Skalenniveau von X und Y: Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 43 Multivariate Daten Bravais-Pearson-Korrelationskoeffizient Voraussetzung: X, Y kardinalskaliert n P n P xi yi − nx̄ȳ s =s ∈ [−1; +1] r= s n n n n P P P P (yi − ȳ)2 (xi − x̄)2 x2i − nx̄2 y2i − nȳ2 (xi − x̄)(yi − ȳ) i=1 i=1 i=1 Etschberger (HS Weingarten) i=1 i=1 Statistik i=1 Sommersemester 2008 44 2. Deskriptive Statistik Multivariate Daten Bravais-Pearson-Korrelationskoeffizient Im Beispiel: i 1 2 3 4 5 P x2i y2i xi yi 4 16 9 81 49 16 9 36 49 64 8 12 18 63 56 25 28 159 174 157 xi yi 2 4 3 9 7 4 3 6 7 8 Etschberger (HS Weingarten) x̄ = 25/5 = 5 ȳ = 28/5 = 5,6 ⇒ 157 − 5 · 5 · 5,6 √ 159 − 5 · 52 174 − 5 · 5,62 = 0,703 r= √ (stark positive Korrelation) Statistik 2. Deskriptive Statistik Sommersemester 2008 45 Multivariate Daten Rangkorrelationskoeffizient von Spearman ◮ ◮ Voraussetzung: X, Y (mindestens) ordinalskaliert Vorgehensweise: (′) ➀ Rangnummern Ri (X) bzw. Ri′ (Y) mit Ri = 1 bei größtem Wert usw. ➁ Berechne n P 6 (Ri − Ri′ )2 rSP = 1 − i=1 ∈ [−1; +1] (n − 1) n (n + 1) ◮ Hinweise: - rSP = +1 wird erreicht bei Ri = Ri′ - rSP = −1 wird erreicht bei Ri = n + 1 − Ri′ Etschberger (HS Weingarten) Statistik ∀ i = 1, . . . , n ∀ i = 1, . . . , n Sommersemester 2008 46 2. Deskriptive Statistik Multivariate Daten Rangkorrelationskoeffizient von Spearman Im Beispiel: rSP xi Ri yi Ri′ 2 4 3 9 7 5 3 4 1 2 4 3 6 7 8 4 5 3 2 1 6 · [(5 − 4)2 + (3 − 5)2 + (4 − 3)2 + (1 − 2)2 + (2 − 1)2 ] =1− = 0,6 (5 − 1) · 5 · (5 + 1) Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 47 Multivariate Daten Kontingenzkoeffizient ◮ ◮ Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten hi· = l X hij und j=1 h·j = k X hij i=1 ➁ Berechne theoretische Häufigkeiten“ ” hi· · h·j h̃ij = n ➂ Berechne 2 χ = k X l X (hij − h̃ij )2 i=1 j=1 h̃ij χ2 hängt von n ab! (hij 7→ 2 · hij ⇒ χ2 7→ 2 · χ2 ) Etschberger (HS Weingarten) Statistik Sommersemester 2008 48 2. Deskriptive Statistik Multivariate Daten Kontingenzkoeffizient ➃ Kontingenzkoeffizient: s K= wobei χ2 n + χ2 ∈ [0; Kmax ] r M−1 mit M ➄ Normierter Kontingenzkoeffizient: Kmax = K∗ = K Kmax M = min{k, l} ∈ [0; 1] K∗ = +1 ⇐⇒ bei Kenntnis von xi kann yi erschlossen werden u.u. Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 49 Multivariate Daten Kontingenzkoeffizient Beispiel X: Y: Staatsangehörigkeit Geschlecht hij d a h·j wobei h̃11 = χ2 = (30−24)2 24 K = q K∗ = 60·40 100 + 6,25 100+6,25 0,2425 0,7071 (d,a) (m,w) m 30 10 40 w 30 30 60 h̃ij ⇒ d a hi· 60 40 100 w 36 24 = 24 usw. (30−36)2 36 + = 0,2425; (10−16)2 16 + (30−24)2 24 = 6,25 M = min{2, 2} = 2; = 0,3430 Etschberger (HS Weingarten) m 24 16 Statistik Kmax = q 2−1 2 = 0,7071 Sommersemester 2008 50 2. Deskriptive Statistik Multivariate Daten Regressionsrechnung ◮ Interpretiere Y als Funktion von X: y = f(x) ◮ X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable ◮ Hauptfall: f ist eine Gerade: y = a+ bx ◮ Lineare Regression: Schätze a und b ◮ Prinzip der kleinsten Quadrate: a, b so, dass n X Q(a, b) = [yi − (a + b xi )]2 → min i=1 Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 51 Sommersemester 2008 52 Multivariate Daten Prinzip der kleinsten Quadrate Eindeutige Lösung: b̂ = = n X (xi − x̄)(yi − ȳ) i=1 n X n X (xi − x̄)2 i=1 xi yi − nx̄ȳ i=1 n X x2i − nx̄2 i=1 und â = ȳ − b̂ x̄ Regressionsgerade: ŷ = â + b̂ x Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Multivariate Daten Beispiel Regressionsrechnung Alle (xi , yi ) sowie (x̄, ȳ) als Streuplot in Koordinatensystem eingetragen y Beispiel: i 1 2 3 4 5 xi yi 2 4 3 9 7 4 3 6 7 8 25 5 28 5 ⇒ x̄ = ȳ = x̄ 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 P 25 28 =5 = 5,6 • • • • • ȳ • 0 0 1 2 3 4 5 6 7 8 9 x 1 2 3 4 5 6 7 8 9 Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 53 Multivariate Daten Regressionsrechnung: Beispiel i 1 2 3 4 5 P x2i y2i xi yi 4 16 9 81 49 16 9 36 49 64 8 12 18 63 56 25 28 159 174 157 xi yi 2 4 3 9 7 n x̄ ȳ P 2 xi P xi yi ⇒ b̂ â ⇒y 4 3 6 7 8 y 8 7 6 5 4 = = = = = = = = 5 5 5,6 159 157 157−5·5·5,6 159−5·52 = 0,5 5,6 − 0,5 · 5 = 3,1 3,1 + 0,5 x Etschberger (HS Weingarten) 3 2 1 x̄ 8 • 7 â + b̂ x • 6 • 5 4 • ȳ • 3 • 2 1 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 x Prognose: ŷ(10) = 3,1 + 0,5 · 10 = 8,1 Statistik Sommersemester 2008 54 2. Deskriptive Statistik Multivariate Daten Determinationskoeffizient ◮ Wie gut beschreibt â + b̂ x den Zusammenhang von X und Y? ◮ Q(â, b̂) = n P (yi − ŷi )2 als Gütemaß ungeeignet (beliebig groß) i=1 ◮ Determinationskoeffizient (Bestimmtheitskoeffizient): n P 2 (ŷi − ȳ) n P ŷ2i − nȳ2 = i=1 = r2 ∈ [0; 1] R2 = i=1 n n P P (yi − ȳ)2 y2i − nȳ2 i=1 i=1 ◮ R2 heißt auch durch die Regression erklärter Anteil der Varianz“ ” ◮ R2 = 0 wird erreicht wenn X, Y unkorreliert R2 = 1 wird erreicht wenn ŷi = yi ∀ i (alle Punkte auf Regressionsgerade) P 2 ◮ Im Beispiel: ŷi = 3,1 + 0,5 xi , n = 5, ȳ = 5,6, yi = 174 2 2 −5·5,62 = 0,4942 R2 = 4,1 +···+6,6 i 1 2 3 4 5 174−5·5,62 ⇒ ŷi 4,1 5,1 4,6 7,6 6,6 R2 = r2 = 0,7032 = 0,4942 Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 55 Multivariate Daten Modell des additiven Zeitreihenmodells ◮ Additives Zeitreihenmodell: yt = Tt + Zt + St + Ut mit: Tt Zt St Ut : : : : Trendkomponente, i.d.R. linear Zyklische Komponente, i.d.R. wellenförmig Saisonkomponente, durch saisonalen Einfluss Irreguläre Komponente, schwankt regellos um 0 Etschberger (HS Weingarten) Statistik Sommersemester 2008 59 2. Deskriptive Statistik Multivariate Daten Ermittlung der Zeitreihenkomponenten ◮ Tt : i.d.R. mit Regression nach t, T̂t = â + b̂ · t =⇒ Trendbereinigte Zeitreihe yt − T̂t ◮ Zt : Schätze zuerst die glatte Komponente G t = Tt + Z t auf Basis gleitender Durchschnitte =⇒ Ẑt = Ĝt − T̂t (Hier nicht weiter betrachtet) ◮ St : Schätzung durch Saisonbereinigung ◮ Ut : Bleiben unberücksichtigt Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 60 Multivariate Daten Saisonbereinigung: Gleitende Durchschnitte ◮ Zur Schätzung der glatten Komponente ◮ Ordnung“: Anzahl einbezogener Perioden = b Saisonlänge ” Gleitender Durchschnitt ungerader Ordnung 2 k + 1: ◮ t+k X 1 ∗ yt = yτ 2k + 1 τ=t−k ◮ Gleitender Durchschnitt gerader Ordnung 2 k: t+(k−1) X yt+k 1 yt−k ∗ yτ + + yt = 2k 2 2 τ=t−(k−1) ◮ Problem: Am Rand“ gehen Werte verloren. ” Etschberger (HS Weingarten) Statistik Sommersemester 2008 61 2. Deskriptive Statistik Multivariate Daten Beispiel gleitende Durchschnitte Beispiel: Wochentage, tägliche Daten =⇒ Saisonlänge: 7 yt y∗t Mo Di Mi Do Fr Sa So Mo Di Mi Do Fr Sa So 3 4 5 5 4 2 1 2 4 4 5 3 1 1 − − − 3,43 3,29 3,29 3,14 3,14 3 2,86 2,86 − − − Wert 1. Donnerstag: 1 7 · (3 + 4 + 5 + 5 + 4 + 2 + 1) = 3,43 Wert 1. Freitag: 1 7 · (4 + 5 + 5 + 4 + 2 + 1 + 2) = 3,29 = 3,43 − Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik 3 7 + 2 7 Sommersemester 2008 62 Multivariate Daten Saisonbereinigung ◮ Aus yt = Tt + Zt + St + Ut folgt St = yt − (Tt + Zt ) . | {z } Ut = 0 unter Annahme von = Gt ◮ Also: Schätze Gt mit gleitenden Durchschnitten y∗t und dann St gemäß yt − y∗t ( um die glatte Komponente bereinigte Zeitreihe“). ” ◮ Periodentypische Abweichung (konstante Saisonfigur): S̃j = 1 X (yt − y∗t ) mj Dabei: mj ist Anzahl der Werte, die in die Berechnung von S̃j eingehen (z.B. Anzahl aller gleitenden Durchschnittswerte für Januar) Etschberger (HS Weingarten) Statistik Sommersemester 2008 63 2. Deskriptive Statistik Multivariate Daten Saisonbereinigung Achtung: Anderer Index! t = 1, . . . , n : j = 1, . . . , ℓ : ◮ Alle Perioden der Zeitreihe Perioden einer Saison Aber: Im Allgemeinen ist ℓ X j=1 S̃j 6= 0 =⇒ Saisonveränderungszahl: ℓ 1X S̃j Ŝj = S̃j − ℓ j=1 ◮ Saisonbereinigte Zeitreihe: yt − Ŝj Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 64 Multivariate Daten Saisonbereinigung: Rezept“ ” Rezept Saisonbereinigung y∗t 1. Gleitende Durchschnitte der Ordnung ℓ: 2. Um glatte Komponente bereinigte Werte: yt − y∗t 3. Periodendurchschnitte: 4. Normierte Werte: 5. Saisonbereinigte Zeitreihe: 1 mj P (yt − y∗t ) P S̃j Ŝj = S̃j − 1ℓ S̃j = yt − Ŝj Dabei: ◮ mj ist Anzahl der Werte, die in die Berechnung von S̃j eingehen (z.B. Anzahl aller gleitenden Durchschnittswerte für Januar) ◮ l ist Anzahl der Saisonteile (z.B. l = 12 bei Jahressaisonfiguren mit monatlichen Daten) Etschberger (HS Weingarten) Statistik Sommersemester 2008 65 2. Deskriptive Statistik Verhältnis- und Indexzahlen Klassifikation von Verhältniszahlen Verhältniszahlen und Indexzahlen Gliederungszahlen (z.B. Eigenkapitalquote) Verhältniszahlen (Quotienten) Messzahlen (z.B. Preismesszahlen) Beziehungszahlen (z.B. Variationskoeffizient) Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 66 Verhältnis- und Indexzahlen Preisindizes ◮ Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: Preis zum Zeitpunkt j Preis zum Zeitpunkt i dabei: j: Berichtsperiode, i: Basisperiode ◮ Preisindex: Misst Preisveränderung mehrerer Güter (Aggregation von Preismesszahlen durch Gewichtung) ◮ Notation: p0 (i) : pt (i) : q0 (i) : qt (i) : Etschberger (HS Weingarten) Preis des i-ten Gutes in Basisperiode 0 Preis des i-ten Gutes in Berichtsperiode t Menge des i-ten Gutes in Basisperiode 0 Menge des i-ten Gutes in Berichtsperiode t Statistik Sommersemester 2008 67 2. Deskriptive Statistik Verhältnis- und Indexzahlen Preisindizes ◮ Gleichgewichteter Preisindex: G P0t n n X pt (i) 1 X pt (i) = · g(i) = n p0 (i) p0 (i) g(i) = mit i=1 i=1 1 n Nachteil: Auto und Streichhölzer haben gleiches Gewicht Lösung: Preise mit Mengen gewichten! ◮ Preisindex von Laspeyres: L P0t = n P i=1 n P pt (i)q0 (i) p0 (i)q0 (i) i=1 n X pt (i) · g0 (i) = p0 (i) mit n X pt (i) · gt (i) p0 (i) mit g0 (i) = i=1 p0 (i) q0 (i) n P p0 (j) q0 (j) j=1 ◮ Preisindex von Paasche: P P0t = n P i=1 n P pt (i)qt (i) = p0 (i)qt (i) i=1 gt (i) = i=1 Etschberger (HS Weingarten) p0 (j) qt (j) j=1 Statistik 2. Deskriptive Statistik p0 (i) qt (i) n P Sommersemester 2008 68 Verhältnis- und Indexzahlen Preisindizes: Beispiel Campuslebenshaltungskosten: 1990 Gut 1: Gut 2: 1 Tasse Kaffee 1 Mensaessen L P90,01 = P P90,01 = Etschberger (HS Weingarten) 2001 Preis (DM) Menge/Woche Preis (DM) Menge/Woche 0,65 3,50 3 5 1,10 4,80 1 2 3 1,10 · 3 + 4,80 · 5 27,3 = = 1,4036 0,65 · 3 + 3,50 · 5 19,45 1,10 · 0,65 · 1 2 1 2 + 4,80 · 3 14,95 = 1,3811 = 10,825 + 3,50 · 3 Statistik Sommersemester 2008 69 2. Deskriptive Statistik Verhältnis- und Indexzahlen Weitere Preisindizes ◮ Idealindex von Fisher: F P0t = ◮ Marshall-Edgeworth-Index: ME P0t = n P q L PP P0t 0t pt (i)[q0 (i) + qt (i)] i=1 n P p0 (i)[q0 (i) + qt (i)] i=1 ◮ Preisindex von Lowe: LO P0t = n P i=1 n P pt (i)q(i) p0 (i)q(i) i=1 Etschberger (HS Weingarten) Statistik 2. Deskriptive Statistik Sommersemester 2008 70 Verhältnis- und Indexzahlen Weitere Preisindizes: Beispiel Campuslebenshaltungskosten: 1990 Gut 1: Gut 2: 1 Tasse Kaffee 1 Mensaessen F P90,01 = ME P90,01 √ 2001 Preis (DM) Menge/Woche Preis (DM) Menge/Woche 0,65 3,50 3 5 1,10 4,80 1 2 1,4036 · 1,3811 3 = 1,3923 1,10 · (3 + 21 ) + 4,80 · (5 + 3) 42,25 = = 1,3955 = 1 30,275 0,65 · (3 + 2 ) + 3,50 · (5 + 3) LO P90,01 = Etschberger (HS Weingarten) 1,10 · 2 + 4,80 · 4 0,65 · 2 + 3,50 · 4 = Statistik 21,4 = 1,3987 15,3 Sommersemester 2008 71 3. Wahrscheinlichkeitstheorie Übersicht 1 Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheoretische Grundlagen Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4 Induktive Statistik Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 72 Zufall und Wahrscheinlichkeit Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten ◮ Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B. Münzwurf ◮ Elementarereignis ω: Ein möglicher Ausgang, z.B. Kopf “ ” Elementarereignisse schließen sich gegenseitig aus ( Kopf “ oder Zahl“)! ” ” Ergebnismenge Ω: Menge aller ω ◮ ◮ Beispiel: Werfen zweier Würfel: (1, 1) (1, 2) · · · (1, 6) (2, 1) (2, 2) · · · (2, 6) Ω: .. .. .. .. . . . . (6, 1) (6, 2) · · · (6, 6) ⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . , 6}} Etschberger (HS Weingarten) Statistik Sommersemester 2008 73 3. Wahrscheinlichkeitstheorie Zufall und Wahrscheinlichkeit Ereignisse und Wahrscheinlichkeiten ◮ ◮ ◮ ◮ Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: A⊂Ω Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: Ereignis verbal Augensumme = 4 Erste Zahl = 2 A B ◮ ◮ formal {(1, 3), (2, 2), (3, 1)} {(2, 1), (2, 2), . . . , (2, 6)} Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = Etschberger (HS Weingarten) Anzahl der für A günstigen Fälle |A| = |Ω| Anzahl aller möglichen Fälle Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 74 Zufall und Wahrscheinlichkeit Laplace Wahrscheinlichkeit und Urnenmodell ◮ Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(1, 3), (2, 2), (3, 1)} ◮ 1 3 = 12 = 0,083 |Ω| = 36, |A| = 3 ⇒ P(A) = 36 Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: mit Zurücklegen: Nn ohne Zurücklegen: N · (N − 1) · · · (N − (n − 1)) = ◮ N! (N−n)! Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 32-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen Etschberger (HS Weingarten) Statistik Sommersemester 2008 75 3. Wahrscheinlichkeitstheorie Zufall und Wahrscheinlichkeit Rechenregeln für Wahrscheinlichkeiten ◮ Wichtige Rechenregeln: 1. 2. 3. 4. 5. ◮ P(A) ≦ 1 P(∅) = 0 A ⊂ B ⇒ P(A) ≦ P(B) P(Ā) = 1 − P(A) P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) Beispiel: P( Augenzahl ≦ 5“) = 1 − P( Augenzahl = 6“) = 1 − ” ” Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie 1 6 = 5 6 Sommersemester 2008 76 Zufall und Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten ◮ Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) ◮ Beispiel: Wahrscheinlichkeit für Statistiknote hängt von Mathenote ab. ◮ Formal: P(A | B) = ◮ P(A ∩ B) P(B) Im Venndiagramm: Ω B P(A) = P(A | B) = A Etschberger (HS Weingarten) Statistik Sommersemester 2008 77 3. Wahrscheinlichkeitstheorie Zufall und Wahrscheinlichkeit Unabhängigkeit von Ereignissen ◮ A, B unabhängig: Eintreten von A liefert keine Information über P(B) u.u. ◮ Formal: P(A | B) = P(A) ◮ Äquivalent zu: P(A ∩ B) = P(A) · P(B) ◮ Dann gilt: P(A ∪ B) = P(A) + P(B) − P(A) · P(B) ◮ Beispiel: Werfen zweier Würfel: P(A ∩ B) A : erster Würfel gleich 6“ ” ⇒ P(A | B) = = B : zweiter Würfel gleich 6“ P(B) ” Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie 1 36 1 6 = 1 6 = P(A) Sommersemester 2008 78 Zufallsvariablen und Verteilungen Zufallsvariablen Zufallsvariablen und Verteilungen ◮ Beschreibung von Ereignissen durch reelle Zahlen ◮ Formal: ◮ X: Ω→R Nach Durchführung des Zufallsvorgangs: Realisation: ◮ Vor Durchführung des Zufallsvorgangs: Wertebereich: ◮ x = X(ω) X(Ω) = {x : x = X(ω), ω ∈ Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {1, 2, . . . , 6}, x = 4 (z.B.) P(X = 4) = 61 , Etschberger (HS Weingarten) P(X ≦ 3) = Statistik 3 6 = 1 2 Sommersemester 2008 79 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Verteilungsfunktion ◮ Zuweisung von Wahrscheinlichkeiten zu Realisationen ◮ Formal: F(x) = P(X ≦ x) ◮ Eigenschaften: - F(x) ∈ [0; 1] Definitionsbereich: R mit F(−∞) = 0, F(∞) = 1 monoton wachsend, d.h. x1 < x2 ⇒ F(x1 ) ≦ F(x2 ) Es gilt: P(a < X ≦ b) = F(b) − F(a) F(x) 1.0 0.5 1 2 3 4 Etschberger (HS Weingarten) 5 6 7 8 9 Statistik 3. Wahrscheinlichkeitstheorie 10 x Sommersemester 2008 80 Zufallsvariablen und Verteilungen Diskrete Zufallsvariablen ◮ X heißt diskret, wenn X(Ω) = {x1 , x2 , . . . } endlich ist. ◮ Wahrscheinlichkeitsfunktion dann: f(x) = P(X = x) Beispiel: Münze 2 mal werfen; X: Anzahl Kopf“ ” xi f(xi ) (Z, Z) (Z, K), (K, Z) (K, K) 0 1 2 1 4 1 2 1 4 f(x) 0, 1 , F(x) = 34 , 4 1, F(x) 1 3 4 1 2 1 4 • 0 • 1 Etschberger (HS Weingarten) 1 4 • 2 x • < < < ≧ 0 1 2 2 • • 0 Statistik falls x falls 0 ≦ x falls 1 ≦ x falls x 1 2 x Sommersemester 2008 81 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Binomialverteilung ◮ Wiederholter Zufallsvorgang ◮ n Durchführungen ◮ Pro Durchführung: A oder Ā mit P(A) = p (= b Ziehen mit Zurücklegen) ◮ Schreibe: Xi = ◮ 1, falls A bei i-ter Durchführung eintritt 0, falls Ā bei i-ter Durchführung eintritt Dann gibt X= n X Xi i=1 an, wie oft A eintritt. ◮ Gesucht: Wahrscheinlichkeitsfunktion von X Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 82 Zufallsvariablen und Verteilungen Binomialverteilung ◮ Herleitung: 1) P(Xi = 1) = P(A) = p, P(Xi = 0) = P(Ā) = 1 − p n P xi = x entspricht x mal Ereignis A und n − x mal Ā“ 2) ” i=1 Wahrscheinlichkeit (bei Unabhängigkeit): px · (1 − p)n−x n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x ➠ Wahrscheinlichkeitsfunktion: n · px · (1 − p)n−x , falls x ∈ {0, 1, . . . , n} x f(x) = 0, sonst ◮ Kurzschreibweise: X ∼ B(n; p) ◮ F(x) in Tabelle 1; für f(x) gilt: f(x) = F(x) − F(x − 1) Etschberger (HS Weingarten) Statistik Sommersemester 2008 83 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Binomialverteilung: Beispiel Beispiel Aus einem 32-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, 2-mal Herz“ zu ziehen? ” 1, falls i-te Karte Herz 8 ) Xi = ⇒ Xi ∼ B(1; 32 0, sonst n P X = Xi = X1 + X2 + X3 ⇒ X ∼ B(3; 41 ) i=1 Mithilfe der Wahrscheinlichkeitsfunktion: 3 P(X = 2) = f(2) = · 0,252 · 0,751 = 0,1406 2 Mithilfe von Tabelle 1: P(X = 2) = F(2) − F(1) = 0,9844 − 0,8438 = 0,1406 Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 84 Zufallsvariablen und Verteilungen Binomialverteilung (BB S. 308) Etschberger (HS Weingarten) Statistik Sommersemester 2008 85 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Hypergeometrische Verteilung ◮ n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung ◮ ◮ ◮ heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X ∼ Hyp(N; M; n) Wahrscheinlichkeitsfunktion: M N − M n−x x , falls x möglich f(x) = N n 0, sonst Ist n ≦ N 20 , so gilt: Hyp(N; M; n) ≈ B(n; M N) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 86 Zufallsvariablen und Verteilungen Beispiel ◮ Aus einem 32-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. ◮ Wie wahrscheinlich ist es, 2-mal Herz“ zu ziehen? ” D.h.: N = 32, M = 8, n = 3, x = 2. 8 32 − 8 8 24 8! · 24 2 3−2 2 1 2! · 6! P(X = 2) = f(2) = = = 32! 32 32 3! · 29! 3 3 29! · 8! · 3! · 24 8 · 7 · 3 · 24 4032 21 = = = = = 0,1355 32! · 6! · 2! 32 · 31 · 30 29760 155 n! n n Dabei wurde verwendet: = und = n. k 1 k!(n − k)! ◮ Etschberger (HS Weingarten) Statistik Sommersemester 2008 87 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) ◮ Geeignet, wenn p klein (≦ 0,1), n groß (≧ 50) und np ≦ 10. ➠ Verteilung der seltenen Ereignisse“ (z.B. Anzahl 6-er pro ” Lottoausspielung) ◮ Kurzschreibweise: X ∼ P(λ) ◮ Wahrscheinlichkeitsfunktion: x λ · e−λ , falls x = 0, 1, 2, . . . f(x) = x! 0, sonst ◮ ◮ ◮ F(x) in Tabelle 2 Überblick: Approximation p= Hyp(N; M; n) Etschberger (HS Weingarten) M N B(n; p) λ = np = n M N Statistik 3. Wahrscheinlichkeitstheorie P(λ) Sommersemester 2008 88 Zufallsvariablen und Verteilungen Poisson-Verteilung: Beispiel Beispiel ◮ X ∼ B(10 000; 0,0003); In Tabelle 1 nicht vertafelt! Approximation: p = 0,0003 < 0,1 n = 10 000 > 50 ⇒ B(10 000; 0,0003) ≈ P(3) np = 3 < 10 ◮ Mithilfe der Wahrscheinlichkeitsfunktion: P(X = 5) = 35 −3 · e = 0,1008188 5! ◮ Mithilfe von Tabelle 2: P(X = 5) = F(5) − F(4) = 0,9161 − 0,8153 = 0,1008 ◮ Exakter Wert: P(X = 5) = 0,1008239 Etschberger (HS Weingarten) Statistik Sommersemester 2008 89 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Poisson-Verteilung (BB S. 317) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 90 Zufallsvariablen und Verteilungen Stetige Zufallsvariablen ◮ X heißt stetig, wenn F(x) stetig ist. ◮ Dann gilt: F(x) = Zx f(t) dt −∞ F ′ (x) = f(x) heißt Dichtefunktion von X. ◮ Dann: P(a < X < b) = P(a ≦ X < b) = P(a < X ≦ b) = P(a ≦ X ≦ b) Rb = a f(x) dx = F(b) − F(a) Etschberger (HS Weingarten) Statistik Sommersemester 2008 91 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Eigenschaften der Dichtefunktion ◮ ◮ f(x) ≧ 0 für alle x ∈ R Wegen F(∞) = 1 muss stets gelten: Z∞ f(x) dx = 1 −∞ ◮ ◮ P(X = x) = 0 für alle x ∈ R f(x) > 1 ist möglich ◮ F ′ (x) = f(x) ◮ Intervallgrenzen spielen keine Rolle: P(X ∈ [a; b]) = P(X ∈ (a; b]) = P(X ∈ [a; b)) = P(X ∈ (a; b)) = F(b) − F(a) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 92 Zufallsvariablen und Verteilungen Dichtefunktion: Beispiel Beispiel Verteilungsfunktion: Zx 0 Etschberger (HS Weingarten) x<0 0, falls 1 , falls 0 ≦ x ≦ 10 f(x) = 10 0, falls x > 10 f(t) dt = Zx 0 x t x 1 dt = ⇒ = 10 10 0 10 x<0 0, falls x F(x) = 10 , falls 0 ≦ x ≦ 10 1, falls x > 10 Statistik Sommersemester 2008 93 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Gleichverteilung Eine Zufallsvariable X mit 1 , falls a ≦ x ≦ b f(x) = b − a 0 , sonst heißt gleichverteilt im Intervall [a; b]. f(x) 1 b−a a x b Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 94 Zufallsvariablen und Verteilungen Gleichverteilung ◮ Verteilungsfunktion: ◮ 0 , falls x<a x−a , falls a ≦ x ≦ b F(x) = b − a 1 , falls x>b Beispiel: X gleichverteilt in [1; 20] P(2 ≦ X ≦ 12) = F(12) − F(2) = 2−1 12 − 1 − 20 − 1 20 − 1 10 12 − 2 = 20 − 1 19 = 0,5263 = Etschberger (HS Weingarten) Statistik Sommersemester 2008 95 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Normalverteilung Eine Zufallsvariable X mit f(x) = 1 √ σ 2π (x − µ)2 − 2σ2 ·e und σ > 0 heißt normalverteilt. Kurzschreibweise: X ∼ N(µ; σ) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 96 Zufallsvariablen und Verteilungen Normalverteilung: Gaußkurve Gaußsche Glockenkurve f(x) Etschberger (HS Weingarten) C. F. Gauß Statistik Sommersemester 2008 97 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Eigenschaften der Normalverteilung ◮ Dichte ist symmetrisch zu µ: f(µ − x) = f(µ + x) ➠ µ ist Lage-, σ ist Streuungsparameter ◮ Standardnormalverteilung: N(0; 1) mit Verteilungsfunktion Φ(x) (→ Tabelle 3) ◮ Kenntnis von Φ(x), µ und σ genügt, denn: X ∼ N(µ; σ) ⇐⇒ X−µ ⇒ σ ∼ N(0; 1) x−µ F(x) = Φ σ ◮ Tabelle 3 enthält nur positive x: Φ(−x) = 1 − Φ(x) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 98 Zufallsvariablen und Verteilungen Normalverteilung: Beispiel Beispiel: Projektdauer X ∼ N(39; 2). Wahrscheinlichkeit für Projektdauer zwischen 37 und 41 Wochen? P(37 ≦ X ≦ 41) = F(41) − F(37) 41−39 −Φ =Φ 2 37−39 2 = Φ(1) − Φ(−1) = Φ(1) − [1 − Φ(1)] = 2 · Φ(1) − 1 = 2 · 0,8413 − 1 = 0,6826 Etschberger (HS Weingarten) Statistik Sommersemester 2008 99 3. Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen Standardnormalverteilung (BB S. 319) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 100 Verteilungsparameter Lageparameter a) Modus xMod : f(xMod ) ≧ f(x) für alle x (i.A. nicht eindeutig, z.B. Gleichverteilung) Beispiele: - Normalverteilung: xMod = µ - Diskrete Verteilung mit: x 0 1 2 f(x) 41 21 41 b) Median xMed : F(xMed ) = 1 2 ⇒ xMod = 1 bzw. kleinstes x mit F(x) > 1 2 Beispiele: - Normalverteilung: xMed = µ - Diskrete Verteilung oben: F(0) = Etschberger (HS Weingarten) 1 4 Statistik < 21 , F(1) = 3 4 > 1 2 ⇒ xMed = 1 Sommersemester 2008 101 3. Wahrscheinlichkeitstheorie Verteilungsparameter Lageparameter: Fraktile c) α -Fraktil xα : F(xα ) = α (für stetige Verteilungen) Beispiel: X ∼ N(0; 1), Y ∼ N(3; 2) x0,975 = 1,96 x0,025 = −x0,975 = −1,96 y0,025 = 2 · x0,025 +3 = −0,92 (Tab. 3) Hinweise: - xMed = x0,5 - Wenn xα nicht vertafelt → Interpolation: xα ≈ xa + (xb − xa ) · mit α−a b−a a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X ∼ N(0; 1); x0,6 ≈ 0,25 + (0,26 − 0,25) · Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie 0,6−0,5987 0,6026−0,5987 = 0,2533 Sommersemester 2008 102 Verteilungsparameter Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: X xi f(xi ), falls X diskret i E(X) = ∞ Z xf(x) dx, falls X stetig −∞ x 0 1 2 f(x) 41 21 41 Beispiel: Diskrete Verteilung E(X) = 0 · Etschberger (HS Weingarten) 1 4 +1· Statistik 1 2 +2· : 1 4 =1 Sommersemester 2008 103 3. Wahrscheinlichkeitstheorie Verteilungsparameter Rechenregeln für den Erwartungswert ➀ Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch bzgl. a+b 2 ➁ Lineare Transformation: ⇒ E(X) = a+b 2 E(a + bX) = a + b · E(X) ➂ Summenbildung: E n X Xi i=1 ! = n X E(Xi ) i=1 Beispiel: X gleichverteilt in [0; 10], Y ∼ N(1; 1); Z = X + 5Y E(Z) = E(X + 5Y) = E(X) + E(5Y) = E(X) + 5 · E(Y) = 10+0 2 + 5 · 1 = 10 ➃ Unabhängigkeit: X, Y unabhängig ⇒ E(X · Y) = E(X) · E(Y) Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 104 Verteilungsparameter Streuungsparameter ◮ Varianz Var(X) bzw. σ2 : X [xi − E(X)]2 f(xi ), f. X diskret i Var(X) = E([X − E(X)]2 ) = ∞ Z [x − E(X)]2 f(x) dx, f. X stetig −∞ ◮ Standardabweichung Sta(X) bzw. σ: Sta(X) = ◮ Beispiel: Diskrete Verteilung x 0 1 2 f(x) 41 21 14 Var(X) = (0 − 1)2 · Etschberger (HS Weingarten) p Var(X) : 1 1 1 1 + (1 − 1)2 · + (2 − 1)2 · = 4 2 4 2 Statistik Sommersemester 2008 105 3. Wahrscheinlichkeitstheorie Verteilungsparameter Rechenregeln für die Varianz ➀ Verschiebungssatz: Var(X) = E(X2 ) − [E(X)]2 Beispiel: Diskrete Verteilung E(X2 ) = = ⇒ E(X2 ) − [E(X)]2 = x 0 1 2 f(x) 14 12 41 02 · 3 2 3 2 1 4 + 12 · − 12 = 1 2 : 1 2 + 22 · 1 4 = Var(X) ➁ Lineare Transformation: Var(a + bX) = b2 Var(X) ➂ Summenbildung: Var n X Xi i=1 ! = n X Var(Xi ) i=1 Setzt Unabhängigkeit der Xi voraus! Etschberger (HS Weingarten) Statistik 3. Wahrscheinlichkeitstheorie Sommersemester 2008 106 Verteilungsparameter Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Binomialverteilung B(n; p) np np(1 − p) Hypergemoetrische Verteilung mit den Parametern N, M, n nM N N−M N−n nM N N N−1 Posson-Verteilung P(λ) λ λ a+b 2 (b − a)2 12 µ σ2 Gleichverteilung in [a; b] mit a < b Normalverteilung N(µ; σ) Etschberger (HS Weingarten) Statistik Sommersemester 2008 107 3. Wahrscheinlichkeitstheorie Verteilungsparameter Kovarianz und Korrelation ◮ Kovarianz: Cov(X, Y) = E[(X − E(X))(Y − E(Y))] = E(X · Y) − E(X) · E(Y) (Verschiebungssatz) ◮ Korrelationskoeffizient: ρ(X, Y) = p ◮ Bemerkungen: Cov(X, Y) Var(X) · Var(Y) ➀ ρ ist r nachgebildet ⇒ ρ ∈ [−1; 1] ➁ |ρ| = 1 ⇐⇒ Y = a + bX (mit b 6= 0) ➂ ρ = 0 ⇐⇒ X, Y unkorreliert ◮ Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y) Etschberger (HS Weingarten) Statistik Sommersemester 2008 108 Sommersemester 2008 109 4. Induktive Statistik Übersicht 1 Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheoretische Grundlagen 4 Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Grundlagen Grundlagen der induktiven Statistik ◮ Vollerhebung of unmöglich, ◮ Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Beispiel Warensendung von 1000 Stück; darunter M Stück Ausschuss. M ist unbekannt. → Zufällige Entnahme von n = 30 Stück ( Stichprobe“). ” Darunter 2 Stück Ausschuss. Denkbare Zielsetzungen: 2 30 · 1000 = 66,67) ◮ Schätze M durch eine Zahl (z.B. ◮ Schätze ein Intervall für M (z.B. M ∈ [58; 84]) ◮ Teste die Hypothese, dass M > 50 ist. Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 110 Grundlagen Grundbegriffe ◮ Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. ◮ Verteilung von G: F(x) = P(X ≦ x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. ◮ Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. ◮ Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. ◮ Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. → Alle Stichprobenvariablen X1 , . . . , Xn sind iid. ◮ Stichprobenergebnis: n-Tupel der Realisationen der Stichprobenvariablen, (x1 , . . . , xn ). Etschberger (HS Weingarten) Statistik Sommersemester 2008 111 4. Induktive Statistik Grundlagen Wichtige Stichprobenfunktionen ◮ Gegeben: Einfache Stichprobe X1 , . . . , Xn , Beliebige Verteilung, mit E(Xi ) = µ, Var(Xi ) = σ2 Stichprobenfunktion V Bezeichnung E(V) Var(V) n X Merkmalssumme nµ nσ2 Stichprobenmittel µ σ2 n X̄ − µ √ n σ Gauß-Statistik 0 1 n 1 X (Xi − µ)2 n mittlere quadratische Abweichung bezüglich µ 1 n mittlere quadratische Abweichung Xi i=1 X̄ = n 1 X Xi n i=1 i=1 n X (Xi − X̄)2 i=1 n X 1 (Xi − X̄)2 n−1 i=1 √ 2 S= S S2 = X̄ − µ √ n S ◮ σ2 n−1 2 σ n σ2 Stichprobenvarianz Stichproben-Standardabweichung t-Statistik Herleitungen: BB S. 140 Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 112 Grundlagen Testverteilungen ➀ Chi-Quadrat-Verteilung: ◮ Sind X1 , . . . , Xn iid N(0; 1)-verteilte ZV, so wird die Verteilung von Z= n X X2i i=1 als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. ◮ ◮ Kurzschreibweise: Z ∼ χ2 (n) Beispiel: χ2 (30): x0,975 = 46,98 Etschberger (HS Weingarten) Statistik Sommersemester 2008 113 4. Induktive Statistik Grundlagen Testverteilungen: Tabelle der χ2 -Verteilung (BB S. 324) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 114 Grundlagen Testverteilungen ➁ t-Verteilung: ◮ Ist X ∼ N(0; 1), Z ∼ χ2 (n), X, Z unabhängig, so wird die Verteilung von X T=q 1 nZ als t-Verteilung mit n Freiheitsgraden bezeichnet. ◮ ◮ Kurzschreibweise: T ∼ t(n) Beispiel: t(10) x0,6 = 0,260, x0,5 = 0, x0,1 = −x0,9 = −1,372 Etschberger (HS Weingarten) Statistik Sommersemester 2008 115 4. Induktive Statistik Grundlagen Testverteilungen: Tabelle der t-Verteilung (BB S. 320) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 116 Punkt-Schätzung Punkt-Schätzung ◮ Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. ◮ Zum Beispiel: σ von N(10; σ) ◮ Schätzwert: ϑ̂ ◮ Vorgehen: Verwendung einer Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) Beachte: Der Schätzwert ϑ̂ ist die Realisierung der ZV (!) Θ̂. ◮ Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? ➠ Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! ◮ Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X1 , . . . , Xn iid. Etschberger (HS Weingarten) Statistik Sommersemester 2008 117 4. Induktive Statistik Punkt-Schätzung Erwartungstreue und Wirksamkeit ◮ Eine Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) heißt erwartungstreu oder unverzerrt für ϑ, wenn unabhängig vom numerischen Wert von ϑ gilt: E(Θ̂) = ϑ Beispiel Sind Θ̂ = X̄, Θ̂ ′ = X1 +Xn , 2 Θ̂ ′′ = 1 n−1 n P Xi erwartungstreu für µ? i=1 a) Θ̂: E(X̄) = µ ⇒ Θ̂ ist erwartungstreu. 1 n = 2 [E(X1 ) + E(Xn )] = 12 (µ + µ) = µ E X1 +X b) Θ̂ ′ : 2 ⇒ Θ̂ ′ ist erwartungstreu. n n n P P P 1 1 1 n ′′ c) Θ̂ : E n−1 µ 6= µ Xi = n−1 E(Xi ) = n−1 µ = n−1 i=1 ⇒ Θ̂ ′′ i=1 i=1 ist nicht erwartungstreu Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 118 Punkt-Schätzung Erwartungstreue und Wirksamkeit ◮ ◮ Welche der erwartungstreuen Schätzfunktionen Θ̂, Θ̂ ′ ist besser“? ” ′ Von zwei erwartungstreuen Schätzfunktionen Θ̂, Θ̂ für ϑ heißt Θ̂ wirksamer als Θ̂ ′ , wenn unabhängig vom numerischen Wert von ϑ gilt: Var(Θ̂) < Var(Θ̂ ′ ) Beispiel: (Θ̂ = X̄, Θ̂ ′ = Wegen X1 +Xn ) 2 = σ2 n = 14 (σ2 + σ2 ) = σ2 Var(Θ̂) = Var(X̄) Var(Θ̂ ′ ) = Var X1 +X2 2 (falls n > 2) ist Θ̂ wirksamer als Θ̂ ′ . Etschberger (HS Weingarten) Statistik 2 ⇒ Var(Θ̂) < Var(Θ̂ ′ ) Sommersemester 2008 119 4. Induktive Statistik Intervall-Schätzung Intervall-Schätzung ◮ Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer Stichprobe ein Intervall geschätzt werden. ◮ Verwendung der Stichprobenfunktionen Vu , Vo , so dass Vu ≦ Vo und P(Vu ≦ ϑ ≦ Vo ) = 1 − α stets gelten. [Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum Konfidenzniveau 1 − α. ◮ Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der ZV (!) Vu , Vo . ➠ Irrtumswahrscheinlichkeit α (klein, i.d.R. α ≦ 0,1) ◮ Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet? ➠ Hängt von Verteilung von G sowie vom unbekannten Parameter (µ, σ2 ) ab! ◮ Im Folgenden: Einfache Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2 Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 120 Intervall-Schätzung Intervall-Schätzung Wichtiger Spezialfall: Symmetrische Konfidenzintervalle ◮ Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern ◮ übereinstimmende W’keiten für Über-/Unterschreiten des KI, d.h. P(Vu > ϑ) = P(Vo < ϑ) = ◮ α 2 Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des KI. Etschberger (HS Weingarten) Statistik Sommersemester 2008 121 4. Induktive Statistik Intervall-Schätzung Überblick Intervallschätzung (BB S. 172) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 122 Intervall-Schätzung 13.1.1 KI für µ bei Normalverteilung mit bekanntem σ2 Vorgehensweise: Etschberger (HS Weingarten) Statistik Sommersemester 2008 123 4. Induktive Statistik Intervall-Schätzung Intervallschätzung: Beispiel Beispiel Normalverteilung mit σ = 2,4 (x1 , . . . , x9 ) = (184,2; 182,6; 185,3; 184,5; 186,2; 183,9; 185,0; 187,1; 184,4) Gesucht: KI für µ zum Konfidenzniveau 1 − α = 0,99 1. 1 − α = 0,99 2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3; Interpolation) 2 3. x̄ = 1 9 σc √ n = 4. (184,2 + · · · + 184,4) = 184,8 2,4·2,576 √ 9 = 2,06 5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86] Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [182,74; 186,86]. Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 124 Sommersemester 2008 125 Intervall-Schätzung Wichtige Fraktilswerte Wichtige N(0; 1)-Fraktilswerte: α xα 0,9 0,95 0,975 0,99 0,995 1,281552 1,644854 1,959964 2,326348 2,575829 (I.d.R. genügen drei Nachkommastellen.) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Intervall-Schätzung Intervalllänge ◮ Im Fall 13.1.1 gilt offenkundig 2σc L = Vo − Vu = √ n ◮ Welcher Stichprobenumfang n sichert eine vorgegebene (Maximal-)Länge L? ⇒ Nach n auflösen! ⇒ n≧ 2σc L 2 ◮ Eine Halbierung von L erfordert eine Vervierfachung von n! ◮ Angewendet auf letztes Beispiel: L = 4 ⇒n ≧ L = 2 ⇒n ≧ Etschberger (HS Weingarten) 2·2,4·2,576 2 4 2·2,4·2,576 2 2 = 9,556 ⇒ n ≧ 10 = 38,222 ⇒ n ≧ 39 Statistik 4. Induktive Statistik Sommersemester 2008 126 Intervall-Schätzung Konfidenzintervalllänge KI für µ bei Normalverteilung mit unbekanntem σ2 ◮ Vorgehensweise: ◮ Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung verwendet. Etschberger (HS Weingarten) Statistik Sommersemester 2008 127 4. Induktive Statistik Intervall-Schätzung Konfidenzintervalllänge Beispiel: Wie das letzte Beispiel, jedoch σ unbekannt. 1. 1 − α = 0,99 2. t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4) 2 1 9 (184,2 + · · · + 184,4) = 184,8 q s = 18 [(184,22 + · · · + 184,42 ) − 9 · 184,82 ] = 1,31 3. x̄ = 4. sc √ n = 1,31·3,355 √ 9 = 1,47 5. KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27] Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [183,33; 186,27]. Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 128 Intervall-Schätzung Konfidenzintervall für µ bei beliebiger Verteilung ◮ Voraussetzung: n > 30, bzw. falls G dichotom: 5 ≦ n P xi ≦ n − 5 i=1 ◮ Vorgehensweise: ◮ Zu Schritt 3: Manchmal kann anderer Schätzwert σ̂ sinnvoller sein. Etschberger (HS Weingarten) Statistik Sommersemester 2008 129 4. Induktive Statistik Intervall-Schätzung Konfidenzintervall für µ bei beliebiger Verteilung Beispiel: Poisson-Verteilung mit λ (= µ = σ2 ) unbekannt. (x1 , . . . , x40 ) = (3; 8; . . . ; 6) Gesucht: KI für λ zum Konfidenzniveau 1 − α = 0,9 1. 1 − α = 0,9 2. N(0; 1) : c = x1− α2 = x1− 0,1 = x0,95 = 1,645 2 1 (3 + 8 + · · · + 6) = 6,5 40 √ √ σ̂ = x̄ = 6,5 = 2,55 (da σ2 = λ) 2,55 · 1,645 σ̂c √ = 0,66 4. √ = n 40 5. KI = [6,5 − 0,66; 6,5 + 0,66] = [5,84; 7,16] 3. x̄ = Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 130 Sommersemester 2008 131 Intervall-Schätzung 13.2 KI für σ2 bei Normalverteilung ◮ Vorgehensweise: Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Intervall-Schätzung KI für σ2 bei Normalverteilung Beispiel: G ∼ N(µ; σ); (x1 , . . . , x5 ) = (1; 1,5; 2,5; 3; 2) Gesucht: KI für σ2 zum Konfidenzniveau 1 − α = 0,99 1. 1 − α = 0,99 2. χ2 (5) : c1 = x α2 = x0,005 = 0,41; c2 = x1− α2 = x0,995 = 16,75 3. x̄ = 51 (1 + 1,5 + · · · + 2) = 2 5 P (xi − x̄)2 = (1− 2)2 + (1,5− 2)2 + (2,5− 2)2 + (3− 2)2 + (2− 2)2 = 2,5 i=1 4. vu = 2,5 16,75 = 0,15; vo = 2,5 0,41 = 6,10 5. KI = [0,15; 6,10] (Extrem groß, da n klein.) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 132 Signifikanztests Signifikanztests ◮ Vorliegen einer Hypothese über die Verteilung(en) der Grundgesamtheit(en). ◮ Beispiele: - Der Würfel ist fair.“ ” - Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind gleich.“ ” ◮ Die Hypothese soll anhand einer Stichprobe überprüft werden. ◮ Prinzip: - Hypothese verwerfen, wenn signifikanter“ Widerspruch zur Stichprobe. ” - Ansonsten: Hypothese nicht verwerfen. ◮ Eine verworfene Hypothese gilt als statistisch widerlegt. ◮ Nicht-Verwerfung ist dagegen ein Freispruch aus Mangel an Beweisen“. ” Zu Beachten: Nicht-Verwerfung ist kein statistischer Beweis“, dass Hypothese wahr ist! ” ( Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!) ” Etschberger (HS Weingarten) Statistik Sommersemester 2008 133 4. Induktive Statistik Signifikanztests Einstichproben-Gaußtest ◮ Zunächst: - G ∼ N(µ; σ) mit σ bekannt - Einfache Stichprobe X1 , . . . , Xn - (Null-)Hypothese H0 : µ = µ0 ◮ Beispiel: X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5) Nullhypothese H0 : µ = 500, d.h. µ0 = 500 ◮ Je nach Interessenlage sind unterschiedliche Gegenhypothesen möglich: a) b) c) ◮ H1 : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ0 Entscheidung: a) b) c) H0 H1 H1 H1 : : : : µ µ µ µ = 6 = < > µ0 µ0 , µ0 , µ0 , wird abgelehnt gegenüber wenn |x̄ − µ0 | sehr groß“ ist ” wenn x̄ weit kleiner“ als µ0 ist ” wenn x̄ weit größer“ als µ0 ist ” Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 134 Signifikanztests Einstichproben-Gaußtest √ 0 ◮ Alternatives Kriterium: v = x̄−µ n σ ◮ Vorteil: Verteilung bekannt: N(0; 1) Mögliche Fehlentscheidungen ◮ Dann: H0 : µ = µ0 wird abgelehnt gegenüber ◮ Ablehnung von H0 , obwohl H0 richtig ist: Fehler 1. Art ◮ Nicht-Ablehnung von H0 , obwohl H0 falsch ist: Fehler 2. Art a) H1 : µ 6= µ0 , wenn |v| sehr groß“ ist ” b) H1 : µ < µ0 , wenn v sehr negativ“ ist ” c) H1 : µ > µ0 , wenn v sehr positiv“ ist ” ten H0 beibehal htig H 0 ric H0 ablehnen ten H0 beibehal H0 fals ch H0 ablehnen ◮ Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art. Etschberger (HS Weingarten) Statistik Sommersemester 2008 135 4. Induktive Statistik Signifikanztests Einstichproben-Gaußtest ◮ Mithilfe von α und V kann geklärt werden, was sehr groß“ usw. heißt: ” Wahrscheinlichkeit für Fehler 1. Art im Fall a): |v| > x, obwohl H0 richtig: P(|V| > x) = P(V > x) + P(V < −x) = 2 · P(V > x) (Symmetrie der Normalverteilung) ! = 2 · [1 − P(V ≦ x)] = 2 · [1 − Φ(x)] = α ⇐⇒ Φ(x) = 1 − α2 ⇐⇒ x = x1− α2 ◮ H0 wird demnach verworfen, wenn |v| > x1− α2 bzw. v ∈ B ist. B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich. Analoge Vorgehensweise für die Fälle b) und c) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 136 Sommersemester 2008 137 Signifikanztests Einstichproben-Gaußtest ➠ Insgesamt: Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Signifikanztests Einstichproben-Gaußtest Beispiel: X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28 Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau α = 0,01 Lösung: Einstichproben-Gaußtest, Fall a) 1. α = 0,01 2. v = 499,28−500 1,5 · √ 25 = −2,4 3. N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576 ⇒ B = (−∞; −2,576) ∪ (2,576; ∞) 4. v ∈ / B ⇒ H0 nicht verwerfen Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine Abweichung vom Sollwert µ0 = 500 nachgewiesen werden. Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 138 Signifikanztests Aufbau und Klassifikation von Signifikanztests Der jeweils geeignete Test hängt ab von . . . ◮ dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide: - Parametrische Hypothesen: Beziehen sich auf unbekannte(n) Verteilungsparameter (µ, σ2 , . . . ) - Nichtparametrische Hypothesen: Beinhalten sonstige Aussagen, z.B. Alter und Einkommen sind unabh.“ ” ◮ den Voraussetzungen an die Verteilung/parameter (z.B. G ∼ N(µ; σ)) ◮ den Voraussetzungen an den Stichprobenumfang (z.B. n > 30) ◮ Art und Anzahl der Stichproben; unterscheide: - Signifikanztests bei einer einfachen Stichprobe - Signifikanztests bei mehreren unabhängigen Stichproben - Signifikanztests bei zwei verbundenen Stichproben Hier nur einfache Stichproben Etschberger (HS Weingarten) Statistik Sommersemester 2008 139 4. Induktive Statistik Signifikanztests Signifikanztests bei einer einfachen Stichprobe (BB S. 184) Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 140 Signifikanztests Einstichproben-t-Test und approximativer Gaußtest Gegeben: ◮ Einfache Stichprobe X1 , . . . , Xn mit ◮ E(Xi ) = µ, Var(Xi ) = σ2 Hypothesenpaare: a) b) c) H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0 H1 : µ 6= µ0 (oder µ ≧ µ0 ), H1 : µ < µ0 (oder µ ≦ µ0 ), H1 : µ > µ0 Voraussetzungen: 1. Normalverteilung mit σ unbekannt (Einstichproben-t-Test) oder P 2. Beliebige Verteilung mit n > 30 bzw. 5 ≦ xi ≦ n − 5 (bei B(1; p)) (approximativer Gaußtest) Etschberger (HS Weingarten) Statistik Sommersemester 2008 141 4. Induktive Statistik Signifikanztests Einstichproben-t-Test, approx. Gaußtest; Vorgehensweise Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 142 Signifikanztests Einstichproben-t-Test, approx. Gaußtest Beispiel: X1 , . . . , X2000 2000 P 1, falls i-te Person Wähler der Partei ∼ B(1; p) mit Xi = 0, sonst xi = 108 i=1 Prüfe H0 : p ≦ 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 % Lösung: approx. Gaußtest, Fall c); Voraussetzung 2 erfüllt: 5 ≦ 108 ≦ 2000 − 5 1. α = 0,02 2. v = √ 108 2000 −0,05 0,05·(1−0,05) √ 2000 = 0,82 3. N(0; 1) : x1−α = x0,98 = 2,05 (Tab. 3) ⇒ B = (2,05; ∞) 4. v ∈ / B ⇒ H0 nicht verwerfen Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung! Etschberger (HS Weingarten) Statistik Sommersemester 2008 143 4. Induktive Statistik Signifikanztests Chi-Quadrat-Test für die Varianz ◮ Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ) ◮ Hypothesenpaare: a) H0 : σ2 = σ20 b) H0 : σ2 = σ20 c) H0 : σ2 = σ20 ◮ H1 : σ2 6= σ20 (oder σ2 ≧ σ20 ), H1 : σ2 < σ20 (oder σ2 ≦ σ20 ), H1 : σ2 > σ20 Vorgehensweise: Etschberger (HS Weingarten) Statistik 4. Induktive Statistik Sommersemester 2008 144 Signifikanztests Chi-Quadrat-Test für die Varianz Beispiel: G ∼ N(µ; σ) (x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200) Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1 Lösung: χ2 -Test für die Varianz, Fall a); Voraussetzungen erfüllt 1. α = 0,1 2. x̄ = v= 1 10 (2100 + 2130 + · · · + 2200) = 2164 1 2 2 402 [(2100 − 2164) + (2130 − 2164) + · · · + (2200 − 2164)2] = 16,65 3. χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92 (Tab. 5) ⇒ B = [0; 3,33) ∪ (16,92; ∞) 4. v ∈ / B ⇒ H0 nicht verwerfen Etschberger (HS Weingarten) Statistik Sommersemester 2008 145