Statistik I Inhaltsverzeichnis: Teil I: Teil II: Teil III: Teil IV: Teil V: Teil VI: Versuchsplanung Deskriptive Statistik Korrelation und Regression Wahrscheinlichkeitstheorie Variabilität zufälliger Prozesse Stichprobenverfahren Seite 1 Seite 3 Seite 10 Seite 21 Seite 30 Seite 37 Hinweise und Anmerkungen der Herausgeber: Dieses Skript basiert auf unseren Mitschriften der Vorlesung Statistik I vom WS 1996/97 und WS 1997/98. Es soll den uns nachfolgenden Hörern der Vorlesung das Abschreiben der immer wieder gleichen Folien ersparen, so daß man sich intensiv auf den Inhalt konzentrieren kann. An einigen Stellen fügt Herr Olbricht gerne einige Notizen ein, die sich jedoch immer wieder ändern. Es ist also immer noch notwendig, der Vorlesung zu folgen, um die aktuellen Hinweise und Erklärungshilfen zu erhalten. Die Seitenangaben, die immer wieder als Hinweise gegeben werden, beziehen sich auf das Buch von Freedman/ Pisani/ Purves/ Adhikari: Statistics, 2nd Edition (W.W. Norton, 1991). Ergänzend zur Vorlesung wird von dem zuständigen Lehrstuhl jeweils ein Übungsskript herausgegeben. Von uns sei an dieser Stelle nur der Hinweis gegeben, diese Übungen ernst zu nehmen, weil die regelmäßige Übung und das eigenständige Lösen von Aufgaben − auch wenn man nicht immer ein oder das richtige Ergebnis finden sollte − doch sehr zur erfolgreichen Vorbereitung auf die Klausur beiträgt! Auch wenn es sich jetzt gerade etwas oberlehrerhaft angehört hat, aber so waren nun einmal unsere Erfahrungen mit der Vorlesung, den Übungen und der abschließenden für das Vordiplom zählenden Klausur ! Nun möchten wir Euch nur noch viel Spaß und viel Erfolg wünschen !!! Stephanie Neuberg und Alexander Prell Statistik I − Seite 1 Teil I: Versuchsplanung 1. Kontrollierte Experimente Wie gewinnt man „gesicherte Erkenntnisse“ ? → Vergleich unter identischen Bedingungen Zuordnung zu Gruppen (Behandlungsgruppe − Kontrollgruppe): Kontrollierte Zuordnung durch den Experimentator oder Randomisierte Zuordnung, explizit „zufällig“, dies schließt bias, und somit vermengte (confounded) Effekte weitgehend aus. Bsp.: Polio − Impfstoff ist ein randomisierter, kontrollierter doppeltblinder Versuch doppelt − blind: weder Versuchsperson noch Auswerter kennen die Zugehörigkeit zu Kontroll− und Behandlungsgruppe (hier: Verwendung von Placebos) 2. Beobachtungsstudien Manchmal liegt die Zuordnung nicht in der Hand des Experimentators, z. B. Raucher / Nichtraucher Ein vermengender Faktor kann manchmal durch Unterteilung in kleinere homogene Gruppen „kontrolliert“ werden. Statistik I − Seite 2 Teil II: Deskriptive Statistik Ziel: Darstellung und Aufbereitung von Datenmaterial Einordnung: Daten Modell → deskriptive Statistik → Wahrscheinlichkeitstheorie Schluß → analytische Statistik Daten: Untersuchungseinheiten Merkmale (Variablen) Merkmalsausprägungen („Daten“) Klassifikationen: a) Meßskalenniveau − nominal (m, w) ungeordnet − ordinal (1, ..., 6) geordnet − metrisch + Intervallskala → Differenzen sinnvoll + Ratio Skala → Intervallskala mit Nullpunkt, Differenzen und Verhältnisse sinnvoll b) Art des Merkmals − quantitativ („Zahl“) + diskret + stetig − qualitativ („Status, Eigenschaft“) + geordnet + ungeordnet c) Art der Messung − analog − digital ⇒ alle Daten lassen sich numerisch kodieren, d. h. Daten sind ein Haufen von Zahlen. Statistik I − Seite 3 3. Histogramme Bsp.: mathematisches Seminar 10 Teilnehmer mit folgenden Kontoständen in HDM 2, 3, 3, 4, 5, 5, 5, 8, 9, 10 VWL−Vorlesung 271 Teilnehmer mit folgenden Kontoständen in HDM 9, 9, 9, 9, 9, 10, 15, 200, 200, ... Gibt es „mehr“ 9 bei Mathe oder VWL → Vergleiche standardisieren → Prozentwerte a) Stabdiagramm b) Säulendiagramm c) Histogramm − Histogramm stellt Prozentzahlen als Flächen dar − die verteilte Skala ist die „Dichteskala“: → Prozentzahl der Fläche pro Einheit der horizontalen Skala − Höhe des Blocks ergibt sich durch Division: → Höhe * Grundseite = Prozentzahl der Fälle in dem betr. Intervall − die Gesamtfläche ist 1 bzw. 100% ! − Anwendung der Histogramme: Histogramme werden zur Darstellung von Daten und zum Vergleich von Populationen verwendet. Sie werden allerdings schichtweise verglichen. (siehe Beispiele im Buch: Zusammenhang zwischen Blutdruck und Pille, intelligente und dumme Raten) 4. Arithmetisches Mittel und Standardabweichung Beschreibung von Daten durch: a) Lagemaße („typischer Wert“) b) Streuungsmaße („Abweichungen“) Dies ist aber wenig sinnvoll bei mehrgipfligen Histogrammen ! a) Lagemaß: arithmetisches Mittel arithmetisches Mittel = Interpretation und Eigenschaften des arithmetischen Mittels: − balanciert das Histogramm aus − Schwerpunkt der Verteilung − hängt stark von extremen Werten ab (Hebelwirkung) − ungeeignet für stark „schiefe“ Verteilungen Statistik I − Seite 4 Median: − Zentralwert des Histogramms − jeweils 50% der Daten liegen links und rechts vom Median − unempfindlich gegen extreme Werte Modus: − Lage des Gipfels des Histogramms − häufigster Wert b) Streuungsmaß: Standardabweichung root mean square ( r.m.s.) = SD = Eigenschaften der SD: − selbe Einheit wie die Daten − mißt die Streuung der Daten um das Mittel − vielfach liegen 68% der Datenwerte nicht weiter als 1 SD 95% der Datenwerte nicht weiter als 2 SD vom arithmetischen Mittel entfernt 5. Normalapproximation von Histogrammen mathematische Definition: f(x) = graphisch: Glockenkurve Eigenschaften: − symmetrisch um 0 − Fläche unter der Kurve ist 1, bzw. 100% − Fläche zwischen −1 und 1 ist ≈ 68% − Fläche zwischen −2 und 2 ist ≈ 95% − Fläche zwischen −3 und 3 ist ≈ 99% − Fläche außerhalb [−4;4] ist verschwindend klein Verallgemeinerung: Es gibt eigentlich viele Glockenkurven, die sich nur durch die Lage des Scheitelpunktes und die Breite unterscheiden. Die Formel ist: g(x) = Statistik I − Seite 5 Der obige Spezialfall (µ = 0, σ = 1) reicht aus, wenn Standardeinheiten benutzt werden. Standardeinheiten: − geben dasjenige Vielfache der Standardabweichungen an, um das im Wert über ( + ) oder unter ( − ) dem arithmetischen Mittel liegt − Beispiel: HANES− Daten: ave = 63,5, SD = 2,5 Dann ist 68,5 = 63,5 + 2 * 2,5, also +2 in Standardeinheiten 61,0 = 63,5 − 1 * 2,5, also −1 in Standardeinheiten Umgekehrt: −1,5 in Standardeinheiten entspricht 63,5 − 1,5 * 2,5 ≈ 59,75 − Vorteil: man braucht nur eine Glockenkurve und nur eine Tabelle Flächenberechnung: prinzipiell: aber: Integration kein genereller Ausdruck für Integral möglich → daher Verwendung von Tabellen ACHTUNG: unterschiedlicher Aufbau der Tabellen Normalapproximation von Histogrammen: Verfahren: (NV) − Ersetze Histogramme durch die Normalverteilung − Berechne Flächenanteil durch NV Beispiel: Gesucht: MW = 69; SD = 3 Prozentsatz zwischen 63 und 72 ? Bemerkung: − Falls Histogramm der NV− Kurve folgt, fassen ave und SD alle Informationen gut zusammen − gilt nicht immer ! Quantile: Problem: Wie faßt man eine „nichtnormale“ Verteilung zusammen? Beispiel: Einkommensverteilung 1% Quantil: $ 1.300, d.h. 1% verdienen nicht mehr als ... ... ... 99% Quantil: $ 125.600, d.h. ... Statistik I − Seite 6 Definition: Das a % − Quantil ist der Wert, unter dem a % und über dem ( 100 − a ) % der Daten liegen. Spezialfälle: 25% − Quantil: 50% − Quantil: 75% − Quantil: „unteres Quartil“ „Median“ „oberes Quartil“ Streuungsmaß: Quartilsabstand = oberes Quartil − unteres Quartil Deshalb halten wir fest: Ein a % − Quantil ist ein Wert, „unter“ (im Sinne von ≤) dem mindestens a % der Daten und „über“ (im Sinne von ≥) dem mindestens (100 − a) % der Daten liegen. Falls es mehrere solche Werte gibt, bilden diese ein Intervall. Das a % − Quantil ist der Intervallmittelpunkt. 6. Meßfehler a) zufällige Fehler Wie gehen die Zufallsfehler in die Messung ein ? ⇒ Meßwert = wahrer Wert + Zufallsfehler ≈ Mittelwert beschrieben durch die Standardabweichung b) Ausreißer Definition: Effekt: Ein Wert, der zu einem anderen Grundelement gehört aber: Wie wird das festgestellt ? große Standardabweichung, verzerrte Werte → niemals Werte ohne Grund ausschließen, evtl. robuste Verfahren verwenden c) systematische Fehler − stets derselbe Fehler − nicht aus Daten zu entnehmen, höchstens durch Vergleiche Meßwert = wahrer Wert + systematischer Fehler + Zufallsfehler Genauigkeit und Präzision: Genauigkeit bei systematischen Fehler Präzision bei zufälligem Fehler Statistik I − Seite 7 7. Hinweise zur Analyse, Darstellung und Präsentation von Daten und Ergebnissen a) Explorative Datenanalyse Stem − and − Leaf Displays: 5 6 7 8 9 10 5 2 8 ... 5 3 ... ... ... ... ... Bemerkungen: − ist den Histogrammen ähnlich − zeigt die vollen Daten − leichtes Ablesen von Median und Quantilen b) 5 − Number − Summaries Ziel: Gesamteindruck von den Daten Definition: Median unteres Quantil Minimum oberes Quantil Maximum Bemerkung: − mehrfaches Halbieren − häufig etwas anderes definiert mittels huiges (statt Quantilen), aber komplizierter − 7− number− summaries analog Statistik I − Seite 8 c) Boxplots Ziel: 52 zeichnerische Umsetzung der 5− number− summaries 62 = Q1 68,5 = Q2 78 93 = Q3 1. Kasten (Box) aus Median (Q 2) und Quartilen (Q1, Q3) 2. Ablesen des Quartilenabstandes (Q3 − Q1). Anlegen des 1,5− fachen Quartilenabstandes an Q1 bzw. Q3 definiert die „Normalbereiche“. Streiche den extremsten Datenpunkt innerhalb dieser Bereiche. Bemerkung: − auch vertikal möglich − zeigt: a) Zentralwert b) Streuung (durch Q3 − Q1) c) Symmetrie d) Ausreißer − vergleichende Boxplots ⇒ mehrere nebeneinander (oder übereinander) Statistik I − Seite 9 Teil III: Korrelation und Regression 8. Korrelation und Regression a) Streuungsdiagramm (scatter plot) → graphische Darstellung der Beziehung zwischen Größe und Gewicht Aussage: Lage der Datenwolke Form der Datenwolke Assoziation / Neigung Ausreißer b) Korrelationskoeffizient → Beschreibung der Datenwolke durch Kennzahlen − für die x− Werte: arithmetisches Mittel und SD − für die y− Werte: arithmetisches Mittel und SD → steckt den Rahmen ab − Korrelationskoeffizient (r) ist ein relatives Maß (−1 bis +1) der Häufung um eine Gerade − schwer zu interpretieren !!! ⇒ aber je näher an −1 oder +1, desto „stärker“ sind die Datenpunkte um eine Gerade gehäuft c) SD − Gerade (oder SD − Linie) Falls r = 1 (bzw. r = −1) wird eine exakte lineare Beziehung bestehen. Dann kann man (in SD− Einheiten) x und y schnell ineinander umrechnen (vgl. auch Resultate der Übungen). SDx SDy SDy SDx r=1 r = −1 Definition: durch den Punkt (Mittel von x , Mittel von y), mit der Steigung a) falls r > 0 b) − falls r < 0 c) eines der obigen , falls r = 0 Statistik I − Seite 10 d) Berechnung des Korrelationskoeffizienten − x−und y−Werte in SD− Einheiten umrechnen − Mittel der Produkte bilden r = Mittel [( x in SD− Einheiten ) * ( y in SD− Einheiten )] Bemerkung: r > 0: wenn gleichsinnige Abweichungen r < 0: wenn gegensinnige Abweichungen vom Mittelwert vorherrschen ausgeschlossen: Falls SDx = 0 oder SDy = 0, so ist r nicht definiert. Es muß also wenigstens zwei verschiedene x− bzw. y− Werte geben. 9. Mehr über Korrelation a) Eigenschaften des Korrelationskoeffizienten Der Korrelationskoeffizient basiert auf den in SD− Einheiten umgerechneten Werten. Daher bleibt er unverändert !, wenn man − die x−Werte (oder die y−Werte) mit der gleichen positiven Zahl multipliziert → Verzerrung − zu den x−Werten (oder y−Werten) die gleiche Zahl addiert → Verschiebung − die Variablen x und y vertauscht (aber nicht nur einzelne Paare !!!) b) Aussehen der Streuungsdiagramme − kann durchaus verschieden sein, z. B. gespiegelt − kann insbesondere bei unterschiedlichen Standardabweichungen variieren → SD´en „gleich“ denken, wie in Standardbeispiel S. 119 / 121 c) Probleme beim Gebrauch des Korrelationskoeffizienten − kann durch Ausreißer verfälscht werden − zeigt nur lineare Assoziationen ⇒ Deswegen nicht zu verwenden, falls folgende Situationen eintreten: + ++ + + + + + + + + + + + + + Ausreißer nichtlinearer Zusammenhang ⇒ Deshalb ist ein Streuungsdiagramm immer hilfreich !!! Statistik I − Seite 11 d) „ökologische“ Korrelation → Korrelationskoeffizient für Durchschnitte oder Raten, also zusammengefaßte Größen Dies unterdrückt einen Teil der Streuung und übertreibt i. a. die Assoziation (→ problematisch). Beispiel: CC B C B A C B A B A B A A vorher nachher e) Korrelation und Verursachung → Assoziation Ø Kausalbeziehung (Dies folgt schon aus der Symmetrie !) Beispiele: 10. Regression Problemstellung: Größe − Gewicht Anzahl Störche − Anzahl Geburten Welche lineare Beziehung besteht ? → Die SD−Linie ist nicht notwendigerweise der beste Kandidat Bsp.: HANES− Daten für Größe und Gewicht Männer mit der Größe 73 = 70 + 3 (MW) (SD) haben im Durchschnitt das Gewicht 176 = 162 + 0,47 * 30 (MW) (r) (SD) a) Regressionsgerade von y auf x − gibt zu jedem x den Durchschnittswert der zugehörigen y an − geht durch den Punkt (Mittel der x−Werte ; Mittel der y−Werte) − hat die Steigung b) Spezialfälle r = 0: r = 1: r = −1: kein linearer Zusammenhang, Kenntnis von x−Werten ist nutzlos eine Gerade, nämlich die SD−Gerade analog Statistik I − Seite 12 c) Kurve der arithmetischen Mittel Für jeden kleinen vertikalen Streifen um x bildet man den Durchschnitt der dazu gehörigen y−Werte. Dies liefert eine „vergröberte“ Datenwolke bzw. Kurve von Durchschnitten (→ vgl. „ökologische Korrelation) Regressionsgerade: − ist geglättete Form dieser Kurve − sollte nicht zu sehr von der Kurve abweichen; bei deutlicher Nichtlinearität ist (lineare) Regression gefährlich d) Schätzungen für einige x− Werte − problemlos berechenbar mittels Regression − aber sehr bedenklich, wenn extrapoliert wird (über den Bereich der Herkunft der Daten hinaus) Bsp.: Schätzung der Quantilrängen SAT, GPA jeweils „normal“ Korrelationskoeffizient = 0,40 Student Schlau liegt beim SAT beim 90% − Quantil Wo wird er beim GPA liegen ? → Er liegt 1,3 SD über dem Mittel Wird also voraussichtlich 0,40 * 1,3 ≈ 0,5 SD´en über dem Mittel abschließen, d. h. bei ≈ 69%. e) Regressionsfehlschluß Betrachte: dann wird sehr oft: wiederholtes Testen Spitzengruppe im Durchschnitt relativ schlechter Schlußlichtgruppe im Durchschnitt relativ besser Dies trifft zu bei (und liegt an): − „Zwetschgenform“ der Datenwolke − Regression des zweiten Resultats (y) auf das erste (x) sog. Regressionseffekt Bsp.: Größe von Vätern und Söhnen zur Plausibilität: beobachtetes Testergebnis = wahres Ergebnis + Zufallsfehler Statistik I − Seite 13 Annahme: wahres Ergebnis in der Bevölkerung normalverteilt mit Mittel = 100 und SD = 15; ⇒ Zufallsfehler = ± 5 135 145 beobachtet: 140 kann sein: 135 + 5 oder 145 − 5 aber es gibt mehr Leute mit ≈ 135 als wahrem Ergebnis ⇒ Durchschnitt der „Gruppe 140“ wird bei Wiederholung niedriger liegen f) Regressionsfehlschluß Annahme, daß der Regressionseffekt eine „wirkliche“ Ursache hat. g) Die zwei Regressionen Symmetrie: Es gibt auch die Regressionsgerade von x auf y. Diese sagt x−Werte aus gewissen y−Werten hervor. Situation: Regression von x auf y SD− Gerade Regression von y auf x Datenwolke Statt vertikale, jetzt horizontale unterschiedliche Teilbereiche. Streifen. Dies sind Statistik I − Seite 14 11. Der r. m. s.− Fehler bei Regression → Residuen und der r. m. s.− Fehler a) Definitionen Residuum = beobachteter Wert − Vorhersage = vertikaler Abstand zwischen Punkt und Regressionsgerade mit Vorzeichen Beobachteter + Wert Regressionsgerade von y auf x r. m. s.− Fehler der Regressionsgeraden = r. m. s. der Residuen 68% − 95% − Regel Für viele (nicht alle) Streuungsdiagramme gilt: ∼ 68% der Punkte liegen innerhalb ± 1 r. m. s.− Fehler um die Regressionsgerade ∼ 95% der Punkte liegen innerhalb ± 2 r. m. s.− Fehler um die Regressionsgerade Regressionsgerade 1rms Statistik I − Seite 15 b) Zusammenhang mit Mittelwert und SD + + + + Dies ist gerade der Fall „r = 0“ (= unkorreliert). Die Regressionsgerade kann sich den Datenpunkten besser anpassen als eine „nur horizontale“ Gerade bzw.: Korrelation „hilft“ bei der Vorhersage also: r. m. s. der Regressionsgeraden wird ≤ SDy sein c) Berechnung des r. m. s.− Fehlers r. m. s.− Fehler der Regressionsgeraden von y auf x = * SDy (Einheit also wie y) Mittel Regressions gerade von auf x Spezialfälle: r = ± 1 , dann = 0 r = 0, dann = 1 d) PLOTS der Residuen Verfahren: X3 X1 X1 X2 X3 X2 Statistik I − Seite 16 Eigenschaften: a) Mittelwert ist 0 b) Regressionsgerade (der Residuen auf x) ist die x− Achse Ziel: Überprüfung des Modells − alles o. k., dies erwartet man − nichtlinearer, (quadratischer) Anteil − Zeiteffekt (Neukalibrierung) − unterschiedliche Präzision, siehe oben Statistik I − Seite 17 f) Vertikale Streifen Bsp.: Größe von Vätern und Söhnen (siehe S. 179) Histogramme für die Größe der Söhne, deren Väter 64 bzw. 72 inches groß sind. % per inch 67 71 ⇒ verschoben, aber ähnliche Form und gleiche SD´s allgemein heißt dies: Homoskedastizität Das Gegenteil wäre: Heteroskedastizität Dann: unterschiedliche Präzision der Vorhersagen, d. h. der r. m. s.− Fehler stellt nur einen Durchschnitt dar. (Bemerkung: man müßte gewichten.) g) Normalapproximation für vertikale Streifen Voraussetzung: „zwetschgenförmiges“ homoskedastisch etc. Diagramm, ⇒ dann: Insbesondere entspricht jeder vertikale Streifen einer Normalverteilung, etwa so: Verfahren: Man braucht lediglich: neuen Mittelwert neue Standardabweichung Statistik I − Seite 18 Bsp.: x = LSATscore y = first−year score zwetschgenförmiges Diagramm mit Mittel der x = 32, Mittel der y = 68, SDx = 6, SDy = 10 und r = 0,6 Wieviel Prozent der Studenten mit LSAT ≈ 35 hatten first− year scors über 75 ? neues Mittel: 35 = 32 + 0,5 * 6 , also 0,5 SE daher: 68 + 0,6 * 0,5 * 10 = 71 neue SD: * 10 = 8 Also wie gewohnt: = 0,5 SE; ergibt ≈ 31% 12. Die Regressionsgerade a) Steigung und Achsenabschnitt Wir wissen schon: Die Regressionsgerade − geht durch den Punkt (Mittel von x, Mittel von y) − hat die Steigung Regressionsgleichung: y = ax + b mit a= b = ( Mittel von y ) − a * ( Mittel von x ) = Vorhersagewert für x = 0 (Achsenabschnitt) b) Nutzen − Vereinfachung bei häufiger Anwendung − manchmal aber nicht immer) direkte Interpolationsmöglichkeit für a und b (Vorsicht bei Beobachtungsstudien) c) technische Anmerkung (lineare) Regression von y auf x: ⇒ Auflösen nach y (lineare) Regression von x auf y: ⇒ Auflösen nach x Statistik I − Seite 19 d) Methode der kleinsten Quadrate Ziel: Anpassung einer Gerade an Punkte Schätzung der Parameter Idee: zur Vorhersage von y aus x: Minimiere die Summe der quad. vert. Abstände, d. h. minimiere den r. m. s.− Fehler denke nach Lösung: Regressionsgerade von y auf x ! Bsp.: Hooke´sches Gesetz frage Mathematiker Sprechweise: Geschätzt nach der Methode der kleinsten Quadrate („KQ − Schätzer“) e) Sinn und Unsinn von Regression Bsp.: Fläche und Umfang von Rechtecken 20 „typische Rechtecke“ Regressionsgleichung: Fläche = a * Umfang + b − ergibt scheinbar ziemlich brauchbaren Zusammenhang Konsequenz: − stets kritisch prüfen − Situation beachten − Regression ist ein wichtiges, verallgemeinerungsfähiges Hilfsmittel, aber kein Allheilmittel ! Statistik I − Seite 20 Teil IV: Wahrscheinlichkeitstheorie 13. Wahrscheinlichkeit a) Zur „Semantik“ des Begriffs „Wahrscheinlichkeit“ Verwendung: − in der Alltagssprache in sehr vielen Situationen, z. B. Wahrscheinlichkeit für „Regen“ − Bedeutung nicht immer klar z. B. „Überlebenschance 90% bei Operationen“ Historisch: besonders in der Theorie der Glücksspiele, aber auch in der „Stochastik“ = Kunst des vernünftigen Vermuten gemeinsame Eigenschaften: − falls ein Zufallsphänomen über lange Zeit unter den gleichen Bedingungen wiederholt wird, gibt die Wahrscheinlichkeit eines Ereignisses die relative Häufigkeit dieses Ergebnisses in der Zeit an − Wahrscheinlichkeiten werden in Prozent zwischen 0% und 100% ausgedrückt (bzw. zwischen 0 und 1) − Summe der Wahrscheinlichkeiten für ein Ereignis und das Komplementärereignis (d. h. das Ereignis tritt nicht ein) ist 100% Betrachtung auf lange Sicht: Bsp. 1: Urne 1 mit 3 roten und 2 blauen Kugeln sowie Urne 2 mit 30 roten und 20 blauen Kugeln. Eine Kugel wird zufällig gezogen. Bei ROT Gewinn 1 DM. Welche Urne ist günstiger ? → kein Unterschied, da es nur auf das Verhältnis ankommt. Dies ist jeweils (dies gilt nur, wenn das Verhältnis sich nicht ändert). Bsp. 2: Schachtel mit Zetteln 1 , 2 , 3. Wir ziehen zwei Zettel. Der erste ist 3. Dann zwei Varianten: a) Ziehen mit Zurücklegen b) Ziehen ohne Zurücklegen b) Bedingte Wahrscheinlichkeiten Bsp.: Zwei Karten ohne Zurücklegen zufällig ziehen (Kartenspiel mit 52 Karten). Falls die zweite Karte Herz− Dame ist, Gewinn. a) Gewinnchance ? Jede der 52 Karten kann mit der gleichen Wahrscheinlichkeit die zweite sein ⇒ Gewinnchance Statistik I − Seite 21 b) die erste Karte ist Herz− Dame ⇒ Gewinnchance (bei zweiter Ziehung) = 0 c) die erste Karte ist Kreuz− Sieben ⇒ Gewinnchance = In b) und c) bedingte Wahrscheinlichkeit, da sie von Ausgang der ersten Ziehung abhängt. Sprechweise: − Wahrscheinlichkeit eines Ereignisses unter der Bedingung, daß ein anderes Ereignis eingetreten ist − Wahrscheinlichkeit für Ereignis A gegeben Ereignis B Schreibweise: P (A | B) heißt „bedingte Wahrscheinlichkeit von A bei gegebenen B“. Bsp.: einmaliges Ziehen aus 1, 2 (grün) und 3, 4 (rot) ⇒ P (1 | rot) = 0, P (1 | grün) = und P (1) = c) Multiplikationsregel Bsp.: Wie oben (2 Karten aus 52) Wahrscheinlichkeit dafür, daß erste Karte Kreuz−Sieben und die zweite Karte Herz−Dame ist ? ⇒ in der Fälle: erste Karte ist Kreuz−Sieben; in der Fälle: zweite Karte ist Herz− Dame. ⇒ insgesamt: * = Multiplikationsregel: Wk ( zwei Ereignisse treten gemeinsam ein ) = Wk ( erstes Ereignis ) * bedingte Wk ( das zweite Ereignis tritt ein, gegeben das erste Ereignis ) d) Unabhängigkeit Definition: Zwei Ereignisse heißen unabhängig, falls Wahrscheinlichkeit für das Zweite nicht davon beeinflußt wird, ob das erste Ereignis eingetreten ist oder nicht. Oder präziser: Falls die bedingte Wahrscheinlichkeit (zweites Ereignis, gegeben erstes Ereignis) nicht vom Ausgang des ersten Ereignisses abhängt. Statistik I − Seite 22 Beispiele: a) Zweimaliger Wurf einer Münze: unabhängig b) Einmaliges Ziehen aus 1, 2 (grün) und 1, 2 (rot) Wk (rot) = + Wk (rot | 1) = Wk (rot | 2) Wk (grün) = + Wk (grün | 1) = Wk (grün | 2) Farbe und Wert sind unabhängig. c) Einmaliges Zeihen aus 1, 1 (grün) und 2, 2 (rot) Wert verrät die Farbe (wird umgekehrt); nicht unabhängig, also abhängig. e) Unabhängiges Ziehen mit bzw. ohne Zurücklegen → Ziehen mit Zurücklegen in der Regel unabhängig Ziehen ohne Zurücklegen in der Regel abhängig (Beispiele siehe oben) f) Multiplikationsregel bei Unabhängigkeit Wk (zwei Ereignisse treten gemeinsam ein) = Wk (erstes Ereignis tritt ein) * Wk (zweites Ereignis tritt ein) Bsp.: in Teil b) Wk (1rot) = Wk (1) * Wk (rot) = ⇒ erhebliche Vereinfachung−beim Ziehen mit Zurücklegen anwendbar g) Anwendbarkeit von Wahrscheinlichkeitstheorien; Überlegungen häufig identische Wiederholungen → i. d. R. unproblematisch Beispiele: aber: Qualitätskontrolle, Medizin, Glücksspiele Einzelfälle sehr problematisch 14. Mehr über Wahrscheinlichkeit a) Vollständige Listen Für viele Zufallsvorgänge kann man sämtliche Resultate aufschreiben und als gleichwahrscheinlich ansehen (sog. LAPLACE − Experiment). Statistik I − Seite 23 Dann gilt für ein Ereignis: Wk(Ereignis) = relative Häufigkeit des Ereignisses = Bemerkung: etwas zirkulär Beispiele: a) einmaliges Würfeln Wahrscheinlichkeit für eine gerade Zahl ? günstige Fälle: 2, 4, 6 mögliche Fälle: 1, 2, 3, 4, 5, 6 also: Wk (gerade Zahl) = b) zweimal Würfeln Wk (Augensumme 4) = c) dreimal Würfeln Wk (Augensumme 9) = Wk (Augensumme 10) = genauer: mögliche Fälle: 216 (=6*6*6) günstige Fälle für 9: 25 günstige Fälle für 10: 27 (⇒ Betrachtung der günstigen Trippel) b) Additionsregel Definition: Zwei Ereignisse schließen sich gegenseitig aus, wenn sie nicht gleichzeitig eintreten können. Additionsregel: Falls sich die Ereignisse E1 und E2 gegenseitig ausschließen, so gibt Wk (wenigstens E1 oder E2) = Wk (E1) + Wk (E2) Beispiele: a) einmaliges Würfeln Wk (1 oder 2) = Wk (1) + Wk (2) = b) zweimaliges Würfeln Wk (wenigstens einmal die 6) = (beim 1. Wurf die 6 und beim 2. Wurf die 6 schließen sich nicht aus ⇒ Formel nicht anwendbar) direkte Lösung: Statistik I − Seite 24 c) Zur Berechnung von komplexen Wahrscheinlichkeiten Problem: n−maliges Würfeln Gesucht: Wk (wenigstens einmal die 6) = ? (Additionsregel nicht anwendbar (Prüfe n > 6) Lösung: Wk (wenigstens einmal die 6) = 1 − Wk (keinmal die 6) = = 1 − Wk (nicht im 1. Wurf) − ... − Wk (nicht im n− ten Wurf) = = 1 − ()n bei n = 1: bei n = 2: d) Historische Beispiele vgl. Paradox des Chevalier de Méré Ist Gleichwahrscheinlichkeit realistisch ?? e) Baumdiagramme Ziel: Veranschaulichung mehrstufiger Zufallsexperimente Bsp.: Zweimaliger Münzwurf 1/2 1/2 K Wk (KK) = 1/4 K 1/2 Z 1/2 K Wk (ZK) = 1/4 1/2 Z Wk (KZ) = 1/4 * 1/2 Z Wk (ZZ) = 1/4 Wk (wenigstens 1x K) = Wk (KK) + Wk (KZ) + Wk (ZK) = ⇒ Multiplikationsregel und Additionsregel übertragen sich auf den Pfad Allgemeiner: P (B1 | A1) P (A1) B1 A1 P (B2 | A1) B2 * P (A2) A2 also: P (B1 | A1) = Manchmal ist es bequem, mit absoluten Zahlen zu rechnen: Bsp.: Geburtenkontrolle Statistik I − Seite 25 einfacher: Münzwurf, bei K Stopp, bei Z noch einmal und dann Stopp 1/2 K 500 * 1000 1/2 1/2 Z 500 K also: 750 K, 750 Z 250 1/2 Z 250 ⇒ an Wahrscheinlichkeit (Jungen | Mädchen) ändert sich nichts, ich blende nur einen Teil aus f) Berechnung inverser Wahrscheinlichkeiten (Bayes − Theorem) Bsp.: Virusinfektion Bevölkerung: 100 Mio. Infiziert: 10.000 Test: pos. neg. infiziert 99% 1% nicht inf. 2% 98% Ein zufällig ausgewählter Patient hat positives Resultat Bedeutung ? Wahrscheinlichkeit (infiziert | pos. Resultat) Baumdiagramm: 0,0001 0,9999 0,99 pos 0,01 neg inf nicht inf 0,02 0,98 pos neg Wk (infiziert | positiv) = ≈ 0,0049 ≈ 0,5% Wegen der Größe der nicht infizierten Gruppe kommen auch die meisten positiven Resultate aus dieser Gruppe. Statistik I − Seite 26 15. Binominalkoeffizienten a) mathematische Grundlagen n! = n * (n − 1) * ... * 1 Definiere: 0! = 1 n! Möglichkeiten n verschiedene Objekte zuordnen: n Objekte , k und n −k seien gleich Wie viele Anordnungsmöglichkeiten gibt es ? ( ):= Gesprochen: „ n über k“ Der Binominalkoeffizient ( ):= gibt an, wie viele Möglichkeiten es gibt, n Objekte, von denen jeweils k bzw. (n − k) gleich sind, in einer Reihe anzuordnen. (Beachte Konvention: 0! = 1.) b) Binominalformel Situation: − ein Versuch wird n− mal identisch wiederholt − ein bestehendes Ereignis tritt jeweils mit Wahrscheinlichkeit p ein − die Versuche sind unabhängig Aussage: Dann ist die Wahrscheinlichkeit, daß das Ereignis genau k−mal eintritt, durch die Binominalformel * pk * (1 − p) n−k gegeben. Herleitung: Eintreten:= 1; Nicht Eintreten:= 0 Dann: k− mal 1 und (n − k)− mal 0 anordnen. Die Wahrscheinlichkeit für (1, ... , 1, 0, ... , 0) ist pk * (1 − p) n−k und es gibt () Anordnungen ⇒ () * pk * (1 − p) n−k Beispiele: a) zehnmaliger Münzwurf Wk (3x K) = () * ()3 * ()7 = * ()10 = b) zehnmaliges Würfeln Wahrscheinlichkeit (2x 6) = () * ()2 * ()8 c) zweimal Ziehen ohne Zurücklegen aus Schachtel mit vier Zetteln Wk (1x 3) = ? ⇒ nicht unabhängig, daher nicht anwendbar !!! Statistik I − Seite 27 d) viermaliges Münzwerfen Wk (mind. 1x K) = 1 − () * ()0 * ()4 = 1 − ()4 = Teil V: Variabilität zufälliger Prozesse 16. Das Gesetz der großen Zahlen Bsp.: Kerichs Münzwurf−Experiment Resultat: Anzahl der Würfe Würfe Anz. d. Köpfe Anz. Köpfe − * Anz. 10 4 −1 100 44 −6 200 ... 5000 ... 10000 98 ... 2533 ... 5067 −2 ... 33 ... 67 Dies beweist nichts, illustriert aber folgendes: − die Anzahl von K schwankt um * Anzahl der Würfe; es gilt: Anzahl von K = * Anzahl der Würfe + Zufallsfehler − die Größe des Zufallsfehlers nimmt mit steigender Zahl der Würfe zu − bezogen auf die Anzahl der Würfe (d. h. ausgedrückt in % der Wurfanzahl) nimmt die Größe des Zufallsfehlers jedoch ab. − quantitativ ist der Zufallsfehler bei 100 ungefähr 5; bei 10.000 ungefähr 50. Hundertmal mehr Würfe führen also zu einem um den Faktor = 10 vergrößerten Zufallsfehler. − Andersherum: Will man den relativen Fehler halbieren, muß man die Wurfanzahl vervierfachen !!! Ferner illustrieren Kerich´s Resultate: Es gibt keine „Kompensation“ durch das Gesetz der großen Zahlen. Auf eine lange Folge von Kopf muß keineswegs Zahl folgen. Statistik I − Seite 28 Zufallsprozesse und Schachtelmodelle − zufällige Prozesse treten in vielen Formen auf: Münzwurf, Würfeln, Geburt, „Stichprobe“, ... − einheitliche Beschreibung möglich durch: ... Schachtelmodelle und Ziehungen daraus Man sieht: − „zufällig“ (d. h. jeder Zettel mit gleicher Wahrscheinlichkeit) − mit Zurücklegen ⇒ relevante Größe ist die Summe der Ziehungen; Zufallsschwankung kann dann analysiert werden. deren Dazu nötige Angaben: − welche Zahlen treten in der Schachtel auf ? − wie oft kommen sie vor ? − wie oft wird gezogen ? b) Aufstellung eines Schachtelmodells Bsp.: Nevada−Roulette (38 Felder, davon 18 rot, 18 schwarz, 2 grün) 1) 10 mal setzen von $1 auf rot Gewinnquote 1: 1 ⇒ also lauten die Zahlen auf dem Zettel: + 1 Gewinn − 1 Verlust ⇒ insgesamt also: 18 x +1 und 20 x −1 Es wird zehnmal gezogen. → Nettogewinn = Summe der Ziehungen (in $) 2) Fünfmaliges Setzen auf eine einzelne Zahl in neuem Schachtelmodell: 1 x +35 und 37 x −1 Es wird fünfmal gezogen. → Nettogewinn = Summe der Ziehungen (in $) Statistik I − Seite 29 17. Erwartungswert und Standardfehler a) Erwartungswert Hintergrund: für Daten: für Zufallsprozeß: Mittelwert Erwartungswert Standardabweichung Standardfehler Bsp.: 100 Ziehungen aus 1 1 1 5 → 25 * 5 + 75 * 1 = 200 Formel: Erwartungswert für eine Summe der Ziehungen mit Zurücklegen aus einer Schachtel = (Anzahl der Ziehungen) * (Mittelwert der Schachtel) [Mittelwert der Schachtel = arithm. Mittel der Werte in der Schachtel] b) Standardfehler Bsp.: 25x Ziehen mit Zurücklegen aus 0 2 3 4 6 Erwartungswert der Summe: 25 * (0 + 2 + 3 + 4 + 6) = 75 Schwankung ??? Summe = Erwartungswert + Zufallsfehler Größenordnung des Zufallsfehlers ? → Standardfehler („SE“) Formel: Beim Ziehen mit Zurücklegen aus einem Schachtelmodell ist der Standardfehler für die Summe der Ziehungen gleich: * (SD der Schachtel) [SD der Schachtel = Standardabweichung der Werte in der Schachtel] → „Quadratwurzelregel“ Hinweis: SE nimmt zu mit − der Anzahl der Ziehungen − der SD der Schachtel Bemerkung: Oft wird nicht zwischen SD und SE unterschieden Bsp.: siehe oben Statistik I − Seite 30 Mittelwert der Schachtel = 3 SD der Schachtel = = SE für die Summe von 25 Ziehungen: * 2 = 10 also: Summe = 75 + Zufallsfehler (SE = 10) Illustration: siehe Tabelle auf S. 267 Hintergrund: SE wächst nur langsam mit der Anzahl der Ziehungen, weil Fehlerauslöschung (Kompensation) wirksam wird. c) Benutzung der Normalverteilung Bsp.: 25 Ziehungen aus 0 2 3 4 6 Wie viele Werte (der Summe) liegen zwischen 50 und 100 ? Idee: Normalverteilung benutzen Voraussetzung: Anzahl der Ziehungen ist nicht „zu klein“ Verfahren: Umrechnen auf SD−Einheiten Benutzung der Normalverteilung ⇒ Fläche 99 % Bsp.: Gewinnerwartung eines Casinos bei 10.000 Spielen, jeweils 1 DM auf rot Wk (Gewinn des Kasinos ≥ 250 DM) = ??? Schachtel: 20 x +1 und 18 x −1; 10.000 Ziehungen Mittelwert der Schachtel ≈ 0,05 DM SD der Schachtel ≈ 1,00 DM also: Erwartungswert d. Summe ≈ 10.000 * 0,05 DM = 500 DM SE der Summe ≈ * 1,00 DM = 100 DM Statistik I − Seite 31 eine Vereinfachung: Situation: Schachtel mit genau zwei verschiedenen Arten von Zetteln SD der Schachtel = Bsp.: 1 1 1 5 Herleitung: ≈ 1,73 Es reicht, Schachteln mit k Einsen und (n − k) Nullen zu betrachten (wegen Multiplikation und Addition mit Konstanten) Dann gilt: Mittel = SD = = = = d) Klassifikations− und Abzählprobleme Beispiel: 60x Würfeln a) Summe = ??? (Erwartungswert ± SE) Schachtel: 1 2 3 4 5 6, 60 Ziehungen Mittel der Schachtel: 3,5 SD der Schachtel: 1,71 Erwartungswert der Summe: 60 * 3,5 = 210 SE der Summe: * 1,71 ≈ 13 b) Anzahl der 6 = ??? (Erwartungswert ± SE) Dies kann wieder als „Summe“ von Ziehungen geschrieben werden, indem man die Schachtel modifiziert und die günstigen Ereignisse zählt. 1 2 3 4 5 6 ↓ ↓ ↓ ↓ ↓ ↓ 0 0 0 0 0 1 Betrachte 60 Ziehungen; Anzahl der 6 entspricht der Summe der grünen Zettel. Mittelwert der grünen Schachtel = SD der grünen Schachtel = ≈ 0,37 Statistik I − Seite 32 also bei 60 Ziehungen: Anzahl der 6 = Summe der grünen Zettel Erwartungswert: 60 * = 10 SE: * 0,37 ≈ 3 e) Beziehung zum Gesetz der großen Zahl Quadratwurzelregel − Gesetz der großen Zahlen Bsp.: Anzahl der "K" bei n−Münzwürfen Schachtel: 0 1 Mittelwert = , SE = Anzahl der Würfe Erwartungswert ± SE 100 10000 1000000 50 ± 5 5000 ± 50 500000 ± 500 in % der Anzahl der Würfe 50 % ± 5 % 50 % ± 0,5 % 50 % ± 0,05 % 18. Normalapproximation von Wahrscheinlichkeitshistogrammen a) Wahrscheinlichkeitshistogramme Bsp.: n−maliger Münzwurf, bzw. (Summe aus einmaligen) Ziehen aus 0, 1; n−mal wiederholt Fazit: Das Wahrscheinlichkeitshistogramm repräsentiert Wahrscheinlichkeiten durch Flächen. Bei Betrachtung auf lange Sicht nähert sich das Daten−Histogramm immer mehr dem Wahrscheinlichkeits−Histogramm an. (vgl. auch Buch S. 287) b) Normalapproximation für Wahrscheinlichkeits−Histogramme Situation: Summe aus k−maligem Ziehen aus 0 1, n−mal wiederholt für n → ∞: Wahrscheinlichkeits−Histogramm für k → ∞: ??? Fazit: Beim Ziehen aus einem Schachtelmodell nähert sich das Wahrscheinlichkeits−Histogramm für die Summe aus k Ziehungen mit wachsendem k stets der Normalverteilung an. Der Inhalt der Schachtel spielt keine entscheidende Rolle. Statistik I − Seite 33 Bsp.: 100−maliger Münzwurf 1) Wk (45 (K ( 55) = ??? 2) Wk (45 < K < 55) = ??? 3) Wk (K = 50) = ??? Summe aus 100−maligem Ziehen aus 0 1, angenähert normalverteilt mit Erwartungswert = 50 und SE = 5 dann umrechnen auf Standardeinheiten zu 1): 45 ⇒ 44,5 entspricht − 1,1 Standardeinheiten 55 ⇒ 55,5 entspricht + 1,1 Standardeinheiten ⇒ Fläche ≈ 72,87 % zu 2): 45 ⇒ 45,5 entspricht − 0,9 Standardeinheiten 55 ⇒ 54,5 entspricht + 0,9 Standardeinheiten ⇒ Fläche ≈ 63,19 % zu 3): 50 ⇒ 49,5 entspricht − 0,1 Standardeinheiten 50 ⇒ 50,5 entspricht + 0,1 Standardeinheiten ⇒ Fläche ≈ 7,97 % Zusatzbemerkung: − k muß hinreichend groß sein (hängt vom Inhalt der Schachtel ab) − gilt nur für Summen, nicht für Produkte − entscheidende Größen a) Mittelwert der Schachtel b) SD der Schachtel ((0) c) Anzahl der Ziehungen → Dies bestimmt Erwartungswert und SE. Statistik I − Seite 34 Teil VI : Stichprobenverfahren 19. Stichprobenuntersuchung a) Grundbegriffe − Grundgesamtheit (Population) = Menge von Personen, Gegenständen oder Meßwerten, über die man etwas erfahren möchte (z. B. Wähler in Bayern) − Parameter = numerischer Kennwert einer Grundgesamtheit (z. B. Anteil der Wähler der Partei K); i. a. können Parameter nicht exakt bestimmt werden, sondern müssen geschätzt werden. − Stichprobe = Teil der Grundgesamtheit − Statistische Größe = Kennwert einer Stichprobe, kann (nach Ziehen) berechnet werden und zur Schätzung eines Parameters dienen. Rückschluß Ziehen Grundgesamtheit (Parameter) Stichprobe (stat. Größe) b) Probleme − Wie zählt man eine Stichprobe ? − Wie zieht man Rückschlüsse von der Stichprobe auf die Grundgesamtheit ? c) Umfrage des „Literary Digest“ 1936 : Roosevelt Prognose : 43% Resultat : 62% ↔ zu zu London 57% 38% Genauer : Prozentsatz Roosevelt Prognose Digest Prognose Gallup für die D. P. Prognose Gallup Wahlergebnis 43 44 56 62 Statistik I − Seite 35 − Methode Digest 10 Millionen Fragebögen per Post verschickt an Adressen aus Telefonbüchern, Automobilclubs mit dem Rücklauf von 2,4 Millionen − Gallup : Zufallsstichprobe − 50.000 Wähler für die Prognose befragt − 3.000 Wähler für die Prognose der D. P. befragt − Problem bei Digest − Umfrage − Verzerrung durch ungeeignete Auswahl (selection bias) − Verzerrung durch Nichtbeantwortung (non − response bias) − Probleme bei Gallup − keine für die Prognose der D. P. − Nichtbeantwortung für die eigene Prognose (und natürlich das Auswahlproblem) Man sieht : große Stichproben sind nicht notwendigerweise „gut“ !!! und man sollte stets fragen : − Was ist die Grundgesamtheit, was die Parameter ? − Wie wurde Stichprobe ausgewählt ? − Wie hoch war die Antwortrate ? und auch noch : − Wann wurde gefragt ? − Was / Wie wurde gefragt ? − Wer war der Auftraggeber ? d) Beispiel : Präsidentschaftswahlen 1948 in den USA Resultate : Erklärung : Aber : Tabelle 2 auf Seite 309 Es wurden Quotenstichproben verwendet, d. h. innerhalb bestimmter Vorgaben (z. B. Geschlechterverhältnis) suchen die Interviewer die Befragten „nach Gutdünken“ aus. Dies kann einen systematischen Fehler verursachen. (In diesem Fall in Richtung der „Republikaner“); vgl. Tabelle 3 auf Seite 311 ⇒ nicht empfehlenswert !!! Statistik I − Seite 36 e) Wahrscheinlichkeitsmethoden Kennzeichen: Für jedes Individuum kann die Wahrscheinlichkeit berechnet werden, daß es für die Stichprobe ausgewählt wird. einfache Zufallsauswahl (simple random sampling): zufälliges Auswählen (mit gleichen Wahrscheinlichkeiten) „ohne Zurücklegen“ einfach, aber oft nicht praktikabel, da die Grundgesamtheit nicht erfaßt werden kann. mehrstufiges Verfahren (multistage cluster sampling): man wählt zunächst zufällig eine Stadt, Bezirk, usw.; siehe Bsp. Gallup, Seite 313). Klumpenverfahren: man wählt zunächst einen Bezirk, dann ein Haus, aber dann alle Bewohner des Hauses. geschichtete Stichproben: Grundgesamtheit wird zunächst in Schichten unterteilt, aus denen dann separat Stichproben gezogen werden. Bemerkung: − viele Variationen − Auswahlkriterien : Kosten und Zielsetzung der Untersuchung f) Güte der Wahrscheinlichkeitsmethoden Beispiel : Fazit : aber : Gallup Prognosen, Tabelle 4 auf S. 314 erstaunlich gut auch gegenläufige Entwicklungen (mehr Antwortausfall, weniger Stabilität) − Gallup−Fragebogen → S. 317 / 319 − Telefonumfragen Vorteil : Achtung : Ausblick : geringe Kosten Telefonnummernvergabe beachten (Schema ?) → sehr verbreitet auch hier gilt : Schätzung = Parameter + Bias + Zufallsfehler zum Bias (systematischer Fehler) vgl. oben und zum Zufallsfehler vgl. unten (Kapitel 20) Statistik I − Seite 37 20. Zufallsfehler bei Stichprobenverfahren Beispiel : Aus Daten von 6.672 Amerikanern [3.091 (= 46%) Männer und 3.581 (= 54%) Frauen] sollen 100 ausgewählt werden. → einfaches Zufallsmodell a) Wie sieht es dann mit der Anzahl der Männer unter diesen 100 aus ? bias : nicht zu erwarten Zufallsfehler ? SE ? Schachtelmodell : 3.091 x 1 und 3.581 x 0, daraus 100 Ziehungen ohne Zurücklegen Wir betrachten aber zunächst den Fall : 100 Ziehungen mit Zurücklegen ⇒ MW = 0,46 SD = ≈ 0,50 EW = 100 * 0,46 = 46 SE = * 0,5 = 5 ⇒ Man erwartet : 46 ± 5 Männer oder als Prozentsatz 46% ± 5% Um den SE für einen Prozentsatz (in Prozentpunkten) zu bestimmen, rechnet man zunächst mit den absoluten Zahlen und dann auf % um ! ⇒ Was passiert bei 400 Ziehungen ? EW = 400 * 0,46 = 184 SE = * 0,5 = 10 ⇒ Man erwartet 184 ± 10 Männer oder als Prozentsatz ausgedrückt : 46% ± 2,5% also : Multiplikation der Stichprobengröße mit 4 führt zur Division des SE durch = 2 Hintergrund : Gesetz der großen Zahlen, Quadratwurzelregel Mit welcher Wahrscheinlichkeit ist der Anteil der Männer in der Stichprobe zwischen 41% und 51% ⇒ NV− Tabelle ⇒ Fläche ≈ 95% Statistik I − Seite 38 b) Korrekturfaktor − bisher mit Zurücklegen, aber eigentlich ohne Zurücklegen − Bsp.:1,25 Mill. Wähler in RP 12,5 Mill. Wähler in NRW ⇒ Annahme : Anteil der Partei X = 50% Stichprobe 2.500 Wähler für RP (1 von 500) → Wie groß muß die Stichprobe für NRW sein, wenn die Genauigkeit gleich gut sein soll ? Antwort : 2.500 (1 von 5.000 !), denn : RP 625.000 x 1 und 625.000 x 0 NRW 625.0000 x 1 und 625.0000 x 0 Falls wir mit Zurücklegen ziehen, können wir auch 1 x 0 und 1 x 1 betrachten, es ergibt sich jeweils das Gleiche. Beim Ziehen ohne Zurücklegen gibt es einen kleinen Unterschied, es gilt nämlich : SEohne = Korrekturfaktor * SEmit Dabei ist der Korrekturfaktor : Dieser Korrekturfaktor ist meist nahe bei 1. Ausnahme: Stichprobe ist Großteil der Grundgesamtheit. Bemerkung: − andere Prozentsätze der Parteien ändern das Bild der Schachtel kaum (SD bleibt ≈ 0,5) − intuitiv eigentlich klar 21. Zur Genauigkeit von hochgerechneten Prozentsätzen a) Hintergrund bisher: Zufallsfehler beim Ziehen einer Stichprobe nun : Fehler beim Rückschluß auf die Population Bsp.: Wahl eines Bürgermeisters Kandidat „K“ möchte „sichergehen“ 100.000 Wähler → Stichprobe 2.500 ? % Stimmen für K ← 1.328 für K (≅ 53%) ⇒ Schätzung : 53% ± Zufallsfehler Statistik I − Seite 39 b) Schachtelmodell ? x 1 und ? x 0 (in der Bedeutung 1 = für K , 0 = gegen K) mit insgesamt 100.000 Zetteln, aus denen 2.500 Ziehungen vorgenommen werden. Zur Berechnung von SE brauchen wir aber SD der Schachtel. also : SD = Ausweg : wir schätzen SD aus der Stichprobe SD = ≈ 0,5 SE = * 0,5 = 25 ⇒ Schätzung : 53% ± 1% 25 entspricht 1% von 2.500, also Idee war: Verhältnisse in der Stichprobe auf die Schachtel übertragen. Dies ist in Ordnung, wenn die Stichprobe nicht allzu klein ist. Was kann man tun, wenn die Stichprobe zu klein ist ? → Dann kann man SD nicht mehr schätzen, aber abschätzen, d. h. man nimmt den „schlechtesten Fall“ an. Sei p = Anteil der „1“, also ist 1 − p = Anteil der „0“ ⇒ SD = Wie groß kann SD im schlechtesten werden ? SD p(1−p) ¼ max. für p = ½ 1/2 1 p Also : Abschätzung SD ó 0,5 ist möglich Bemerkung : Obige Schätzungen gelten für einfache Zufallsstichproben, nicht ohne weiteres für kompliziertere Stichprobenverfahren. Statistik I − Seite 40 c) Konfidenzintervalle Situation: Prozentsatz in der Stichprobe 53 % = Prozentsatz in ± Zufallsfehler der Population = = = = = 52 % 51 % 55 % 40 % 83 % + + − + − 1% 2% 2% 13 % 30 % Alle diese Situationen sind möglich, aber da SE ≈ 1% sind nicht alle Möglichkeiten in gleicher Weise „zu erwarten“ Idee: Wir fassen die „am ehesten zu erwartenden“ Möglichkeiten in einem Intervall zusammen. Definition: Prozentsatz in der ± 1 SE : 68 % − Konfidenzintervall ± 2 SE : 95% − Konfidenzintervall ± 3 SE : 99% − Konfidenzintervall usw. ( → in Anlehnung an die Normalverteilung) Manchmal sagt man auch : − „Konfidenzintervall zum Niveau x %“ − „x % − Vertrauensintervall“ Bemerkung: nur approximativ zu sehen, da − SE geschätzt und − Normalverteilung benutzt wird d) Interpretation − „mit WK 95% liegt der wahre Prozentsatz für Kandidat K im Intervall [51%; 55 %]“; naheliegend, aber nicht ganz richtig, denn der „wahre“ Prozentsatz liegt fest, er ist keine Zufallsgröße. − zufällig, d. h. von der Stichprobe abhängig, sind die Intervallgrenzen! Statistik I − Seite 41 ⇒ also sollte man sagen : „mit WK 95% überdeckt (enthält) das Intervall [51%; 55 %] den wahren Prozentsatz“ und meinen: „95% aller derart gebildeten Intervalle leisten dies“ ⇒ somit: Aussage über die Qualität der Methode, nicht über den Einzelfall!!! − Bsp.: Abb. 1 auf Seite 352 − Randnotiz: Falls man Wahrscheinlichkeit nicht nur als relative Häufigkeit auffaßt, ist eine andere Interpretation möglich. − WARNUNG: Die obigen Methoden gelten für einfache Zufallsstichproben. Für andere Verfahren erhält man i. a. deutlich schlechtere Ergebnisse. Bsp.: Gallup−Poll Resultate, S. 356 22. Arbeitsmarktstatistik für die USA Hinweis : Details von Interesse, zeigt im wesentlichen : − Komplexität realer Untersuchungen − auftretende Schwierigkeiten a) Stichprobenplan des „current population survey“ 1973 Primary sampling limits (PSU) gruppiert in 715 Schichten 715 PSU werden mit Wahrscheinlichkeitsverfahren gewählt (i. w. proportional zur Bevölkerungszahl). "einige" Ultimate SU (USU) werden mit Wahrscheinlichkeitsverfahren gewählt (i.w. so, daß die Chance für jede Einzelperson gleich ist − und daß alle 51 Staaten mit etwa gleicher Genauigkeit abgedeckt werden). Durchführung : ∼ 67.000 housing units ∼ 53.000 können befragt werden ∼ 115.000 Personen Statistik I − Seite 42 b) Abgrenzungsprobleme Wer ist „arbeitslos“, „arbeitssuchend“, „beschäftigt“ usw. ? ⇒ Aufschlüsselungsproblem : Kriterien ? Gewichtung : Ziel : Reduzierung des Zufallsfehlers Methode : i. w. „nachträgliche Schichtung“ Berechnung der Standardfehler : Es handelt sich um eine Klumpenstichprobe ... 23. Genauigkeit arithmetischer Mittel bisher: Schachtel 0 1 − Schachtel → Ziehungen Summe der Ziehungen EW und SE Normalapproximation → Ziehungen Prozentsatz der „1“ EW und SE Normalapproximation Stichprobe aus → Rückschluß auf Prozentsatz der „1“ in der Grundgesamtheit Grundgesamtheit, 0 1 − Schachtel approximative (Schachtel) (Ziehungen) Konfidenzintervalle dafür jetzt: der Schachtel, Stichprobe aus → Rückschluß auf MW Grundgesamtheit approximative Konfidenz beliebiger intervalle dafür Schachtel (Ziehungen) Bsp.: Schachtel 1 2 3 4 5 6 7, daraus 25 Ziehungen Der (arithmetische) Mittelwert ist ... ± ... ? MW = 4 also EW (für Summe aus 25 Zieh.) = 25 * 4 = 100 SD = 2also SE (für die Summe aus 25 Zieh.) = * 2 = 10 daher: und somit: Summe = 100 ± 10 MW = * SE = 4 ± 0,4 Erinnerung : Änderung von Mittelwert, SD und einer Liste, wenn jede Zahl mit derselben Konstanten multipliziert wird. Statistik I − Seite 43 Resultat : Beim Ziehen aus einem Schachtelmodell gilt : EW des Mittels der Ziehungen = MW der Schachtel SE des Mittels der Ziehungen = a) Normalapproximation entspricht derjenigen für die Summe! Der Faktor () spielt keine Rolle und fällt beim Umrechnen in Standardeinheiten heraus. b) Ziehen aus einer Schachtel 1) oftmalige Wiederholung → Wk−Histogramm 2) Summe einer großen Anzahl von Ziehungen → Wk−Histogramm Normalverteilung 3) oftmalige Wiederholung einer Summe einer großen Anzahl von Ziehungen Daten−Histogramm Bsp.: → Normalverteilung 100 Ziehungen aus obiger Schachtel a) Summe ungefähr : 100 * 4 = 400 ± * 2 = 20 Mittel ungefähr : 400 : 100 = 4 ± 20 : 100 = 0,2 b) Wk (Mittel ≥ 4,2) = → umrechnen in Standardeinheiten ⇒ 1 Standardeinheit ⇒ Fläche ≈ 16 % Vergleich von 25 und 100 Ziehungen (=Effekt des Vervierfachens des Stichprobenumfangs): MW: bleibt unverändert SE: Division durch 2 (Grund : = ) Ziehen ohne Zurücklegen: Seohne = Korrekturfaktor * Semit c) Stichprobenmittel Bsp.: Durchschnittseinkommen von Familien einer Stadt (25.000 Familien); einfache Zufallsstichprobe von 900 Familien MW = 32.400 DM Schätzung : und SE = 18.000 DM 32.400 DM ± ... DM ? Statistik I − Seite 44 SE für die Summe = * SD der Schachtel SD der Schachtel kann wieder aus der Stichprobe geschätzt werden (sog. Bootstrap− Methode): SD der Schachtel ≈ 18.000 DM SE der Summe ≈ * 18.000 DM ≈ 540.000 DM SE des Mittels = = 600 ⇒ 95%− Konfidenzintervall: 32.400 DM ± 600 DM ACHTUNG !!! Dies bedeutet nicht, daß ca. 95% der Familien ein Einkommen von 31.200 DM bis 33.600 DM haben. Sondern für ca. 95% der Stichproben würde ein so gebildetes Intervall den wahren Wert für das Durchschnittseinkommen einschließen. Die Normalapproximation darf i.a. benutzt werden, auch wenn die Daten selbst nicht der Normalverteilung folgen. Bsp.: Stichprobe vom Umfang 400 für das Bildungsniveau (siehe S. 383) d) Verschiedene Standardfehler Für Schachtelmodelle sind zu unterscheiden : SE der Summe = * SD der Schachtel SE des Mittels = SE der Anzahl der „1“ = SE der Summe „1“ für 0 1− Schachtel SE des Prozentsatzes = * 100% beim Rückschluß von der Stichprobe auf die Population muß SD geschätzt werden. WARNUNG : All das gilt nur für einfache Zufallsauswahl !!! Statistik I − Seite 45