Induktive Statistik Wahrscheinlichkeit Wahrscheinlichkeiten Wahrer Parameter der Population Schätzung eines Intervalls, in dem der wahre Parameter wahrscheinlich liegt theoret. Häufigkeitsverteilung des Parameters Schätzung der Wahrscheinlichkeitsverteilung des Parameters Schwankungsintervall des Parameters in Stichproben Empirischer Parameter einer einzigen Stichprobe Müller-Benedict: Statistik I/6 Ziel der induktiven Statistik ist die genaue Angabe der “Wahrscheinlichkeit” der Richtigkeit der Übertragung von aus der Stichprobe geschätzten Kennwerten auf die Population. Wahrscheinlichkeit P als empirische Definition ( Laplace, v.Mises), am Beispiel Münzwurf: P („Zahl“) = (Anzahl „Zahl“/ Anzahl Versuche insgesamt) mit Anzahl Versuche -> Wahrscheinlichkeit P als theoretische Definition: Das Spiel „Münzwurf“ ist definiert durch 2 Ereignisse mit folgenden Wahrscheinlichkeiten P ( „Zahl“) = 0.5, P( „Kopf“ ) = 0.5 1 Ereignisse 2 Wahrscheinlichkeit Zufallsexperiment ist ein Versuch, dessen Ergebnis nicht vorhersehbar ist, aber dessen mögliche Ergebnisse bekannt sind. Ein Ereignis ist ein mögliches Ergebnis eines Zufallsexperiments. Ereignisraum heißt die Menge aller möglichen Ergebnisse eines ZufallsExperiments. Für zwei disjunkte Ereignisse A und B gilt P( A „oder“ B) = P(A) + P(B) Sei { Ai } eine Zerlegung des Ereignisraums in disjunkte Ereignisse i und sei eine Funktion P vorhanden, für die gilt: Die Schnittmenge zweier Ereignisse A und B ist das Ereignis „A tritt ein und B tritt auch ein“ Die Vereinigungsmenge zweier Ereignisse A und B ist das Ereignis „A tritt ein oder B tritt ein“ 1. P(Ai) [0;1] 2. P( A ) 1 i alle _ i Dann heißt P(Ai) die Wahrscheinlichkeit des Ereignisses Ai. Disjunkte Ereignisse sind solche mit leeren Schnittmengen; sie können nicht gleichzeitig eintreten. Müller-Benedict: Statistik I/6 Müller-Benedict: Statistik I/6 3 Müller-Benedict: Statistik I/6 4 Wahrscheinlichkeit und relative Häufigkeit Binomialverteilung Gleichheit von relativer Häufigkeit und Wahrscheinlichkeit bei diskreten Merkmalen: Relative Häufigkeit der Ausprägung x in der Population = Wahrscheinlichkeit, dass ein einzelnes zufällig ausgewähltes Element die Ausprägung x besitzt. Bsp.: N Elemente, k davon mit Ausprägung „x“ P(„Element mit x ausgewählt“) = k/N Binomialverteilung In einer GG mit insgesamt N Elementen gebe es K Elemente mit einer bestimmten Ausprägung, ihr Anteil ist also = K/N . Man zieht n Mal ein Element und bestimmt die Anzahl k der dabei gezogenen Elemente mit der bestimmten Ausprägung. Dann ist Gleichheit von Flächenstück und Wahrscheinlichkeit bei stetigen Merkmalen: Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element eine Ausprägung zwischen a und b hat = Fläche über [a; b] unter der Dichtefunktion des Merkmals. Mittelwert von B(n, ) = n, k ~ B(n, ) binomialverteilt mit den Parametern n und . Varianz von B(n, ) = n ( 1 - ). Analogie zur Stichprobe: Umfang = n, Bestimmung der Anzahl k von Fällen mit einer bestimmten Merkmalsausprägung, z.B. „Biologie-StudentIn“, die relative Häufigkeit in der GG hat. Bsp.: Einkommen sei approximativ ~ N( 2300; 1500) P(„zufällig ausgew. Person hat Einkommen < 800“) = Fläche bis (800 – 2300)/1500 unter N(0;1) Müller-Benedict: Statistik I/6 Stichprobe ist eigentlich Ziehen „ohne“ Zurücklegen! Binomialverteilung als Annäherung bei großen Grundgesamtheiten N. 5 Müller-Benedict: Statistik I/6 Unabhängigkeit Bedingte Wahrscheinlichkeit P (B | A) heißt die bedingte Wahrscheinlichkeit von B unter der Bedingung A. Unabhängigkeit der Wahl von „Grün“ vom Geschlecht: P(B | A) = P(B | nicht A) = P(B) = 0,16 Beispiel: 100 Personen, darunter 50 Männer und 50 Frauen (Ereignis A = „Frau“); „Grün“ gewählt (Ereignis B = „Grün“). Frau Grün andere Partei insg Frau 24% 12 76% 38 Mann 8% 4 92% 46 100% 50 insg. 16% 16 84% 84 100% 100 100% 50 Grün andere Partei insg 8 42 50 Mann 8 42 50 insg. 16 84 100 Bei Unabhängigkeit: P(A B ) = P(A)*P(B | A ) = P(A)*P (B)= 0,5*0,16 = 0,08 = 8/100 P (B) = P(„Grün“) = 16 / 100 = 0,16 P( B | A) = P („Grün“ | „Frau“ ) = 12 / 50 = 0,24 P( B | nicht A) = P („Grün“ | „Mann“ ) = 4 / 50 = 0,08 Stochastisch unabhängig heißen zwei Ereignisse A und B, wenn gilt, dass sich die Wahrscheinlichkeit ihres gemeinsamen Auftretens als ihr Produkt ergibt: P( A „und“ B) = P( A B ) = P(A) * P(B) P (A B ) = P(„Frau“ „und“ „Grün“) = P (A)*P (B|A) = 0,5*0,24 = 0,12 = 12/100 Müller-Benedict: Statistik I/6 6 7 Müller-Benedict: Statistik I/6 8 Berechnung der erwarteten Werte bei Unabhängigkeit Natürliche Häufigkeiten Nach Gigerenzer, G.: Das Einmaleins der Skepsis Grün Frau andere Partei X Gesundheits-Screening, z.B. Brustkrebs 125 Mann insg. insg W., dass eine Frau Krebs hat: 0,8 % Wenn eine Frau Krebs hat, ist W. für positiven Test 90% Wenn eine Frau keinen Krebs hat, ist W. für positiven Test 7% („falsch positiv“) 145 40 230 270 A=„hat Krebs“, B=„Test positiv“, P(A) = 0,008, P(B | A) = 0,9, P(B | A) = 0,07 Bei Unabhängigkeit: P(„Grün“ und „Frau“) = P(„Grün“) * P(„Frau“) : X / 270 X Sie als Frau bekommen einen positiven Testbescheid. Wie hoch ist die W., dass Sie tatsächlich Brustkrebs haben ( = P(A | B)) ? = 40/270 * 125/270 = 40 * 125 / 270 Natürliche Häufigkeiten: Baumdiagramm mit 100000 Personen Erwartete Werte bei Unabhängigkeit: 100000 Frauen Grün andere Partei insg Frau 125*40/270 = 18,5 125*230/270 = 106,5 125 Mann 145*40/270 = 21,5 145*230/270 = 123,5 145 insg. 40 230 270 Müller-Benedict: Statistik I/6 800 krank 720 positiv 6944 positiv 92256 negativ P(A | B) = 720 von 720 + 6944 = 0,094 = 9,4% 9 Zufallsvariable, Erwartungswert, Varianz Müller-Benedict: Statistik I/6 10 Wahrscheinlichkeitstheoretische und empirische Begriffe Zufallsvariable ist eine Funktion X, die jedem möglichen Ergebnis i eines Zufallsexperiments eine Zahl Xi zuordnet. Gegenüberstellung empirischer und theoretischer Begriffe WahrscheinlichkeitsEmpirische Häufigkeitsverteilungen, verteilungen, deskriptive Begriffe theoretische Begriffe Merkmal X („Schulbildung“) Ereignisraum („Schulbildung“) Ausprägung/Wert („Haupts.“) Ereignis ( { Haupts. } ) Vercodung (Haupts. = 1, etc.) Zufallsvariable X Person hat Auspräg. k (X=k) Zufallsvariable X hat Wert k Kategoriale Daten: rel. diskrete Wahrscheinlichkeit Häufigkeit p(X=k ) = f(X=k)/N P( X = k) kumulierte Häufigkeit kumulierte Wahrscheinlichkeit F( X < k) = F(k) P( X < k) = F(k) Intervallskalierte Daten: stetige Wahrscheinlichkeit rel. Häufigkeit p( a < x <= b) = P( a < X <= b) = F( b) – F(a) F(b) – F(a) Mittelwert XErwartungswert E(X) Varianz S2 Varianz E( X – E(X))2 Erwartungswert E(X) einer diskreten Zufallsvariable X ist die Summe k E(X) Xi P(Xi ) i1 für eine Zerlegung in k Ereignisse, auf denen X den Wert Xi hat und die die Wahrscheinlichkeit P(Xi) haben. Die Varianz einer Zufallsvariable X ist k Var ( X) E( Xi E( Xi )) ( Xi E( Xi ))2 P( Xi ) 2 i1 Müller-Benedict: Statistik I/6 80 negativ 99200 gesund 11 Müller-Benedict: Statistik I/6 12 Induktive Statistik Repräsentativität statistisch Interpretation eines empirischen Datensatzes in der induktiven Statistik: Die festgestellte Häufigkeitsverteilung eines Merkmals bei n Befragten ist der Ausgang von n Zufallsexperimenten, deren Ergebnisse durch diejenige Wahrscheinlichkeitsverteilung bestimmt sind, die durch die Häufigkeitsverteilung des Merkmals in der Grundgesamtheit gegeben ist. Repräsentativ heißt eine Stichprobe, wenn alle Fälle der Stichprobe ein identisches Zufallsexperiment nach den Voraussetzungen des zentralen Grenzwertsatzes darstellen. Wahrscheinlichkeitsverteilungen der Kennwerte von Stichproben: Die Normalverteilung ist die Wahrscheinlichkeitsverteilung des Mittelwerts aus einer Zufallsstichprobe. Die Binomialverteilung ist die Wahrscheinlichkeitsverteilung eines Anteils einer Merkmalsausprägung in einer Stichprobe. Zentraler Grenzwertsatz Seien Xi , i = 1,...,n ( n > 30) Zufallsvariable mit identischen Verteilungen, mit Erwartungswert E(X) = und Varianz 2, d.h. n unabhängige gleiche Zufallsexperimente. Dann bildet der Mittelwert der Zufallsvariablen, die Summe X n 1 n X N(, i1 i ) n wieder eine Zufallsvariable, die approximativ normalverteilt ist. Müller-Benedict: Statistik I/6 13 Hausaufgabe: 2. a) b) 3. 14 Hausaufgabe: Zum Nacharbeiten der Vorlesung vor den Hausaufgaben: Müller-Benedict, Kap. 7.6, Kap. 8 1. a) b) Müller-Benedict: Statistik I/6 (Fortsetzung 3.:) Ein Studierender wird zufällig ausgewählt. Definieren Sie die Ereignisse A={Ausgewählter Student hat bestanden} und B={Ausgewählter Student ist männlich}. Sind A und B unabhängig voneinander? Besetzen Sie die Zellen mit absoluten Zahlen so, dass das Bestehen unabhängig vom Geschlecht ist. Bei Familien mit 2 Kindern wird die Verteilung des Geschlechts der Kinder untersucht. Bestimmen Sie den Ereignisraum. Berechnen Sie folgende Wahrscheinlichkeiten: - Beide Kinder haben das gleiche Geschlecht, - es gibt mindestens einen Jungen, - es gibt entweder kein oder 2 Mädchen. 4. Eine Gruppe von 10 Studenten von der Universität Kiel und 15 Studenten der Universität Flensburg haben sich für fünf Arbeitsplätze beworben. Dafür werden fünf Studenten aus allen Bewerbern per Zufall ausgewählt. Wie wahrscheinlich ist es, dass: alle ausgewählten Studenten von der Universität Flensburg sind. Berechnen Sie dies zuerst mit der Annahme, dass ein Student mehrmals ausgewählt werden kann, und dann mit der Annahme, dass ein Student nur für einen Arbeitplatz ausgewählt werden kann, maximal 3 Studenten von der Universität Kiel ausgewählt werden (Ein Student kann mehrmals ausgewählt werden). Für eine Gruppe von Studierenden werden die Anteile bestandener und nicht bestandener Klausuren nach Geschlecht in der Tabelle gezeigt. Bestanden Nicht bestanden Mann 24% 16% Frau 36% 24% 5. (Zusatzaufgabe freiwillig) Die Wahrscheinlichkeit, dass ein AKW explodiert (Supergau), ist nach Berechnungen der Reaktorsicherheitskommission 1 Mal in 10000 Jahren. Es werde angenommen, dass ein Supergau jederzeit passieren kann (z.B. wg. Naturkatastrophen), es liege also eine Gleichverteilung vor, in jedem Jahr sei es gleich wahrscheinlich. Es laufen weltweit 400 Atomreaktoren. Wie groß ist die Wahrscheinlichkeit, dass innerhalb von 25 Jahren mindestens eines dieser AKWs einen Supergau hat? (Fortsetzung nächste Seite) Müller-Benedict: Statistik I/6 Im Rahmen eines Forschungsprojektes wurden die Studienleistungen von 1500 Studierenden festgestellt. 300 erbrachten ”nicht ausreichende” Leistungen, 24 schnitten mit ”sehr gut” ab und 90 erreichten die Abschlussnote ”gut”. a) Wie groß ist die Wahrscheinlichkeit, bei zufälliger Auswahl einer Person einen Studierenden mit mindestens ausreichender Studienleistung herauszugreifen? b) Bestimmen Sie die Wahrscheinlichkeit, unter den Studierenden mit mindestens ausreichender Studienleistung einen mit der Note ”sehr gut” herauszugreifen. c) Um den Studienerfolg zu prognostizieren wurde vorher ein Test durchgeführt. Dieser hat stets 85% der später erfolgreich Studierenden als erfolgreich und 90% der nicht erfolgreich Studierenden als nicht erfolgreich ausgewiesen. Wie groß ist die Wahrscheinlichkeit, dass ein durch den Test als erfolgreich bestimmter Studierender tatsächlich erfolgreich ist? 15 Müller-Benedict: Statistik I/6 16