PDF, 49 KB - Universität Flensburg

Werbung
Induktive Statistik
Wahrscheinlichkeit
Wahrscheinlichkeiten
Wahrer Parameter der
Population
Schätzung eines Intervalls,
in dem der wahre Parameter
wahrscheinlich liegt
theoret. Häufigkeitsverteilung des Parameters
Schätzung der Wahrscheinlichkeitsverteilung des
Parameters
Schwankungsintervall
des Parameters in
Stichproben
Empirischer Parameter
einer einzigen Stichprobe
Müller-Benedict: Statistik I/6
Ziel der induktiven Statistik
ist die genaue Angabe der “Wahrscheinlichkeit” der Richtigkeit
der Übertragung von aus der Stichprobe geschätzten
Kennwerten auf die Population.
Wahrscheinlichkeit P als empirische Definition
( Laplace, v.Mises), am Beispiel Münzwurf:
P („Zahl“) = (Anzahl „Zahl“/ Anzahl Versuche insgesamt)
mit Anzahl Versuche -> 
Wahrscheinlichkeit P als theoretische Definition:
Das Spiel „Münzwurf“ ist definiert durch 2 Ereignisse mit
folgenden Wahrscheinlichkeiten
P ( „Zahl“) = 0.5, P( „Kopf“ ) = 0.5
1
Ereignisse
2
Wahrscheinlichkeit
Zufallsexperiment
ist ein Versuch, dessen Ergebnis nicht vorhersehbar ist, aber
dessen mögliche Ergebnisse bekannt sind.
Ein Ereignis ist ein mögliches Ergebnis eines
Zufallsexperiments.
Ereignisraum 
heißt die Menge aller möglichen Ergebnisse eines ZufallsExperiments.
Für zwei disjunkte Ereignisse A und B gilt
P( A „oder“ B) = P(A) + P(B)
Sei { Ai } eine Zerlegung des Ereignisraums in disjunkte
Ereignisse i und sei eine Funktion P vorhanden, für die gilt:
Die Schnittmenge zweier Ereignisse A und B ist das Ereignis
„A tritt ein und B tritt auch ein“
Die Vereinigungsmenge zweier Ereignisse A und B ist das
Ereignis „A tritt ein oder B tritt ein“
1. P(Ai)  [0;1]
2.
 P( A )  1
i
alle _ i
Dann heißt P(Ai) die Wahrscheinlichkeit des
Ereignisses Ai.
Disjunkte Ereignisse sind solche mit leeren Schnittmengen;
sie können nicht gleichzeitig eintreten.
Müller-Benedict: Statistik I/6
Müller-Benedict: Statistik I/6
3
Müller-Benedict: Statistik I/6
4
Wahrscheinlichkeit und relative Häufigkeit
Binomialverteilung
Gleichheit von relativer Häufigkeit und Wahrscheinlichkeit bei diskreten Merkmalen:
Relative Häufigkeit der Ausprägung x in der Population =
Wahrscheinlichkeit, dass ein einzelnes zufällig ausgewähltes
Element die Ausprägung x besitzt.
Bsp.: N Elemente, k davon mit Ausprägung „x“

P(„Element mit x ausgewählt“) = k/N
Binomialverteilung
In einer GG mit insgesamt N Elementen gebe es K Elemente
mit einer bestimmten Ausprägung, ihr Anteil ist also  = K/N .
Man zieht n Mal ein Element und bestimmt die Anzahl k der
dabei gezogenen Elemente mit der bestimmten Ausprägung.
Dann ist
Gleichheit von Flächenstück und Wahrscheinlichkeit bei
stetigen Merkmalen:
Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element
eine Ausprägung zwischen a und b hat = Fläche über [a; b]
unter der Dichtefunktion des Merkmals.
Mittelwert von B(n, ) = n,
k ~ B(n, ) binomialverteilt mit den Parametern n und .
Varianz von B(n, ) = n  ( 1 - ).
Analogie zur Stichprobe: Umfang = n, Bestimmung der Anzahl k
von Fällen mit einer bestimmten Merkmalsausprägung, z.B.
„Biologie-StudentIn“, die relative Häufigkeit  in der GG hat.
Bsp.: Einkommen sei approximativ ~ N( 2300; 1500)

P(„zufällig ausgew. Person hat Einkommen < 800“)
= Fläche bis (800 – 2300)/1500 unter N(0;1)
Müller-Benedict: Statistik I/6
Stichprobe ist eigentlich Ziehen „ohne“ Zurücklegen! Binomialverteilung als Annäherung bei großen Grundgesamtheiten N.
5
Müller-Benedict: Statistik I/6
Unabhängigkeit
Bedingte Wahrscheinlichkeit
P (B | A) heißt die
bedingte Wahrscheinlichkeit von B unter der Bedingung A.
Unabhängigkeit der Wahl von „Grün“ vom Geschlecht:
P(B | A) = P(B | nicht A) = P(B) = 0,16
Beispiel: 100 Personen, darunter 50 Männer und 50 Frauen
(Ereignis A = „Frau“); „Grün“ gewählt (Ereignis B = „Grün“).
Frau
Grün
andere Partei
insg
Frau
24%
12
76%
38
Mann
8%
4
92%
46
100%
50
insg.
16%
16
84%
84
100%
100
100%
50
Grün
andere Partei
insg
8
42
50
Mann
8
42
50
insg.
16
84
100
Bei Unabhängigkeit:
P(A  B ) = P(A)*P(B | A ) = P(A)*P (B)= 0,5*0,16 = 0,08 = 8/100
P (B) = P(„Grün“) = 16 / 100 = 0,16
P( B | A) = P („Grün“ | „Frau“ ) = 12 / 50 = 0,24
P( B | nicht A) = P („Grün“ | „Mann“ ) = 4 / 50 = 0,08
Stochastisch unabhängig
heißen zwei Ereignisse A und B, wenn gilt, dass sich die
Wahrscheinlichkeit ihres gemeinsamen Auftretens als ihr
Produkt ergibt:
P( A „und“ B) = P( A  B ) = P(A) * P(B)
P (A  B ) = P(„Frau“ „und“ „Grün“) =
P (A)*P (B|A) = 0,5*0,24 = 0,12 = 12/100
Müller-Benedict: Statistik I/6
6
7
Müller-Benedict: Statistik I/6
8
Berechnung der erwarteten Werte bei Unabhängigkeit
Natürliche Häufigkeiten
Nach Gigerenzer, G.: Das Einmaleins der Skepsis
Grün
Frau
andere Partei
X
Gesundheits-Screening, z.B. Brustkrebs
125
Mann
insg.
insg
W., dass eine Frau Krebs hat: 0,8 %
Wenn eine Frau Krebs hat, ist W. für positiven Test 90%
Wenn eine Frau keinen Krebs hat, ist W. für positiven Test 7% („falsch positiv“)
145
40
230
270
A=„hat Krebs“, B=„Test positiv“, P(A) = 0,008, P(B | A) = 0,9, P(B | A) = 0,07
Bei Unabhängigkeit: P(„Grün“ und „Frau“) = P(„Grün“) * P(„Frau“) :
X / 270
X
Sie als Frau bekommen einen positiven Testbescheid. Wie hoch ist
die W., dass Sie tatsächlich Brustkrebs haben ( = P(A | B)) ?
= 40/270 * 125/270
= 40 * 125 / 270
Natürliche Häufigkeiten: Baumdiagramm mit 100000 Personen
Erwartete Werte bei Unabhängigkeit:
100000 Frauen
Grün
andere Partei
insg
Frau
125*40/270
= 18,5
125*230/270
= 106,5
125
Mann
145*40/270
= 21,5
145*230/270
= 123,5
145
insg.
40
230
270
Müller-Benedict: Statistik I/6
800 krank
720 positiv
6944 positiv
92256 negativ
P(A | B) = 720 von 720 + 6944 = 0,094 = 9,4%
9
Zufallsvariable, Erwartungswert, Varianz
Müller-Benedict: Statistik I/6
10
Wahrscheinlichkeitstheoretische und empirische Begriffe
Zufallsvariable ist eine Funktion X, die jedem möglichen
Ergebnis i eines Zufallsexperiments eine Zahl Xi zuordnet.
Gegenüberstellung empirischer und theoretischer Begriffe
WahrscheinlichkeitsEmpirische
Häufigkeitsverteilungen,
verteilungen,
deskriptive Begriffe
theoretische Begriffe
Merkmal X
(„Schulbildung“) Ereignisraum („Schulbildung“)
Ausprägung/Wert („Haupts.“) Ereignis
( { Haupts. } )
Vercodung (Haupts. = 1, etc.) Zufallsvariable X
Person hat Auspräg. k (X=k) Zufallsvariable X hat Wert k
Kategoriale Daten: rel.
diskrete Wahrscheinlichkeit
Häufigkeit p(X=k ) = f(X=k)/N
P( X = k)
kumulierte Häufigkeit
kumulierte Wahrscheinlichkeit
F( X < k) = F(k)
P( X < k) = F(k)
Intervallskalierte Daten:
stetige Wahrscheinlichkeit
rel. Häufigkeit p( a < x <= b) = P( a < X <= b) =
F( b) – F(a)
F(b) – F(a)
Mittelwert XErwartungswert E(X)
Varianz S2
Varianz E( X – E(X))2
Erwartungswert E(X)
einer diskreten Zufallsvariable X ist die Summe
k
E(X)  Xi  P(Xi )
i1
für eine Zerlegung in k Ereignisse, auf denen X den Wert Xi
hat und die die Wahrscheinlichkeit P(Xi) haben.
Die Varianz einer Zufallsvariable X ist
k
Var ( X)  E( Xi  E( Xi ))   ( Xi  E( Xi ))2  P( Xi )
2
i1
Müller-Benedict: Statistik I/6
80 negativ
99200 gesund
11
Müller-Benedict: Statistik I/6
12
Induktive Statistik
Repräsentativität statistisch
Interpretation eines empirischen Datensatzes in der
induktiven Statistik:
Die festgestellte Häufigkeitsverteilung eines Merkmals bei n
Befragten ist der Ausgang von n Zufallsexperimenten, deren
Ergebnisse durch diejenige Wahrscheinlichkeitsverteilung
bestimmt sind, die durch die Häufigkeitsverteilung des
Merkmals in der Grundgesamtheit gegeben ist.
Repräsentativ
heißt eine Stichprobe, wenn alle Fälle der Stichprobe ein
identisches Zufallsexperiment nach den Voraussetzungen des
zentralen Grenzwertsatzes darstellen.
Wahrscheinlichkeitsverteilungen der Kennwerte von
Stichproben:
Die Normalverteilung ist die Wahrscheinlichkeitsverteilung des
Mittelwerts aus einer Zufallsstichprobe.
Die Binomialverteilung ist die Wahrscheinlichkeitsverteilung
eines Anteils einer Merkmalsausprägung in einer Stichprobe.
Zentraler Grenzwertsatz
Seien Xi , i = 1,...,n ( n > 30) Zufallsvariable mit identischen
Verteilungen, mit Erwartungswert E(X) =  und Varianz 2,
d.h. n unabhängige gleiche Zufallsexperimente. Dann bildet
der Mittelwert der Zufallsvariablen, die Summe
X
n
1
n
X  N(,
i1
i

)
n
wieder eine Zufallsvariable, die approximativ normalverteilt ist.
Müller-Benedict: Statistik I/6
13
Hausaufgabe:
2.
a)
b)
3.
14
Hausaufgabe:
Zum Nacharbeiten der Vorlesung vor den Hausaufgaben: Müller-Benedict, Kap. 7.6, Kap. 8
1.
a)
b)
Müller-Benedict: Statistik I/6
(Fortsetzung 3.:) Ein Studierender wird zufällig ausgewählt. Definieren Sie die Ereignisse
A={Ausgewählter Student hat bestanden} und B={Ausgewählter Student ist männlich}. Sind
A und B unabhängig voneinander? Besetzen Sie die Zellen mit absoluten Zahlen so, dass
das Bestehen unabhängig vom Geschlecht ist.
Bei Familien mit 2 Kindern wird die Verteilung des Geschlechts der Kinder untersucht.
Bestimmen Sie den Ereignisraum.
Berechnen Sie folgende Wahrscheinlichkeiten:
- Beide Kinder haben das gleiche Geschlecht, - es gibt mindestens einen Jungen, - es gibt
entweder kein oder 2 Mädchen.
4.
Eine Gruppe von 10 Studenten von der Universität Kiel und 15 Studenten der Universität
Flensburg haben sich für fünf Arbeitsplätze beworben. Dafür werden fünf Studenten aus
allen Bewerbern per Zufall ausgewählt. Wie wahrscheinlich ist es, dass:
alle ausgewählten Studenten von der Universität Flensburg sind. Berechnen Sie dies zuerst
mit der Annahme, dass ein Student mehrmals ausgewählt werden kann, und dann mit der
Annahme, dass ein Student nur für einen Arbeitplatz ausgewählt werden kann,
maximal 3 Studenten von der Universität Kiel ausgewählt werden (Ein Student kann
mehrmals ausgewählt werden).
Für eine Gruppe von Studierenden werden die Anteile bestandener und nicht bestandener
Klausuren nach Geschlecht in der Tabelle gezeigt.
Bestanden
Nicht bestanden
Mann
24%
16%
Frau
36%
24%
5. (Zusatzaufgabe freiwillig) Die Wahrscheinlichkeit, dass ein AKW explodiert (Supergau), ist
nach Berechnungen der Reaktorsicherheitskommission 1 Mal in 10000 Jahren. Es werde
angenommen, dass ein Supergau jederzeit passieren kann (z.B. wg. Naturkatastrophen), es
liege also eine Gleichverteilung vor, in jedem Jahr sei es gleich wahrscheinlich. Es laufen
weltweit 400 Atomreaktoren. Wie groß ist die Wahrscheinlichkeit, dass innerhalb von 25
Jahren mindestens eines dieser AKWs einen Supergau hat?
(Fortsetzung nächste Seite)
Müller-Benedict: Statistik I/6
Im Rahmen eines Forschungsprojektes wurden die Studienleistungen von 1500
Studierenden festgestellt. 300 erbrachten ”nicht ausreichende” Leistungen, 24 schnitten
mit ”sehr gut” ab und 90 erreichten die Abschlussnote ”gut”.
a) Wie groß ist die Wahrscheinlichkeit, bei zufälliger Auswahl einer Person einen Studierenden mit mindestens ausreichender Studienleistung herauszugreifen?
b) Bestimmen Sie die Wahrscheinlichkeit, unter den Studierenden mit mindestens ausreichender Studienleistung einen mit der Note ”sehr gut” herauszugreifen.
c) Um den Studienerfolg zu prognostizieren wurde vorher ein Test durchgeführt. Dieser hat
stets 85% der später erfolgreich Studierenden als erfolgreich und 90% der nicht erfolgreich Studierenden als nicht erfolgreich ausgewiesen. Wie groß ist die Wahrscheinlichkeit,
dass ein durch den Test als erfolgreich bestimmter Studierender tatsächlich erfolgreich ist?
15
Müller-Benedict: Statistik I/6
16
Herunterladen