Wochen 1 und 2: Einführung, Wahrscheinlichkeit

Werbung
Wochen 1 und 2: Einführung,
Wahrscheinlichkeit
Teil I
Einführung
WBL 15/17, 20.04.2015
Alain Hauser <[email protected]>
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Berner Fachhochschule, Technik und Informatik
Statistische Probleme: Beispiele
2 / 41
Beispiel 1: Vererbung in Erbsenpflanzen
Experimente Gregor Mendels (1822 – 1884): Züchtung reinerbiger
Erbsenpflanzen mit nur runden oder kantigen Samen (Erbsen)
I
Zum Einstieg: 6 Beispiele “einfacher” statistischer
Fragestellungen
I
Repräsentativ für Inhalte dieses Einführungskurses
Vorlesung basiert auf Kapitel 1 des Skripts.
Quelle: Van Norman (1971)
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
3 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
4 / 41
Beispiel 1: Vererbung in Erbsenpflanzen
Beispiel 1: Vererbung in Erbsenpflanzen
Genetische Erklärung:
I
Bestäubung von Pflanzen der “Parentalgeneration” (P), die aus
runden Erbsen gewachsen sind, mit Pollen solcher, die aus
kantigen Erbsen gewachsen sind
nur runde Erbsen
(“Filialgeneration” F1 )
I
ein Gen steuert Erbsenform; Allel für
runde Erbsen (R) ist dominant
gegenüber Allel für kantige Erbsen
(r)
I
Kreuzung von Pflanzen aus F1
(“Filialgeneration” F2 )
runde und kantige Erbsen
I
Generation P: homozygot, Genotyp
entweder RR oder rr
I
Experiment: runde und kantige Samen nach Kreuzung in F1
zählen
I
Generation F1 : heterozygot, Genotyp
Rr
I
Generation F2 : Genotypen RR, Rr
und rr im Verhältnis 1 : 2 : 1
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
5 / 41
Beispiel 1: Vererbung in Erbsenpflanzen
1
45
12
3.8
2
27
8
3.4
3
24
7
3.4
4
19
10
1.9
5
32
11
2.9
6
26
6
4.3
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
6 / 41
Beispiel 2: Impfung gegen Milzbrand
Daten aus Mendels Experimenten: Anzahl runde und kantige Erbsen
(F2 ) auf 10 Pflanzen der Generation F1 :
Pflanze
rund
kantig
Verhältnis: X : 1
(Quelle:
http://evolpsychology.blogspot.ch/)
7
88
24
3.7
8
22
10
2.2
9
28
6
4.7
10
25
7
3.6
Quelle: Stahel (2002)
Milzbrand: tödliche Infektionskrankheit bei Paarhufern
I
Experiment von Louis Pasteur 1881: 24 Schafe gegen Milzbrand
impfen, 24 ungeimpfte Schafe als Kontrollgruppe
I
Alle 48 Schafe mit Milzbrand infizieren
Resultat:
Stützen diese Zahlen Mendels Vererbungsgesetze? Sind die Zahlen
bloss zufällige Abweichungen des erwarteten Verhältnisses 3 : 1?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
Behandlung
Tot
Überlebt
geimpft
0
24
ungeimpft
24
0
Quelle: Samuels et al. (2012)
7 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
8 / 41
I
Experiment mit Mäusen aus Zuchtlinie mit hoher
Tumor-Inzidenz
I
Eine Gruppe keimfrei aufgezogen, eine Gruppe Escherichia coli
ausgesetzt
Resultat:
Behandlung
Lebertumor
Kein Lebertumor
Anteil mit Lebertumor
E. coli
8
5
62%
I
keimfrei
19
30
39%
Monoaminooxidase (MAO):
Enzym, das in der Steuerung
des Verhaltens eine Rolle
spielt
Studie: MAO-Aktivität in 42
Patienten mit
unterschiedlichen Formen von
Schizophrenie gemessen
●
MAO−Aktivität
10
15
I
Beispiel 4: Monoaminooxidase und Schizophrenie
5
Beispiel 3: Einfluss von Bakterien auf Tumore
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I
(Potkin et al., 1978)
●
●
●
●
●
●
●
●
●
●
II
Schizophrenie−Form
III
Quelle: Mizutani and Mitsuoka (1979)
Sind unterschiedliche Formen der Schizophrenie mit einem
unterschiedlichen Niveau der MAO-Aktivität verknüpft?
Kann man aus diesen Zahlen schliessen, dass E. coli einen Einfluss
auf die Tumorhäufigkeit hat?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
9 / 41
Beispiel 5: Zeit zwischen zwei Impulsen eines Neurons
Abbildung rechts: Verteilung der Zeitintervalle zwischen zwei Impulsen eines Neurons (Nurse, 1981)
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
10 / 41
Beispiel 6: Verteilung von Panini-Bildern
I
Kollege Markus K. ist leidenschaftlicher Sammler von
Panini-Bildern
I
Wahl beim Kauf von Panini-Bildern: einzelne Packung (5
Bilder) oder Box (500 Bilder)?
I
Markus’ Vermutung: Bilder in Box nicht “zufällig” verteilt;
doppelte Bilder werden bewusst vermieden.
I
“Experiment”: Box kaufen, Bilder einkleben. Ergebnis: 477
unterschiedliche Bilder aus 661 möglichen. Ist das mit der
Annahme “zufälliger” Verpackung vereinbar?
Wie könnte man die Verteilung der Intervalle zwischen Neuron-Impulsen modellieren, um sie vorherzusagen oder zu simulieren?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
11 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
12 / 41
Beispiel 6: Verteilung von Panini-Bildern
I
Organisation der Vorlesung
Computer-Simulation: zufällige Stichprobe von 500 Elementen
aus 661 erzeugen; zählen, wie viele unterschiedliche Elemente in
Stichprobe sind.
I
I
I
250000
I
150000
Anzahl Alben
200000
I
I
100000
in einer Million Simulationen
wurde ein so “extremes
Resultat” wie 477
nicht-doppelte Bilder nie
beobachtet!
Bilder werden
“ziemlich sicher” nicht
“zufällig” in Boxen verteilt.
I
I
50000
I
Simulation eine Million mal
wiederholen; Verteilung der
nicht-doppelten Bilder:
0
I
300
350
400
450
500
Anzahl eingeklebter Bilder
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
13 / 41
Kursinhalt
Themen
I
Zufall und Wahrscheinlichkeit
I
Zufallsvariablen, Verteilungen
I
Deskriptive Statistik
I
Schätzung von Parametern
I
Statistische Tests
I
Einfache lineare Regression
Vorlesung (Alain Hauser): montags 08:15 – 10:00 (variabel,
kann auch länger dauern)
Übungen (Sonja Gassner): montags 10:15 – 11:45
2 Übungsserien pro Woche:
Präsenzserie: “Mindest-Soll” der Woche
Zusatzserie: Zusatzaufgaben zur Vertiefung
Parallel zum Einführungskurs: R-Kurs (Lukas Meier), Montag
Nachmittag
Alle Übungen verfügbar unter
http://stat.ethz.ch/wbl/wbl5
“Statistics is learning by doing, not by watching”: versuchen Sie,
die Übungen zeitnah zu lösen, fragen Sie bei Problemen nach!
Verständnisschwierigkeiten werden oft erst beim Lösen von
Aufgaben bemerkt.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
14 / 41
Prüfungen
Fokus des Kurses
I
I
Grundlagenkurs:
Wiederholung (?) der
Grundbegriffe aus
Wahrscheinlichkeit und
Statistik
Basis für weitere WBL-Kurse
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
15 / 41
I
Mittsemester-Prüfung: 01.06.2015, anstelle der Übungen
I
Schlussprüfung: 29.06.2015, anstelle der Übungen
I
Prüfungen werden bestanden oder nicht bestanden; keine Noten
I
Um den Kurs zu bestehen, müssen Mittsemester- und
Schlussprüfung beide bestanden werden
I
Administrative Fragen bitte an Sonja Gassner richten
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
16 / 41
Literatur
Wer steht vor Ihnen?
Dr. Alain Hauser
I
I
Vorlesungsskript: wird von den Autoren für ihre jeweilige
Einführungsvorlesung verwendet. Deckt alle im Kurs
behandelten Themen ab.
Werner Stahel: Statistische Datenanalyse, Vieweg und Sohn,
2012
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
17 / 41
I
Dipl. phys. ETH, MSc. ETH CBB, Dr. sc. ETH
I
Statistiker und Dozent an der Berner Fachhochschule, Technik
und Informatik
I
Lehrbeauftragter der Universität Bern
I
Lehrbeauftragter der ETH Zürich
I
Erfahrung in Biostatistik, kausaler Inferenz, Machine Learning,
rechnergestützter Statistik
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
18 / 41
Lernziele
Sie können. . .
Teil II
Wahrscheinlichkeit
I
. . . die grundlegenden Konzepte der Wahrscheinlichkeitstheorie
erläutern: Ereignis, Grundraum, (bedingte) Wahrscheinlichkeit,
Unabhängigkeit.
I
. . . den Unterschied zwischen frequentistischer und Bayes’scher
Interpretation einer Wahrscheinlichkeit erläutern.
I
. . . Venn-Diagramme zeichnen und lesen.
I
. . . Wahrscheinlichkeitsbäume zeichnen und lesen.
I
. . . bedingte Wahrscheinlichkeiten berechnen, z.B. mit Hilfe des
Satzes von Bayes.
Vorlesungen basieren auf Kapitel 2.1 bis 2.4 im Skript.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
19 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
20 / 41
Wahrscheinlichkeitstheorie
I
Zufallsexperimente
Fast alles, was Daten generiert, ist ein Zufallsexperiment: ein
“Experiment” (naturwissenschaftliches Experiment, Befragung,
Aggregieren von Geschäftszahlen, etc.), dessen Ausgang nicht
vollständig vorhersehbar ist
I
“Experimente” sind zufällig, weil sie bei Wiederholung unter
“gleichen Bedingungen” unterschiedlich ausgehen.
I
Ziel der Wahrscheinlichkeitstheorie: Modellierung von Zufall und
Zufallsexperimenten
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
I
Zufallsexperiment: Experiment, dessen Ausgang nicht exakt
vorhersehbar ist
Gründe für Zufälligkeit:
I
21 / 41
Wichtige Begriffe
I
Inhärenter Zufall: gewisse Prozesse in Natur, Technik und
Gesellschaft sind grundsätzlich nicht exakt vorhersagbar
Unvollständige Kontrolle experimenteller Bedingungen
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
22 / 41
Verknüpfung von Ereignissen
Visualisierung von Ereignissen mit Venn-Diagrammen:
Ω
A
B
Ω
A
B
Definition (Grundraum, Ereignis)
Ein Elementarereignis ω ist ein möglicher Ausgang eines
Zufallsexperiments. Der Grundraum Ω ist die Menge aller
Elementarereignisse eines Zufallsexperiments. Ein Ereignis A ⊂ Ω ist
eine Teilmenge des Grundraums, d.h. eine Menge gewisser
Elementarereignisse.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
23 / 41
Schnittmenge A ∩ B
Ω
A
B
Vereinigung A ∪ B
Komplement Ac
Differenz A \ B
Ω
A
B
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
24 / 41
Weitere Begriffe, Verknüpfungen
Wahrscheinlichkeit
Ereignisse A und B heissen disjunkt, falls A ∩ B = ∅.
Definition (Wahrscheinlichkeitsmass)
Satz (Regeln von de Morgan)
Sei Ω ein Grundraum. Ein Wahrscheinlichkeitsmass ist eine
Funktion P, die jedem Ereignis A ⊂ Ω eine Wahrscheinlichkeit
0 ≤ P(A) ≤ 1 zuordnet mit den folgenden Eigenschaften:
i) 0 ≤ P(A) ≤ 1 für jedes Ereignis A ⊂ Ω
Für Ereignisse A und B gilt (A ∩ B)c = Ac ∪ B c and
(A ∪ B)c = Ac ∩ B c .
ii) P(Ω) = 1
Übung: Beweisen Sie die Regeln mit Hilfe von Venn-Diagrammen!
iii) P(A ∪ B) = P(A) + P(B) für disjunkte Ereignisse A und B.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
25 / 41
26 / 41
Interpretation von Wahrscheinlichkeiten II
I
Bayes’sche Interpretation: P(A) ist ein Mass für den
subjektiven Glauben an eine Aussage
0.2
Frequentistische Interpretation: wenn das Experiment
“häufig” wiederholt wird, tritt Ereignis A in ca. einem Anteil
P(A) der Fälle auf.
0.0
I
fn(A)
0.4 0.6
0.8
1.0
Interpretation von Wahrscheinlichkeiten I
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
0
50
100
150
n
200
250
300
Relative Häufigkeit des Ereignisses A = “Kopf” bei n Münzwürfen
Bayes’sche Interpretation speziell nützlich bei nicht-wiederholbarem
Experiment: z.B. “Wahrscheinlichkeit, an einer Stelle in der Nordsee
Öl zu finden”; “Wahrscheinlichkeit für einen GAU in Mühleberg”.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
27 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
28 / 41
Diskrete Wahrscheinlichkeitsmodelle
Unabhängigkeit
I
Endlicher (oder “abzählbarer”) Grundraum: Ω = {ω1 , ω2 , . . .}
I
Wahrscheinlichkeit
eines Ereignisses A ⊂ Ω:
X
P(A) =
P({ωi })
Definition (Unabhängigkeit)
Ereignisse A und B heissen unabhängig, falls
P(A ∩ B) = P(A) · P(B).
i:ωi ∈A
I
Normierung: P(Ω) =
X
P({ωi }) = 1
i≥1
I
Falls Ω endlich ist, sind oft alle Elementarereignisse gleich
wahrscheinlich; es gilt dann
P(A) =
|A| “günstige” Ausgänge
=
|Ω| “mögliche” Ausgänge
I
Unabhängigkeit von Ereignissen wird oft auf Grund technischer
Überlegungen postuliert
I
Wenn Ereignisse nicht unabhängig sind, können wir aus dem
einen etwas über das andere lernen.
I
Können disjunkte Ereignisse unabhängig sein?
P heisst dann Laplace-Wahrscheinlichkeit
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
29 / 41
Bedingte Wahrscheinlichkeit
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
30 / 41
Rechenregeln für bedingte Wahrscheinlichkeiten
Definition (Bedingte Wahrscheinlichkeit)
A und B seien Ereignisse mit P(B) > 0. Die bedingte
Wahrscheinlichkeit von A gegeben B ist definiert als
P(A | B) =
Solange auf dasselbe Ereignis bedingt wird, gelten Rechenregeln für
Wahrscheinlichkeiten auch für bedingte Wahrscheinlichkeiten:
P(A ∩ B)
.
P(B)
I
0 ≤ P(A | B) ≤ 1
I
P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B), falls A1 und A2
disjunkt
I
P(Ac | B) = 1 − P(A | B)
I
etc.
Ω
A
B
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
31 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
32 / 41
Bedingte Wahrscheinlichkeit und Unabhängigkeit
I
A, B: Ereignisse mit P(A) > 0, P(B) > 0
I
Falls A und B unabhängig sind, gilt P(A ∩ B) = P(A) · P(B)
I
Demnach gilt bei Unabhängigkeit
P(A | B) = P(A)
I
Wahrscheinlichkeitsbäume
und P(B | A) = P(B)
I
Mehrstufiges Zufallsexperiment kann in einem
Wahrscheinlichkeitsbaum dargestellt werden
I
Beispiel: faire Münze dreimal werfen
I
Ereignisse: K1 , K2 , K3 : Kopf im 1., 2., 3. Wurf;
Z1 = K1c , Z2 = K2c , Z3 = K33 : Zahl im 1., 2., 3. Wurf
In Worten: A und B sind unabhängig genau dann, wenn wir aus
A nichts über B lernen können und umgekehrt.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
33 / 41
Wahrscheinlichkeitsbaum: 3 Münzwürfe
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
34 / 41
Rechnen mit Wahrscheinlichkeitsbäumen
0.5 Z3
0.5
Z2
0.5
0.
5
Z1
0.5
K3
0.5 Z3
5
0.
I
1. Pfadregel: Wahrscheinlichkeit eines Elementarereignisses =
Produkt der (bedingten) Wahrscheinlichkeiten auf dessen Pfad
im Baum
I
2. Pfadregel: Wahrscheinlichkeit eines Ereignisses = Summe der
Wahrscheinlichkeiten aller Pfade, die zum Ereignis gehören
I
Wahrscheinlichkeitsbäume nützlich beim Rechnen mit
abhängigen Ereignissen
K2
0.5
K3
0.5
Z
2
0.5
0.5
K1
0.5
0.5
K2
0.5
Z3
Was ist die Wahrscheinlichkeit,
mindestens zweimal in Folge
“Kopf” zu werfen?
K3
Z3
K3
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
35 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
36 / 41
Beispiel: medizinischer Test
Wahrscheinlichkeitsbaum
I
Medizinischer Test für eine seltene Krankheit
I
Test scheint ziemlich präzise: erkennt Krankheit mit 95%
Wahrscheinlichkeit (Sensitivität des Tests), und stellt das
Fehlen der Krankheit mit 90% Wahrscheinlichkeit fest
(Spezifizität des Tests).
I
K
1
0.0
Ereignis K : Person hat Krankheit; T : Test ist positiv (d.h., zeigt
Krankheit an)
I
1% der Bevölkerung ist von Krankheit betriffen: P(K ) = 0.01.
I
Wie gross ist die Wahrscheinlichkeit, dass eine zufällig
ausgewählte Person ein positives Testergebnis erhält?
K
0.9
9
c
K
T|
.95
T 0c
|K
0.0
5
c
K
T|
.1
T c0
|Kc
0.9
P(T ∩ K ) = 0.01 · 0.95 = 0.0095
P(T c ∩ K ) = 0.01 · 0.05 = 5e − 04
P(T ∩ K c ) = 0.99 · 0.1 = 0.099
P(T c ∩ K c ) = 0.99 · 0.9 = 0.891
P(T ) = P(T |K )P(K ) + P(T |K c )P(K c ) = 0.0095 + 0.099 = 0.1085
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
37 / 41
Satz der totalen Wahrscheinlichkeit
Satz (Formel von Bayes)
B1 , B2 , . . . , Bk seien disjunkte Ereignisse mit B1 , B2 , . . . , Bk = Ω.
Dann ist die Wahrscheinlichkeit eines beliebigen Ereignisses A
P(A) =
P(A ∩ Bi ) =
i=1
k
X
A und B seien Ereignisse mit P(A) > 0 und P(B) > 0. Dann gilt:
P(B | A) =
P(A | Bi )P(Bi ) .
i=1
B2
P(A | B) · P(B)
.
P(A)
Im Setting des Satzes der totalen Wahrscheinlichkeit können wir
schreiben
P(A | Bi ) · P(Bi )
P(Bi | A) = Pk
.
j=1 P(A | Bj ) · P(Bj )
Ω
B4
38 / 41
Formel von Bayes
Satz (Satz der totalen Wahrscheinlichkeit)
k
X
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
B6
A
B1
Beispiel: medizinischer Test (Forts.) Angenommen, der medizinische
Test von vorhin gibt Ihnen ein positives Testergebnis. Wie gross ist
die Wahrscheinlichkeit, dass Sie die Krankheit tatsächlich haben?
B5
B3
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
39 / 41
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
40 / 41
Literatur
Takeo Mizutani and Tomotari Mitsuoka. Effect of intestinal bacteria on incidence
of liver tumors in gnotobiotic C3H/He male mice. Journal of the National
Cancer Institute, 63(6):1365–1370, 1979.
Colin A Nurse. Interactions between dissociated rat sympathetic neurons and
skeletal muscle cells developing in cell culture: II. Synaptic mechanisms.
Developmental biology, 88(1):71–79, 1981.
Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt.
Are paranoid schizophrenics biologically different from other schizophrenics?
New England Journal of Medicine, 298(2):61–66, 1978.
Myra L Samuels, Jeffrey A Witmer, and Andrew Schaffner. Statistics for the life
sciences. Pearson Education, 2012.
Werner Alfred Stahel. Statistische Datenanalyse. Vieweg und Sohn,
Braunschweig, 4. edition, 2002.
Richard W Van Norman. Experimental biology. Prentice-Hall, 1971.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
41 / 41
Herunterladen