Statistik I

Werbung
Statistik I
Inhaltsverzeichnis:
Teil I:
Teil II:
Teil III:
Teil IV:
Teil V:
Teil VI:
Versuchsplanung
Deskriptive Statistik
Korrelation und Regression
Wahrscheinlichkeitstheorie
Variabilität zufälliger Prozesse
Stichprobenverfahren
Seite 1
Seite 3
Seite 10
Seite 21
Seite 30
Seite 37
Hinweise und Anmerkungen der Herausgeber:
Dieses Skript basiert auf unseren Mitschriften der Vorlesung Statistik I vom WS 1996/97 und
WS 1997/98. Es soll den uns nachfolgenden Hörern der Vorlesung das Abschreiben der
immer wieder gleichen Folien ersparen, so daß man sich intensiv auf den Inhalt konzentrieren
kann. An einigen Stellen fügt Herr Olbricht gerne einige Notizen ein, die sich jedoch immer
wieder ändern. Es ist also immer noch notwendig, der Vorlesung zu folgen, um die aktuellen
Hinweise und Erklärungshilfen zu erhalten.
Die Seitenangaben, die immer wieder als Hinweise gegeben werden, beziehen sich auf das
Buch von Freedman/ Pisani/ Purves/ Adhikari: Statistics, 2nd Edition (W.W. Norton, 1991).
Ergänzend zur Vorlesung wird von dem zuständigen Lehrstuhl jeweils ein Übungsskript
herausgegeben. Von uns sei an dieser Stelle nur der Hinweis gegeben, diese Übungen ernst zu
nehmen, weil die regelmäßige Übung und das eigenständige Lösen von Aufgaben − auch
wenn man nicht immer ein oder das richtige Ergebnis finden sollte − doch sehr zur
erfolgreichen Vorbereitung auf die Klausur beiträgt! Auch wenn es sich jetzt gerade etwas
oberlehrerhaft angehört hat, aber so waren nun einmal unsere Erfahrungen mit der Vorlesung,
den Übungen und der abschließenden für das Vordiplom zählenden Klausur !
Nun möchten wir Euch nur noch viel Spaß und viel Erfolg wünschen !!!
Stephanie Neuberg und Alexander Prell
Statistik I − Seite 1
Teil I:
Versuchsplanung
1. Kontrollierte Experimente
Wie gewinnt man „gesicherte Erkenntnisse“ ?
→ Vergleich unter identischen Bedingungen
Zuordnung zu Gruppen (Behandlungsgruppe − Kontrollgruppe):
Kontrollierte Zuordnung durch den Experimentator oder
Randomisierte Zuordnung, explizit „zufällig“, dies schließt bias, und
somit vermengte (confounded) Effekte weitgehend aus.
Bsp.: Polio − Impfstoff
ist ein randomisierter, kontrollierter doppeltblinder Versuch
doppelt − blind: weder Versuchsperson noch Auswerter kennen die
Zugehörigkeit zu Kontroll− und Behandlungsgruppe
(hier: Verwendung von Placebos)
2. Beobachtungsstudien
Manchmal liegt die Zuordnung nicht in der Hand des Experimentators, z. B.
Raucher / Nichtraucher
Ein vermengender Faktor kann manchmal durch Unterteilung in kleinere
homogene Gruppen „kontrolliert“ werden.
Statistik I − Seite 2
Teil II:
Deskriptive Statistik
Ziel:
Darstellung und Aufbereitung von Datenmaterial
Einordnung:
Daten
Modell
→ deskriptive Statistik
→ Wahrscheinlichkeitstheorie
Schluß
→ analytische Statistik
Daten:
Untersuchungseinheiten
Merkmale (Variablen)
Merkmalsausprägungen („Daten“)
Klassifikationen:
a) Meßskalenniveau
− nominal (m, w) ungeordnet
− ordinal (1, ..., 6) geordnet
− metrisch
+ Intervallskala
→ Differenzen sinnvoll
+ Ratio Skala → Intervallskala mit Nullpunkt, Differenzen
und Verhältnisse sinnvoll
b) Art des Merkmals
− quantitativ („Zahl“)
+ diskret
+ stetig
− qualitativ („Status, Eigenschaft“)
+ geordnet
+ ungeordnet
c) Art der Messung
− analog
− digital
⇒ alle Daten lassen sich numerisch kodieren, d. h. Daten sind ein Haufen von
Zahlen.
Statistik I − Seite 3
3. Histogramme
Bsp.:
mathematisches Seminar
10 Teilnehmer mit folgenden Kontoständen in HDM
2, 3, 3, 4, 5, 5, 5, 8, 9, 10
VWL−Vorlesung
271 Teilnehmer mit folgenden Kontoständen in HDM
9, 9, 9, 9, 9, 10, 15, 200, 200, ...
Gibt es „mehr“ 9 bei Mathe oder VWL
→ Vergleiche standardisieren → Prozentwerte
a) Stabdiagramm
b) Säulendiagramm
c) Histogramm
− Histogramm stellt Prozentzahlen als Flächen dar
− die verteilte Skala ist die „Dichteskala“:
→ Prozentzahl der Fläche pro Einheit der horizontalen Skala
− Höhe des Blocks ergibt sich durch Division:
→ Höhe * Grundseite = Prozentzahl der Fälle in dem betr.
Intervall
− die Gesamtfläche ist 1 bzw. 100% !
− Anwendung der Histogramme:
Histogramme werden zur Darstellung von Daten und zum
Vergleich von Populationen verwendet. Sie werden allerdings
schichtweise verglichen.
(siehe Beispiele im Buch: Zusammenhang zwischen Blutdruck
und Pille, intelligente und dumme Raten)
4. Arithmetisches Mittel und Standardabweichung
Beschreibung von Daten durch:
a) Lagemaße
(„typischer Wert“)
b) Streuungsmaße
(„Abweichungen“)
Dies ist aber wenig sinnvoll bei mehrgipfligen Histogrammen !
a) Lagemaß: arithmetisches Mittel
arithmetisches Mittel =
Interpretation und Eigenschaften des arithmetischen Mittels:
− balanciert das Histogramm aus
− Schwerpunkt der Verteilung
− hängt stark von extremen Werten ab (Hebelwirkung)
− ungeeignet für stark „schiefe“ Verteilungen
Statistik I − Seite 4
Median:
− Zentralwert des Histogramms
− jeweils 50% der Daten liegen links und rechts vom
Median
− unempfindlich gegen extreme Werte
Modus:
− Lage des Gipfels des Histogramms
− häufigster Wert
b) Streuungsmaß: Standardabweichung
root mean square ( r.m.s.) =
SD =
Eigenschaften der SD:
− selbe Einheit wie die Daten
− mißt die Streuung der Daten um das Mittel
− vielfach liegen
68% der Datenwerte nicht weiter als 1 SD
95% der Datenwerte nicht weiter als 2 SD
vom arithmetischen Mittel entfernt
5. Normalapproximation von Histogrammen
mathematische Definition:
f(x) =
graphisch: Glockenkurve
Eigenschaften:
− symmetrisch um 0
− Fläche unter der Kurve ist 1, bzw. 100%
− Fläche zwischen −1 und 1 ist ≈ 68%
− Fläche zwischen −2 und 2 ist ≈ 95%
− Fläche zwischen −3 und 3 ist ≈ 99%
− Fläche außerhalb [−4;4] ist verschwindend klein
Verallgemeinerung:
Es gibt eigentlich viele Glockenkurven, die sich nur durch die Lage des
Scheitelpunktes und die Breite unterscheiden.
Die Formel ist:
g(x) =
Statistik I − Seite 5
Der obige Spezialfall (µ = 0, σ = 1) reicht aus, wenn Standardeinheiten
benutzt werden.
Standardeinheiten:
− geben dasjenige Vielfache der Standardabweichungen an, um das im
Wert über ( + ) oder unter ( − ) dem arithmetischen Mittel liegt
− Beispiel: HANES− Daten: ave = 63,5, SD = 2,5
Dann ist 68,5 = 63,5 + 2 * 2,5, also +2 in Standardeinheiten
61,0 = 63,5 − 1 * 2,5, also −1 in Standardeinheiten
Umgekehrt: −1,5 in Standardeinheiten entspricht 63,5 − 1,5 * 2,5 ≈
59,75
− Vorteil: man braucht nur eine Glockenkurve und nur eine Tabelle
Flächenberechnung:
prinzipiell:
aber:
Integration
kein genereller Ausdruck für Integral möglich
→ daher Verwendung von Tabellen
ACHTUNG: unterschiedlicher Aufbau der Tabellen
Normalapproximation von Histogrammen:
Verfahren:
(NV)
− Ersetze Histogramme durch die Normalverteilung
− Berechne Flächenanteil durch NV
Beispiel:
Gesucht:
MW = 69; SD = 3
Prozentsatz zwischen 63 und 72 ?
Bemerkung: − Falls Histogramm der NV− Kurve folgt, fassen ave und
SD alle Informationen gut zusammen
− gilt nicht immer !
Quantile:
Problem: Wie faßt man eine „nichtnormale“ Verteilung zusammen?
Beispiel:
Einkommensverteilung
1% Quantil: $ 1.300, d.h. 1% verdienen nicht mehr als
...
...
...
99% Quantil: $ 125.600, d.h. ...
Statistik I − Seite 6
Definition:
Das a % − Quantil ist der Wert, unter dem a % und über
dem ( 100 − a ) % der Daten liegen.
Spezialfälle: 25% − Quantil:
50% − Quantil:
75% − Quantil:
„unteres Quartil“
„Median“
„oberes Quartil“
Streuungsmaß: Quartilsabstand = oberes Quartil − unteres Quartil
Deshalb halten wir fest:
Ein a % − Quantil ist ein Wert, „unter“ (im Sinne von ≤) dem
mindestens a % der Daten und „über“ (im Sinne von ≥) dem
mindestens (100 − a) % der Daten liegen.
Falls es mehrere solche Werte gibt, bilden diese ein Intervall.
Das a % − Quantil ist der Intervallmittelpunkt.
6. Meßfehler
a) zufällige Fehler
Wie gehen die Zufallsfehler in die Messung ein ?
⇒ Meßwert = wahrer Wert + Zufallsfehler
≈

Mittelwert
beschrieben durch
die Standardabweichung
b) Ausreißer
Definition:
Effekt:
Ein Wert, der zu einem anderen Grundelement gehört
aber: Wie wird das festgestellt ?
große Standardabweichung, verzerrte Werte
→ niemals Werte ohne Grund ausschließen, evtl. robuste
Verfahren verwenden
c) systematische Fehler
− stets derselbe Fehler
− nicht aus Daten zu entnehmen, höchstens durch Vergleiche
Meßwert = wahrer Wert + systematischer Fehler + Zufallsfehler
Genauigkeit und Präzision:
Genauigkeit bei systematischen Fehler
Präzision bei zufälligem Fehler
Statistik I − Seite 7
7. Hinweise zur Analyse, Darstellung und Präsentation von Daten und
Ergebnissen
a) Explorative Datenanalyse
Stem − and − Leaf Displays:
5
6
7
8
9
10
5 2 8 ...
5 3 ...
...
...
...
...
Bemerkungen:
− ist den Histogrammen ähnlich
− zeigt die vollen Daten
− leichtes Ablesen von Median und Quantilen
b) 5 − Number − Summaries
Ziel:
Gesamteindruck von den Daten
Definition:
Median
unteres Quantil
Minimum
oberes Quantil
Maximum
Bemerkung:
− mehrfaches Halbieren
− häufig etwas anderes definiert mittels huiges (statt Quantilen),
aber komplizierter
− 7− number− summaries analog
Statistik I − Seite 8
c) Boxplots
Ziel:

52
zeichnerische Umsetzung der 5− number− summaries

62
= Q1

68,5
= Q2

78

93
= Q3
1. Kasten (Box) aus Median (Q 2) und Quartilen (Q1, Q3)
2. Ablesen des Quartilenabstandes (Q3 − Q1). Anlegen des 1,5−
fachen Quartilenabstandes an Q1 bzw. Q3 definiert die
„Normalbereiche“. Streiche den extremsten Datenpunkt
innerhalb dieser Bereiche.
Bemerkung:
− auch vertikal möglich
− zeigt:
a) Zentralwert
b) Streuung (durch Q3 − Q1)
c) Symmetrie
d) Ausreißer
− vergleichende Boxplots
⇒ mehrere nebeneinander (oder übereinander)
Statistik I − Seite 9
Teil III:
Korrelation und Regression
8. Korrelation und Regression
a) Streuungsdiagramm (scatter plot)
→ graphische Darstellung der Beziehung zwischen Größe und Gewicht
Aussage:
Lage der Datenwolke
Form der Datenwolke
Assoziation / Neigung
Ausreißer
b) Korrelationskoeffizient
→ Beschreibung der Datenwolke durch Kennzahlen
− für die x− Werte: arithmetisches Mittel und SD
− für die y− Werte: arithmetisches Mittel und SD
→ steckt den Rahmen ab
− Korrelationskoeffizient (r) ist ein relatives Maß (−1 bis +1) der
Häufung um eine Gerade
− schwer zu interpretieren !!!
⇒ aber je näher an −1 oder +1, desto „stärker“ sind die
Datenpunkte um eine Gerade gehäuft
c) SD − Gerade (oder SD − Linie)
Falls r = 1 (bzw. r = −1) wird eine exakte lineare Beziehung bestehen.
Dann kann man (in SD− Einheiten) x und y schnell ineinander
umrechnen (vgl. auch Resultate der Übungen).
SDx
SDy
SDy
SDx
r=1
r = −1
Definition:
durch den Punkt (Mittel von x , Mittel von y), mit der Steigung
a)
falls r > 0
b)
−
falls r < 0
c)
eines der obigen , falls r = 0
Statistik I − Seite 10
d) Berechnung des Korrelationskoeffizienten
− x−und y−Werte in SD− Einheiten umrechnen
− Mittel der Produkte bilden
r = Mittel [( x in SD− Einheiten ) * ( y in SD− Einheiten )]
Bemerkung:
r > 0: wenn gleichsinnige Abweichungen
r < 0: wenn gegensinnige Abweichungen
vom Mittelwert vorherrschen
ausgeschlossen:
Falls SDx = 0 oder SDy = 0, so ist r nicht definiert. Es
muß also wenigstens zwei verschiedene x− bzw. y−
Werte geben.
9. Mehr über Korrelation
a) Eigenschaften des Korrelationskoeffizienten
Der Korrelationskoeffizient basiert auf den in SD− Einheiten
umgerechneten Werten. Daher bleibt er unverändert !, wenn man
− die x−Werte (oder die y−Werte) mit der gleichen positiven
Zahl multipliziert
→ Verzerrung
− zu den x−Werten (oder y−Werten) die gleiche Zahl addiert
→ Verschiebung
− die Variablen x und y vertauscht (aber nicht nur einzelne
Paare !!!)
b) Aussehen der Streuungsdiagramme
− kann durchaus verschieden sein, z. B. gespiegelt
− kann insbesondere bei unterschiedlichen Standardabweichungen
variieren
→ SD´en „gleich“ denken, wie in Standardbeispiel S. 119 / 121
c) Probleme beim Gebrauch des Korrelationskoeffizienten
− kann durch Ausreißer verfälscht werden
− zeigt nur lineare Assoziationen
⇒ Deswegen nicht zu verwenden, falls folgende Situationen eintreten:
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
Ausreißer
nichtlinearer
Zusammenhang
⇒ Deshalb ist ein Streuungsdiagramm immer hilfreich !!!
Statistik I − Seite 11
d) „ökologische“ Korrelation
→ Korrelationskoeffizient für Durchschnitte oder Raten, also
zusammengefaßte Größen
Dies unterdrückt einen Teil der Streuung und übertreibt i. a. die
Assoziation (→ problematisch).
Beispiel:
CC
B C B
A
C
B
A
B
A B
A
A
vorher
nachher
e) Korrelation und Verursachung
→ Assoziation Ø Kausalbeziehung
(Dies folgt schon aus der Symmetrie !)
Beispiele:
10. Regression
Problemstellung:
Größe − Gewicht
Anzahl Störche − Anzahl Geburten
Welche lineare Beziehung besteht ?
→ Die SD−Linie ist nicht notwendigerweise der beste
Kandidat
Bsp.: HANES− Daten für Größe und Gewicht
Männer mit der Größe
73 = 70 +
3
(MW) (SD)
haben im Durchschnitt das Gewicht
176 =
162
+
0,47 * 30
(MW)
(r)
(SD)
a) Regressionsgerade von y auf x
− gibt zu jedem x den Durchschnittswert der zugehörigen y an
− geht durch den Punkt (Mittel der x−Werte ; Mittel der y−Werte)
− hat die Steigung
b) Spezialfälle
r = 0:
r = 1:
r = −1:
kein linearer Zusammenhang, Kenntnis von x−Werten ist
nutzlos
eine Gerade, nämlich die SD−Gerade
analog
Statistik I − Seite 12
c) Kurve der arithmetischen Mittel
Für jeden kleinen vertikalen Streifen um x bildet man den Durchschnitt
der dazu gehörigen y−Werte. Dies liefert eine „vergröberte“
Datenwolke bzw. Kurve von Durchschnitten (→ vgl. „ökologische
Korrelation)
Regressionsgerade:
− ist geglättete Form dieser Kurve
− sollte nicht zu sehr von der Kurve abweichen; bei deutlicher
Nichtlinearität ist (lineare) Regression gefährlich
d) Schätzungen für einige x− Werte
− problemlos berechenbar mittels Regression
− aber sehr bedenklich, wenn extrapoliert wird (über den Bereich der
Herkunft der Daten hinaus)
Bsp.: Schätzung der Quantilrängen
SAT, GPA jeweils „normal“
Korrelationskoeffizient = 0,40
Student Schlau liegt beim SAT beim 90% − Quantil
Wo wird er beim GPA liegen ?
→ Er liegt 1,3 SD über dem Mittel
Wird also voraussichtlich 0,40 * 1,3 ≈ 0,5 SD´en über dem
Mittel abschließen, d. h. bei ≈ 69%.
e) Regressionsfehlschluß
Betrachte:
dann wird sehr oft:
wiederholtes Testen
Spitzengruppe im Durchschnitt relativ schlechter
Schlußlichtgruppe im Durchschnitt relativ besser
Dies trifft zu bei (und liegt an):
− „Zwetschgenform“ der Datenwolke
− Regression des zweiten Resultats (y) auf das erste (x) sog.
Regressionseffekt
Bsp.: Größe von Vätern und Söhnen
zur Plausibilität:
beobachtetes Testergebnis = wahres Ergebnis + Zufallsfehler
Statistik I − Seite 13
Annahme: wahres Ergebnis in der Bevölkerung normalverteilt mit
Mittel = 100 und SD = 15;
⇒ Zufallsfehler = ± 5
135
145
beobachtet: 140
kann sein: 135 + 5 oder 145 − 5
aber es gibt mehr Leute mit ≈ 135 als wahrem Ergebnis
⇒ Durchschnitt der „Gruppe 140“ wird bei Wiederholung niedriger
liegen
f) Regressionsfehlschluß
Annahme, daß der Regressionseffekt eine „wirkliche“ Ursache hat.
g) Die zwei Regressionen
Symmetrie: Es gibt auch die Regressionsgerade von x auf y. Diese sagt
x−Werte aus gewissen y−Werten hervor.
Situation:
Regression
von x auf y
SD− Gerade
Regression
von y auf x
Datenwolke
Statt vertikale, jetzt horizontale
unterschiedliche Teilbereiche.
Streifen.
Dies
sind
Statistik I − Seite 14
11. Der r. m. s.− Fehler bei Regression
→ Residuen und der r. m. s.− Fehler
a) Definitionen
Residuum
= beobachteter Wert − Vorhersage
= vertikaler Abstand zwischen Punkt und Regressionsgerade
mit Vorzeichen
Beobachteter
+ Wert
Regressionsgerade
von y auf x
r. m. s.− Fehler der Regressionsgeraden
= r. m. s. der Residuen
68% − 95% − Regel
Für viele (nicht alle) Streuungsdiagramme gilt:
∼ 68% der Punkte liegen innerhalb ± 1 r. m. s.− Fehler
um die Regressionsgerade
∼ 95% der Punkte liegen innerhalb ± 2 r. m. s.− Fehler
um die Regressionsgerade
Regressionsgerade
1rms
Statistik I − Seite 15
b) Zusammenhang mit Mittelwert und SD
+
+
+
+
Dies ist gerade der Fall „r = 0“ (= unkorreliert).
Die Regressionsgerade kann sich den Datenpunkten besser anpassen als
eine „nur horizontale“ Gerade
bzw.: Korrelation „hilft“ bei der Vorhersage
also: r. m. s. der Regressionsgeraden wird ≤ SDy sein
c) Berechnung des r. m. s.− Fehlers
r. m. s.− Fehler der Regressionsgeraden von y auf x = * SDy
(Einheit also wie y)
Mittel
Regressions
gerade von
auf x
Spezialfälle: r = ± 1 , dann = 0
r = 0, dann = 1
d) PLOTS der Residuen
Verfahren:
X3
X1
X1
X2
X3
X2
Statistik I − Seite 16
Eigenschaften:
a) Mittelwert ist 0
b) Regressionsgerade (der Residuen auf x) ist die x− Achse
Ziel:
Überprüfung des Modells
− alles o. k., dies erwartet man
− nichtlinearer, (quadratischer) Anteil
− Zeiteffekt (Neukalibrierung)
− unterschiedliche Präzision, siehe oben
Statistik I − Seite 17
f) Vertikale Streifen
Bsp.: Größe von Vätern und Söhnen (siehe S. 179)
Histogramme für die Größe der Söhne, deren Väter 64 bzw. 72
inches groß sind.
% per inch
67
71
⇒ verschoben, aber ähnliche Form und gleiche SD´s
allgemein heißt dies: Homoskedastizität
Das Gegenteil wäre: Heteroskedastizität
Dann: unterschiedliche Präzision der Vorhersagen, d. h. der r. m. s.−
Fehler stellt nur einen Durchschnitt dar.
(Bemerkung: man müßte gewichten.)
g) Normalapproximation für vertikale Streifen
Voraussetzung:
„zwetschgenförmiges“
homoskedastisch etc.
Diagramm,
⇒
dann:
Insbesondere entspricht jeder vertikale Streifen einer Normalverteilung,
etwa so:
Verfahren:
Man braucht lediglich:
neuen Mittelwert
neue Standardabweichung
Statistik I − Seite 18
Bsp.: x = LSATscore
y = first−year score
zwetschgenförmiges Diagramm mit
Mittel der x = 32,
Mittel der y = 68,
SDx = 6,
SDy = 10 und
r = 0,6
Wieviel Prozent der Studenten mit LSAT ≈ 35 hatten first− year
scors über 75 ?
neues Mittel: 35 = 32 + 0,5 * 6 , also 0,5 SE
daher: 68 + 0,6 * 0,5 * 10 = 71
neue SD: * 10 = 8
Also wie gewohnt: = 0,5 SE;
ergibt ≈ 31%
12. Die Regressionsgerade
a) Steigung und Achsenabschnitt
Wir wissen schon: Die Regressionsgerade
− geht durch den Punkt (Mittel von x, Mittel von y)
− hat die Steigung
Regressionsgleichung:
y = ax + b mit
a=
b = ( Mittel von y ) − a * ( Mittel von x )
= Vorhersagewert für x = 0
(Achsenabschnitt)
b) Nutzen
− Vereinfachung bei häufiger Anwendung
− manchmal aber nicht immer) direkte Interpolationsmöglichkeit für a
und b (Vorsicht bei Beobachtungsstudien)
c) technische Anmerkung
(lineare) Regression von y auf x:
⇒ Auflösen nach y
(lineare) Regression von x auf y:
⇒ Auflösen nach x
Statistik I − Seite 19
d) Methode der kleinsten Quadrate
Ziel:
Anpassung einer Gerade an Punkte
Schätzung der Parameter
Idee:
zur Vorhersage von y aus x:
Minimiere die Summe der quad. vert. Abstände, d. h.
minimiere den r. m. s.− Fehler
denke nach
Lösung:
Regressionsgerade von y auf x !
Bsp.:
Hooke´sches Gesetz
frage Mathematiker
Sprechweise: Geschätzt nach der Methode der kleinsten Quadrate
(„KQ − Schätzer“)
e) Sinn und Unsinn von Regression
Bsp.: Fläche und Umfang von Rechtecken
20 „typische Rechtecke“
Regressionsgleichung:
Fläche = a * Umfang + b
− ergibt scheinbar ziemlich brauchbaren Zusammenhang
Konsequenz:
− stets kritisch prüfen
− Situation beachten
− Regression ist ein wichtiges, verallgemeinerungsfähiges
Hilfsmittel, aber kein Allheilmittel !
Statistik I − Seite 20
Teil IV:
Wahrscheinlichkeitstheorie
13. Wahrscheinlichkeit
a) Zur „Semantik“ des Begriffs „Wahrscheinlichkeit“
Verwendung:
− in der Alltagssprache in sehr vielen Situationen,
z. B. Wahrscheinlichkeit für „Regen“
− Bedeutung nicht immer klar
z. B. „Überlebenschance 90% bei Operationen“
Historisch:
besonders in der Theorie der Glücksspiele, aber auch in der
„Stochastik“ = Kunst des vernünftigen Vermuten
gemeinsame Eigenschaften:
− falls ein Zufallsphänomen über lange Zeit unter den gleichen
Bedingungen wiederholt wird, gibt die Wahrscheinlichkeit
eines Ereignisses die relative Häufigkeit dieses Ergebnisses in
der Zeit an
− Wahrscheinlichkeiten werden in Prozent zwischen 0% und
100% ausgedrückt (bzw. zwischen 0 und 1)
− Summe der Wahrscheinlichkeiten für ein Ereignis und das
Komplementärereignis (d. h. das Ereignis tritt nicht ein) ist
100%
Betrachtung auf lange Sicht:
Bsp. 1: Urne 1 mit 3 roten und 2 blauen Kugeln sowie Urne 2 mit 30
roten und 20 blauen Kugeln.
Eine Kugel wird zufällig gezogen. Bei ROT Gewinn 1 DM.
Welche Urne ist günstiger ?
→ kein Unterschied, da es nur auf das Verhältnis ankommt.
Dies ist jeweils (dies gilt nur, wenn das Verhältnis sich nicht
ändert).
Bsp. 2: Schachtel mit Zetteln 1 , 2 , 3. Wir ziehen zwei Zettel. Der
erste ist 3. Dann zwei Varianten:
a) Ziehen mit Zurücklegen
b) Ziehen ohne Zurücklegen
b) Bedingte Wahrscheinlichkeiten
Bsp.: Zwei Karten ohne Zurücklegen zufällig ziehen (Kartenspiel mit
52 Karten). Falls die zweite Karte Herz− Dame ist, Gewinn.
a) Gewinnchance ?
Jede der 52 Karten kann mit der gleichen Wahrscheinlichkeit
die zweite sein ⇒ Gewinnchance
Statistik I − Seite 21
b) die erste Karte ist Herz− Dame
⇒ Gewinnchance (bei zweiter Ziehung) = 0
c) die erste Karte ist Kreuz− Sieben
⇒ Gewinnchance =
In b) und c) bedingte Wahrscheinlichkeit, da sie von Ausgang
der ersten Ziehung abhängt.
Sprechweise:
− Wahrscheinlichkeit eines Ereignisses unter der Bedingung,
daß ein anderes Ereignis eingetreten ist
− Wahrscheinlichkeit für Ereignis A gegeben Ereignis B
Schreibweise:
P (A | B) heißt „bedingte Wahrscheinlichkeit von A bei
gegebenen B“.
Bsp.: einmaliges Ziehen aus 1, 2 (grün) und 3, 4 (rot)
⇒ P (1 | rot) = 0,
P (1 | grün) =
und P (1) =
c) Multiplikationsregel
Bsp.: Wie oben (2 Karten aus 52)
Wahrscheinlichkeit dafür, daß erste Karte Kreuz−Sieben und die
zweite Karte Herz−Dame ist ?
⇒ in der Fälle: erste Karte ist Kreuz−Sieben; in der Fälle:
zweite Karte ist Herz− Dame.
⇒ insgesamt: * =
Multiplikationsregel:
Wk ( zwei Ereignisse treten gemeinsam ein )
= Wk ( erstes Ereignis ) * bedingte Wk ( das zweite Ereignis
tritt ein, gegeben das erste Ereignis )
d) Unabhängigkeit
Definition:
Zwei Ereignisse heißen unabhängig, falls Wahrscheinlichkeit für das
Zweite nicht davon beeinflußt wird, ob das erste Ereignis eingetreten
ist oder nicht.
Oder präziser:
Falls die bedingte Wahrscheinlichkeit (zweites Ereignis, gegeben erstes
Ereignis) nicht vom Ausgang des ersten Ereignisses abhängt.
Statistik I − Seite 22
Beispiele:
a) Zweimaliger Wurf einer Münze: unabhängig
b) Einmaliges Ziehen aus 1, 2 (grün) und 1, 2 (rot)
Wk (rot) = + Wk (rot | 1) = Wk (rot | 2)
Wk (grün) = + Wk (grün | 1) = Wk (grün | 2)
Farbe und Wert sind unabhängig.
c) Einmaliges Zeihen aus 1, 1 (grün) und 2, 2 (rot)
Wert verrät die Farbe (wird umgekehrt); nicht unabhängig,
also abhängig.
e) Unabhängiges Ziehen mit bzw. ohne Zurücklegen
→
Ziehen mit Zurücklegen in der Regel unabhängig
Ziehen ohne Zurücklegen in der Regel abhängig
(Beispiele siehe oben)
f) Multiplikationsregel bei Unabhängigkeit
Wk (zwei Ereignisse treten gemeinsam ein) =
Wk (erstes Ereignis tritt ein) * Wk (zweites Ereignis tritt ein)
Bsp.: in Teil b)
Wk (1rot) = Wk (1) * Wk (rot) =
⇒ erhebliche Vereinfachung−beim Ziehen mit Zurücklegen anwendbar
g) Anwendbarkeit von Wahrscheinlichkeitstheorien; Überlegungen
häufig identische Wiederholungen → i. d. R. unproblematisch
Beispiele:
aber:
Qualitätskontrolle, Medizin, Glücksspiele
Einzelfälle sehr problematisch
14. Mehr über Wahrscheinlichkeit
a) Vollständige Listen
Für viele Zufallsvorgänge kann man sämtliche Resultate aufschreiben
und als gleichwahrscheinlich ansehen (sog. LAPLACE − Experiment).
Statistik I − Seite 23
Dann gilt für ein Ereignis:
Wk(Ereignis) = relative Häufigkeit des Ereignisses
=
Bemerkung: etwas zirkulär
Beispiele:
a) einmaliges Würfeln
Wahrscheinlichkeit für eine gerade Zahl ?
günstige Fälle:
2, 4, 6
mögliche Fälle:
1, 2, 3, 4, 5, 6
also: Wk (gerade Zahl) =
b) zweimal Würfeln
Wk (Augensumme 4) =
c) dreimal Würfeln
Wk (Augensumme 9) =
Wk (Augensumme 10) =
genauer: mögliche Fälle: 216 (=6*6*6)
günstige Fälle für 9: 25
günstige Fälle für 10: 27
(⇒ Betrachtung der günstigen Trippel)
b) Additionsregel
Definition:
Zwei Ereignisse schließen sich gegenseitig aus, wenn sie nicht
gleichzeitig eintreten können.
Additionsregel:
Falls sich die Ereignisse E1 und E2 gegenseitig ausschließen, so gibt
Wk (wenigstens E1 oder E2) = Wk (E1) + Wk (E2)
Beispiele:
a) einmaliges Würfeln
Wk (1 oder 2) = Wk (1) + Wk (2) =
b) zweimaliges Würfeln
Wk (wenigstens einmal die 6) =
(beim 1. Wurf die 6 und beim 2. Wurf die 6 schließen sich
nicht aus ⇒ Formel nicht anwendbar)
direkte Lösung:
Statistik I − Seite 24
c) Zur Berechnung von komplexen Wahrscheinlichkeiten
Problem:
n−maliges Würfeln
Gesucht: Wk (wenigstens einmal die 6) = ?
(Additionsregel nicht anwendbar (Prüfe n > 6)
Lösung:
Wk (wenigstens einmal die 6) = 1 − Wk (keinmal die 6) =
= 1 − Wk (nicht im 1. Wurf) − ... − Wk (nicht im n− ten Wurf)
=
= 1 − ()n
bei n = 1:
bei n = 2:
d) Historische Beispiele
vgl. Paradox des Chevalier de Méré
Ist Gleichwahrscheinlichkeit realistisch ??
e) Baumdiagramme
Ziel: Veranschaulichung mehrstufiger Zufallsexperimente
Bsp.: Zweimaliger Münzwurf
1/2
1/2
K Wk (KK) = 1/4
K
1/2
Z
1/2
K Wk (ZK) = 1/4
1/2
Z
Wk (KZ) = 1/4
*
1/2
Z
Wk (ZZ) = 1/4
Wk (wenigstens 1x K) = Wk (KK) + Wk (KZ) + Wk (ZK) =
⇒ Multiplikationsregel und Additionsregel übertragen sich auf
den Pfad
Allgemeiner:
P (B1 | A1)
P (A1)
B1
A1
P (B2 | A1)
B2
*
P (A2)
A2
also: P (B1 | A1) =
Manchmal ist es bequem, mit absoluten Zahlen zu rechnen:
Bsp.: Geburtenkontrolle
Statistik I − Seite 25
einfacher: Münzwurf, bei K Stopp, bei Z noch einmal und dann Stopp
1/2
K
500
*
1000
1/2
1/2
Z
500
K
also: 750 K, 750 Z
250
1/2
Z
250
⇒ an Wahrscheinlichkeit (Jungen | Mädchen) ändert sich nichts,
ich blende nur einen Teil aus
f) Berechnung inverser Wahrscheinlichkeiten (Bayes − Theorem)
Bsp.: Virusinfektion
Bevölkerung: 100 Mio.
Infiziert:
10.000
Test:
pos.
neg.
infiziert
99%
1%
nicht inf.
2%
98%
Ein zufällig ausgewählter Patient hat positives Resultat
Bedeutung ? Wahrscheinlichkeit (infiziert | pos. Resultat)
Baumdiagramm:
0,0001
0,9999
0,99
pos
0,01
neg
inf
nicht inf
0,02
0,98
pos
neg
Wk (infiziert | positiv) = ≈ 0,0049 ≈ 0,5%
Wegen der Größe der nicht infizierten Gruppe kommen auch die
meisten positiven Resultate aus dieser Gruppe.
Statistik I − Seite 26
15. Binominalkoeffizienten
a) mathematische Grundlagen
n! = n * (n − 1) * ... * 1
Definiere: 0! = 1
n! Möglichkeiten n verschiedene Objekte zuordnen:
n Objekte , k und n −k seien gleich
Wie viele Anordnungsmöglichkeiten gibt es ?
( ):=
Gesprochen: „ n über k“
Der Binominalkoeffizient ( ):= gibt an, wie viele Möglichkeiten es
gibt, n Objekte, von denen jeweils k bzw. (n − k) gleich sind, in einer
Reihe anzuordnen. (Beachte Konvention: 0! = 1.)
b) Binominalformel
Situation:
− ein Versuch wird n− mal identisch wiederholt
− ein bestehendes Ereignis tritt jeweils mit Wahrscheinlichkeit p
ein
− die Versuche sind unabhängig
Aussage:
Dann ist die Wahrscheinlichkeit, daß das Ereignis genau k−mal
eintritt, durch die
Binominalformel
* pk * (1 − p) n−k
gegeben.
Herleitung:
Eintreten:= 1; Nicht Eintreten:= 0
Dann: k− mal 1 und (n − k)− mal 0 anordnen. Die Wahrscheinlichkeit
für (1, ... , 1, 0, ... , 0) ist pk * (1 − p) n−k und es gibt ()
Anordnungen ⇒ () * pk * (1 − p) n−k
Beispiele:
a) zehnmaliger Münzwurf
Wk (3x K) = () * ()3 * ()7 = * ()10
=
b) zehnmaliges Würfeln
Wahrscheinlichkeit (2x 6) = () * ()2 * ()8
c) zweimal Ziehen ohne Zurücklegen aus Schachtel mit vier
Zetteln
Wk (1x 3) = ?
⇒ nicht unabhängig, daher nicht anwendbar !!!
Statistik I − Seite 27
d) viermaliges Münzwerfen
Wk (mind. 1x K) = 1 − () * ()0 * ()4
= 1 − ()4 =
Teil V:
Variabilität zufälliger Prozesse
16. Das Gesetz der großen Zahlen
Bsp.: Kerichs Münzwurf−Experiment
Resultat:
Anzahl der Würfe
Würfe
Anz. d. Köpfe
Anz. Köpfe − * Anz.
10
4
−1
100
44
−6
200
...
5000
...
10000
98
...
2533
...
5067
−2
...
33
...
67
Dies beweist nichts, illustriert aber folgendes:
− die Anzahl von K schwankt um * Anzahl der Würfe; es gilt:
Anzahl von K = * Anzahl der Würfe + Zufallsfehler
− die Größe des Zufallsfehlers nimmt mit steigender Zahl der Würfe zu
− bezogen auf die Anzahl der Würfe (d. h. ausgedrückt in % der
Wurfanzahl) nimmt die Größe des Zufallsfehlers jedoch ab.
− quantitativ ist der Zufallsfehler bei 100 ungefähr 5; bei 10.000
ungefähr 50. Hundertmal mehr Würfe führen also zu einem um den
Faktor = 10 vergrößerten Zufallsfehler.
− Andersherum:
Will man den relativen Fehler halbieren, muß man die Wurfanzahl
vervierfachen !!!
Ferner illustrieren Kerich´s Resultate:
Es gibt keine „Kompensation“ durch das Gesetz der großen Zahlen. Auf
eine lange Folge von Kopf muß keineswegs Zahl folgen.
Statistik I − Seite 28
Zufallsprozesse und Schachtelmodelle
− zufällige Prozesse treten in vielen Formen auf:
Münzwurf, Würfeln, Geburt, „Stichprobe“, ...
− einheitliche Beschreibung möglich durch:
...
Schachtelmodelle und Ziehungen daraus
Man sieht:
− „zufällig“ (d. h. jeder Zettel mit gleicher Wahrscheinlichkeit)
− mit Zurücklegen
⇒
relevante Größe ist die Summe der Ziehungen;
Zufallsschwankung kann dann analysiert werden.
deren
Dazu nötige Angaben:
− welche Zahlen treten in der Schachtel auf ?
− wie oft kommen sie vor ?
− wie oft wird gezogen ?
b) Aufstellung eines Schachtelmodells
Bsp.: Nevada−Roulette
(38 Felder, davon 18 rot, 18 schwarz, 2 grün)
1) 10 mal setzen von $1 auf rot
Gewinnquote 1: 1
⇒ also lauten die Zahlen auf dem Zettel:
+ 1 Gewinn
− 1 Verlust
⇒ insgesamt also: 18 x +1 und 20 x −1
Es wird zehnmal gezogen.
→ Nettogewinn = Summe der Ziehungen (in $)
2) Fünfmaliges Setzen auf eine einzelne Zahl in neuem
Schachtelmodell:
1 x +35 und 37 x −1
Es wird fünfmal gezogen.
→ Nettogewinn = Summe der Ziehungen (in $)
Statistik I − Seite 29
17. Erwartungswert und Standardfehler
a) Erwartungswert
Hintergrund:
für Daten:
für Zufallsprozeß:
Mittelwert
Erwartungswert
Standardabweichung
Standardfehler
Bsp.: 100 Ziehungen aus 1 1 1 5
→ 25 * 5 + 75 * 1 = 200
Formel:
Erwartungswert für eine Summe der Ziehungen mit
Zurücklegen aus einer Schachtel = (Anzahl der Ziehungen) *
(Mittelwert der Schachtel)
[Mittelwert der Schachtel = arithm. Mittel der Werte in der
Schachtel]
b) Standardfehler
Bsp.: 25x Ziehen mit Zurücklegen aus 0 2 3 4 6
Erwartungswert der Summe: 25 * (0 + 2 + 3 + 4 + 6) = 75
Schwankung ???
Summe = Erwartungswert + Zufallsfehler
Größenordnung des Zufallsfehlers ? → Standardfehler („SE“)
Formel:
Beim Ziehen mit Zurücklegen aus einem Schachtelmodell ist
der Standardfehler für die Summe der Ziehungen gleich:
* (SD der Schachtel)
[SD der Schachtel = Standardabweichung der Werte in der
Schachtel]
→ „Quadratwurzelregel“
Hinweis: SE nimmt zu mit
− der Anzahl der Ziehungen
− der SD der Schachtel
Bemerkung:
Oft wird nicht zwischen SD und SE unterschieden
Bsp.: siehe oben
Statistik I − Seite 30
Mittelwert der Schachtel = 3
SD der Schachtel =
=
SE für die Summe von 25 Ziehungen: * 2 = 10
also: Summe = 75 + Zufallsfehler (SE = 10)
Illustration: siehe Tabelle auf S. 267
Hintergrund: SE wächst nur langsam mit der Anzahl der
Ziehungen,
weil
Fehlerauslöschung
(Kompensation) wirksam wird.
c) Benutzung der Normalverteilung
Bsp.: 25 Ziehungen aus 0 2 3 4 6
Wie viele Werte (der Summe) liegen zwischen 50 und 100 ?
Idee:
Normalverteilung benutzen
Voraussetzung: Anzahl der Ziehungen ist nicht „zu klein“
Verfahren:
Umrechnen auf SD−Einheiten
Benutzung der Normalverteilung ⇒ Fläche 99 %
Bsp.: Gewinnerwartung eines Casinos
bei 10.000 Spielen, jeweils 1 DM auf rot
Wk (Gewinn des Kasinos ≥ 250 DM) = ???
Schachtel: 20 x +1 und 18 x −1;
10.000 Ziehungen
Mittelwert der Schachtel ≈ 0,05 DM
SD der Schachtel ≈ 1,00 DM
also: Erwartungswert d. Summe ≈ 10.000 * 0,05 DM = 500 DM
SE der Summe ≈ * 1,00 DM = 100 DM
Statistik I − Seite 31
eine Vereinfachung:
Situation: Schachtel mit genau zwei verschiedenen Arten von
Zetteln
SD der Schachtel =
Bsp.: 1 1 1 5
Herleitung:
≈ 1,73
Es reicht, Schachteln mit k Einsen und (n − k)
Nullen
zu
betrachten
(wegen
Multiplikation
und
Addition
mit
Konstanten)
Dann gilt:
Mittel =
SD =
=
=
=
d) Klassifikations− und Abzählprobleme
Beispiel:
60x Würfeln
a) Summe = ???
(Erwartungswert ± SE)
Schachtel: 1 2 3 4 5 6,
60 Ziehungen
Mittel der Schachtel: 3,5
SD der Schachtel: 1,71
Erwartungswert der Summe: 60 * 3,5 = 210
SE der Summe: * 1,71 ≈ 13
b) Anzahl der 6 = ???
(Erwartungswert ± SE)
Dies kann wieder als „Summe“ von Ziehungen geschrieben werden,
indem man die Schachtel modifiziert und die günstigen Ereignisse
zählt.
1
2
3
4
5
6
↓
↓
↓
↓
↓
↓
0
0
0
0
0
1
Betrachte 60 Ziehungen; Anzahl der 6 entspricht der Summe der
grünen Zettel.
Mittelwert der grünen Schachtel =
SD der grünen Schachtel = ≈ 0,37
Statistik I − Seite 32
also bei 60 Ziehungen:
Anzahl der 6 = Summe der grünen Zettel
Erwartungswert: 60 * = 10
SE: * 0,37 ≈ 3
e) Beziehung zum Gesetz der großen Zahl
Quadratwurzelregel − Gesetz der großen Zahlen
Bsp.: Anzahl der "K" bei n−Münzwürfen
Schachtel:
0 1
Mittelwert = , SE =
Anzahl der Würfe
Erwartungswert
± SE
100
10000
1000000
50 ± 5
5000 ± 50
500000 ± 500
in % der Anzahl
der Würfe
50 % ± 5 %
50 % ± 0,5 %
50 % ± 0,05 %
18. Normalapproximation von Wahrscheinlichkeitshistogrammen
a) Wahrscheinlichkeitshistogramme
Bsp.: n−maliger Münzwurf, bzw. (Summe aus einmaligen) Ziehen aus
0, 1; n−mal wiederholt
Fazit: Das
Wahrscheinlichkeitshistogramm
repräsentiert
Wahrscheinlichkeiten durch Flächen. Bei Betrachtung auf lange
Sicht nähert sich das Daten−Histogramm immer mehr dem
Wahrscheinlichkeits−Histogramm an.
(vgl. auch Buch S. 287)
b) Normalapproximation für Wahrscheinlichkeits−Histogramme
Situation: Summe aus k−maligem Ziehen aus 0 1, n−mal wiederholt
für n → ∞: Wahrscheinlichkeits−Histogramm
für k → ∞: ???
Fazit: Beim Ziehen aus einem Schachtelmodell nähert sich das
Wahrscheinlichkeits−Histogramm für die Summe aus k
Ziehungen mit wachsendem k stets der Normalverteilung an.
Der Inhalt der Schachtel spielt keine entscheidende Rolle.
Statistik I − Seite 33
Bsp.: 100−maliger Münzwurf
1) Wk (45 (K ( 55) = ???
2) Wk (45 < K < 55) = ???
3) Wk (K = 50) = ???
Summe aus 100−maligem Ziehen aus 0 1, angenähert
normalverteilt mit
Erwartungswert = 50 und
SE = 5
dann umrechnen auf Standardeinheiten
zu 1): 45 ⇒ 44,5 entspricht − 1,1 Standardeinheiten
55 ⇒ 55,5 entspricht + 1,1 Standardeinheiten
⇒ Fläche ≈ 72,87 %
zu 2): 45 ⇒ 45,5 entspricht − 0,9 Standardeinheiten
55 ⇒ 54,5 entspricht + 0,9 Standardeinheiten
⇒ Fläche ≈ 63,19 %
zu 3): 50 ⇒ 49,5 entspricht − 0,1 Standardeinheiten
50 ⇒ 50,5 entspricht + 0,1 Standardeinheiten
⇒ Fläche ≈ 7,97 %
Zusatzbemerkung:
− k muß hinreichend groß sein (hängt vom Inhalt der Schachtel
ab)
− gilt nur für Summen, nicht für Produkte
− entscheidende Größen
a) Mittelwert der Schachtel
b) SD der Schachtel ((0)
c) Anzahl der Ziehungen
→ Dies bestimmt Erwartungswert und SE.
Statistik I − Seite 34
Teil VI :
Stichprobenverfahren
19. Stichprobenuntersuchung
a) Grundbegriffe
− Grundgesamtheit (Population)
= Menge von Personen, Gegenständen oder Meßwerten, über
die man etwas erfahren möchte (z. B. Wähler in Bayern)
− Parameter
= numerischer Kennwert einer Grundgesamtheit (z. B. Anteil
der Wähler der Partei K); i. a. können Parameter nicht exakt
bestimmt werden, sondern müssen geschätzt werden.
− Stichprobe
= Teil der Grundgesamtheit
− Statistische Größe
= Kennwert einer Stichprobe, kann (nach Ziehen) berechnet
werden und zur Schätzung eines Parameters dienen.
Rückschluß
Ziehen
Grundgesamtheit
(Parameter)
Stichprobe
(stat. Größe)
b) Probleme
− Wie zählt man eine Stichprobe ?
− Wie zieht man Rückschlüsse von der Stichprobe auf die
Grundgesamtheit ?
c) Umfrage des „Literary Digest“
1936 :
Roosevelt
Prognose :
43%
Resultat :
62%
↔
zu
zu
London
57%
38%
Genauer :
Prozentsatz Roosevelt
Prognose Digest
Prognose Gallup für die D. P.
Prognose Gallup
Wahlergebnis
43
44
56
62
Statistik I − Seite 35
− Methode Digest
10 Millionen Fragebögen per Post verschickt an Adressen aus
Telefonbüchern, Automobilclubs mit dem Rücklauf von 2,4
Millionen
− Gallup :
Zufallsstichprobe
− 50.000 Wähler für die Prognose befragt
− 3.000 Wähler für die Prognose der D. P. befragt
− Problem bei Digest − Umfrage
− Verzerrung durch ungeeignete Auswahl (selection bias)
− Verzerrung durch Nichtbeantwortung (non − response bias)
− Probleme bei Gallup
− keine für die Prognose der D. P.
− Nichtbeantwortung für die eigene Prognose
(und natürlich das Auswahlproblem)
Man sieht :
große Stichproben sind nicht notwendigerweise „gut“ !!!
und man sollte stets fragen :
− Was ist die Grundgesamtheit, was die Parameter ?
− Wie wurde Stichprobe ausgewählt ?
− Wie hoch war die Antwortrate ?
und auch noch :
− Wann wurde gefragt ?
− Was / Wie wurde gefragt ?
− Wer war der Auftraggeber ?
d) Beispiel : Präsidentschaftswahlen 1948 in den USA
Resultate :
Erklärung :
Aber :
Tabelle 2 auf Seite 309
Es wurden Quotenstichproben verwendet, d. h. innerhalb
bestimmter Vorgaben (z. B. Geschlechterverhältnis)
suchen die Interviewer die Befragten „nach Gutdünken“
aus.
Dies kann einen systematischen Fehler verursachen. (In
diesem Fall in Richtung der „Republikaner“); vgl.
Tabelle 3 auf Seite 311
⇒ nicht empfehlenswert !!!
Statistik I − Seite 36
e) Wahrscheinlichkeitsmethoden
Kennzeichen: Für jedes Individuum kann die Wahrscheinlichkeit
berechnet werden, daß es für die Stichprobe ausgewählt
wird.
einfache Zufallsauswahl (simple random sampling):
zufälliges
Auswählen
(mit
gleichen
Wahrscheinlichkeiten) „ohne Zurücklegen“ einfach, aber
oft nicht praktikabel, da die Grundgesamtheit nicht
erfaßt werden kann.
mehrstufiges Verfahren (multistage cluster sampling):
man wählt zunächst zufällig eine Stadt, Bezirk, usw.;
siehe Bsp. Gallup, Seite 313).
Klumpenverfahren:
man wählt zunächst einen Bezirk, dann ein Haus, aber
dann alle Bewohner des Hauses.
geschichtete Stichproben:
Grundgesamtheit wird zunächst in Schichten unterteilt,
aus denen dann separat Stichproben gezogen werden.
Bemerkung:
− viele Variationen
− Auswahlkriterien : Kosten und Zielsetzung der Untersuchung
f) Güte der Wahrscheinlichkeitsmethoden
Beispiel :
Fazit :
aber :
Gallup Prognosen, Tabelle 4 auf S. 314
erstaunlich gut
auch gegenläufige Entwicklungen (mehr Antwortausfall,
weniger Stabilität)
− Gallup−Fragebogen
→ S. 317 / 319
− Telefonumfragen
Vorteil :
Achtung :
Ausblick :
geringe Kosten
Telefonnummernvergabe beachten (Schema ?)
→ sehr verbreitet
auch hier gilt :
Schätzung = Parameter + Bias + Zufallsfehler
zum Bias (systematischer Fehler) vgl. oben und
zum Zufallsfehler vgl. unten (Kapitel 20)
Statistik I − Seite 37
20. Zufallsfehler bei Stichprobenverfahren
Beispiel :
Aus Daten von 6.672 Amerikanern [3.091 (= 46%) Männer und
3.581 (= 54%) Frauen] sollen 100 ausgewählt werden.
→ einfaches Zufallsmodell
a) Wie sieht es dann mit der Anzahl der Männer unter diesen 100 aus ?
bias : nicht zu erwarten
Zufallsfehler ?
SE ?
Schachtelmodell :
3.091 x 1 und 3.581 x 0, daraus 100 Ziehungen ohne
Zurücklegen
Wir betrachten aber zunächst den Fall :
100 Ziehungen mit Zurücklegen
⇒
MW = 0,46
SD = ≈ 0,50
EW = 100 * 0,46 = 46
SE = * 0,5 = 5
⇒ Man erwartet :
46 ± 5 Männer oder als Prozentsatz 46% ± 5%
Um den SE für einen Prozentsatz (in Prozentpunkten) zu
bestimmen, rechnet man zunächst mit den absoluten Zahlen und
dann auf % um !
⇒ Was passiert bei 400 Ziehungen ?
EW = 400 * 0,46 = 184
SE = * 0,5 = 10
⇒ Man erwartet 184 ± 10 Männer oder als Prozentsatz
ausgedrückt : 46% ± 2,5%
also : Multiplikation der Stichprobengröße mit 4 führt zur
Division des SE durch = 2
Hintergrund : Gesetz der großen Zahlen, Quadratwurzelregel
Mit welcher Wahrscheinlichkeit ist der Anteil der Männer in der
Stichprobe zwischen 41% und 51%
⇒ NV− Tabelle
⇒ Fläche ≈ 95%
Statistik I − Seite 38
b) Korrekturfaktor
− bisher mit Zurücklegen, aber eigentlich ohne Zurücklegen
− Bsp.:1,25 Mill. Wähler in RP
12,5 Mill. Wähler in NRW
⇒ Annahme : Anteil der Partei X = 50%
Stichprobe 2.500 Wähler für RP (1 von 500)
→ Wie groß muß die Stichprobe für NRW sein, wenn die
Genauigkeit gleich gut sein soll ?
Antwort : 2.500 (1 von 5.000 !), denn :
RP
625.000 x 1 und 625.000 x 0
NRW 625.0000 x 1 und 625.0000 x 0
Falls wir mit Zurücklegen ziehen, können wir auch 1 x 0 und 1 x 1
betrachten, es ergibt sich jeweils das Gleiche.
Beim Ziehen ohne Zurücklegen gibt es einen kleinen Unterschied, es
gilt nämlich :
SEohne = Korrekturfaktor * SEmit
Dabei ist der Korrekturfaktor :
Dieser Korrekturfaktor ist meist nahe bei 1.
Ausnahme: Stichprobe ist Großteil der Grundgesamtheit.
Bemerkung:
− andere Prozentsätze der Parteien ändern das Bild der
Schachtel kaum (SD bleibt ≈ 0,5)
− intuitiv eigentlich klar
21. Zur Genauigkeit von hochgerechneten Prozentsätzen
a) Hintergrund
bisher: Zufallsfehler beim Ziehen einer Stichprobe
nun : Fehler beim Rückschluß auf die Population
Bsp.: Wahl eines Bürgermeisters
Kandidat „K“ möchte „sichergehen“
100.000 Wähler
→
Stichprobe 2.500
? % Stimmen für K
←
1.328 für K (≅ 53%)
⇒ Schätzung : 53% ± Zufallsfehler
Statistik I − Seite 39
b) Schachtelmodell
? x 1 und ? x 0 (in der Bedeutung 1 = für K , 0 = gegen K) mit
insgesamt 100.000 Zetteln, aus denen 2.500 Ziehungen vorgenommen
werden.
Zur Berechnung von SE brauchen wir aber SD der Schachtel.
also :
SD =
Ausweg :
wir schätzen SD aus der Stichprobe
SD = ≈ 0,5
SE = * 0,5 = 25
⇒ Schätzung : 53% ± 1%
25 entspricht 1% von 2.500, also
Idee war:
Verhältnisse in der Stichprobe auf die Schachtel
übertragen. Dies ist in Ordnung, wenn die Stichprobe
nicht allzu klein ist.
Was kann man tun, wenn die Stichprobe zu klein ist ? → Dann kann
man SD nicht mehr schätzen, aber abschätzen, d. h. man nimmt
den „schlechtesten Fall“ an.
Sei p = Anteil der „1“, also ist 1 − p =
Anteil der „0“
⇒ SD =
Wie groß kann SD im schlechtesten werden ?
SD
p(1−p)
¼
max. für p = ½
1/2
1
p
Also : Abschätzung SD ó 0,5 ist möglich
Bemerkung : Obige
Schätzungen
gelten
für
einfache
Zufallsstichproben, nicht ohne weiteres für kompliziertere
Stichprobenverfahren.
Statistik I − Seite 40
c) Konfidenzintervalle
Situation:
Prozentsatz in
der Stichprobe
53 %
=
Prozentsatz in
± Zufallsfehler
der Population
=
=
=
=
=
52 %
51 %
55 %
40 %
83 %
+
+
−
+
−
1%
2%
2%
13 %
30 %
Alle diese Situationen sind möglich, aber da SE ≈ 1% sind nicht
alle Möglichkeiten in gleicher Weise „zu erwarten“
Idee: Wir fassen die „am ehesten zu erwartenden“ Möglichkeiten in
einem Intervall zusammen.
Definition:
Prozentsatz in der ± 1 SE :
68 % − Konfidenzintervall
± 2 SE :
95% − Konfidenzintervall
± 3 SE :
99% − Konfidenzintervall
usw. ( → in Anlehnung an die Normalverteilung)
Manchmal sagt man auch :
− „Konfidenzintervall zum Niveau x %“
− „x % − Vertrauensintervall“
Bemerkung:
nur approximativ zu sehen, da
− SE geschätzt und
− Normalverteilung benutzt wird
d) Interpretation
− „mit WK 95% liegt der wahre Prozentsatz für Kandidat K im
Intervall [51%; 55 %]“; naheliegend, aber nicht ganz richtig, denn
der „wahre“ Prozentsatz liegt fest, er ist keine Zufallsgröße.
− zufällig, d. h. von der Stichprobe abhängig, sind die
Intervallgrenzen!
Statistik I − Seite 41
⇒ also sollte man sagen :
„mit WK 95% überdeckt (enthält) das Intervall [51%; 55 %] den
wahren Prozentsatz“
und meinen: „95% aller derart gebildeten Intervalle leisten dies“
⇒ somit: Aussage über die Qualität der Methode, nicht über den
Einzelfall!!!
− Bsp.: Abb. 1 auf Seite 352
− Randnotiz: Falls man Wahrscheinlichkeit nicht nur als relative
Häufigkeit auffaßt, ist eine andere Interpretation möglich.
− WARNUNG:
Die obigen Methoden gelten für einfache Zufallsstichproben.
Für andere Verfahren erhält man i. a. deutlich schlechtere
Ergebnisse.
Bsp.: Gallup−Poll Resultate, S. 356
22. Arbeitsmarktstatistik für die USA
Hinweis :
Details von Interesse, zeigt im wesentlichen :
− Komplexität realer Untersuchungen
− auftretende Schwierigkeiten
a) Stichprobenplan des „current population survey“
1973
Primary sampling limits (PSU)
gruppiert in
715
Schichten
715
PSU werden mit Wahrscheinlichkeitsverfahren gewählt
(i. w. proportional zur Bevölkerungszahl).
"einige"
Ultimate
SU
(USU)
werden
mit
Wahrscheinlichkeitsverfahren gewählt (i.w. so, daß die
Chance für jede Einzelperson gleich ist − und daß alle 51
Staaten mit etwa gleicher Genauigkeit abgedeckt
werden).
Durchführung : ∼ 67.000 housing units
∼ 53.000 können befragt werden
∼ 115.000 Personen
Statistik I − Seite 42
b) Abgrenzungsprobleme
Wer ist „arbeitslos“, „arbeitssuchend“, „beschäftigt“ usw. ?
⇒ Aufschlüsselungsproblem : Kriterien ?
Gewichtung : Ziel :
Reduzierung des Zufallsfehlers
Methode :
i. w. „nachträgliche Schichtung“
Berechnung der Standardfehler :
Es handelt sich um eine Klumpenstichprobe ...
23. Genauigkeit arithmetischer Mittel
bisher: Schachtel
0 1 − Schachtel
→ Ziehungen
Summe der Ziehungen
EW und SE
Normalapproximation
→ Ziehungen
Prozentsatz der „1“
EW und SE
Normalapproximation
Stichprobe aus → Rückschluß auf Prozentsatz der „1“ in der
Grundgesamtheit Grundgesamtheit,
0 1 − Schachtel
approximative
(Schachtel)
(Ziehungen)
Konfidenzintervalle dafür
jetzt:
der
Schachtel,
Stichprobe aus → Rückschluß auf MW
Grundgesamtheit approximative Konfidenz
beliebiger
intervalle dafür
Schachtel
(Ziehungen)
Bsp.: Schachtel
1 2 3 4 5 6 7, daraus 25 Ziehungen
Der (arithmetische) Mittelwert ist ... ± ... ?
MW = 4
also EW (für Summe aus 25 Zieh.) = 25 * 4 = 100
SD = 2also SE (für die Summe aus 25 Zieh.) = * 2 = 10
daher:
und somit:
Summe = 100 ± 10
MW = * SE = 4 ± 0,4
Erinnerung : Änderung von Mittelwert, SD und einer Liste, wenn jede Zahl
mit derselben Konstanten multipliziert wird.
Statistik I − Seite 43
Resultat :
Beim Ziehen aus einem Schachtelmodell gilt :
EW des Mittels der Ziehungen = MW der Schachtel
SE des Mittels der Ziehungen =
a) Normalapproximation
entspricht derjenigen für die Summe! Der Faktor () spielt keine Rolle und fällt
beim Umrechnen in Standardeinheiten heraus.
b) Ziehen aus einer Schachtel
1) oftmalige Wiederholung →
Wk−Histogramm
2) Summe einer großen Anzahl von Ziehungen
→
Wk−Histogramm
Normalverteilung
3) oftmalige Wiederholung einer Summe einer großen Anzahl von
Ziehungen
Daten−Histogramm
Bsp.:
→
Normalverteilung
100 Ziehungen aus obiger Schachtel
a) Summe ungefähr : 100 * 4 = 400 ± * 2 = 20
Mittel ungefähr :
400 : 100 = 4 ± 20 : 100 = 0,2
b) Wk (Mittel ≥ 4,2) =
→ umrechnen in Standardeinheiten ⇒ 1 Standardeinheit
⇒ Fläche ≈ 16 %
Vergleich von 25 und 100 Ziehungen (=Effekt des Vervierfachens des
Stichprobenumfangs):
MW: bleibt unverändert
SE:
Division durch 2
(Grund : = )
Ziehen ohne Zurücklegen:
Seohne = Korrekturfaktor * Semit
c) Stichprobenmittel
Bsp.: Durchschnittseinkommen von Familien einer Stadt (25.000
Familien); einfache Zufallsstichprobe von 900 Familien
MW = 32.400 DM
Schätzung :
und
SE = 18.000 DM
32.400 DM ± ... DM ?
Statistik I − Seite 44
SE für die Summe =
* SD der Schachtel
SD der Schachtel kann wieder aus der Stichprobe geschätzt
werden (sog. Bootstrap− Methode):
SD der Schachtel ≈ 18.000 DM
SE der Summe ≈ * 18.000 DM ≈ 540.000 DM
SE des Mittels = = 600
⇒ 95%− Konfidenzintervall:
32.400 DM ± 600 DM
ACHTUNG !!!
Dies bedeutet nicht, daß ca. 95% der Familien ein
Einkommen von 31.200 DM bis 33.600 DM haben. Sondern für
ca. 95% der Stichproben würde ein so gebildetes Intervall den
wahren Wert für das Durchschnittseinkommen einschließen.
Die Normalapproximation darf i.a. benutzt werden, auch wenn die
Daten selbst nicht der Normalverteilung folgen.
Bsp.: Stichprobe vom Umfang 400 für das Bildungsniveau (siehe S.
383)
d) Verschiedene Standardfehler
Für Schachtelmodelle sind zu unterscheiden :
SE der Summe =
* SD der Schachtel
SE des Mittels =
SE der Anzahl der „1“ = SE der Summe „1“ für 0 1− Schachtel
SE des Prozentsatzes =
* 100%
beim Rückschluß von der Stichprobe auf die Population muß SD
geschätzt werden.
WARNUNG : All das gilt nur für einfache Zufallsauswahl !!!
Statistik I − Seite 45
Herunterladen