Weitere Files findest du auf www.semestra.ch/files DIE FILES

Werbung
Weitere Files findest du auf www.semestra.ch/files
DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN.
DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR.
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Beschreibende Statistik
Im Bsp der Mietspiegel und Kreditwürdigkeit beschreiben wir eine Grundgesamtheit oder Population von einzelnen Objekten
oder Personen.
Merkmalstypen
Nach Anzahl der
Nach Skalenniveau
Nach quant . / qualitativen
(siehe Skript EmpirSoz)
möglichen Ausprägungen
Ausprägungen
endlich oder abzählbar unendlich
diskret
stetig
nominalskaliert
viele Ausprägungen
alle Werte innerhalb eines Intervalls
ordinalskaliert
intervallskaliert
verhältnisskaliert
quantitativ
qualitativ
Ausprägungen sind Namen, keine
Ordnung möglich
Ausprägungen können geo rdnet
werden, Abstände nicht
interpretierbar
Ausprägungen sind Zahlen,
Abstände interpretierbar
Sinnvoller absoluter Nullpunkt
Ausprägungen geben Intensität
wieder
Endlich viele Ausprägungen,
höchstens Ordinalskala
Wir unterscheiden verschiedene Typen von Variablen:
Kategorielle Merkmale
Quantitative/Numerische Merkmale
Ordinale Merkmale
Endliche Anzahl Antworten auf eine
Jahreseinkommen
Eigentlich Kategoriale Merkmale, aber
Frage.
Mietpreis
die möglichen Werte sind in einer
Geschlecht (w/m; dichotom)
IQ
natürlichen Reihenfolge.
Beruf(sgruppe)
(z.B. Mietpreise)
Raucher? (Ne in, Gelegentlich, Ja)
âÞ wenn kategorielle Merkmale in einer Reihenfolge dargestellt werden können Þá
Die mög lichen Werte eines Merkmals nennt man auch Merkmalsausprägungen.
Anmerkungen zur Versuchsplanung
–
Grundgesamtheit
–
Welche Fragen sollen mit der Studie beantwortet sollen? Welche Variablen von Interesse?
–
Art der Stichprobenziehung?
- Teilerhebung
- Zufallst ichprobe (Im Idealfall wählt man rein zufällig n Einheiten der Grundgesamtheit. In der Praxis oft schwierig)
–
Geschichtete Stichproben (Wenn die Grundgesamtheit in bestimmte Teilpopulationen zerfällt und deren Grössen
bekannt sind und wenn die interessanten Merkmale in diesen Teilpopulationen unterschiedlich verteilt sind, dann ist es
sinnvoll, aus jeder Teilpopulation eine Zufallsstichprobe zu ziehen.
Darstellung und Speicherung von Datensätzen
Datenmatrix: Tabelle mit Eintragungen
jede Zeile: entspricht ei ner Einheit (Person)
jede Spalte entspricht einer Variable
Deskription und Exploration von Daten (Kapitel 2)
Absolute und relative Häufigkeiten
Gegeben ist ein Datensatz mit n Elementen (Einheiten). Für eine bestimmte Eigenschaft sei h(Eigenschaft) die A nzahl aller
Stichprobenelemente mit dieser Eigenschaft. f(Eigenschaft) beschreibt den relativen Anteil aller Stichprobenelemente mit der
Eigenschaft = h(Eigenschaft) / n; [0,1]. n ist der Stichprobenumfang.
Stabdiagramme und Kuchendiagramme
Betrachte ein kategoriales Merkmal mit Ausprägungen a 1,a 2…a k, (z.B. „Raucher“ mit Ausprägungen 0, 1, 2). Die absoluten
Häufigkeiten h 1,h 2, ….h k sowie die relativen Häufigkeiten f a1 , f a2 , ….f ak.
Stabdiagramm:
Horizontal die Ausprägungen, vertikal f oder h
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Kuchendiagramm:
f=1 Þ 360°, die einzelnen Winkel berechnen sich mit der relativen Häufigkeit:
j = f j * 360°
Stamm- Blatt-Diagramm
1. Gerundete Urliste der Reihe nach geordnet
2. Bilden des Stammes mit den Klassen (Intervalle). (z.B. 100, 200, 300, 400 Þ 1, 2, 3, 4)
3. Erstellen der Blätter: Aufrunden der Werte der Urliste, der Grösse nach geordnet rechts an den Baum anreihen.
4. Angabe der Einheit: z.B. 1 | 3 = 130
Methoden für ein numerisches Merkmal
Stab - und Kuchendiagramme sind für numerische Merkmale meistens ungeeigne t, da zu viele verschiedene Werte auftreten.
Ein möglicher Ausweg ist die Gruppierung: Man unterteilt den Wertebereich der numerischen Variable in Intervalle
[a 0,a 1), [a 1,a 2), …, [a n-1 ,a n)
Nun bestimmt man die Häufigkeiten dieser Bereiche. Anstelle eines Stabdiagramms zeichnet man nun ein sogenanntes
Histogramm
Zeichne über den Klassen [c 0 ,c 1),…,[ck-1, c k) Rechtecke mit der Klassenbreite d j = c j – c j-1. Höhe ist gleich oder proportional
zu h j /d j bzw. f j /d j .
Horizontal: Intervallgrenzen Vertikal:
Über jedem Intervall zeichnet man ein Rechteck (dh. Balken berühren sich!). Für die Höhe des Rechtecks gibt es zwei
Konventionen:
–
Höhe ~absolute Häufigkeit: ( ÞHier sollen die Intervalle identisch sein)
–
Fläche proportional zur absoluten oder relativen Häufi gkeit.
Höhe ~
Häufigkeit
Intervallä nge
Dh. im Histogramm wird die Grösse des Intervalls berücksichtigt.
Diese Konvention hat den Vorteil, dass man unterschiedlich lange Intervalle verwenden kann.
Warnung: Histogramme sind zwar sehr beliebt, aber sehr unstabil, wen n man die Intervalleinteilung variiert!
Verteilungsfunktionen
Die Verteilungsfunktion einer numerischen Variable ist definiert als Abbildung
R ' f ® rel . Anteil von Beobachtun gen £ t ® F (t )
Diese Verteilungsfunktion f ist stets monoton wachsend, dh.
t1 < t 2 ® F (t 1 ) £ F ( t 2 )
relativer Anteil von Beobachtungen, die £ r sind.
F ist eine monoton wachsende Treppenfunktion mit Werten in
{0, 1/n, 2/n, …, (n -1)/n, 1}
Konkrete Berechnung / Erzeugung von Histogramm und Verteilungsfunktion
–
–
X1
X2
X3
…
Xn
Hilfreich, die Daten zu sortieren. Þ Ordnungsstatistiken X(1) £X(2) £…£ X(n)
Sprechweise: X (k! ist die k -te Ordnungsstatistik der Stichprobe (X 1…., X n)
X(1)
X(2)
Anz. h 1
Þ jeweiliges f
X(3)
berechnen für die
einzelnen Abschnitte
}
Anz. h 2
hn
X(n)
}
Anz h 3
Anhand der sortierten Liste kann man auch die Intervallgrenzen für ein Histogramm angeben.
Für die Verteilungsfunktion F gilt:
0
1/n
2/n
(n -1)/n 1
¦
¦
¦
……………..
¦
¦
X(1)
X(2)
X(3)
X(n-1)
X(n)
In Formeln:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
k
falls X ( k ) £ X ( im Buch k = H(x)); Anzahl der Werte x i mit x i £ x
n
F ( r) = 0 für r < X (1)
F ( r) =
F ( r) = 1 für r ³ X ( n )
, jedoch treppenförmig. Auf der y -Achse ist f angegeben.
An einer bestimmten Stelle r springt die Funktion F um den Betrag k/n, wenn es k Stichprobenelemente X i = r gibt.
Am Graphen der Verteilungsfunktion F kann man ver schiedene Dinge ablesen:
–
Minimaler (wo ist erstmalig F>0) und maximaler (wo ist erstmalig F=1) Wert der Stichprobe
–
Für festes r kann man den relativen Anteil F(r) ablesen
–
Für eine vorgegebene Zahl p mit 0<p<1 kann man den (oder die) Zahlenwert(e) X p ablese n, so dass gilt:
F(r)£p für r<x p
F(r)³p für r ³x p
Bedeutung von x p: Mindestens n*p Beobachtungen sind £ x p, mindestens n(1 -p) Beobachtungen sind ³ x p
Quantile (werden in kleinen Buchstaben dargestellt)
Bezeichnung: x p ist ein p -Quantil der Stichprobe (X 1, …, X n). Spezialfälle:
–
p= ¼ Þ x p ist das untere Quartil
–
p= ½ Þ x p ist das mittlere Quartli, dh. auch Median
–
p= ¾ Þ x p ist das obere Quartil
Konkrete Bestimmung von Quantilen
Wenn n*p keine ganze Zahl ist, dann gibt es genau ein p -Quantil, nämlich:
X(é np ù )
(é…ù nach oben runden, ë…û nach unten runden)
Index in Klammer X ( ) bedeutet, dass die Werte der Grösse nach geordnet wurden.
Wenn n*p eine ganze Zahl ist, dann ist jeder Punkt aus
[X(np) , X (np+1))
ein p-Quantil.
Typischerweise nennt man dann
X ( np ) + X ( np +1)
2
" das " p - Quantil
Spezialfall: Median (p= ½)
n ungerade:
X½ = X ((n+1)/2)
n gerade:
X½ =
X ( n / 2 ) + X ( n / 2 +1 )
2
Zahlenbeispiel:
Befragung der Vorlesungsteilnehmer, darunter n=161 Herren. Betrachte Körpergrössen X i (in cm).
X(1) = 168, X (n) =199
Median: x 1/2=X(81) =180
unteres Quartil: x 1/4=X(41) (die 41kleinste Beobachtung) = 177
oberes Quartil: x 3/4= X (121) = 184
Anmerkung zu den Quartilen:
–
mindestens n/2 Beobachtungen liegen im Intervall [x 1/4 ,x 3/4]
Box Plot
Einfache grafische Darstellung einer Stichprobe, die sich vor allem für den Vergleich mehrerer Stichproben eignet.
Man braucht 5 Zahlen:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
–
Minimalbeobachtung X (1) (Whisker)
–
Unteres Quartil x 1/4 (Anfang der Schachtel)
–
Median x 1/2 (Strich / Punkt in der Schachtel)
–
Oberes Quartil x 3/4 (Ende der Schachtel)
–
Maximale Beobachtung (Whisker)
–
(d Q = Länge der Schachtel)
(oftmals zeichnet man Box -Plots vertikal, hier jedoch horizonta l:)
Der Box -Plot gibt einen groben Eindruck, wo die meisten Daten liegen und ob sie symmetrisch um den Median liegen oder
nicht. Beim modifizierten Box -Plot gehen die Whiskers nur bis zu den Zaunwerten. Die Werte ausserhalb der Zäune werden
einzeln eingezeichnet.
Symmetrisch: Box in zwei gleichgrosse Teilhälften geteilt, Whiskers etwa gleich lang.
Problem: Wenn die Extremwerte X (1) , X (n) weit weg vom Median liegen (rel. zur Länge der Box), dann weiss man nicht, ob es
sich um einzelne „Ausreisser“ handelt, oder ob viele Punkte weit weg vom Median liegen. Þ Ausweg: Box -Whisker-Plot
Die Länge der Box bestimmt man mit dem Inter QuartilAbstand I QR = x 3/4 – x ¼
Man betrachtet Beobachtungen, die
–
grösser sind als x 3/4 + 1.5 IQR
–
kleiner sind als x 1/4 – 1.5 IQR
als Ausreisser. Man bestimmt die kleinste Beobachtung b 1 und die grösste Beobachtung b 2, die keine Ausreisser sind.
Ausreisser werden durch einzelne Punkte (Sterne) markiert.
2.2 Beschreibung von Verteilungen
Anstelle von graphischen Darstellungen möchten wir nun Variablen durch Kenngrössen charakterisieren. Und zwar
betrachten wir ein numerisches Merkmal mit Werten X 1, X 2, …, Xn .
–
Zentrum (Wo liegen die Werte?)
–
Streuung (Wie stark unterscheiden sich die Werte?)
–
Form der Verteilung (Symmetrie?)
Zentrum
Streuung
Form
Wo liegen die Werte?
Unterschiede zwischen den Werten, Abstand zum
Symmetrie?
Zentrum
Lageparameter:
Skalenparameter
Gesucht ist ein Parameter, der
Gesucht
ist
ein
Mass
für
die
durchschnittliche
beispielsweise Symmetrie /
Suche eine Zahl m, die mögli chst im Zentrum der
Streuung der Werte. Beispiele:
Unsymmetrie bewertet.
Werte X1, …, X n liegt.
–
Standardabweichung
–
Schiefe:
Vorschlag 1: Versuche m zu finden, so dass die
n
Summe der Abweichungs -quadrate minimal wird:
n
1
~
2
( X 1 - m ) + ( X 2 - m ) + ... + ( X n - m )
2
Lösung: Quadratische Ergänzung. Ausmultiplizieren:
n
å (X
i
i= 1
- m)2 å
= å X i + n ( m - 2m
2
2
i =1
Dies wird minimal, wenn
n
m=å
i =1
Xi
n
åX
i =1
n
- X )2
n
In der Regel verwendet man eine etwas andere
Normierung (von der Stichprobenvarianz herge leitet:
S =
n
n
i
i= 1
i =1
2
å( X
n
i
1
n -1
n
å (X
i
- X )2
i= 1
Dieser Parameter reagiert (wie der Mittelwert)
empfindlich auf Ausreisser / extreme Werte.
–
Interquartilsabstand
IQR = x 3/4-x 1/4
–
Mittlere absolute
Abweichung
http://www.cx.unibe.ch/~duembgen/statwiwi
å (X
i
- X )3 / S 3
i= 1
1 n Xi - X 3
å ( S~ )
n i= 1
3 typische Situationen:
Histogramm
rechtsschief
(linkssteil) 1
- m ) soll minimal sein
i
1
symmetrisch
2
å( X
2
linksschief
(rechtssteil) 3
~
s =
n
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
(arithmetischer Mittelwert der Beobachtungen X i.)
Vorschlag 2:
Ich suche eine Zahl m, so dass die Summe der
absoluten Abweichungen mi nimal wird.:
1 n
1 n
| X i - x1 / 2 |
å | X i - X | oder n å
n i =1
i =1
–
Median der absoluten
Abweichungen (median absolute
derivation)
MAD := Median (|X 1-x 1/4|, …, |X n-x 1/2|)
n
å¦ X
i
- m ¦ (Aufsummierung all dieser
i= 1
Abstände)
Lösung (ohne Herleitung)
Die obige Summe ist minimal, genau dann, wenn
diese Zahl m ein Median der Stichprobe ist. Also
wenn m=x 1/2.
Definition und Zusammenfassung:
Vorschlag 1:
Der Mittelwert der Stichprobe (X 1, …, Xn) ist definiert
als die Zahl
n
X 1 + X 2 + ... + X n
i= 1
n
X := 1 / n å X i =
© by Al_Sub et al.
Robustheit: Von diesen vier Skalenparametern sind
IQR und MAD unempfindlich gegenüber Aus reissern
/ extremen Werten.
Transformationen
Sei S(X 1, …, X n) einer dieser vier Skalenparameter.
Dann gilt für beliebige Zahlen a, b (b ¹ 0):
S ( a + bX 1, …, a + bX n) = |b|S(X 1 , …, Xn)
–
Wölbung /Kurtose
Kurtose
:=
1 n Xi -X 4
å ( S~ ) - 3 (76)
n i= 1
Transformat ionen
Ersetzt man alle Werte X i durch a + bX
(b>0), dann bleiben Schiefe und
Kurtose unverändert.
Diese Zahl X hat folgende Eigenschaft: Für eine
beliebige andere Zahl m ist
n
n
i =1
i =1
å ( X i - m ) 2 = å X i2 - n (X ) 2 + n ( X - m )2
Die Summe der n Funktionen m Þ |X i - m| ist stückweise linear auf Knotenpunkten in den Beobachtungen X (1) , …, X (n) .
Um das Minimum dieser Funktion (genauer : die Minimalstellen) zu bestimmen, bestimmt man die Steigungen der Funktion.
-n
2-n
|
X(1)
4 -n
|
X(2)
…
|
X(3)
Steigung
|
|
|
|
|
n
Allgemein: Die Steigung der Funktion m Þ
å| X
( i)
- m | hat den Wert
i= 1
–
2i-n
auf d em Intervall ](X (i) , X (i+1) [
(1£i<n)
–
-n
auf dem Intervall ] -¥, X (1) ]
–
+n
auf dem Intervall ]X (n) , ¥[
Falluntersuchung ( n gerade oder ungerade)
–
n gerade:
Minimalstellen in [X(n/2),X (n/2+1)] ]
–
n ungerade:
Minimalstelle bei X ((n+1)/2)
Mittelwert vs. Median: Robustheit
Der Mittelwert kann durch eine einzelne Beobachtung beliebig abgefälscht werden. Er reagiert empfindlich auf Ausreisser. In
Gegensatz dazu ist der Median robust gegenüber Ausreissern.
Genauer: Sei n ungerade, dann ist
x 1/2 =X
(m)
mit m =
n +1
2
Wenn man k Datenpunkte beliebig abfälschen darf,. dann bleibt der Median im Intervall
[X(m-k),X (m+k)]
(k £ n/2).
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Diese Robustheitseigenschaft ist nicht nur bei Ausreissern im Sinne von falschen Daten wichtig, sondern auch bei sehr
unsymmetrischen Verteilungen wie z.B. Gehälter, das Alter in Kursen, Studiendauern uvm.
Transformationseigenschaft von Lageparametern
Sei M ein Lageparameter wie der Mittelwert X oder X 1/2.
Schreibe M(X1, X 2 , X 3, …, X n). Wenn man die Dat en „affin linear“ transformiert, sollte auch M entsprechend reagieren:
Für beliebige Zahlen a, b (b ¹0) sollte gelten:
M(a + b X1, a + b X2, …, a + b Xn) = a + bM(X 1,… ,Xn)
(Beispiele: Umrechnung von Temperaturen °C Û °F oder Währungen)
Der Mittelwert und der Median haben diese Eigenschaft.
Auch andere Quantil x p(0<p<1) erfüllen diese Eigenschaft, sind also Lageparameter.
Unterschiede zwischen den Werten, Abstand zum Zentrum
Skalenparameter
Gesucht ist ein Mass für die durchschnittliche Streuung der Werte. Bei spiele:
–
Standardabweichung
~s =
S =
~
s =
1 n
å ( X i - X ) 2 In der Regel verwendet man eine etwas andere Normierung:
n i= 1
1 n
( X i - X ) 2 (Begründung dafür interessiert keine Sau)
å
n - 1 i= 1
Dieser Parameter reagiert (wie der Mittelwert) empfindlich auf Ausreisser / ext reme Werte.
–
Interquartilsabstand
IQR = x 3/4-x 1/4
–
Mittlere absolute Abweichung
1 n
1 n
|
X
X
|
oder
å i
å | X i - x1 / 2 |
n i =1
n i =1
–
Median der absoluten Abweichungen (median absolute derivation)
MAD := Median (|X 1-x 1/4|, …, |X n-x 1/2|)
Robustheit: Von diesen vier Skalenparametern sind IQR und MAD unempfindlich gegenüber Ausreissern / extremen Werten.
Mass
x Arithm.Mittel
Aussage
Empfindlich gegenüber Ausreissern
Formel
n
åx
i
k
i=1
x
n
x med Median
x mod Modus
x
geom
med,grupp =
åfm
i
i
i= 1
Die mittlere oder das arithm. Mittel der beiden mittleren
Beobachtungen in einer geordneten Urliste . Robust
Gibt an, welche Ausprägung am häufigsten vorkommt. Die
Ausprägung mit der höchsten Säule / Stab.
x med, grupp = c i-1 + (d i *(0.5 – F(c i-1))/fi)
Durchschnittliches Wachstum
(x 1*…*x n) / n
x ~xmed ~ xmod
x > xmed > xmod
Rechtssteil: x < xmed < x mod
Symm Vert:
Linkssteil:
Geometrisches Mittel
x
1
har
n
1
1
å
n i =1 x i
quartile
Varianz
Analog Median (= 0.5 -Quantil)
Streuung um das Mittel x (Modifizierte und
brauchbare Kennzahl)
1 n
1 n
~
s 2 = å ( X i - X ) 2 = ( å xi2 ) - x 2
123
n i=1 Wie stark
n i =1
die Daten um
den MIttelwert streuen
Standardabweichung
Streuung um das Mittel x in derselben
Masseinheit wie die Werte selbst.
~
s =
1
n
å( X
n
i
- X )2
i= 1
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Dichtekurven und Normalverteilung
Alle bisherigen grafischen Darstellungen und Kenngrössen kann man für Stichproben aber auch die entsprechende
Grundgesamtheiten definier en (Totalerhebung).
Nun betrachte ein numerisches Merkmal eine sehr grosse Grundgesamtheit. Angenommen hierfür erzeugt man ein
Histogramm (Konvention mit relativem Anteil = Flächen). Wenn die zugrundegelegten Intervalle sehr schmal sind, sieht die
Histogr ammfunktion näherungsweise wie eine stetige Funktion aus (Das gilt meistens).
Definition Wahrscheinlichkeitsdichtefunktion
Eine Wahrscheinlichkeitsdichtefunktion (oder eine Dichte) ist eine Funktion f: |R Þ |R mit nichtnegativen Werten, so dass
¥
ò f ( x ) dx = 1
-¥
Allgemein bezeichnet
b
ò f ( x ) dx = 1
a
die Fläche zwischen dem Graphen von f und der korrelierten Achse über dem Intervall [a, b] (Fläche = 1) .
Anwendung: Eine Wahrscheinlichkeitsdichte f dient als idealisiertes Modell für die Verteilu ng von einem numerischen
Merkmal in einer grossen Grundgesamtheit. Genauer:
relativen Anteil von Individuen mit Merkmalswert in [a, b§]
b
» ò f ( x )dx
a
Darstellung von bisher eingeführten Objekten mit Hilfe der Wahrscheinlichkeitsdichte
–
Verteilung sfunktion F
F(r):= rel.Anteil von Individuen mit Merkmal £ r
r
»
ò f ( x )dx
-¥
Eigenschaften von F
F ist stetige, monoton wachsende Funktion. Ihre Grenzwerte sind F( -¥)=0, F( ¥)=1
Zusammenhang zw. F und f:
f(x)= F’(x) =
lim
g - >x
F ( g ) - F ( x)
(Steigung von F im Punkt x)
y-x
Beispiel 1:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
ì0, falls x < 0
ï
f ( x) = í 1
ï ( x + 1) 2 , falls x ³ 0
î
Dies ist eine Dichtefunktion, denn für x > 0 ist
f(x) = F’(x) mit F(x):= x/(x+1).
Nachweis hiervon:
F’(x) =
1* ( x + 1) - x * 1
1
=
= f ( x)
2
( x + 1)
( x + 1) 2
Wir haben also eine Stammfunktion F von f (auf ]0, ¥[) gefunden. Dh.
b
ò f ( x ) dx =F ( b) - F (a )
a
Ausserdem ist F(0) = 0, und F( ¥)=1. Dies zeigt, dass
¥
¥
ò f ( x ) dx = ò f ( x ) dx = F ( ¥) - F (0 ) = 1
-¥
0
Die Verteilungsfunktion von f ist gegeben durch
ì r
, falls r ³ 0
ï
F ( x ) := í r + 1
ïî0, falls r = 0
Man kann beliebige Beispiele erzeugen, indem man von einer Verteilungsfunktion F ausgeht.
F: |R Þ|R ist differenzierbar und monoton wachsend mit Grenzwerten F( -¥)=0 und F( ¥)=1.
Dann ist
f:=F’
eine Wahrscheinlichkeitsdichte, und
b
ò f ( x )dx = F (b ) - F ( a)
a
Beispiel 2
ì0, falls r £ 0
ï
F ( r) := í r 2
(rot)
, falls r ³ 0
ï
2
î1 + r
Dichtefunktion
f = F’
2
¶ x
¶x 1 + x 2
ì0, falls x = 0
ï
f ( x) = í 2 x
(blau)
ï (1 + x 2 ) 2
î
F’(x)=
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Gauss-Verteilungen bzw. Nomalverteilungen (parametrische Approximation)
Eine spezielle Klasse von Dichtefunktionen, die für viele Grundgesamtheiten gute Approximationen liefert:
Def: Die Normalverteilungsdichte funktion mit Mittelwert m (Maximum) und Standardabweichung s (entspricht der
empirischen Standardabweichung; je kleiner s desto spitzer) ist definiert als:
x ® f ( x) :=
1
(x - m) 2
exp( )
2s 2
2 xs
Gestalt dieser Dichtefunktion: symmetrisch, unimodal und glockenförmig
–
f ist symmetrisch um den Punk t m. D.h.
f(m+D) = f(m-D) für beliebige D
–
f ist maximal an der Stelle m und fällt zu beiden Seiten monoton ab.
–
f ist im Bereich [m- s, m+ s] konkav
und in den Bereichen ]-¥, m- s] sowie [m+ s, ¥[ konvex.
m-s
m
m+s
Diese Dichtefunktion nennt man auch Gau sssche Glockenkurve (mit Parametern m und s). Beispiele für numerische
Merkmale, die näherungsweise durch Normalverteilung beschrieben werden:
–
Körpergrösse (unterschieden nach Geschlecht)
–
IQ (m=100, s=15)
Problem mit diesen Dichtefunktionen: Die entsprechende Verteilungsfunktion F kann man nicht durch eine einfache Formel
darstellen.
xK
=å
K = 0 K!
n
Anmerkung: exp(x) = e x = 1+ x + x 2/2 + x 2/3! + …. =
Wichtige Eigenschaften:
–
exp(1) = e (Eulerische Zahl)
–
exp(x+y)= exp(x) * exp(y)
–
exp(x) ist streng monoton wachsend in x
–
exp’ = exp
exp( x )
–
® ¥ für x ® ¥
xk
exp(1) ® 0 für x ® -¥
Zur Berechnung der Verteilungsfunktion von f(| m, s) benötigt man einen Spezialfall:
Def ( Standardverteilungsdichte)
Die Normalverteilungsdichte mit m=0 und s=1 nennt man Standardnormalve rteilungsdichte. Anstelle von f(x|0,1) schreibt
man
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
1
exp( - x 2 / 2)
2x
j ( x) =
Def Standardnormalverteilungsfunktion
Verteilungsfunktion von j:
r
F (r ) :=
ò j ( x )dx
-¥
Diese Funktion F kann man nicht durch einen einfachen mathematischen Ausdruck darstellen, stattdessen benötigt man
entweder Tabellen (z.B. Tabelle A von Fahrmeir et.Al) oder Computerfunktionen (standard normal distribution function).
Anwendung auf beliebige Normalverteilungen
Regel: Ein Merkmal X ist normalverteilt mit Mittelwert m und Standa rdabweichung s genau dann, wenn das standardisierte
Merkmal (Z)
Z :=
X -m
(z= (x -m)/s))
s
standardnormalverteilt ist.
X -m
« X = m + sZ
s
1
x-m
f(x|m,s) =
j(
)
s
s
Z =
x p = m + szp
0
Für die entsprechende Verteilungsfunktion gilt:
r
F( r|m,s) =
ò f ( x | m , s ) dx = F (
-¥
r -m
s
) = [ rel .Ant .mit Z =
r-m
s
]
Zahlenbsp. 1:
Der IQ wird so festgesetzt, dass er in der Gesamtbevölkerung normalverteilt ist mit m=100 und s=15. Demnach ist der Anteil
aller Personen mit einem IQ £ 115 gleich
F(115|100, 15) = F((115-100)/15) = F(1) (man r echnet die Variable Z aus) = 0.8413 ( ÞTabelle A)
Zahlenbsp. 2:
Der relative Anteil mit IQ £ 75 ist
F(75|100, 15) = F((75 -100)/15) = F(-5/3) = 1 - F(1.67) Þ in Tabelle nachschauen Þ 1 - 0.9525 = 0.0475
Zahlenbsp 3:
Der relative Anteil von Personen mit IQ £136 ist
F(136|100, 15)= F (36/15) = 0.9918
Aus Symmetriegründen ist
F(-r) = 1 - F(r)
denn die beiden Flächen unter der symmetrischen Kurve sind unter und über 0 gleich gross. (siehe Gra fik oben)
Zahlenbsp 2
~
In einer Population ist mittlere Körpergrösse 18 0cm (m @ X ) bei einer Standardabweichung von 6 cm ( s @ s ).
Unter der zusätzlichen Annahme, dass die Körpergrösse normalverteilt ist, kann man verschiedene relative Anteile der
Population berechnen:
rel. Anteil von Personen £ 176cm
@ F(176|180, 6)= F((176-180)/6) @ F (-0.67) = 0.2514
Warnung: Ist nur im Zentrum zuverlässig wenn überhaupt!
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Die 65 -95-99.7%-Regel
Der relative Anteil in [m ± s] ~ 0.68 (dh. 68% der Beobachtungen liegen im Intervall [m ± s] etc.)
relative Anteil in [ m ± 2 s] ~0.95 (dh. 95% der Beobachtungen liegen im Intervall [ m ± 2 s] etc.)
relative Anteil in [ m ± 3 s] > 0.99 (dh. 99% der Beobachtungen liegen im Intervall [ m ± 3 s] etc.)
Überprüfung der Normalverteilungsannahme:
Wenn wir wieder von Gru ndgesamtheiten zu echten Stichproben ausgehen, dann ist
–
–
Stichprobenmittelwert X ein Schätzer für m
~
Stichprobenstandardabweichung s ein Schätzer für s
Frage: Wie kann man überprüfen, ob die Daten / das Merkmal no rmalverteilt sind / ist (dh. obiges Verfahren angewendet
werden kann)?
Graphisches Verfahren: Normalquantil-Plot
Ordne die Stichprobenwerte
X(1) £ X(2) £ … £ X(n)
Betrachte X (i) als Schätzwert für das
(
i - 0. 5
) - Quantil in der Grundgesam theit
n
Formal für das Quantil:
m + s* F( (i-0.5) / n )
Dabei ist F -1 die Umkehrfunktion von F
Bei grossen Stichproben umfang n , dass
X(1) ~m + s F -1( (i-0.5) / n )
Wenn man die Punktepaare
(F -1 (
i - 0.5
), X (i ) )
n
in ein Diagramm einträgt, dann sollten sie in etwa auf einer Geraden mit Absc hnitt m und Steigung s liegen.
Das „Streudiagramm“ dieser Punktepaare ist der sogenannte Normalverteilungsplot oder Normalquantilplot der Daten X 1, …,
Xn.
Typische Situationen:
Histogramm
Normalverteilungsplot
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
Wiederholung
Stichprobe X 1, …Xn
© by Al_Sub et al.
Grundgesamtheit
m
s
X
~
s
Histogramm
Dichtefunktion f
Verteilungsfunktion
Siehe rechts, jedoch stufenweise (treppenförmig) .
Quantile
xP =
X ([ np]) + X ([np +1])
2
Speziell für Normalverteilungen gilt
1
f ( x) =
exp( - (
s 2p
F ( r) = F ((r - m ) / s )
x-m 2
) / 2)
s
r
F (r ) =
ò j ( x )dx
-¥
Für das theoretische p Quantil gilt
x p = m + sF -1(r)
Normalquantilplot : Vergleiche Stichprobenquantile mit theo retischen Quantilen für Standardnormalverteilung
Streudiagramm der Punktepaare
(F -1 (
i - 0.5
n
), X (i ) )
= F -1 (i /( n + 1)), F -1 (
i - 1/ 3
)
n + 2/3
Im Falle einer normalverteilten Grundgesamtheit sollten diese Prunkte im auf einer Gerade liegen.
Was bedeutet „in etwa“?
1. Auch bei tatsächlich norma lverteilten Grundgesamtheiten liegen die Punkte nicht exakt auf einer Geraden. Man
simuliere mehrere Stichproben vom gleichen Umfang n aus einer Normalverteilung und vergleiche deren NQ -Plot
mit dem der Originaldaten.
2. Man verwende einen statistischen Test (siehe Teil 2 der Vorlesung)
Anmerkung zu F -1
F(F -1(r)) = p
Bei Verwendung einer Tabelle A such t man also den Wert p und liest das entsprechende Argument r= F -1(r) ab (dh. man
sucht den nächsten Wert innerhalb der Tabelle und liest dann die Werte auf den „A chsen“ ab) .
Zahlenbeispiel: p= 60%
In der Tabelle findet man F(0.25) = 0.5987.
Mit 0.5987 ist man am nächsten von 0.6. Also ist
F -1(0.6) = 0.25
(Verfeinerung: Lineare Interpolation).
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
p = 0.9
F -1(0.9) ~1.28
p = 0.95
F -1(0.95) = 1.695
p = 0.99
F -1(0.99) = 2.33
Wenn beispielsweise die Körpergrösse in einer Grundgesamtheit normalverteilt ist mit m = 180cm und s = 6 cm, dann ist
x 0.9 = m + sF -1(0.9) = 180 + 6*1.28 = 187.68
(Buch Kapitel 3:)
Kapitel 3 - Multivariate (mehrdimensionale) Deskription und Explora tion
Betrachte einen Datensatz mit mindestens zwei Variablen X und Y. Frage: gibt es mögliche (Þ Stichprobenfehler)
Zusammenhänge zwischen den X- und Y-Werten?
Typische Darstellung zweidimensionaler Daten: Kontingenztabelle (Kontingenz = Zusammenhang zwis chen 2 Var)
Die möglichen Ausprägungen von X Þ Zeilen
Die möglichen Ausprägungen von Y Þ Spalten
In der i -ten Teile und der j -ten Spalte steht die absolute Häufigkeit
h i,j := Anzahl aller Stichprobenelementen mit X = i, Y = j
Ausserdem berechnet man die Häufigkeiten
h i+ =
åh
i, j
= Anzahl aller Stichprobe n mit X = i
h +j = Anzahl aller Stichprobenelementen mit Y= j
Y 1
2
X
3
…
m
Randhäufig keiten von X
j
1
h 11
h 12
h 1m
h 1+
2
h 21
h 22
h 2m
h 2+
3
h i,j
…
k
h k1
h k2
h km
h k+
Randhäufigkeiten h +1
h +2
h +m
n
Die Ra ndsummen sind die Häufigkeiten, mit der X die Werte a 1, …, a k annimmt, wenn Y nicht berücksichtigt wird.
Anstelle der absoluten Häufigkeiten könnte man die relativen Häufigkeiten
fi,j = h i,j / n
eintragen. Um systematische Vergleiche anzustellen, kann man mit „ bedingten Häufigkeiten “ arbeiten:
Variante 1 : Man normiert alle Werte zeilenweise und berechnet die Werte
fY(j|i) =
hij
hi +
relativer Anteil aller Stichproben mit Y = j unter demjenigen mit X = i
(
åf
Y
( j | i) = 1 )
X
(i | j ) = 1 )
j
Variante 2: Normieren Spaltenweise
f X (i | j ) =
hij
h+ j
relativer Anteil von Beobachtungen mit X = i unter demjenigen mit Y = j
(
åf
i
Beispiel 1: Wahlen
X = Geschlecht
Y = gewählte Partei
http://www.cx.unibe.ch/~duembgen/statwiwi
Grundgesamtheit: Alle Wahlberechtigten
Do not copy – it’s dangerous
WS 02 / 03
Y
Notizen Statistik
CDK/
SPD
FDP
Grüne
© by Al_Sub et al.
Rest
X
Männer
144 0.33
153 0.35
17 0.04
26 0.06
95 0.22
435 1
160.73
139.24
21.96
35.51
33.31
Frauen
200 0.4
145 0.29
30 0.06
50 0.1
71 0.15
496 1
183.27
139.76
25.04
40.46
88.44
344 0.37
298 0.32
47 0.05
76 0.08
166 0.18
931 1
(Die letzte Ze ile enthält jetzt keine Spaltensummen, sondern
fY(i) = h +j / n
(rel ativer Anteil aller Beobachtungen mit Y=j)).
Fett Rot = hij ; angenommener Wert, wenn beide Stichprobengruppen (M/F ) gleich viele Probanden hätten (bedingte
Häufigkeitsverteilung)
Hier ergib t sich c2 = 20.065 (Erwarteter Wert bei Unabhängigkeit der Merkmale wäre 4. Dieser weicht bedeutend von c2 ab,
dies zeigt, dass es tatsächlich einen nachweisbaren Unterschied zwischen Männer und Frauen gibt.)
Nachtrag zu den Kontingenztabellen: „Simpson P aradoxon“
Wenn man die Ergebnisse von mehreren Studien zusammenfasst, dann kann es vorkommen, dass die Auswertung der
Gesamtdaten andere Ergebnisse liefert als die Auswertung jedes Teildatensatzes.
Beispiel 1: Zusammenfassen von Vierfeldertafeln: Siehe Übu ngsserie 4
Beispiel 2: Steuerbelastung
In einem Wahlkampf behauptet ein Präsidentschaftskandidat, dass sein Konkurrent (der jetzige Präsident) die mittlere
Steuerlast pro Einwohner gesteigert hat. Der Präsident selber behauptet, dass er alle Einkommensste uersätze gesenkt hat.
Beide haben Recht. Mögliche Ursache: Der Steuersatz einer einzelnen Person steigt mit ihrem Einkommen. In jeder
Einkommensklasse blieb der Steuersatz identisch oder wurde gesenkt, aber das durchschnittliche Einkommen ist gestiegen.
Da die Steuerabgaben nicht proportional zum Einkommen sind, kann dies eine Erhöhung der durchschnittlichen
Steuerzahlungen pro Person bewirken.
Zusammenhangsanalyse
Methoden, die Stärke des Zusammenhangs zweier Variablen zu quantifizieren:
Quantifizierung des möglichen Zusammenhangs zwischen X und Y: Betrachte den hypothetischen Fall, dass kein
Zusammenhang besteht. Dann würde man erwarten, dass die Zeilen proportional sind bzw. dass die Spalten proportional
sind. Tatsache: Drei äquivalente Aussagen:
–
Die Z eilen der Kontingenztabelle sind proportional
–
Die Spalten sind proportional
–
h ij = h ij = (h i1 * h 1j ) /n
Begründung: Angenommen die Zeilen sind proportional. Das bedeutet, dass die normierten Zeilen identisch sind.
h ij = h i1 ist für alle i identisch
Þ h ij /h i1 = h 1j /n
Þ h ij = (h i1 * h 1j ) / n
Selbst wenn kein echter Zusammenhang besteht, wird man gewisse Abweichungen von h ij zu h ij erwarten. Brauche ein Mass
dafür, wie stark diese Abweichungen sind.
hij =
hi + h+ j
n
c 2-Koeffizient
6474
8
( hij - hij ) 2
quadrierte Dis tan z
k
c2 :=
m
åå
i= 1 j = 1
hij
c2 gross/
klein = starke/ kleine Diskrepanz Þ X und Y hängen nicht von einander ab
(Anmerkung: Der Normierungsfaktor h ij liefert einen Kompromiss zwischen absoluten Abweichungsquadraten (h ij – h ij )2 und
relativen Abweichungsquadraten (h ij / h ij – 1) 2)
Faustregel: Falls kein Zusammenhang zwischen X und Y besteht, sollte c2 in etwa gleich (k -1)(m-1) sein.
(Genaueres interessiert NOCH keine Sau, erst im zweiten Teil)
Läge kein Z usammenhang vor, dann würde man in jeder Zeile dieselbe Verteilung erw arten (die Verteilung ohne
Berücksichtigung des anderen Merkmals!). Im Buch ist
~
h h
hi , j = hij = i + + j die Häufigkeit, die man bei fehlendem
n
Zusammenhang erwarten würde.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Doch: Es ist nicht auf Anhieb klar, wie gross c2 sein muss, um auf einen Zusammenhang hinzuweisen. Die Grösse ist
abhängig von der Dimension der Tafel. Dies wird mit dem
korrigierten Kontingenzkoeffizienten ausgeglichen:
K*=
c2
n+ c2
M -1
M
M = min{ k , m}
;
Spezialfall: Vierfeldertafeln
X und Y nehmen nur zwei mögliche Wert e an (oder man betrachtet jeweils nur 2 Ausprägungen) . In diesem Fall ist die
Kontingenztafel eine sog. Vierfeldertafel:
h 11
h 12
h 1+
h 21
h 22
h 2+
h +1
h +2
Anstelle von c2 bietet sich hier eine andere Grösse an:
Kreuzproduktverhältnis = Relative Chancen (Odds Ratio):
g =
h11 * h22
h21 * h12
=
h11 / h12
( Zeilenverg leich )
h21 / h12
=
h11 / h21
(Spaltenver gleich )
h12 / h22
g = 1 (Chancen in beiden Population en gleich) wenn c 2 = 0
g >< 1 Chancen in Population X = 1 besser/schlechter als in Population X = 2
Die Chance, dass das eine Mermal eintritt im Verhältnis zum anderen.
Bsp. : Kreuztabelle Datensatz Studenten Sport / Geschlecht
C2
m
w
Total
0
89
93
182
?
1
0
1
Familie 2
0
2
Fernsehen
2
0
2
Fiktion 4
2
6
Film
2
2
4
Kunst
1
1
2
Literatur 0
1
1
Medizin 1
2
3
Musik
7
2
9
Politik
18
10
28
Sport
16
3
19
Tanz
0
1
1
Wirtschaft
8
2
10
Wissenschaft
11
2
13
Total
162
121
283
The number of rows with at least one missing value is 0
c2=6.033 gegenüber dem erwarteten Wert 1 ( -(2-1)*(2 -1)). Dies deutet auf Unterschied hin.
Kein Sport
Sport
m
145
16
161
w
117
3
120
262
14
231
g = 145 *3/ 117 *16 = 0.2326
Beispiel 4:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Xi = Swiss Market Index am Tag
Yi = Nasdaq am Tag
Beispiel 5:
Xi = Körpergrösse von Person i
Yi = Körpergewicht von Person i
Um den Zusammenhang zu quantifizieren betrachte ein etwas anderes Problem. Wie gut kann man die Y-Werte aus den XWerten vorhersagen? Genauer: Für Zahlen a, b Î |R betrachte die Werte
Ŷ i := Ŷ i(a,b) := a + bX i
Abweichung zwischen den tatsächlichen Werten Y i und den
n
å (Y
Ŷ i:
n
i
i= 1
- Yˆi ) 2 = å (Yi - a - bX i ) 2
i= 1
Bestimme Werte â, ^b für a,b so, dass die Quadratsumme möglichst klein ist. Zunächst Lösung
â = Yˆ - bˆX i
n
bˆ =
å( X
i
- X ) * Yi
i =1
n
=
å (X i - X )2
å ( XY ) - (å ( X ) å (Y ) / n)
å( X ) - å( X ) / n
2
2
i =1
â und bˆ sind Regressionskoeffizienten.
Beobachtungen (X 1,Y 1), .., (X n, Y n)
Gesucht sind Koeffizienten a, b, so dass die Quadratsumme
n
Q( a, b) = å (Yi - a - bX i ) 2 minimal wird.
i =1
Schritt 1:
Versuche Q(a,b) bei festem b zu minimieren.
n
Q(a , b ) = å ((Yi - bX i ) - a )
2
i =1
Die Überlegungen zum Stichprobenmittelwert zeigen, dass ein optimaler Wert a gegeben ist durch
a=
1 n
å (Y - bX i ) = Y - bX
n i= 1 i
a = a (b) = Y - bX
Schritt 2:
Setze für e den Wert
Y - bX ein und minimiere Q(Y - bX , b)
Q(Y - bX , b) =
å (Y
n
i
- Y - b ( X i - X )) 2
i =1
Hilfsgrössen
n
SQXX =
å (X
i
- X )2
i= 1
n
SQYY =
å (Y
- Y )2
i
i= 1
n
SQXY =
å (X
i
- X )(Yi - Y )
i= 1
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Mit diesen Hilfsgrössen kann man schreiben
2
Q(Y - b X , b ) = SQxx * b - 2SQxy * b + SQyy
SQxy
= SQxx (b 2 - 2
= SQxx (b -
* b ) + SQyy
SQxx
SQxy 2
SQxy 2
) + SQyy SQxx
SQxx
Dies ist minimal als Funktion von b genau dann, wenn
b=
SQxy
SQxx
Zusammenfassung:
Die Regenerationskoeffizienten , dh. Kleinste Quadrate -Schätzer (die Werte von a und b, für die
Q(a , b ) =
1 n
2
( yi - yˆi ) minimal ist), sind:
å
n i =1
aˆ = Y - bˆX
SQxy
bˆ =
SQxx
Die entsprechende Quadratsumme ist
2
n
å (Y
i
i= 1
SQxy
- aˆ - bˆX i ) 2 = SQyy SQxx
Zur konkreten Berechnung der Koeffizienten :
n
SQxx = å ( X i - X ) 2 = å X i - ( å X i ) 2 / n
2
i= 1
i
i
SQyy analog.
SQxy = å X i Yi - (å X i )(å Yi ) / n
i
i
i
Interpolation: Das Zusammenhangsmass
Frage: Wie quantifiziert man de n Zusammenhang zwischen X und Y?
Naive Antwort: Je kleiner die Summe
å (Y
i
- â - bˆX i ) 2 ist, desto stärker ist der Zusammenhang. Das Problem an
i
diesem Ansatz: Bei Ersetzen von Y i durch c*Y i mit einer Konstanten c>0 (Umrechnung in andere Einheiten) ände rt sich die
obige Quadratsumme um den Faktor c 2 . Ausweg: Wir betrachten eine andere Grösse:
n
å (Y
2
- â - bˆX i )
i
i= 1
å (Y
i
- Y )2
i
Interpretation:
Zähler: Approx Y i, durch lineare Funktion der Xi.
Nenner : Approx. Yi durch Konstante
Definition Bestimmtheitsmass
å (Y - â - bˆX
=1 å (Y - Y )
i
R2
i
)2
i
2
i
i
Dies ist der relative Anteil der Streuung in den Y-Werten, welcher durch die X -Werte erklärt wird. Konkrete Formel mit den
Hilfsgrössen SQ..:
R2= 1 – (SQ YY -SQXY 2/SQXX )/SQYY
R2 =
SQxy 2
SQxx * SQyy
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Anmerkung 1 : Die Grösse R 2 ist symmetrisch in X- und Y-Werten, dh. bei Vorhersage von X- aus Y -Werten ergibt sich die
gleiche Kenngrösse ( Þ Skaleninvarianz)
Anmerkung 2 : Die Grösse R 2 bleibt unverändert, wenn man die X -Werte oder die Y-Werte verschiebt bzw. skaliert.
Definition Korrelationskoeffiz ient von Bravais -Pearson
n
rx , y :=
SQxy
=
SQxx SQyy
å (x
i
- x )( y i - y )
i =1
n
n
i =1
i =1
=
å ( xi - x )2 å ( y i - y )2
(å( X
å ( XY ) - å ( X )å (Y ) / n
) - E ( X ) / n )(å (Y ) - å (Y )
2
2
2
2
/ n)
Diese Zahl liegt stets zwischen -1 und 1. Es gilt:
R2 = r 2
SQxy
bˆ =
= r*
SQxx
SQyy
SQxx
r ist eine dimensionslose Grösse; dh. sie hat keine Einheit.
Mit den Stichprobenstandardabweichungen
~
s X :=
1
(X i - X )2 =
å
n -1 i
~
s y :=
1
(Yi - Y ) 2 =
å
n -1 i
SQxx
n -1
SQyy
n -1
1 n
~
s XY = å ( x i - x )( yi - y )
n i =1
Kann man schreiben
Empirische Kovarianz
sy
bˆ = r *
sx
Würde man die Rollen von x und y Werten vertauschen, dann verändern sich R 2 und r nicht. Aber die Geradensteigung wäre
dann
r*
r
1
-1
sy
sx
Korrelationskoeffizient erfasst nur lineare Zusammenhänge!
Gerade positiver Steigung
Gerade negativer Steigung (gegensinniger linearer Zusammenhang)
Einige Übungsaufgaben
Aufgabe 3.2: Wirkung von Alkohol auf Reaktionszeit
n=400 Versuchspersonen werden rein zufällig in zwei Gruppen unterteilt.
Gruppe 1: ohne Alkohol (X=1)
Gruppe 2: mit Alkohol (X=2)
Gemessen werde Reaktionszeit, diese werde umgerechnet in ordinale Variable:
Gute Reaktion: (Y=1)
normale Reaktion (Y=2)
deutlich verzögerte Reaktion (Y=3)
gut
normal
verzögert
ohne Alkohol
120
60
20
mit Alkohol
60
100
40
180
160
60
Berechne nun die hypothetischen Werte
h j := (h i1 *h 1j ) / n
hi,j
g
m
v
ohne
90
80
30
http://www.cx.unibe.ch/~duembgen/statwiwi
200
200
400
200
Do not copy – it’s dangerous
WS 02 / 03
mit
Notizen Statistik
90
180
© by Al_Sub et al.
80
160
30
60
c 2 = å å (hij - h ij ) 2 / hij = 36
i
j
2
=
200
2
3
2
(180 - 90 )
(60 - 80)
(30 - 30)
+
+
80
80
30
2
(Faustregel: Wenn kein tatsächlicher Zusammenhang besteht sollte c in etwa gleich ( k – 1)*( m – 1) = (2 – 1) * ( 3 - 1) = 2
sein.
Anmerkung: Der grosse Wert von c2 deutet auf einen Zusammenhang zwischen Alkohol und Reaktionsgeschwindigkeit hin.
Er sagt nichts aus über die Art des Zusammenhangs! Möglicher Ausweg: Betrachte geeignete Vierfeldertafeln!
~ ì1 falls Y = 1 oder Y = 2
Y =í
2 falls Y = 3
î
Die resultierende Vierfeldertafel:
gut –normal
verzögert
ohne Alk
180
20
200
mit Alk
160
40
200
340
60
400
Kreuzproduktverhältnis ist g = 180*40 / 160*20 = 2.25 > 1 Þ Alkohol bei den Versuchspersonen verringert die
Reaktionsgeschwindigkeit. Ist es signifikant? (Man hat 400 unterschiedliche Leute und angenommen, Alkohol hat keinen
Einfluss auf die Reaktionsgeschwindigkeit, sondern die Versuchspersonen unterschiedliche Reaktionszeiten von Natur
aus…?)
Aufgabe 3.3:
Zehn umsatzstärkste Unternehmen in D
Unternehmen Nr. i:
Xi = Anzahl der Beschäftigten in 1000 Yi = Umsatz in Mia. DM
Frage: Wie stark ist der Zusammenhang zwischen diesen Variablen?
Regressionsparameter:
Yi approx durch â + ^b* X i
å X Y - nX Y
b=
å X - nX
i
i
@ 0 .194
i
2
2
i
i
â = Y - bˆ * X @ 30 .461
Korrelationskoeffizient
åX Y
i
r=
i
- nX Y
i
åX
i
- nX 2
i
åY
i
2
- nY 2
i
Allgemeine Anmerkung
Korrelation und / Zusammenhang ist nicht unbedingt Ursache / Wirkung!
Aus einem Zusammenhang zwischen zwei Merkmalen kann man noch nicht schliessen, dass eines direkten Einfluss auf das
andere hat. Diese Schlussfolgerung ist nur zulässig bei randomisierten Experimenten, wenn eine der beiden Variablen
zufällig gewählt wurde.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Rangkorrelation nach Spearman
Bei zwei numerischen Merkmalen X und Y definierten wir
å (X
r =
i
- X )(Y i - Y )
i
å(X
i
-X)
i
2
å (Y
i
-Y )
2
i
Diese Grösse beurteilt, ob ein linearer Zusammenhang zw. X - und Y- Werten besteht
r~1 Û Die (X i, Y i) liegen in etwa auf einer Geraden mit positiver Steigung
r~-1 Û Die Paare (X i , Y i) liegen in etwa auf einer Geraden mit negativer Steigung
Schwachpunkt 1: Bei ~perfekten monotonem Zu sammenhang zw. X und Y kann R 2 beliebig klein sein.
(z.B. Y i=SQ(Xi), X i > 0)
Schwachpunkt 2: r und R 2 reagieren empfindlich auf Ausreisser
Mit Abänderung eines einzigen Punktes kann man r beliebig nahe an +/- 1 bringen.
Schwachpunkt 3: R 2 /r kann nicht bestimmt werden bei ordinalen Daten.
Þ Ausweg aus allen drei Problemen:
Ersetze die Daten X i und Y i durch ihre Ränge:
X1
X2
Þ sortieren Þ
X(1)
X(2)
Þ Ränge Þ
1
2
…
n
Xn
X(n)
Dies ist korrekt, wenn die Werte X i paarweise verschieden sind, also
X(1) < X(2) < … < X(n)
Im Falle von mehreren identischen Werten (Bindungen, Ties) arbeitet man mit mittleren Werten:
X(i-1) <X(1) = X(i+1) = …X(i) < X(i+1)
Dann ordnet man den Werten ein und denselben Rang zu, nämlich
i + (i + 1) + ... + j i + j
=
j - i +1
2
Zahlenbeispiel:
Xi
3
1
4
2
2.5
3
1
Rx i
5.5
1.5
7
3
4
5.5
1.5
Gruppen von gleichen Werten werden zusammengefasst und als Mittel bei der Rangfolge angegeben.
Definition (Rangkorrelationskoeffizient)
Der Spearman -Rangkorrelationskoeffizient wird genauso definiert wie der Pearson -Bravais-Korrelationskoeffizient, allerdings
mit den Rängen anstelle von Originalwerten.
(R X1,… ,R Xn : Ränge von (X 1, …, X n)
(R Y1, …, R Yn) Ränge von (Y1 , …, Y n)
Dann
åR
i
rsp =
i
å(R
i
X
2
X
RiY - n * (
n +1 2
)
2
2
) - n * (( n + 1) / 2 ) * ...
=
å ( rg ( x ) - rg )(rg ( y ) - r g )
å ( rg ( x ) - rg ) å (rg ( y ) - r g
i
X
i
Y
2
i
X
i
Y
)2
i
Vorteile des Spearmans -Korrelationskoeffizient :
–
Unempfindlichkeit gegenüber Ausreisser
–
Kann auch mit ordinalen Merkmalen berechnet werden
–
Invariant unter streng monoton wachsenden Transformationen der X- bzw. Y- Werte. Dh. wenn man alle X i durch
f(X i) und alle Y i durch g(Y i) ersetzt, wobei f und g streng monoton wachsende Funktionen sind, dann bleiben die Ränge
unverändert, und auch r sp ändert sich nicht.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Datenbeispiel
n = 263 professionelle Baseballspieler, X i = Anzahl von Jahren in der Profiliga Y i = Gehalt
Bravais-Pearson: r=0.401
Spearman: r sp = 0.62 6
Zusammenhang zwischen X- und Y- Werten monoton wachsend aber nicht linear.
Überblick Deskriptive Methoden
–
Stichproben (Totalerhebungen, Zufallsstichproben)
–
Beschreibungen einzelner Variablen
o Kategorielle Variablen: Stabdiagramm und Kuchendiagramm
o numerische Variablen: Verteilungsfunktion und BoxPlots, Lageparameter (Mittelwert, Median),
Skalenparameter, Formparameter, Quantile / Quartile ??
–
Beschreibung einer grossen Grundgesamtheit mit Hilfe von Dichtefunktionen (idealisierte Histogramme),
Normalverteilungen
Zusammenhang zwischen zwei Variablen:
–
zwei kategorielle Merkmale Þ Kontingenztabelle, c2-Testgrösse, Kreuzproduktverh ?
ältnis
–
Zwei numerische Variablen
–
Streudiagramm
–
Regresssionsgerade Korre lation
–
zwei ordinale oder numerische Var iablen , Ränge, Spearman -Rang
Dabei ist F -1 die Umkehrfunktion von F (Tabelle A), nicht 1/ F !
Konkrete Bestimmung von F -1(r)
- Computerprogramm (inverse Gaussian derivation funktion)
- Suche in der Tabelle A eine Zahl r, so dass F(r)~p.
F -1(p) ~ r
Für p < 0.5 ka nn man ausnutzen dass
F -1 (r) = -F -1(1 - p)
2) Noch ein Beispiel zu Regression und Korrelation
n= 30 Probanden in einem Experiment zu pos. Wirkungen von Koffein.
Xi : Dosis von Koffein
Yi : Anzahl von Tastenanschlägen pro Minute (sie mussten eine Taste s o schnell wie möglich drücken)
Hilfsgrössen n= 30
Regression
Zusammenhang zwischen metrisch skalierten Merkmalen liesse sich durch eine Funktion beschreiben, mit Fehlerterm Î:
Y = f(X) + Î
Þ y i = a + bx i + Îi .
Die Regenerationskoeffizienten, dh. Kleinst e Quadrate -Schätzer (die Werte von a und b, für die
Q(a , b ) =
1 n
å ( y - yˆi )2 minimal ist [erhält man durch jeweiliges Ableiten nach a bzw.b und nullsetzen], wobei
n i =1 i
ŷ i die prognostizierten Werte sind), sind:
aˆ = Y - bˆX
SQxy
bˆ =
SQxx
Die Streuungszerlegung ist ein Mass für die Güte der Regression:
(Gesamtstreuung) SQT =
(erklärte Streuung) SQE +
n
å ( yi - y) 2 =
i= 1
n
å ( yˆ i - y ) 2 +
i= 1
Variation der Datenpunkte auf
der Geraden um y
http://www.cx.unibe.ch/~duembgen/statwiwi
(Residualstreuung) SQR
n
å( y
i= 1
i
- yˆ i ) 2
Je grösser die
Residualstreuung, umso
schlechter beschreibt das
Modell die Daten.
Als Masszahl für die Güte
der Modellanpassung
verwendet man das
Bestimmtheitsmass.
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Definition Bestimmtheitsmass
2
R =1-
n
å (Yi - â - bˆX i ) 2
i
å (Y - Y )
2
å( y
- yˆi )2
i
= 1-
i =1
n
å( y
i
i
=
i
- y) 2
SQE
SQT
i= 1
Wenn SQE = 0: Modell schlecht; wenn R 2=1: Modell sehr gut
Dies ist der relative Anteil der Streuung in den Y-Werten, welcher durch die X -Werte erklärt wird. Konkrete Formel mit den
Hilfsgrössen SQ..:
AUFRUF AN ALLE!
R2= 1 – (SQ YY -SQXY 2/SQXX )/SQYY
åX
i
***KAMPF DER LINEAREN
REGRESSION!!!***
= 3000 ® X = 100
i
Lasst nicht zu , dass unsere Welt in einfachen
Modellen wiedergegeben wird!
å Yi = 7395 ® Y = 246 .5
i
åX
2
i
= 500000 ® å X i2 - n ( X 2 ) = 200000
i
i
å X i Yi = 743000 ® å X i Yi - n XY = 3500
i
åY
Unser Ökosystem ist ein hochstrukturiertes und komplexes System, welches in der Forschung
und Entwicklung nicht vereinfacht dargestellt werden darf. Aus Vereinfachungen werden rasch
di e falschen Schlüsse gezogen und zugleich überzeugend argumentiert, was auf schnelle
Anwendung der neuen Erkenntnisse führt. Erst nach deren Anwendung wird bewusst, dass die
getroffenen Massnahmen nicht mit unserer Welt in Einklang zu bringen sind und in de r sozialen
Gesellschaft nicht durchgeführt werden können. Die schwerwiegenden Folgen sind immens!
i
2
i
= 14790 ® å Yi 2 - n (Y ) 2 = 195 .5
i
Lasst nicht zu, dass einfache Kurven komplexe
Datenstrukturen annähern sollen!
In der heutigen Gesellschaft sind wir endlich soweit, dass jedes Individuum sei ne persönliche
Integrität bewahren kann. Schaut nicht mit eigenen Augen zu, wie wir wieder in mittelalterliche
Verhältnisse zurückkehren, in denen unsere geliebten Kurven von streuenden Merkmalen
angenähert und belästigt werden!
Deshalb:
*** KAMPF DER LINEAREN
REGRESSION***
i
Regressionsparameter
3500
Wir treffen uns am 30.02.03 um 13.36 Uhr vor der Website des Instituts für
bˆ =
= 0.0175
Statistik. Lasst uns den hölzernen Lutz verbrennen, um unseren Gefühlen
Ausdruck zu verleihen!!!
200000
Achsenabschnitt â = Y - bˆX = 246 .5 - 0.0175 *100 = 244 .75
3500
r=
= 0.5597
Bestimmtheitsmass / Korrelation
200000 * 195 .5
R 2 = r 2 = 0.3133
Steigung
Kapitel 4 - Grundbegriffe der Wahrscheinlichkeitsrechnung
Es geht um mathematische Beschreibung von zufälligen Vor gängen wie z.B. Stichprobenziehen. Ziel: Aussagen anhand von
empirischen (fehlerbehafteten / unvollständigen) Daten mit einer gewissen Sicherheit.
Beschreibung eines Experiments mit ungewissem, zufälligem Ausgang:
–
Grundraum / Ereignisraum W :
Dies ist die Menge aller möglichen Versuchsergebnisse (Bsp. Würfel: W ={1,2,…,6} )
Eine Teilmenge A von W nennt man Ereign is.
(Bsp Würfel: [gerade Zahl] = A = {2,4,6})
Ein einzelner Punkt w Î W ist ein Elementarereignis.
–
Wahrscheinlichkeitsmass / Wahrscheinlichkeitsverte ilung P auf W
Jedem Ereignis A Ì W ordnet man eine Zahl P(A) Î [0,1] zu. Diese Zahl P(A) ist „die Wahrscheinlichkeit des Ereignisses
A“.
Zwei Deutungen von P(A)
1) P(A) als Wetteinsatz
P(A) ist ein Mass dafür, wie sehr man an das Eintreten von Ereignis A g laubt.
P(A) = 0: Bin sicher, dass A nicht eintritt
P(A) = 1: Bin sicher, dass A eintritt
Wetteinsatz: Setze einen Betrag E auf das Eintreten von A. Wenn A tatsächlich eintritt, dann erhalte ich Gewinn G. Auf
dieses Spiel lasse ich mich ein, wenn folgendes gilt:
E
£ P (A)
G
Subjektivistische Deutung von Wahrscheinlichkeiten
2) P(A) als Grenzwert von relativen Häufigkeiten
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Angenommen, wir könnten das Experiment beliebig oft und „unabhängig“ wiederholen. Die Ergebnisse der einzelnen
Experimente sei en
w1,w 2 ,w 3 , ….
Nun betrachte ich empirische Wahrscheinlichkeiten:
Pn ( A) :=
# {i Î {1,..., n} : wi Î A}
n
# = „Anzahl“
Postulat: Es existiert ein Grenzwert P(A) dieser rel. Häufigkeiten.
Pˆn ( A ) für n Þ ¥:
P ( A) = lim Pˆn ( A) (Dieser Grenzwert ist be i jeder Versuchsreihe identisch.)
n -> ¥
Dies ist die frequentistische Deutung von Wahrscheinlichkeiten.
Zusammenhang zwischen den Interpretationen 1) und 2)
Geht man vom Postulat in 2) aus, dann ist P(A) der „richtige Wetteinsatz“ in Betrachtung 1).
Führe das Ex periment beliebig oft durch und erhalte
w1,w 2 ,w 3 , … ÎW
Vor jeder Durchführung setze Betrag E auf das Eintreten von A. Wenn A eintritt (w iÎA), dann erhalte Gewinn G. Nach n
Runden ist der Nettogewinn gleich
#{ i £ n : w i Î A} * G – nE
# {i £ n : w i Î A}
- E /G)
n
E
= n{
* G( Pˆn ( A ) - )
123 G
®¥
®P ( A )
= n * G(
Wenn also
E / G < P ( A ) ® auf langer Sicht beliebig grosser Gewinn
E / G > P ( A ) ® beliebig grosser Verlust
Beispiel 1:
Beim Roulette kann der Spieler auf diverse Ereignisse A Ì {1,2…,36} setzen. Der Gewinn ist
G = E * 36 / #A
Das Spiel erscheint auf den ersten Blick fair. Aber: Es wird rein zufällig eine Zahl aus {0,1,…,36} gewählt, und
P(A) = #A / 37
<E/G
Die Spielbank macht auf lange Sicht beliebig grosse Gewinne, die Spieler beliebig grosse Verluste.
Beispiel 2: Drei gleichwertige Becher. Unter einem wird eine Kugel gelegt. Dann permutiert der Spielanbieter die drei
Becher. Der Spieler muss danach r aten, wo sich die Kugel befindet.
A = [richtiger Becher genannt]
E/G = ½
Naive Spieler: P(A) ~1
Gute Spielanbieter: P(A) £ 1 / 3
A \B
A ÇB B \A
A
B
Rechenregeln für Mengen
http://www.cx.unibe.ch/~duembgen/statwiwi
Î: Ist Element von
Ì: Ist Teilmenge von
Ç : Ist Schnittmenge (dh. Elemente, die
in beiden Mengen sind)
È : Vereinigungsmenge (dh. Elemente,
die in der einen oder der anderen
Menge sind).
\: Differenzmenge (Elemente, die in der
einen, aber nicht in der anderen Menge
sind)
#: Mächtigkeit (Anzahl)
P(A): Menge aller Teilmenge n von A
(also z.B. BÌA und C ÌA)
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Laplace-Wahrscheinlichkeiten
Sei W eine endliche Menge. Die Laplace -Wahrscheinlichkeit von A ist definiert als
P ( A) =
# A Anz. für A günstigen Ereignisse
=
# W Anz. aller möglichen Ereignisse
Man nennt P (A | à P(A)) die Laplace -Verteilung oder die Gleichverteilung oder uniforme Verteilung auf W . Jedes
Elementarereignis wÎW hat die gleiche Wahrscheinlichkeit
P({w}) = 1 / #W
Þ Modell für das rein zufällige Anwählen eines Punktes in W .
Typische Anwendungen:
–
Glücksspiele
–
Kartenspiele (Mischen der Karten)
–
Stichprobenerhebungen
Beispiel (Wurf zweier Würfel)
W ={1,…,6}*{1,…,6} = {(w 1, w 2): w 1, w 2Î{1,…,6}}
#W =36
(allgemein; #(M * S) = (#M)*(#S)
P[Pash] = P ({(1,1), (2,2),…,(6,6)}) = 1/6
P[Augensumme = 3] = P({(1,2),(2,1)}) = 2/36
P[Augensumme = k] =
6
5
4
3
2
1
7
6
5
4
3
2
1
8
7
6
5
4
3
2
9
8
7
6
5
4
3
10
9
8
7
6
5
4
11
10
9
8
7
6
5
1 |7-k |
6
36
12
11
10
9
8
7
6
Bei spiel Jass:
36 Karten werden den viel Spieler ausgeteilt . Nummern die Karten durch Þ
W = {(w 1, …, w 36 ) : {w 1, …, w 36 } = {1,2,…,36}}
aller Permutationen von (1,2,…,36)
Deutung:
(w1 ,..., w9 , w10 ,..., w18 , w19 ,..., w 27 , w 28 ,..., w36 )
1
424
3 14243 142 43 14243
Spieler 1
Spieler 2
Spieler 3
Spieler 4
Hier ist # W = 36!
(Für w 1 36 Möglichkeiten, dann für w 2 noch 35 Möglichkeiten, dann für w 3 noch 34 Möglichkeiten etc.)
A:= [Spieler 1 erhält Kreuz-Bauer , Kreuz -9 und Kreuz -Ass]
#A = 9 (Wo landet Kreuz -Bauer?) * 8 (Wo landet Kreuz-Neun?) * 7 (Wo landet Kreuz -Ass?) * 33! (Übrige zu verteilende
Karten)
Þ P(A) = ( 9 * 8 * 7 * 33!) / 36! = 0.0118
Für das Ereignis B = Spieler 1 erhält von irgendeiner Farbe Ass, 9, Bube]
gilt nicht P ( B) = 4P(A)!
Um den korrekten Wert auszurechnen, beschäftigen wir uns allgemein mit Rechenregeln für Wahrscheinlichkeiten:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Rechenregeln für Wahrscheinlichkeiten (Kolmogorov’s Axiome)
–
0£P(A)£1, P( W )=1
–
Für disjunkte Ereignisse A, B (dh. die Ereignisse schliessen sich aus; dh. A Ç B=0) ist P(AÈ B)=P(A)+P(B)
Diese Regeln sind plausibel, wenn man an Laplace -Wahrscheinlichkeiten denkt, oder wenn man empirische
Wahrscheinlichkeiten betrachtet.
Folgerungen:
Ì = enthalten
–
Falls A Ì B, ist P(A) £ P(B). Denn aus A Ì B folgt, dass B = A È (B\A)
A B
Da A und B\A disjunkt sind, ist P(B) = P(A) + P(B\A)
³ P(A)
–
Für jede Zahl n Î |N und paarweise disjunkt Ereignisse A 1, A 2, …, A n ist
P(A 1È …È An) = P(A 1) + …+ P(An) =
=
n
n
i= 1
i= 1
P (U Ai ) = å P ( Ai )
(Dies folgt induktiv aus der Regel für zwei Mengen…)
–
Für zwei beliebige Ereignisse A,B (nicht notwendig disjunkt) ist
P(AÈ B) = P(A) + P(B) – P(A Ç B), denn
A \B
A ÇB B \A
A
B
A = ( A\B) È (AÇ B)
B = (A Ç B) È ( B\A)
P(A) = P(A \B) + P(A Ç B)
P(B) = P(AÇ B) + P(B\A)
AÈB = (A \B) È (AÇ B)È(B\A)
P(AÈ B) = P(A\B) + P(AÇB)+P(B \A) = P(A) + P(B) – P(A ÇB)
–
P(Æ) = 0
Denn = = Æ = Æ È Æ Þ P( Æ)=P(Æ)+P(Æ)
–
Für ein Ereignis A sei AC = W \A das komplementäre Ere ignis. Dann ist
P(A C) = 1 -P(A) (Im Buch A )
denn W =AÈAC
1= P( W )=P(Æ)+P(Æ)
–
Für beliebige Ereignisse A 1, …, A n gilt
n
P (U Ai ) = å P ( Ai )
i =1
i
- å P ( Ai Ç A j )
i< j
+
å P( A
i
Ç A j Ç Ak )
Wahrscheinlichkeit, dass jedes Ereignis A i eintritt.
i < j< k
....
+ ( - 1) n -1 P ( A1 Ç A2 Ç ... Ç An )
“Siebformel“: Bei jedem Schritt wird das Sie b vergröbert.
Beispiel Jass (Fortsetzung)
A= [Spieler 1 erhält von irgendeiner Farbe die Karten Bube, 9, Ass]
A= A 1È A2ÈA3È A4
Ai = [Spieler erhält Bube, 9, Ass von Farbe i]
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
w = ( w1 , w 2 ,..., w 9 ,..., wi )
142
4 43
4
Spieler 1
9 * 8 * 7 * (33!)
P ( Ai ) =
36!
@ 0. 01...
P(A iÇ Aj) = 9*8*7 (setze Bube, 9 , Ass von Farbe i)
6*5*4 ( setze 3 Sonderkarten von Farbe j)
30! (Setze übrige Karten)
36!
=
9 * 8 * 7 * 6 * 5 * 4 * (30! )
-8
@ 11 * 10
36!
Zusammenhang aus der Siebformel
P(A 1 È , …, È QA4 =
4
4 * P ( A1 ) - ( ) * P ( A1 Ç A2 )
2
{
=6
+ 4*P(A 1 Ç A2 Ç A3)
- P(A 1ÇA2Ç A3Ç A4)
= 0.0468
Objektive Wahrscheinlichkeiten
Subjek tive Wahrscheinlichkeiten
Vom Betrachter aufgrund seiner Kenntnisse beurteilt;
„Wettquotient“. Häufigkeitsinterpretation unnötig.
n - >¥
f n ( A) ® P ( A )
frequentistisch überprüfbar
Stichproben ziehen
Ausgangspunkt: Grundgesamtheit M mit N Elementen (N Kugeln in einer Urne)
Nun wählt man rein zufällig ein Tupel
w=(w 1, …, w n)
bestehend aus Elementen w i der Grundgesamtheit M.
w: Stichprobe vom Umfang n aus M
Zwei unterschiedliche Varianten:
Ziehen mit zurücklegen
Nach jeder Ziehung einer Kugel wird dies e notiert und zurückgelegt:
w Î W = Mn =(Im Buch N n)=
M
*M
*2
M4
* ...
M
14
44
4*4
3 = {(w 1, …, w n): w j ÎM}
n -mal
Gesamtzahl
#W =Nn
Beispiel: (n -faches Würfeln)
M={1,2,…,6} W = {1,…,6} n
#W =6 n
Beispiel (n -faches Roulettespiel)
M={0,1,…,36}
#W =37 n
Zahlenbeispiel A = [keine Null fällt]
A = {w ÎMn: w i ¹ 0 für alle i}
= {1,2,…,36} n
Þ P(A) =
# A 36 n
=
# W 37 n
n=1 : 0.973
n=10 : 0.7603
n=50 : 0.2541
n=100: 0.0646
Ziehen ohne zurücklegen
Man zieht nacheinander rein zufällig n Kugeln aus der Urne, ohne sie zurückzulegen.
W = {(w i)ny=i :w i ¹ w j falls i ¹y}
(alle n -Kugeln mit paarweise verschiedenen Komponenten aus M)
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
#W = N (N -1)*(N-2)…(N-n+1)
(N Möglichkeiten bei erster Ziehung, dann M-1 Möglichkeiten bei zweiter Ziehung, M-2 Möglichkeiten bei dritter Ziehung etc.)
N! / (N -n)!
Zahlenbeispiel (Ziehung der Lottozahlen)
M = {1,2,…,45}
n=6
#W = 45*44*…*40 = 5864443200
Aber man interessiert sich nur für die Menge {w 1,w 2 , …, w n} (Sortieren). Zu jeder Menge T ÌM mit #T = 6 gibt es genau 6!
verschiedene Tupel w ÎW , so dass {w 1,…,w 6} = T
Nach Sortieren
#W =(45*44*…*40)/6! = 8145060
P[6 Richtige] = 1 / 8145060
P[nur ungerade Zahlen] : Betrachte wieder ursprünglichen Grundraum W mit #W = 45*44*…*40 (sortieren weglassen). Dann
betrachte
A= [nur gerade Zahlen] = {wÎW :w i ungerade für alle i}. Es gibt 23 ungerade Zahlen in {1,2,…,45}. Aber ist
#A = 23*22*…*18
Þ P[nur ungerade Zahlen] = (23*22*…*18)/ 45*44*…*40 = 0.0124
1) n = N : In diesem Fa ll enthält je des Tupel w alle Elemente von M in d iesem Falle spricht man auch von einer Permutation
von M.
Es gibt Þ N * (N-1) * (N-2) *…* 1 = : N! solches Tupel . (Beispiel Kartenmischen)
2) Im allgemeinen Fall (1 £ n £ N) ist
#W = N * (N-1) *…* (N – n + 1) = N! / (N-n)!. Dabei verwendet man die Konvention 0! = 1.
3) Manchmal interessiert nicht die Reihenfolge von (w 1, …, w n) sondern nur die Menge {w 1, … , wn} (Bsp. Lotto)
Zu jeder n -elementigen Teilmenge T von M gibt es genau n! mögliche Stichproben w ÎW , so dass {w 1, …, w n} = T.
Beispiel: M = {1,2,…,45}, n= 3, T = {2,3,4}
{w 1,w 2, w 3} = T für folgen de Tupel
2,3,4
2,4,3
3,2,4
3,4,2
4,2,3
…
Dies impliziert folgende Tatsache
Es gilt
# W N ( N - 1) * ... * ( N - n + 1)
N!
=
=
n!
n!
n!( N - n )!
n-elementige Teilmenge von M.
Definition (Binomialkoeffizient)
Für ganze Zahlen 0 £ n £ N ist
N
N!
( ) :=
n
n!( N - n)!
der Binomialkoeffizient N tief n
N
( ) ist die Anzahl von n-elementigen Teilmengen einer N-elementigen Menge; dh. er gibt die Anzahl der Möglichkeiten
n
an, aus N Objekten n auszuwählen.
Zahlenbeispiel: Gruppe von N = 20 Personen. Man möchte eine Kommission von n=4 Per sonen festlegen.
N
20
20 * 19 * 18 *17
( )=( )=
= 4845
n
4
4 * 3* 2 *1
Induktionsformel für Binomialkoeffizienten
N
N
N +1
( )+ (
)=(
) Þ Pascalsches Dreieck für Binomialkoeffizienten
n
n -1
n
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
N=0
N=1
N=2
N=3
N=4
N=5
1
N=6
1
2 Beweise der obigen Formel:
Beweis 1
© by Al_Sub et al.
1
1
1
1
1
3
4
5
6
1
2
1
3
6
10
15
1
4
10
20
1
5
15
1
6
1
N
N
N!
N!
N!
N - n +1 + n
( )+ (
)=
+
=
(
)
n
n -1
n! ( N - n )! ( n - 1)!( N - n + 1)! ( n - 1)!( N - n)! n( N - n + 1)
=
N +1
( N + 1)!
=(
)
n!( N + 1 - n )!
n
Beweis 2:
(
N +1
) = Anzahl aller n -elementigen Teilmengen von {1,2,…,N+1}. Sei T eine beliebige solche Teilmenge:
n
Fall 1 : T enthält N+1
Þ T enthält genau n -1 Punkte aus {1,…,N}
Þ(
N
) Möglichkeiten für T
n -1
Fall 2 : T enthält nur Zahlen aus {1,…,N}
N
( ) Möglichkeiten für T
n
N
N
Beide Fälle zusammen: (
) + ( ) Möglichkeiten
n -1
n
Þ
Übungsaufgabe
Für ganze Zahlen 0<n £N gilt folgende Formel:
n
n +1
n+2
N
N +1
( )+ (
)+(
) + ... + ( ) = (
)
n
n
n
n
n +1
Beweisen / Begründen Sie diese Formel! Hinweis: Betrachten Sie eine beliebige (n+1) -elementige Teilmenge von
{1,…,N+1}. Betrachten Sie der en Maximum.
2 Beispiele zu LaPlace -Wahrscheinlichkeiten
Beispiel 1: Ziegenproblem Spielshow mit drei verschlossenen Türen, hinter zwei Türen eine Ziege, hinter einer ein Auto.
Ablauf: Kandidat wählt eine Tür, diese bleibt vorerst verschlossen, Moderator we iss, wo der Hauptgewinn ist, der Moderator
öffnet eine der anderen Türen und zeigt eine Ziege. Frage: Wechseln oder nicht?
Beste Strategie: Wechsle grundsätzlich zur dritten Tür. Begründung Spielablauf liefert 3 zufällig gewählte Türen.
Tür 1: erster Wahl des Kandidaten
Tür 2: vom Moderator geöffnete Tür (Ziege)
Tür 3: verbleibende Tür
Hauptgewinn ist hinter Tür 1 oder Tür 2.
P[Hauptgewinn hinter Tür 1] = 1/3
P[Hauptgewinn hinter Tür 3] = 2/3
Stichprobenziehen (Wiederholung)
Grundgesamtheit M mit N Elementen. Stichprobe w = (w 1 ,w 2 , …, w n) vom Umfang n aus M (w 1 ,w 2 Î M).
Ziehen mit Zurücklegen:
W =Mn^,# W = N n
Ziehen ohne Zurücklegen
W ={wÎMn : w i ¹ w j, falls i ¹ j}
#W = N(N -1)(N -2)….(N-n+1)
Aufgabe 4.5
M = {1,2,3,4}
n= 2
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Ziehen mit Zurücklegen: W = {(1,1), (1,2)…,(4,4)}
#W = 4 2 = 16
Ziehen ohne Zurücklegen: W = {(1,2), (1,3), (1,4), … ohne (1,1), (2,2), (3,3), (4,4)}
Wie gross ist P (i landet in Stichprobe) für ein beliebiges i Î M ? Vermutuung: n/N = 2/4 = 0.5
Ziehen mit Zurücklegen:
#W = 12
A = {w ÎMn : i Î {w 1 ,w 2 , …, w n}} = {w Î{1,…,4} 2 : w 1 = i oder w 2 = i}
#A* = 7 Þ Also P(A) = 7/16 < 0.5!
Ziehen ohne Zurücklegen:
A = {w ÎW :i Î {w 1, …, w n}} = {w ÎW :w 1 = i oder w 2 = i }
#A = 6
#W = 12
Þ P(A) = 6/12 = 0.5
Wie gross ist P[1 und 2 landen in Stichprobe]?
A= {w ÎW : {1,2} Ì {w 1, w 2}} = {w ÎW :(w 1,w 2) =(1,2) oder (w 2,w 1) = (1,2)}
Ziehen mit Zurücklegen:
#A=2
#W =16 Þ P(A) = 1/8 = 0.125
Ziehen ohne Zurücklegen:
#A=2
#W =12 ÞP(A) = 1/6 = 0.166
Aufgabe 4.6
Gruppe von 3 Männern und 4 Frauen. 3 Positionen in untersch iedlichen Kommissionen sind zu besetzen. Diese werden rein
zufällig besucht.
Frage: P[mindestens eine Position wird von einer Frau besetzt]. 2 Varianten: Mehrfachnennung möglich / nicht möglich.
Formal: M = {Personen} #M=7
Stichprobe w = (w 1 ,w 2 ,w 3)
wi: Person für i -te Kommission
A= {w: mindestens eine Frau in { w1, w 2, w 3}}
Gegenereignis A Ì = {w: keine Frau in { w1, w 2, w 3}
Ziehen mit Zurücklegen:
#(AÌ) = 3 3 = 27
#W =7 3
Þ P(A) = 1 - P(A Ì) = 1 – (3/7) 3 = 0.921283
Ziehen ohne Zurücklegen:
#(AÌ) = 3*2*1 = 6 #W = 7*6*5 = 210 Þ P(A) = 1 - P(A Ì) = 1 – 6/210 ~1
n: Umfang der Stichprobe . N: Umfang der
Grundgesamtheit
Anzahl der möglichen Stichprobe n
mit Berücksichtigung der Reihenfolge
ohne Berücksichtigun g d. Reihenfolge
ohne Zurücklegen
mit Zurücklegen
Nn
N!
( N - n )!
N
N!
=( )
( N - n )!n!
n
(
N + n -1
)
n
Bedingte Wahrscheinlichkeiten
Ausgangspunkt sind zwei Ereignisse A, B Ì W . P(A): Wetteinsatz auf das Eintreten von A bei Gewinn 1. Angenommen man
weiss bzw. erfährt, dass das Ereignis B e ingetreten ist, wie beurteilt man nun das Ereignis A?
Definition Bedingte Wahrscheinlichkeiten:
Die bedingte Wahrscheinlichkeit des Ereignisses A gegeben dass B eingetreten ist, ist definiert als die Zahl
P ( A | B ) :=
P( A Ç B)
P( B)
dabei vorausgesetzt, dass P(B) > 0 .
B
AÇB
A
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Anmerkung: Bei festem Ereignis B ist A |Þ P (A|B) ein neues Wahrscheinlichkeitsmass auf W mit
P(B|B) = 1
P(B Ì|B) = 0
Speziell für Laplace -Wahrscheinlichkeiten gilt
P(A) = #A / # W
P( A | B) =
P ( A Ç B ) # (A Ç B)
=
P( B)
#B
Beispiel
W ist eine Population von Personen.
A die Teilmenge aller Personen mit bestimmter Krankheit
B die Teilmenge aller Personen, bei denen ein medizinischer Test positiv ausfällt (z.B. Bluttest)
Aus Sicht eines Patienten oder eines Mediziners der eine Einzelperson untersucht, ist f olgende Grösse interessant:
P(A|B) = Die Wahrscheinlichkeit, dass die Person krank ist, gegeben, dass der Test positiv ist.
P(A Ì|B Ì) = der relative Anteil von Personen, die gesund sind, unter allen Personen mit negativem Testergebnis.
P(A) ist Anteil der Kranken in Gesamtbevölkerung
P(B|A) ist Anteil von Personen mit positivem Testbefund „Sensitivität“ unter allen Kranken
P(B Ì|A Ì) rel. Anteil von Personen mit negativem Testbefund unter allen Gesunden „Spezifität“
Umrechnung dieser Grössenb in die interessie renden Grössen P(A|B) bzw. P(AÌ|B Ì)
P( A Ç B)
P( B | A) * P( A)
=
Ì
Ì
P( B)
P (B | A) * P ( B ) + P ( B | A ) * P ( A )
P( B | A) * P( A)
=
P (B | A) * P ( A ) + (1 - P ( B Ì | A Ì )) * (1 - P ( A ))
P( A | B) =
Zahlenbeispiel:
P(A) = 0.001
P(B|A) = 1
P(B Ì|A Ì) = 0.9
1 * 0.001
= 0 .01
1 * 0. 001 + 0.1 * 0.999
P( AÌ | B Ì ) = 1
P( A | B) =
Diese Rechnungen sind Spezialfall von zwei allgemeinen Formeln:
Der Produktsatz
P(AÇ B) = P(A|B) * P(B)
(Wahrscheinli chkeit von A geg . B mal W’keit von B; Wahrscheinlichkeit für gemeinsames Eintreten von A und B)
führt zum Satz der totalen Wahrscheinlichkeit:
Sei W = A1 È A2 È A3 È … È Ak (W zerlegt in einzelne Teilbereiche) mit paarweise disjunkten Ereignissen A 1, …, A k.
Dann gilt für ein beliebiges Ereignis B
k
P ( B ) = å P ( B | Ai ) * P ( Ai )
i= 1
Bild für k = 4
Beweis der Formel
k
B = U ( B Ç Ai)
i= 1
Die Mengen BÇ A1, …, BÇAk sind paarweise disjunkt.
Satz von Bayes:
k
Sei
W = U Ai
i= 1
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
mit paarweise disjunkten Mengen A1, A2 , …, A k . Für ein beliebiges Ereignis B mit P(B)>0 und jedes Index j Î{1,…,k} gilt
P( Aj | B) =
P( B | Aj ) * P( Aj )
k
=
å P( B | A ) * P( A )
i
P( B | Aj ) * P( A j )
P( B)
i
i= 1
Begründung:
P(A j |B) P(A jÇ B)/ P(B)
k
P(B) =
å P( B | A ) * P( A )
i
i
i= 1
nach dem Satz der totalen Wahrscheinlichkeit.
Beispiel Aufg 4.11
Neben einer Kasse wird ein Gerät zur Prüfung von 100 CHF Scheinen aufgestellt.
W = Menge aller 100 CHF-Scheine (echt oder gefälscht)
A = Menge der gefälschten Scheine
B = Menge der Scheine, bei dem das Gerät aufblinkt
P(A) = 0.0015 (15 von 10000 Scheinen ist gefälscht)
P(B|A) = 0.95
P(B|AÌ) = 0.1 (Wahrscheinlichkeit, dass das Gerät aufblinkt, obwohl es ein echter Schein ist)
P( A | B) =
P ( B | A) * P ( A)
0.95 * 0.0015
=
» 0. 015
Ì
Ì
P ( B | A) * P ( A) + P ( B | A ) * P ( A ) 0.95 * 0.0015 + 0.1 * 0.9985
Das Gerät ist unbrauchbar.
Definition (Unabhängigkeit zweier Ereignisse)
Zwei Ereignisse A, B heissen stochastisch unabhängig, falls
P(AÇ B) = P(A)*P(B)
Sind A und B stochastisch unabhängig, dann ist
P(A|B) = P(A)
P(B|A) = P(B)
A, B, unabhängig Û P(A Ç B) = P(A)P(B)
Û A und B Ì unabhängig.
Verallgemeinerung auf mehr als 2 Ereignisse
Seien A1, A 2, …, An beliebige Ereignisse. Die se nennt man stochastisch unabhängig, wenn gilt:
Für jedes i Î {1,2,…,n} und ein beliebiges Ereignis B, das nur von A j , j ¹i, abhängt, sind A i und B stochastisch unabhängig.
In Formeln:
Ì
P(Ã 1Ç Ã2Ç …Ç Ãn) = P(Ã 1)*…*P(Ãn) wobei Ãi gleich Ai oder Ai ist.
Beispiel: n-facher Münzwurf
Eine Münze wird n mal unabhängig geworfen, und wir notieren Kopf oder Zahl.
n = 1:
W = {0,1}
P({0})= 1 -p
P({0})=p
Dabei ist p eine Zahl aus [0,1] Kopf oder Zahl wurden durch 0 oder 1 codiert.
n = 2:
W = {0,1} 2 = {(w 1,w 2) : w 1 Î{0,1}}
P({(1,1)} = p 2
P({(1,0)} = p(1-p)
P({(0,1)} = (1 -p)p
P({(0,0)} = (1 -p) 2
Wir wissen bereits, dass
P({w}) = p k(1-p) für alle Tupel w mit X(w) = k.
Es gibt
n
( ) Tupel .
k
Allgemeines n ³ 2:
W = {0,1} n
(#W = 2 n)
i
P ({w}) = Õ p wi (1 - p )1- wi
Dem Ausdruck p wi (1-p) 1-wi gleich ist
i =1
p falls w i = 1
1-p falls w i = 0
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Andere Schreibweise
n
P({w}) = p s(w)(1-p) n-s(w) mit S(w) =
åw
i
(Anzahl von Einsen im Tupel)
i= 1
Dieses Modell des n -fachen Münzwurfs ist in vielen Kontexten hilfreich.
Beispie l 1:
Testen von n gleichartigen Anlagen p = w i, dass eine einzelne Anlage ausfällt
Beispiel 2:
Befragung von n Personen. p = w i , dass eine einzelne Person eine bstimmte Frage mit „Ja“ beantwortet.
Unendliche Grundgesamtheiten
Wird so oft gewürfelt, bis di e gewünschte Zahl eintritt, dann werden die vorhergehenden Durchgänge mit der
Wahrscheinlichkeit eines Nicht-Eintretens bewertet, der letzte Durchgang mit der Wahrscheinlichkeit des Eintretens.
Axiome von Kolmogorov auf unendliche Ergebnisräume:
- P(A) ³0
- P( W )=1
¥
- Wenn A 1, …, Ak , … Ì W paarweise disjunkt, dann P(A1È…È AkÈ…)=
å P( A )
i
i=1
Kapitel 5 /6 – Zufallsvariablen
Wir betrachten ein Zufallsexperiment, das durch ( W , P) beschrieben wird. Oftmals interessiert man sich nur für einen
bestimmten T eilaspekt des Experiments. Dies beschreibt man durch eine Abbildung
X: W à c
mit irgendeinem Wertebeweich c. Meistens ist c eine Teilmenge von |R. Mann nennt X eine Zufallsvariable mit Werten in c.
Der Begriff „Zufallsvariable“ anstelle von „Abbildung“ d eutet an, dass auf dem Definitionsbereich W ein
Wahrscheinlichkeitsmass P definiert ist.
X
W
{w:X(w)ÎB)
P
B
c
Bsp: w = (Z,W,W,Z) Þ X(w)=2 (wenn X = „Anzahl Wappen“).
Die Zufallsvariable X liefert ein neues Wahrscheinlichkeitsmass P X auf der Menge c: Für B Ì c gilt
PX(B) = P(XÎB) = P({w:X(w) ÎB})
Dieses neue Wahrscheinlichkeitsmass PX ist die sogenannte Verteilung von X.
P(X=x i)=p i wobei
å
pi = 1
i³ 1
ì P ( X = x i ) = pi , wenn X = x i Î {x 1 , x 2 ,..., x k ,...}
f ( x) = í
î0, sonst
Verteilungsfunktion: F ( x ) = P ( X £ x ) = å f ( xi )
Wahrscheinlichkeitsfunktion:
i: xi £ x
Beispiel (Sum mer zweier Würfel)
Werfe zwei ideale Würfel und betrachte nur deren Augensumme.
W = {1,2,…,6} 2
P = Laplace -Verteilung auf W
X(w) := w1 + w 2
(w= (w 1 + w 2) ,w i Î{1,…,6}
c := {2,3,…,12}
PX= Wahrscheinlichkeitsmass auf c PX({k}) = P(X = k)
=
# {w : w1 + w2 = k } 6- | 7 - k |
=
36
36
Diskrete Gleichverteilung
X = Augenzahl beim einmaligen Würfeln
P(X=x i)=1/k
http://www.cx.unibe.ch/~duembgen/statwiwi
für i=1,…,k
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Unabhängigkeit von diskreten Zufallsvariablen
X und Y sind unabhängig, wenn gilt
P(X 1 = x 1, …, X n = x n)=P(X1=x 1)*…*P(Xn=x n)
bei X1, X 2, …, X n Zufallsvariablen
Bernoulli- Experiment:
Zufallsvorgang, bei dem eine binäre Zufallsvariable resultiert. Þ Bernoulli -Verteilung:
P(X=1) = p
P(X=0)=1-p
bei n unabh. Bernoulli- Experimenten und gleichbleibender Trefferwahrscheinlichkeit der Anzahl X Treffer Þ
Definition (Binomia lverteilung)
Eine Zufallsvariable X mit Werten in {0,1,…,n} heisst binomialverteilt mit Parametern n und p Î[0,1], wenn
n
P ( X = k ) = ( ) p k (1 - p ) n - k
k
für k = 0,1, 2,..., n
Das entsprechende Wahrscheinlichkeitsmass P X auf {0,1,…,n} ist die Binomialverteilung mit Parametern n und p.
Symbol: B(n, p) oder Bin(n,p)
Skizzen von P(X=k)
p = ½ P(X=k) =
n
( )(1 / 2) n
k
Zeichnen für p -Werte
Zufallsvariablen beim Stichprobenziehen
M : Grundgesamtheit von N Objekten (Personen, Kugeln in Urne)
Ziehe rein zufällig eine Stichprobe w = (w 1, …, w n) aus M. Sei M0 eine bestimmte Teilmenge von M (z.B. alle Personen, die
einer bestimmten Initiative zustimmen würden). Nun konzentrieren wir uns nur auf die Zahl
n
X(w) := Anzahl von Stichprobenelementen w i Î M0 =
å1{w
i
Î M 0}
i= 1
Frage: Wie i st X verteilt?
Fall 1: Ziehen mit Zurücklegen. Bei jeder Ziehung erhält man mit Wahrscheinlichkeit p =
# M0
ein Element von M 0 . Die
#M
einzelnen Ziehungen sind unabhängig. (Wir sind also in der Situation des n -fachen Münzwurfs) Þ
n k
n- k
P ( X = k ) = ( ) p (1 - p )
k
für k = 0,1,..., n
Also ist hier X binomialverteilt mit Parametern n und p.
Fall 2: Ziehen ohne Zurücklegen. Hier ist der Grundraum W gleich der Menge aller Tupel {w Î Mn : wi ¹ wj für i ¹ j}. Jetzt
betrachte nur die Menge {w 1, …, w n}. Dann betrachten wir also de n neuen Grundraum
von M., Dann kann man schreiben
~
W aller n -elementigen Teilmengen
~ ) = # (M Ç w
~)
X (w
0
Es gibt insgesamt
n
N
( ) Möglichkeiten. Es gibt ( 0 ) k-elementige Teilmengen von M 0 wobei N o = # M0
k
k
N - N0
) Teilmengen von M \ M0 mit n-k Elementen,
n- k
N
N - N0
Þ Es gibt ( 0 ) * (
) Teilmengen von M, so dass genau k Elemente aus M0 und n -k Elemente aus M \ M0 dabei
k
n-k
Es gibt
(
sind.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Folgerung:
N 0 N - N0
)(
)
k
n-k
P( X = k ) =
N
( )
n
(
für k = 0,1,..., n
N
(Konvention: ( 0 ) := 0 falls k > N 0
k
Definition (Hypergeometrische Verteilung)
Eine Zufallsvariable X mit Werten in {0,1,…,} heisst hypergeometrisch verteilt, mit Parametern N, N 0 und n, falls die
Wahrscheinlichkeit
N 0 N - N0
)(
)
k
n-k
P( X = k ) =
N
( )
n
(
für k = 0,1,..., n
Die Verteilung P X ist die hypergeometrische Verteilung mit Parametern N, N 0 und n.
Symbol: Hyp(N, N 0 , n).
Die Reihenfolge der Parameter in Klammer ist scheissegal.
Wiederholung 10.01.
3 wesentliche Beispiele
- n-facher Münzwurf:
W = {0,1} n (alle n -Tupel von Ziffern in {0,1})
n
Für ein einze lnes w=(w 1, …, w n) definiert:
P({w})=p S(w)(1-p) n-S(w) mit S(w) :=
å wi
i =1
Dabei ist die Wahrscheinlichkeit pÎ[0,1] dass bei einem einzelnen Wurf 1 („Zahl“) auftritt. Dieses Modell ist in v ielen
Anwendungen von Interesse , z.B . Qualitätskontr olle.
- Stichprobenziehen
Population M. Ziehe n -mal rein zufällig ein Element aus M Þ Stichprobe w=(w 1,…w n) von Individuen w iÎM
Ziehen ohne Zurücklegen
Ziehen mit Zurücklegen
Keine weiteren Einschränkungen an
wi ¹ w j für i ¹ j
die Stichproben. Grundraum W = M n
Grundraum W besteht aus
N(N-1) (N -n+1) Stichproben. Dabei i st
mit N n möglichen Stichproben
N =#M
Eine Zufallsvariable
ist eine Kenngrösse X(w), wenn w ein Elementarereignis aus W ist. Genauer:
X: W à c ( in der Regel ist cÌ|R)
Beispiel: Beim n -fachen Münzwurf betrachte nur die Zahl von Erfolgen:
X(w) = #{iÎn : w i = 1}
Diese Zufallsvariable X ist binomialverteilt mit Parametern n und p. Dh für k Î{0,1,…,n} ist
n
P ( X = k ) = ( ) p k (1 - p )n -k
k
n
( )Möglichkei ten festzulege n, welche Komponente der Elementare reignismen ge = 1
k
Für jedes Tupel w mit X(w)=k ist
Beispiel Stichprobenziehen mit Zurücklegen bei M * eine spezielle Teilmenge von M (z.B. M = Menge aller
Stimmberechtigten, M* = Menge aller Befürworter einer Initiative). Bei p = #M * / M
Die Zufallsvariable X(w):= #{i În:wi Î M *} (Anz Befürworter in der Stichprobe ) ist ebenfalls binomialverteilt mit Parametern n
und p.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Stichprobenziehen ohne Zurücklegen. Definiert wenn X(w) wie oben, dann ist X hypergeometrisch verteilt mit Parametern N
= #M, L = #M * und n= Stichprobenumfang. Das bedeutet:
L N-L
( )(
)
k n-k
P( X = k ) =
N
( )
n
Zwischen der hypergeometrischen Verteilung Hyp(N,L,n) und der Binomialverteilung Bin(n,L/N) ist kein wesentlicher
Unterschied, wenn n<<N.
Deshalb rechnet man aus Bequemlichkeit mit Binomialverteilungen (Ziehen mit Zurücklegen), obwohl eigentlich die
hypergeometrischen angebracht wären (ziehen ohne Zurücklegen) .
Konkrete Rechnungen mit der Binomialverteilung
–
Computerprogramme
–
Tabellen (z.B. Tabelle B )
–
Approximationen durch Normalverteilungen
Zahlenbeispiel
Umfrage zu einer bestimmten Initiative
p = tatsäc hlicher rel. Anteil von Befürwortern
X = Anzahl von Befürwortern in er Stichprobe. X ~Bin (n,p).
Tabelle B enthält für diverse Paare (n,p) die Werte
F(k) = F n,p(k) := P(X Îk)
Beispiel: n=10, p=0.5 Hier ist P (relativer Anteil in Stichprobe ist £ 0.2)
= P( X£2) = F 10,0.5(2) = 0.0547
P(rel. Anteil in Stichprobe ist £0.4) = P(X £4) = F 10,0.5(4) = 0.377
Für n= 30 und p = 0.5 ist P (rel. Anteil in Stichprobe £ 0.2) = P(X £6) = F 30,0.5(6) = 0.0007
Diese Tabelle enthält nur Werte p £ 0.5. Im Falle von p > 0.5 verw ende die Tatsache, dass
X ~Bin (n,p)
n-X ~Bin(n,1 -p)
P(X £k) = P(n - X ³ n -k) = 1 -p(n -X £ n -k-1) = 1 - F n, 1-p(n-k-1)
Fn,p(k) = 1 -Fn,1-p(n-k-1)
Zahlenbeispiel n = 20, p=0.7 .P(relativer Anteil Befürwortern in Stichprobe) £0.5
= P(X£10) = F 20,0.7(10) = 1 - F 20,0.3 (9) = 0.0480
Beispiel zur stochastischen Unabhängigkeit
Computernetzwerk mit vier Knoten (Rechnern) sind fünf Verbindungen.
Angenommen, jede Leitung funktioniert mit Wahrscheinlichkeit p Î (0,1), und diese fünf Ereignisse seien stochastisch
unabhän gig.
Frage: Mit welcher Wahrscheinlichkeit gibt es eine Verbindung, zwischen den Knoten (1) und (4)?
Lösung 1: Man betrachtet alle 2 5 = 32 Möglichkeiten, welche Leitungen funktionieren und welche nicht. Nun addiert man die
Wahrscheinlichkeiten aller Konfigurationen, bei denen 1 und 4 verbunden sind.
Lösung 2: A = [1 und 4 verbunden]
B2 = [Leitung 1-2-4 intakt]
B3 = [Leitung 1-3-4 intakt]
P (B 2) = p 2
P(B 3) = p 2
P(B 2Ç B3) = p 4
Þ P(B 2È B3) = 2p 2-p 4
Jetzt bringe die Leitung 2 -3 ins Spiel:
A = (B 2 È B3) È (A \ ( B 2ÇB3)
Das Ereignis A \(B2È B3) besteht aus zwei Konfigurationen:
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Die Wahrscheinlichkeit einer solchen Konfiguration ist p 3(1-p) 2. Also ist P(A \(B2È B3)) = 2p 3(1-p). Insgesamt erhält man P(A)
= 2p 2-p 4+2p 3(1-p) 2.
Weitere wichtige Verteilungen
Poisson- Verteilungen
Wir betrachten Binomialverteilung Bin(n,p). In vielen Anwendungen (siehe später) ist p sehr klein und n recht gross. In
diesem Fall kann man Bin(n,p) durch die Poisson -Verteilung mit Poiss( l) approximieren.
Definition Poisson: Eine Zufallsvariable X mit Werten in {0,1,2,…} heisst poissonverteilt mit Parameter l, falls folgende
Tatsache gilt:
P( X = k ) = e
-l
lk
* für k = 0,1,2,3...
k!
Die Verteilung von X ist die Poisson -Verteilung mit Parameter l, Symbol Poiss( l)
Anmerkung:
¥
åe
-l
k =0
lk
0
*
= e =1
k!
Zusammenhang mit Bin(n,p)
l := np
Betrachte l als fest und lasse n à ¥ (p= l/n)
n
n ( n - 1)...( n - k + 1) l k
l
( ) p k (1 - p ) n - k =
( ) (1 - )n -k
k
k!
n
n
lk
k -1
l
1(1 - 1 / n )(1 - 2 / n )...(1 ) * (1 - 2 / n ) - k * (1 - ) n
k!
n
n
Für n - > ¥ gilt
=
(1 - 1 / n )(1 - 2 / n )...(1 (1 (1 -
l
n
l
n
k -1
)->1
n
) -k - > 1
) n = exp(log( 1 -
l
n
)n )) = exp( - l )
Þ Für n ॠund p = l/n gilt
n
lk
( ) p k (1 - p) n - k - > e - l
k
k!
Anwendungen von Poisson
Allgemein kann man sagen, dass die Summe von vielen statistisch unabhängigen Zufallsvariablen X 1,…, Xn mit Werten 0
oder 1 näherungsweise poissonverteilt ist, wenn fürp i := P(X i=1) = 1 -P(X i = 0) gilt:
maxp i bei i £n << 1
Der entsprechende Parameter l der Poissonverteilung ist dann
n
l = å pi
i =1
Beispiel 1:
Aufträgen bei der Telefonauskunft zwischen 8.00 Uhr und 8.05 Uhr. Wir haben eine riesengrosse Menge von Potentiellen
Anrufern. Doch die Wahrscheinlichkeit für jeden einzelnen (anzurufen) ist extrem klein. Die Potentiellen Anrufer nummerieren
von 1 bis n (n sehr gross). Sei
ì1,ite Person ruft an
X i := í
0, sonst
î
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
n
Hier ist anzunehmen, dass alle p i sehr klein sind. Daher ist die Zahl der Anrufe
åX
i
näherungsweise poissonverteilt mit
i =1
n
unbekanntem Parameter
l = å pi
i =1
Beispiel 2:
Schadensfälle bei einer Haftpflichtversicherung in e iner bestimmten Woche . Hier nummerieren der Kunden der Versicherung
durch und definiere
ì1, ite Kunde meldet Schadenfal l
X i := í
î0, sonst
p i = P(X i=1)= 1 -P(X i=0)
Auch hier gehe davon aus, dass alle p i sehr klein sind. Also ist die Zahl von Schadensmeldungen gleich
n
åX
i
und approximativ poissonverteilt. Gegenbeispiel sind Versicherungen gegen Sturm- oder Hochwasserschäden. Hier
i =1
sind die Zufallsgrössen X i abhängig!
Warnung: Die Unabhängigkeit der X i wesentliche Voraussetzung!
Geometrische Verteilungen
Zwei Situati onen, in denen geometrische Verteilungen auftreten:
1. Spiele „Mensch ärgere Dich nicht“ und würfle… bis endlich eine 6 fällt. Y := Anzahl von Würfen bis zur ersten 6
2. Suchen einer bestimmten Strasse in einer fremden Stadt und fragen von Passanten nach dem Weg . Y:= Anzahl
von Befragungen, bis man eine Auskunft erhält.
Man hat ein Zufallsexperiment mit {0,1}, das wiederholt wird, bis einmal das gewünschte 1 oder 0 eintritt. Dann zählt man die
Durchgänge.
Allgemeiner Rahmen: Man hat unabhängige Zufallsgrössen X 1, X2, … mit Werten in {0,1}, wobei
P(X i = 1) = p = 1 -P(X i=0). (In 1. ist X i=1{beim iten Wert eine 6} mit p = 1/6. In 2. ist X i=1{ite befr. Person weiss Bescheid})
Im Buch: X= „Anzahl der Versuche bis zum ersten Mal A eintritt“ = Zufallsvariable. Es tritt k-1mal das Komplementärereignis
ein, bis A eintritt.
Jetzt betrachte
Y := min {k Î|N: X k = 1}
(min( Æ) := ¥)
P(Y>k)=P(X 1=X2=…=Xk = 0) = P(X 1=0)*…*P(Xk=0) = (1 -p) k
P(Y=k) = P(X i=0 für i<k, Xk = 1) = (1 -p) k-1p
Im Buch: P(X=x)=(1-p)x-1p bei p = P(A)
Definition: Eine Zufallsvariable Y mit Werten in |N = {1,2,3,…} heisst geometrisch verteilt mit Parameter p Î (0,1], wenn
P(Y=k)=(1 -p) k-1p für k = 1,2,3,…
Die Verteilung von Y ist die geometrische Verteilung mit Parameter p. Symbol: Geom(p)
Eine Zufallsvariable X hat eine diskrete Verteilung (ist diskret verteilt), wenn sie nur endlich viele oder abzählbar unendlich
viele Werte (mit positiver Wahrscheinlichkeit) annehmen kann. Seien x 1,x 2, … die möglichen Werte von X. Dann wird die
Verteilung von X durch die Gew ichte
P(X=x i) eindeutig festgelegt.
Kenngrössen von Zufallsvariablen, Masszahlen für die Streuung
Kenngrösse
Definition
Erwartungswert
Für eine diskret verteilte Zufallsvariable X mit
Masszahl für das
möglichen We rten x 1,x 2,… (wenn X nur
Zentrum einer
endlich viele Werte oder abzählbar unendlich
Verteilung.
viele Werte annehmen kann) ist ihr
Erwartungswert definiert als die Zahl
E ( X ) = m = å P( X = x i ) * xi = å xi pi
xi
1 n
Xi
å
n- > ¥ n
i =1
E ( X ) = lim
i ³1
= å x i f ( xi )
i ³1
(Voraussetzung: Die Summe / Reihe ist
überhaupt definiert)
Rechenregeln:
- E(l*X) = l*E(X) für beliebige
Zufallsvariablen X und feste Zahlen l.
http://www.cx.unibe.ch/~duembgen/statwiwi
Interpretation
1.Angenommen, man wiederholt das Zufallsexperiment,
welches X liefert, beliebig oft und unabhängig und seien X1,
X2, … die Werte von X in diesen Wiederholungen, dann ist
der Erwartungswert von X
2. Betrachte einen beliebig langen Stab und bringe an diesem
Gewichte an: An der Stelle x i ist das Gewicht P(X=x i) = p i
Wenn der Stab kein Eigengewicht hat, so gibt E(X) an, wo der
Schwerpunkt dieser Massenverteilung ist.
Beweis 1:
Sei X verteilt nach Bin (n,p). Dann ist E(X)=np. Beweis:
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
Begründung:
E ( lX ) = å P( lX = yi ) yi = lE ( X )
yi
- Für Zufallsvariablen X und Y (zu einem
Experiment) gilt E(X+Y) = E(X) + E(Y)
Begründung: Seien x1, x2, … die möglichen Werte von
X, und y 1,y2, … die möglichen We rte von Y, dann ist
E (X + Y ) =
å P(X
+ Y = z) z
åå
xi
=
å
y
P ( X = x i ,Y = y j ) x i +
åå
xi
j
P ( X = xi ) xi +
xi
å
n
n
E ( X ) = å ( ) k * p k (1 - p) n - k
k= 0 k
n -1
n - 1 i +1
n - 1 -i
= å n(
) p (1 - p )
i
i =0
n -1
n -1 i
= npå (
) p (1 - p) n -1 - i
i
i= 0
1444
424444
3
=1
z
=
© by Al_Sub et al.
y
P ( X = x i ,Y = y j ) y j
j
P (Y = yj ) yj = E ( X ) + E (Y )
yj
Beweis 2: X ist verteilt wie Sie Summe von X i mit unabhängigen
Zufallsgrössen Xi Î {0,1}, wobei P(X i=1)=p=1-P(Xi=0)
Aus den Rechenregeln für Erwartungswerte ergibt sich E(X)= np
Andere Be trachtungsweisen
Wenn der Grundraum W endlich oder abzählbar ist, dann ist
E(X ) =
å P ( X = x ) * x = å ( å P ({w }) ) * x
E(X ) =
å P ({w }) * X ( w )
x
x
w: X ( w ) = x
wÎ W
Aus dieser Darstellung kann man gut obenstehende Rechenregeln ableiten.
W
c
Y
g
x
Betrachte Zufallsvariable Y(w):= g(X(w))
Wund c seien endlich oder abzählbar
E ( X ) = å P (Y = g ) g
g
å P ({ w}) * Y ( w) = å P ( X = x) g ( x)
Modus
x mod ein Wert, für den f(x)=P(X=x) maximal.
Median
Quantile
Je der Wert x p zwischen 0 und 1, für den
P(X £x p)=F(x p)³p und P(X ³x p)³1-p gilt, heisst
p-Quantil der diskreten Zufallsvar X.
Varianz
s 2 = Var ( X ) = å ( xi - m )2 f ( x i )
i ³1
Standardabwe ichung
x Îc
Bei symmetrischen Verteilungen mit eindeutigem x mod
ist E(X)=x mod
m=E(X)
Var(X) = E(X2)-(E(X)) 2 = E(X2)-m2
Var(X) = E(X-m)2
s=+Wurzel(Var(X))
Beispiele zu Erwartungswert
x
0
P(X=x)
0.1
E(X) = 0.1*0 + 0.3*1+0.2*(2+3+4)
1
0.3
2
0.2
3
0.2
4
0.2
Würfle eine Zahl X Î{1,2,3,4,5,6} Unter der Annahme dass P(X=k) = 1/6 für k =1,2,3,4,5,6 ist
6
E ( X ) = å P ( X = k )k = 3.5 (Wenn man unendlich oft würfeln würde, würde sich das Arithmetische Mittel bei 3.5 einpendeln.
k =1
X sei Poissonverteilt mit Parameter l > 0, dh P(X=k)= e -l*( lk/k!) für k = 0,1,2,3,…
¥
¥
E ( X ) = å P ( X = k ) * k = å e -l
k =1
k =1
lk
k!
¥
* k = e -l å
k =0
li + 1
i!
= E( X ) = l
X sei hypergeometrisch verteilt mit Parametern N, L, n.
L N-L N
P( X = k ) = ( )(
) /( )
k n-k
n
E(X ) =
für k = 0,1,2,3,.. ., min(L, n)
nL
N
Begründung: Urne mit N Kugeln, davon sind L markiert. Ziehe rein zufällig ohne Zurücklegen n Kugeln aus Urne.
X:=Anzahl markierter Kugeln in Stichprobe.
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
Wahrscheinlichkeoiten
wÎ W
Analog empirischer Verteilungen, jedoch Ersetzen vorn rel. Häufig. durch
=
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Nummereire die markierten Kugeln durch mit 1,2,…,L
L
X = å X i . Es ist
Xi := 1 {Kugel Nr.i landet in S tichprobe}. Dann ist
i =1
E ( X i ) = P( Xi = 0) * 0 + P ( Xi = 1) * 1 = P ( Xi = 1),
P ( Xi = 1) = P ( Kugel Nr.i landet in Stichprobe )
N -1 N
n
=(
) /( ) =
n -1 n
N
Also ist
n
N
E( X ) = L *
Beispiel: Geometrische Verteilungen
Sei X geometrisch verteilt mit Parameter p Î(0,1]. ( z.B. werfe eine Münze beliebig oft. Bei einzelnem Wurf erhalten mit
Wahrscheinlichkeit p „ Zahl“ und mit Wahrscheinlichkeit 1 -p „kopf“. X:= Anzahl von Würfen bis erstmalig „Zahl“ auftritt.)
P(X=k) := (1 -p) k-1p P(X ³k) := (1 -p) k-1
Vermutung: Je grösser (kleiner) p desto kleiner (grösser) E(X).
Formel: E(X)=1/p
Beweis:
¥
E ( X ) = å (1 - p )k -1 pk
k =1
¥
å P( X
= k )k
k =1
=
P(X=1)+
P(X=2)+ P(X=2)+
P(X=3)+ P(X=3)+ P(X=3)+
P(X=4)+ P(X=4)+ P(X=4)+ P(X=4)+ etc
P(X³1)+ P(X³2)+ P(X³3)+ P(X³4)+
Allgemeine Formeln für Zufallsvariablen X mit Werten in |N 0:
¥
E ( X ) = å P( X ³ k)
k =1
¥
Hier : E ( X ) = å (1 - p )
k =1
k -1
=
1
= 1/ p
1 - (1 - p)
Erwartungswerte
X: W Þ |R
E ( X ) = å P( X = x) * x
x
=
å P ({w}) * X ( w)
w ÎW
W endlich oder endlich abzählbar.
Stetige Zufallsvariablen
nehmen Werte in einem Intervall an. Jedes gleichgrosse Intervall hat dieselbe Wahrscheinlichkeit, egal wo es örtlich oder
zeitlich positioniert ist (stetige Entsprechung).
b
Wahrscheinlichkeitsdichte ist die Fläche zwischen a und b und darüberliegender f(x) :
P ( a £ X £ b) = ò f ( x ) dx
a
P(a £X£b) = P(a<X£b) = P(a £X<b) = P(a<X<b)
P(X=x) = 0 für jedes x Î |R (dh. a=b) P(-¥<X<+ ¥) = 1.
Die Wahrscheinlichkeit, dass X exakt einen Wert annimmt (dh. das Gl ücksrad exakt an einer bestimmten Stelle anhält), ist
gleich 0.
x
Verteilungsfunktion:
F ( x) = P( X £ x) =
ò f (t )dt
-¥
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable
Eigenschaften der Verteilungsfunktion einer stetigen
Eigenschaften der Verteilungsfunktion einer diskreten
Zufallsvariable
Zufallsvariable
F(x) ist stetig und monoton wachsend mit Werten im
Treppenfunktion, springt an x i um p i = f(x i) nach oben.
Intervall [0,1]
Rechtsseitig stetig.
F ( -¥ ) = lim F ( x) = 0
lim F ( x ) = 1
x - > -¥
x - > +¥
F ( +¥ ) = lim F ( x) = 1
x - > +¥
F’(x)=f(x) (Dichte ist Ableitung der Verteilungsfunktion)
P(a £X£b) = F(b) – F(a)
P(X ³a)=1 -F(a)
Unabhängigkeit von stetigen Zufallsvariablen:
P(X £x 1, …, X n £x n) = P(X 1 £x 1)*…*P(Xn £x n)
Kenngrössen von
stet. Zufallsvar .
Erwartungswert
Definition
Interpretation
+¥
m = E( X ) =
ò xf ( x ) dx
-¥
Allgemeiner:
¥
E ( g ( x )) =
ò g ( x ) f ( x ) dx
-¥
Modus
Median und Quantile
Varianz
Standardabweichung
Bei unimodial und symmetrisch:
c = x mod = E(X)
p-Quantil x p = Zahl auf x -Achse, für die F(x p)
=p
Median F(x med) = 0.5
x mod ist das Maximum der Dichte f(x)
Median teilt Fläche in 2 gleich grosse Teile.
Wenn in Punkt c symmetrisch: x mod = E(X) = x med
+¥
s 2 = Var ( X ) =
=E((X- E(X)) 2)
ò( x - m )
2
f ( x ) dx
-¥
s = +Wurzel aus Var(X)
Lageregeln
x med – x p = x 1-p – x med und x mod = x med = E(X) Þ symm
x med – x p £ x 1-p – x med und x mod < x med < E(X) Þ linkssteil
x med – x p ³ x 1-p – x med und x mod > x med > E(X) Þ rechtssteil
Markov -Ungleichung
Frage: Kann man mit Hilfe von E(X) Aussagen über P(X ³c) machen?
Beispiel:
X sei die Anzahl von Anrufen in einer Auskun ftsstelle an einem bestimmten Freitag zwischen 8.00 und 8.10 Uhr. Aus
Erfahrung ist bekannt, dass E(X)= 10. Frage: P(X ³50)=?
Antwort 1: Betrachte X als poissonverteilt mit Parameter l=10. Dann ist P(X ³50) gleich
¥
å P( X
k = 50
49
49
k =0
k=0
= k ) = 1 - å P ( X = k ) = 1 - å e -10 *
10k
k!
Antwort 2: (Misstraue dem POisson-Modell): In jedem Fall kann man sagen, dass
P ( X ³ 50) £
E( X )
* 10 / 50 = 0.2
50
Dies folgt aus der Markov-Gleichung.
Lemma Markov -Gleichung
Sei X eine Zufallsvariable mit Werten in [0, ¥). Dann ist
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
P( X ³ c) £
E( X )
c
© by Al_Sub et al.
für alle c > 0 und nur nützlich, wenn c > E(X)
Beweis: Da X ³0, ist
E ( X ) ³ E (11
{ X42
*4X )
4³ c}43
=0 falls X < c
X falls X ³ c
³ E (1{X ³ c} * c )
14243
= 0 falls X < c
c falls X ³ c
= c * P( X ³ c)
Dividiere beide Seiten durch x, dann ergibt sich die Behauptung.
Verfeinerungen / Verallgemeinerungen:
Betrachte Transformationen von X.
Definition Varianz
Die Varianz einer Zufallsvariable X ist definiert als
Var(X)= E((X- E(X)) 2) ³ 0
(mittlere quadratische Abweichung von X zu ihrem Erwartungswert E(X)).
Die Varianz ist eine Kenngrösse, mit der man Wahrscheinlichkeiten der Form P( |X -E(X)| ³ c) abschätzen kann.
Lemma (Tschebyschev -Ungleichung; im Buch Kapitel 7)
Für eine beliebige reelwertige Zufallsvariable X und Konstanten c > 0 ist
P (| X - E ( X ) |³ c ) £
Var ( X )
c2
Definition Standardabweichung
Die Standardabweichung von X ist definiert als die Zahl
sigma ( x ) := Var ( X )
Mit s(X) kann man schreiben
P (| X - E ( X ) ³ c ) £ (
s(X )
)
c
Konkrete Berechnung von Varianzen und Standardabweichung
E((X- E(X)) 2) =
å P( X
= x) * ( x - E ( X ))2 =
å P ({w}) * ( X (w) - E ( X ))
2
w ÎW
x
Vereinfach ung :
E (( X - E ( X ))2 ) = E ( X 2 - 2 * E ( X ) X + E ( X ) 2 ) = E ( X 2 ) - 2 E ( X )E ( X ) + E ( X ) 2
= E ( X 2 ) - ( E ( X )) 2
2
Var ( X ) = E ( X ) - (E ( X ))
Zahlenbeispiel:
XÎ{0,1,2,}
x
0
P(X=x)
0.3
E(X) = 0.3*0+0.5*1+0.2*2 = 0.4
2
1
0.5
2
0.2
E(X 2) = 1.3
Also ist Var(X) = E(X2) - (E(X)) 2 = 1.3 – 0.9 2 = 0.49
s(X) =
0.49 = 0.7.
Aus der ursprünglichen Definition ergibt sich Var(X) = 0.3(0 -0.9) 2 + 0.5(1-0.9)2 + 0.2(2-0.9) 2
Sei X verteilt nach Poiss( l), l>0. Dann ist E(X)= l, Var(X) = l Û s(X)=
Beweis:
http://www.cx.unibe.ch/~duembgen/statwiwi
l
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
¥
¥
© by Al_Sub et al.
k
l
k{
k =1 (k - 1)! = ( k -1) +1
E ( X 2 ) = å P ( X = k )k 2 = e - l å
k =0
¥
lk
lk
-l
2
=e å
+e å
=l + l
2
k = 2 (k - 2 )!
k =1 (k - 1)
-l
¥
Folgerung :
Var ( X ) = E ( X 2 ) - E ( X )2 = l
Beispiel: Varianz einer Poissonverteilung
X verteilt sich mit Poiss(10)
E(X) = 10
s(X) = 3.162
Interpretation der Kenngrössen
E(X)
s(X) ( Standardabweichung )
Varianz
ist ein typischer Wert von X und liefert die Grössenordnung von X
beschreibt die Variabilität von X und liefert die Grössenordnung von |X-E(X)|.
Die Varianz benötigt man nur aus technischen Gründen. Leider werden die
Standardabweichung und die Varianz oft verwechselt.
Erwartungswerte von Produkten von Zufallsgrössen, Varianzen von Summen
Für Zufallsvariablen X, Y gilt die Formel E(X+Y) = E(X) + E(Y). Für Produkte (XY) gilt die analoge Formel nicht! Dies gilt aber
in einem Spezialfall.
Lemma: Seien X und Y zwei stochastisch unabhängige Zufallsvariablen. Dann gilt
E(XY)= E(X)*E(Y). Begründ ung:
E ( XY ) = å å P ( X = x ,Y = y ) * xy = ( å P ( X = x ) x)( å P (Y = y ) y ) = E ( X ) E (Y )
x
y
x
y
Folgerung: Sind X und Y stochastisch unabhängig, dann ist Var(X+Y) = Var(X) + Var(Y) .
Anwendung auf Stichprobenmittelwerte
Wiederhole ein bestimmtes Experiment n mal unabhängig. Bei der i -ten Durchführung erhalte eine Zufallsgr össe X i.
m = E(X i) s= s(X i).
Als Schätzwert für m betrachte
1 n
X = å Xi
n i =1
Wie präzise ist dieser Schätzwert?
Satz:
E (X ) = m
s(X) =
s
n
Interpretation: Durch n -malige Wiederholung erhöht sich die Präzision des Schätzwertes um den Faktor
Beweis:
E (X ) = E (
n.
1 n
1
1 n
X
)
=
E
(
X
)
=
m=m
i
i
nå
nå
nå
i= 1
i
i =1
1
1 2 n 2 1 2
X
)
=
(
s = s
å i n) å
n i
n
i =1
s
Insbesonde re ist s ( X ) =
n
Var ( X ) = Var (
Beispiel:
Population von vielen Personen. Für einzelne Person betrachte ihr Jahreseinkommen.
m: Mittleres Jahreseinkommen in Population
s: Standardabweichung in Jahreseinkommen in der Population.
Um die Grössen zu schätzen, ziehe Stichprobe vom Umfang n aus der Population (n<< Populationsgrösse, Ziehen mit
Zurücklegen). Seien X 1, …, Xn die Jahreseinkommen der n personen in der Stichprobe. Hier ist der zufall das
Stichprobenziehen. E(X i) = m , s( Xi) = s
Als Schätzwert von m betrachte
E(
X . Dann ist
X )=m
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
s(
Notizen Statistik
© by Al_Sub et al.
X )= s/Wurzel(n)
Übungsaufgaben
A 5.10 Samstagslotto „6 aus 49“. Wie gross ist P(in einem Jahr nie mind. drei richtige? Wie gross ist P( in einem Jahr mind.
dreimal mind. drei Richtige)?
In einem Jahr: 52 Spiele, unabhängige Wiederholungen. Betrachte zunächst ein Spiel:
P(mind. 3 Richtige) = ?
Urne mit 49 Kugeln, auf 6 davon wurde getippt. Urne mit 49 Kugeln, auf 6 davon wurde getippt. Nun w erden 6 Kugeln rein
zufällig gezogen. (ohne zurücklegen).
6 43
( )(
)
k 6-k
X: = Anzahl der Richtigen Þ X verteilt mit Hyp (49,6,6). Also ist P(X=k) =
49
( )
6
P(³3)=1 -P(X£2) = 1 -P(X=0) – P(X=1) - P(X=2) ~ 1 -0.436 – 0.413 -0.132 = 0.019 = P(mind drei Richtige).
Jetzt betrachte ich die 52 Spiele im Verlaufe eines Jahres: Y: = Anzahl von Spielen mit mindestens 3 Richtigen. Y ist verteilt
nach Bin(52,p). P(Y=k)=
(
52
k
) p k (1 - p) 52 -k
P(in einem Jahr niemals 3 oder mehr Richtige) = P(Y=0) = (1 -p) 52 = 0.376
P(in ein em Jahr mind. 3mal 3 oder mehr Richtige) = P(Y ³3) = 1 - P(Y £2) = 1 -P(Y=0) -P(Y=1) -P(Y=2)
= 1 -0.376-0.371-0.18 =0.073
A 5.12 20 Verkäuferinnen eines Geschäfts. 4 davon sind mit längeren Öffnungszeiten einverstanden. Journalist befragt 5
Verkäuferinnen.
P(keine der Befragten ist für längere Öffnungszeiten) = ?
P(genau 2 Befragte einverstanden) = ?
P(mind. 3 Befragte einverstanden) = ?
X : = Anzahl der Einverstandenen
(Ziehe 5mal ohne Zurücklegen aus Grundgesamtheit von 20 Personen, von denen 4 einverstanden sind).
X verteilt nach Hyp(20,4,5)
4 16
( )(
)
k 5- k
P(X=k) =
20
( )
5
16 20
P(X=0) = ( ) /( ) = 0.282
5
5
4 16
( )( )
2 3
P ( X = 2) =
20
5
P ( X ³ 3) = P ( X = 3) + P ( X = 4) = 0.032
Wiederholung:
Erwartungswert
Varianz
E(a+bX) = a + bE(X)
E(X+Y) = E(X) + E(Y)
Var(a+bX) = b 2Var(X)
Var(X+Y) = Var(X) + Var(Y) nur wenn X
und Y stochastisch unabhängig sind.
Standardabweichung
b Þ skalieren
a Þverschieben
s(a+bX) = |b| s(X)
s(X+Y) =
s ( X ) 2 + s (Y ) 2
falls X und
Y unabhängig.
Anwendungen auf Stichprobenerhebungen
Ziehe rein zufällig Stichprobe vom Umfang n a us einer Grundgesamtheit M
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Ziehen mit Zurücklegen
Ziehen ohne Zurücklegen
Bei #M >> n identisch, mathematisch ist Ziehen mit Zurücklegen einfacher! Die einzelnen Ziehungen sind stochastisch
unabhängig
Betrachte ein qualitatives Merkmal
Betrachte ein quantitatives Merkmal
Aus den Rechenregeln für Erwartungswerte und
m = Mittelwert de s Merkmals in M
Standardabweichung en folt
s = Standardabweichung des Merkmals in M
Schätzwerte: X 1 , X 2, …, X n seien die Merkmalswerte in
X
E (X )
E ( pˆ ) = E ( ) =
=p
Stichprobe. Dies sind unabhängige Zufallsvariablen mit
n
n
E(X i) = m, s( Xi) = s
s ( pˆ ) = s ( X / n ) = 1 / n * s ( x )
Aus den Rechenregeln für Erwartungswerte und Varianzen
folgt
E (X ) = m
s(X ) = s / n
Anmerkung 1 : Die Präzision eines einzelnen Stichprobenwertes ( s)
=
p (1 - p )
n
nimmt durch n -maliges Wiederholen und Mitteln um den Faktor
n zu.
Verdoppelung der Präzision: n Ü 4n
Verzehnfachung der Präzision: Ü 100n
Anmerkung 2: Den unbekannten Wert s kann man mit Hilfe der
Stichproben – Standardabweichung S schätzen. Auswertung:
X = Schätzer für m
S/ n = Schätzer für s( X
)
E(^p) = p
s(^p) =
p (1 - p )
n
Verteilungsfunktion
Betrachte ein numerisches Merkmal. Für beliebige Schranke t Î|R definiere:
F(t) : = relativer Anteil von Elementen der Grundgesamtheit mit Merkmalswert £ t
F ist die Verteilungsfunktion des Merkmals in der Grundgesamtheit. Stichprobenwerte: X1, …, Xn
P(X i £t ) = F(t).
Schätzer für F ist die empirische Verteilungsfunktion ( Stichprobenverteilungsfunktion)
Anz{i £ n : X i £ t }
Fˆ (t ) =
n
Mit wachsendem n nähert sich ^F (stufige Verteilungsfunktion) der theoretischen Verteilungsfunktion F (siehe Bild ) an .
Fˆ (i ) : E ( Fˆ (t )) = F (t )
F (t )(1 - F (t ))
s ( Fˆ (t )) =
n
(Spezialfall von Übertragung 2) M A: Elemente der Grundgesamtheit mit Merkmalswert £ t)
Anmerkung / Übungsaufgabe:
p(1 -p)£ ¼
s ( pˆ ) ü 1
ý
s (Fˆ (t ))þ 2 n
Folgerung aus Tschebyshev - Ungleichung
P(|^p -p|³ e) £ 1 / (4n e2)
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Stetig verteilte Zufallsvariablen (Kapitel 6)
In Zusammenhang mit deskriptiven Methoden betrachten wir stetige Verteilungsfunkt ionen und Dichtefunktionen als
Approximation für grosse Grundgesamtheiten. Wenn man aus einer solchen Grundgesamtheit Stichproben zieht, erhält man
stetige verteilte Zufallsgrössen. Zur Erinnerung: Eine Zufallsgrösse X ist diskret verteilt, wenn sie nur e ndlich viele oder
abzählbar viele Werte annehmen kann.
Definition: Eine reelwertige Zufallsvariable X heisst stetig verteilt mit Verteilungsfunktion F und Dichtefunktion f, wenn für
beliebige Schranken -¥ £ a < b £ ¥ gilt:
b
P ( X Î [a , b]) = ò f ( x ) dx
a
b
P ( X £ b) = F (b) =
ò f ( x) dx
-¥
Anmerkung : Für eine Zufallsvariable mit Dichtefunktion f ist P(X=x) = 0!
f(x) ist nicht gleich P(X=x), sondern
f ( x ) = lim
e ¯0
P ( X Î [ x , x + e ])
P ( X £ [ x - e , x ])
= lim
e ¯0
e
e
Beispiel Exponentialverteilungen:
Eine Zufallsvariable X heisst exponentialverteilt mit Parameter l > 0, falls gilt
ìl e - lx für x ³ 0
f ( x) = í
î0 für x < 0
-lx
ì1 - e
für x ³ 0
F ( x) = í
î0 für x < 0
Die empirische Dichtefunktion f ist f(x) = f l(x) = F l’(x).
Exponentialverteilungen sind das kontinuierliche Analogon zu geometrischen Verteilungen.
Y mit Werten in |N ist geometrisch verteilt mit Parameter p Î(0,1], wenn
P(Y=k) = (1-p) k-1 P(Y>k)= (1 -p) k
E(Y) = 1/p
Jetzt betrachte sehr kleiner Werte p: p = l/n.
Dann ist E(Y)= N/l. Deshalb betrachte neue Grösse X:= Y/n. Dann gilt für beliebige Zahlen r > 0
P(X>r) = P(Y>rn) = (1-p) [rn] = (1 - (l/n) [rn] = exp([rn]*log(1 -(l/r)) Þ exp( -lr).
Also ist X näherungsweise exponentialverteilt mit Parameter 1/ l.
Anwendungen von Exponentialverteilungen
–
Wartezeiten: Wie lange dauert es bis in einer Auskunftsstelle der erste Anruf ankommt?
–
Zuverlässigkeitsanalyse: Lebensdauern von technischen Anlagen
Siehe Tabe lle Kenngrössen von stetigen Zufallsvariablen Seite 40
Normalverteilte Zufallsvariablen
Eine Zufallsvar X heisst normalverteilt mit Mittelwert m und Standardabweichung s, wenn gilt: X hat Dichte Funktion
f ( x) =
f ( x) =
1
2p
1
2ps
exp( -
( x - m) 2
2s 2
)
exp( - 0.5 x 2 ) bei m = 0, s 2 = 1
Anm erkung 1 : Sei Z normalverteilt mit Mittelwert 0 und Standardabweichung 1 (standardnormalverteilt). Dann ist die
Zufallsvariable X:= m+ sZ normalverteilt mit Mittelwert m und Standardabweichung |s|.
Anmerkung 2: Sei verteilt mit N( m, s2). Dann ist E(X)= m Var(X)= s2 im Sinne der allgemeinen Definition.
Stetige Gleichverteilungen
Eine Zufallsvariable X heisst (stetig) gleichverteilt auf einem Intervall [a,b] ( -¥<a<b<¥) wenn gilt:
P(X Î[a,b])=1
P ( X Î [c , d ]) =
d -c
b- a
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
für Intervalle [c,d] Ì [a,b] .
Das heisst X ist stetig verteilt mit Dichtefunktion
ì1 /( b - a )
f ( x) = í
sonst
î0
für x Î [ a, b ]
Die entsprechende Verteilungsfunktion F
ì0
ïr - a
ï
F ( r) = í
ïb - a
ïî1
für r £ a
für a £ r £ b
für r ³ b
Anmerkung 1: Computerprogramme / Taschenrechner bieten Pseudozufallsvariablen X 1, X 2, … an. Diese initiieren
unabhängige und auf [0 ,1] uniform verteilte Zufallsvariablen. Bei jedem Aufruf von „Random“ wird die nächste Zahl in dieser
Sequenz X 1, X 2 , … ausgegeben. Mögliche Anwendung: Angenommen man möchte Zufallszahlen Y 1 , Y 2 etc. simulieren,
wobei diese unabhängig sind, und es soll gel ten, dass eine einzelne Variable die Wahrscheinlichkeit
P(Y i=k) = 1/M für k=1, …, M.
Mit Hilfe der Zufallszahlen aus dem Rechner definiere
Yi = M (M-1)/M £Xi £1.
Anderes Beispiel: Man möchte den n -fachen Münzwurf mit Parameter p simulieren
falls X i £ p
ì1
Yi = í
î0
falls X i > p
Dann beschreibt (Y 1, …, Yn) das n - malige Werfen einer Münze, wobei P(Yi=1)=p, P(Yi=0)=1 -p.
Anmerkung 2: Uniforme Verteilungen treten approximativ bei Rundungsresten auf. Das heisst, sei X eine stetig verteilte
Zufallsvariable, die über einen sehr gr ossen Bereich streut. Betrachte nun
Y= X - ë Xû (Abrunden auf ganze Zahl)
Dann ist Y Î (0,1) approximativ uniform verteilt auf (0,1).
Beispiel: An einer Bushaltestelle fahren Busse zu den Zeitpunkten 0,1,2,… in irgendeiner Zeiteinheit (z.B. 1 oder alle 10
min). Angenommen man kommt zu einem zufälligen Zeitpunkt X ³0 an die Haltestelle. Die Wartezeit bis zur nächsten Abfahrt
ist 1 -(X-ë Xû) in etwa uniform verteiolt auf [0,1]. Die mittlere Wartezeit ist
+¥
E
(X )
{
uniform verteilt
auf ( 0 ,1 )
=
ò y * f ( y )dy
-¥
Wobei Y = 1 -(X-ë Xû) nach Dichtefu nktion
ì0 für y Ï ( 0,1)
f ( y) = í
î1 für y Î ( 0,1)
Also ist
1
y2 1
E (Y ) = ò ydy =
| 0 = 0.5
2
0
Denkaufgabe
Sie möchten aus einer Menhe von 20 Personen rein zufällig 10 Personen auswählen. Sie haben nur
a) eine Münze dabei
b) einen taschenrechner mit Random- Funktion
Wie können Sie die Auswahl treffen?
a) liefert X 1, X 2, X3, … mit X i={0,1}, P(X i=1)= ½
b) liefert eine Folge U 1,U 2, U 3, … von Zufallsvariablen, die unabhängig sind, und P (U i Î [a,b]) = b -a für Intervalle [a,b]
Î[0,1].
Random: Aufstellen einer Liste mit den jeweiligen Zufallszahlen.
Münzwerfen: Alle Personen mit einer 1, in einer zweiten Runde nochmals alle Personen mit einer 1. Danach haben wir
sehrwahrscheinlich zu viele ausgewählt; nochmals eine Runde etc.
Stetig verteilte Zufallsvariablen ( Wiederholung)
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
¥
ò f ( x ) dx = 1
Dichtefunktion: f ³0
-¥
¥
Verteilung sfkt F ( r) =
ò f ( x ) dx
-¥
Transformationen
Die Zufallsvariable X sei nach f bzw. F verteilt. Mit
¥
P ( X Î [a , b]) =
ò f ( x ) dx
-¥
P ( X £ r ) = F ( r)
Jetzt betrachte für Konstanten mÎ|R mit s>0 der Zufallsgrösse
Y:=m+ sX
Verteilungsfunktion von Y
P(Y £r) = P(m+ sX£r) = P( sX£r-m) = P(X£ (r-m)/s) = F((r -1)/s)
Verteilungsfunktion von Y ist also
FY (r ) = F X (
r-m
)
s
Dichtefunktion von Y: Berechne die Ableitung von F Y:
¶
¶
r-m
r-m
¶ r -m
r-m
1
FY (r ) =
FX (
) = f x(
)*
= fx (
)*
¶r
¶r
s
s
¶r s
s
s
Dichtefunktion von Y ist also
fY ( x) = fX (
r-m
1
)*
s
s
Anwendungen dieser Transformationsregeln
- Normalver teilungen :Sei Y eine Zufallsgrösse mit Normalverteilung N( m, s2). Dh. Verteilung von Y wird beschreibt durch
Dichtefunktion
fY ( x) =
1 r-m
j(
)
s
s
Dabei ist j die Gaussche Glockenkurve. Betrachtet man d ie allgemeine Transformationsre geln, dann ist Y gena uso verteilt
wie m+sX, wobei X eine standardnormalverteilte Zufallsvariable ist. Dg die Verteilung von X wird durch j beschrieben.
Insbesondere ist
P (Y £ r ) = F (
r -m
)
s
Ausserdem ist E(Y)= E( m+ sX) = m+ sE(X)
s(Y) = s*s(X)
Mann kann zeigen, dass E(X)= 0 Var (X)=1, dass s(X)=1
Einsetzen in obigen Gleichungen liefert
Y~N(m, s2) Þ E(Y)=m, d(Y)= s
<Einfügen Abb für Transformation Normalverteilung>
Bedeutung der Normalverteilung
–
Standardmodell für Messfehler von technischen Geräten
–
Approximation für verschiedne Verteilungen, die uns schon begegnet sind; wie z.B:
- Bin(n,p)~N(np, np(1 -p)), falls np(1-p) gross( ³5)
- Pois( l)~N( l,l) falls l grösser ( ³10)
Dahinter steht der Zentrale Grenzwertsatz. Kernaussagen in Worten: Eine Zufallsgrösse X von der Form X = X 1+X2+…+Xn
mit unabhängigen Summanden, die jeweils nur geringen Einfluss auf das Gesamtergebnis X haben, ist näherungsweise
normalverteilt.
–
log -Aktienkurse werden oft durch Normalverteilungen beschrieben (log -Normalverteilungen)
Summen von normalverteilten Zufallsvariablen
Seien X und Y stochastisch unabhängig und normalverteilt nach N( mX, s2X) bzw. N( mY, s2Y). Dann ist X+Y ebenfalls
normalverteilt. Genauer:
X+Y = N( mX+mY, s2X+ s2Y).
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
© by Al_Sub et al.
Allgemeiner: Seien X 1 , X 2, .., X n stochastisch unabhängig und normalverteilt X i = N( mi, s2i). Dann gilt für beliebige
Konstanten a 1,a 2, …, a n:
a 1X1 +…+a nXn ~N(a 1m1+ …+ a nmn,a 21 s21+…+a 2n s2 n)
Aufgabe 6.9
X = Geburtsgewicht eines (zukünftigen) Frühgeborenen (28. Schwangerschaftswoche). Aus Erfahrung weiss man, dass X
verteilt ist nach N(1000g, (50g) 2)
a) P(892 £X£1050) = ? Mit der standardisierten Grösse Z := (X-m)/s= (X-1000)/50 gilt
P(892 £X£1050) = P((892 -1000)/50 £Z £(1050 -1000)/50)=P(-0.36 £Z£1) = P(Z £1)- P(Z< -0.36) = F(1)+ F(0.36) -1
Þ in Tabelle nachschauen = 0.3413 +0.6406 -1 =
Aufgabe 6.10
Firma verschickt Holzkisten mit jeweils 10 Teepackungen.
H: Gewicht Holzkiste in kg ~N(5, (0.05)2)
T1, …, T 10 : Gewicht der Teepackungen jeweils ~N(6, (0.06) 2).
Diese 11 Zufallsgrössen seien stochastisch unabhängig. Also ist das Gesamtgewicht G = H + T 1+…+T10 normalverteilt mit
Mittelwert = 65
Varianz= 0.05 2+10(0.06) 2 = (0.01) 2(25+10*36)=(0.01) 2*385
Standardabweichung ~s = 0.2
In 45% aller Fälle liegt das Gesamtgewicht G im Intervall [ m+1.96 s] =
Zusammenfassung /Wiederholungen
- Variablen und Datenmatrixen, Stichproben (kategorielle, ordinale, numerische Variablen. Siehe Tabelle Seite 1)
- Grafische Darstellungen
kategorielle / ordinale Variable
Stabdiagramme
Kuchendiagramme
numerische Variablen
Empirische Verteilungsfunktion
Histogramme
Box -Whisker-Plot
Beispiel: Datensatz mit n=10 Beständen. Eine numerische Variable mit folgenden Werten:
1. Sortieren:
Einfügen HP48
169.5
169.5
<Empirische Verteil ungsfunktion>
183
174
<Histogramm Intervalle L=4>
176
174.5
197.5
176
174
178
<Box -Plot X (1) =169.5, Q 0.25=174.5, Q 0.5= 178.75, Q 0.75= 182.5, X(10) =197.5;
182.5
179.5
modifizierter BOX-Plot benötigt IQR zur Berechnung der Schranke, welche nicht
171.5
181.5
eingezeichnet wird.>
181.5
182.5
178
183
176.5
197.5
(Totalerhebung: Verteilungsfunktio n. Stichprobe: Empirische Verteilungsfunktion
Kenngrössen einer numerischen Variable
–
Lageparameter (Mittelwert x ; Median)
–
Skalenparameter (Stichprobenstandardabweichung S, IQR)
Multivariate Deskription
- X un d Y kategoriell Þ c2 (Kontingenztafeln, Kreuzproduktverhältnis)
Fˆ )
aˆ + bˆX . Die Regressionskoeffizienten bestammt man nach der
- X und Y numerisch: Regression: Approximieren Y durch
Methode der kleinsten Quadrate:
n
bˆ =
å( X
i =1
n
i
- X ) * Yi
å (X i - X )2
=
å ( XY ) - (å ( X ) å (Y ) / n) ; â = Yˆ - bˆX
å( X ) - å( X ) / n
2
2
i
i =1
Bestimmtheitsmass und Korrelationskoeffizient (Pearson)
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
WS 02 / 03
Notizen Statistik
å (Y - â - bˆX
=1å (Y - Y )
i
R
2
i
2
n
i
å(y
)2
= 1-
i
- yˆ i ) 2
SQE
=
å
i
i
i =1
n
( yi - y )
SQT
2
rsp =
åR
Y
Ri - n * (
i
n +1 2
)
2
n+1
å (R ) - n * ( 2 )2 * ...
i
X
i
i =1
X
i
© by Al_Sub et al.
2
=
å (rg ( x ) - r g )( rg ( y ) - r g )
å (rg (x ) - r g ) å (rg ( y ) - r g
i
X
i
Y
2
i
X
i
Y
)2
- X und Y numerisch oder kategorial, ordinal: Ersetze X - und Y-Werte durch die Ränge R x,i und R y,i. Þ Spearman
Korrelationskoeffizient r sp= Pearson -Koeffizient mit Rängen an Stelle der Originalwerte.
Vereinfachung: Angenommen alle X -Werte sind paarweise verschieden. Dann ist (R X,1 , …, R x, n ) eine Permutiation von
(1,2,…,n). In diesem Falle ist
n
å R 2x, i - n(
i= 1
=
n
n +1 2
n + 1 2 n ( n + 1)
) = å i 2 - n(
) =
( 2(2 n + 1) - 3(n + 1))
44 43
2
2
12 1444=2
i =1
n -1
n( n 2 - 1)
12
Wenn alle X -Werte pa arweise verschieden sind, dann ist
n
å R 2x, i - n(
i= 1
2
n + 1 2 n (n - 1)
) =
2
12
Wenn alle X -Werte und alle Y-Werte jeweils paarweise verschieden sind, dann ist
rsp =
åR
i
n +1 2
)
2
n (n 2 - 1) / 12
x ,i
RY ,i - n(
Interpretation von r Pearson und r spearman
Spearman
bewertet den monotonen Zusammenh ang zwischen X und Y.
|r| nahe bei 1: X i ist nahe zu einer monoton wachsenden oder
monoton fallenden Funktion von Y i und umgekehrt.
Pearson
bewertet den linearen Zusammenhang zwischen X und Y.
|r| nahe um 1 Þ ( X i, Yi) liegen nahe an einer Geraden
mit Steigung ¹ 0.
Besprechungen zu den Übungsaufgabe n
Wahrscheinlichkeitsrechnung, Laplace -Wahrscheinlichkeiten, Kombinatorik
Für ganze Zahlen 0 £k£n ist
n
n
n!
. ( ) ist die Anzahl aller k -elementigen Teilmengen von {1,2,…,n} .
( )=
k
k !(n - k )! k
Zeigen Si e, dass folgende Formel gilt:
(
N +1
)=
k
N +1
M -1
å ( k -1 )
M=k
Beweis mit Kombinatorik:
linke Seite = Anzahl aller k-elementigen Teilmengen von {1,2,…,N+1}. Man kann die Gesamtheit aller k -elementigen
Teilmengen in Teilgruppen aufteilen, je nachdem welchen Wert da s grösste Element der Teilmenge hat. Anzahl aller kelementigen Teilmengen von {1,…,N+1} mit Maximum M = Anzahl aller (k -1)-elementigen Teilmengen von {1,2,…,M-1}.
M =(
M -1
) Die Möglichen Werte liegen zwischen k und N+1.
k -1
o
?
http://www.cx.unibe.ch/~duembgen/statwiwi
Do not copy – it’s dangerous
Herunterladen