Statistik - Hochschule Ravensburg

Werbung
Statistik
Bachelorstudiengang Betriebswirtschaft/Management
Prof. Dr. Stefan Etschberger
Hochschule Weingarten
Sommersemester 2008
Organisatorisches zur Vorlesung
Vorlesungsbegleitende Unterlagen:
◮ Foliensatz
◮ Aufgabenskript
◮ Bamberg et al.: Statistik, Oldenbourg-Verlag, 13. Aufl. 2006
Vorlesungskonzept:
◮ Vorlesung und Übung gemischt
◮ Folien sind nur Grundlage für eigene
Anmerkungen und Ergänzungen
◮ Fragenstellen ist jederzeit erwünscht
Klausur:
◮ Am Ende des Semesters
◮ 60 Minuten Bearbeitungszeit
◮ Hilfsmittel: Schreibzeug, nicht-programmierbarer Taschenrechner, ein DIN-A4 Blatt
mit handgeschriebenen Notizen (Vorder- und Rückseite kann beschrieben werden,
keine Kopien oder Ausdrucke), ein beliebiges Statistik-Buch
1. Einführung
Übersicht
1
Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Begriff Statistik
Grundbegriffe der Datenerhebung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheoretische
Grundlagen
4
Induktive Statistik
Etschberger (HS Weingarten)
Statistik
1. Einführung
Sommersemester 2008
3
Berühmte Leute zur Statistik
Zitate
◮
Leonard Henry Courtney (1832-1918):
◮
There are three kinds of lies: lies, damned lies and statistics.“
”
Winston Curchill (angeblich):
◮
Ich glaube nur den Statistiken, die ich selbst gefälscht habe.“
”
Andrew Lang (1844-1912):
Wir benutzen die Statistik wie ein Betrunkener einen
”
Laternenpfahl: Vor allem zur Stütze unseres Standpunktes und
weniger zum Beleuchten eines Sachverhalts.“
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
4
1. Einführung
Begriff Statistik
Bedeutungen des Begriffs Statistik“
”
Statistik
Zusammenstellung
von Zahlen
Statistische
Methodenlehre
Wahrscheinlichkeitstheorie
Deskriptive
Statistik
Induktive
Statistik
Etschberger (HS Weingarten)
Statistik
1. Einführung
Sommersemester 2008
15
Begriff Statistik
Einfaches Beispiel
Beispiel
12 Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt.
Antworten: 4, 11, 1, 3, 5, 4, 20, 4, 6, 16, 10, 6
◮ deskriptiv:
- Durchschnittliche Entfernung: 7,5
- Klassenbildung:
Klasse
[0; 5) [5; 15) [15; 30)
5
Häufigkeit
5
2
◮ induktiv:
- Schätze die mittlere Entfernung aller Beschäftigten.
- Prüfe, ob die mittlere Entfernung geringer als 10 km ist.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
16
1. Einführung
Grundbegriffe der Datenerhebung
Merkmale
◮
Merkmalsträger:
Untersuchte statistische Einheit
◮
Merkmal:
Interessierende Eigenschaft des Merkmalträgers
◮
(Merkmals-)Ausprägung: Konkret beobachteter Wert‘ des Merkmals
’
◮ Grundgesamtheit:
Menge aller relevanen Merkmalsträger
◮
Typen von Merkmalen:
a) qualitativ – quantitativ
· qualitativ:
z.B. Geschlecht
· quantitativ: z.B. Schuhgröße
· Qualitative Merkmale sind quantifizierbar (weiblich: 1, männlich: 0)
b) diskret – stetig
· diskret: Abzählbar viele unterschiedliche Ausprägungen
· stetig: Alle Zwischenwerte realisierbar
Etschberger (HS Weingarten)
Statistik
1. Einführung
Sommersemester 2008
17
Grundbegriffe der Datenerhebung
Skalenniveaus
Nominalskala:
◮
◮
Zahlen haben nur Bezeichnungsfunktion
z.B. Artikelnummern
Ordinalskala:
◮
◮
◮
zusätzlich Rangbildung möglich
z.B. Schulnoten
Differenzen sind aber nicht interpretierbar!
➠ Addition usw. ist unzulässig.
Kardinalskala:
◮
◮
zusätzlich Differenzbildung sinnvoll
z.B. Gewinn
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
18
1. Einführung
Grundbegriffe der Datenerhebung
Skalendegression und Skalenprogression
Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst
ohne Über- bzw. Unterschätzungen
Es gilt:
◮
Grundsätzlich können alle Merkmale nominal skaliert werden.
◮
Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden.
Das nennt man Skalendegression. Dabei: Informationsverlust
Aber:
◮
Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden.
◮
Ordinale Merkmale dürfen nicht metrisch skaliert werden.
Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr
Informationen in die Merkmale, als inhaltlich vertretbar.
(Gefahr der Fehlinterpretation)
Etschberger (HS Weingarten)
Statistik
1. Einführung
Sommersemester 2008
19
Grundbegriffe der Datenerhebung
Klassische Informationsniveaus
Absolutskala
Ordinal
Verhältnisskala
Intervallskala
Nominal
Metrisch
Informationsniveau
hoch
niedrig
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
20
2. Deskriptive Statistik
Übersicht
1
Einführung
2
Deskriptive Statistik
Univariate Daten
Multivariate Daten
Verhältnis- und Indexzahlen
3
Wahrscheinlichkeitstheoretische
Grundlagen
4
Induktive Statistik
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
21
Univariate Daten
Häufigkeitsverteilungen
Auswertungsmethoden für eindimensionales Datenmaterial
◮ Merkmal X wird an n Merkmalsträgern beobachtet ➠ Urliste (x1 , . . . , xn )
Im Beispiel: x1 = 4, x2 = 11, . . . , x12 = 6
◮ Urlisten sind oft unübersichtlich, z.B.:
4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5
6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 2 5 4 7 5
◮ Dann zweckmäßig: Häufigkeitsverteilungen
Ausprägung (sortiert)
aj
P
1
2
3
4
5
6
7
1
1
2
12
17
9
8
50
h(ai )
1
2
4
16
33
42
50
−
f(aj ) = h(aj )/n
1
50
1
50
2
50
12
50
17
50
9
50
8
50
1
1
50
2
50
4
50
16
50
33
50
42
50
1
−
absolute Häufigkeit
h(aj ) = hj
kumulierte abs. Häufigkeit
H(aj ) =
j
P
i=1
relative Häufigkeit
kumulierte rel. Häufigkeit
F(aj ) =
j
P
f(ai )
i=1
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
22
2. Deskriptive Statistik
Univariate Daten
Graphische Darstellungen
0
5
10
15
➊ Balken- oder Stabdiagramm
1
2
3
4
5
6
7
(Höhe proportional zu Häufigkeit)
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
23
Univariate Daten
Graphische Darstellungen
➋ Kreissektorendiagramm
4
Winkel:
wj = 360◦ · f(aj )
3
2
z.B.
5
w1 = 360◦ ·
w7 = 360◦ ·
1
50
8
50
1
= 7,2◦
= 57,6◦
7
(Fläche proportional zu Häufigkeit)
6
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
24
2. Deskriptive Statistik
Univariate Daten
Graphische Darstellungen
➌ Histogramm
- für klassierte Daten
- Fläche proportional zu Häufigkeit:
Höhej · Breitej = c · h(aj )
Höhej = c ·
⇒
h(aj )
Breitej
- Im Beispiel mit c = 15:
Klasse
[0; 5)
[5; 15)
[15; 30]
15
h(aj )
Breitej
Höhej
5
5
15
5
10
7,5
2
15
2
7,5
2
5
Etschberger (HS Weingarten)
15
Statistik
2. Deskriptive Statistik
30
Sommersemester 2008
25
Univariate Daten
Lageparameter
◮
Modus xMod : häufigster Wert
Beispiel:
aj
h(aj )
1
4
2 4
3 1
⇒ xMod = 1
Sinnvoll bei allen Skalenniveaus.
◮
Median xMed : mittlerer Wert‘, d.h.
’
1. Urliste aufsteigend sortieren: x1 ≦ x2 ≦ · · · ≦ xn
2. Dann
xMed
= x n+1 ,
falls n ungerade
2
∈ [x n2 ; x n2 +1 ], falls n gerade (meist xMed =
1
2
(x n2 + x n2 +1 ))
Im Beispiel oben:
1, 1, 1, 1, 2, 2, 2, 4 ⇒ xMed ∈ [1; 2], z.B. xMed = 1,5
Sinnvoll ab ordinalem Skalenniveau.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
27
2. Deskriptive Statistik
Univariate Daten
Lageparameter (2)
◮
Arithmetisches Mittel x̄: Durchschnitt, d.h.
n
k
i=1
j=1
1X
1X
x̄ =
xi =
aj · h(aj )
n
n
Im Beispiel:
x̄ =
1
8
2 + 2} + |{z}
4 ) = 1,75
· (1
+ 1 + 1} + 2
| + {z
| + 1 {z
1·4
4·1
2·3
Sinnvoll nur bei kardinalem Skalenniveau.
Bei klassierten Daten:
P
x̄∗ = n1
Klassenmitte · Klassenhäufigkeit
Im Beispiel:
x̄∗ =
1
12
· (2,5 · 5 + 10 · 5 + 22,5 · 2) = 8,96 6= 7,5 = x̄
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
28
Univariate Daten
Streuungsparameter
◮
◮
◮
Voraussetzung: kardinale Werte x1 , . . . , xn
Beispiel:
a) xi 1950 2000 2050
je x̄ = 2000
b) xi
0
0
6000
Spannweite: SP = max xi − min xi
i
i
Im Beispiel:
a) SP = 2050 − 1950 = 100
b) SP = 6000 − 0
= 6000
◮
Mittlere quadratische Abweichung:
n
n
1X
1X 2
2
s =
(xi − x̄) =
xi − x̄2
n
n
i=1
| i=1{z
}
2
Verschiebungssatz
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
29
2. Deskriptive Statistik
Univariate Daten
Streuungsparameter (2)
◮
Mittlere quadratische Abweichung im Beispiel:
a) s2 =
=
b) s2 =
1
3
1
3
1
3
1
3
· (502 + 02 + 502 )
· (19502 + 20002 + 20502) − 20002 = 1666,67
· (20002 + 20002 + 40002)
· (02 + 02 + 60002) − 20002
√
◮ Standardabweichung: s = s2
Im Beispiel:
√
a) s = 1666,67 = 40,82
√
b) s = 8000000 = 2828,43
=
◮
= 8000000
Variationskoeffizient: V = x̄s (maßstabsunabhängig)
Im Beispiel:
= 0,02 (b
= 2 %)
a) V = 40,82
2000
b) V =
2828,43
2000
= 1,41 (b
= 141 %)
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
30
Univariate Daten
Konzentrationsmaße
◮ Gegeben: kardinale Werte 0 ≦ x1 ≦ x2 ≦ · · · ≦ xn
◮ Achtung! Die Werte müssen aufsteigend sortiert werden!
◮ Lorenzkurve:
Wieviel Prozent der Merkmalssumme entfällt auf die x
Prozent kleinsten Merkmalsträger?
◮ Beispiel: Die 90 % ärmsten besitzen 20 % des Gesamtvermögens.
◮ Streckenzug: (0, 0), (u1 , v1 ), . . . , (un , vn ) = (1, 1) mit
vk = Anteil der k kleinsten MM-Träger an der MM-Summe =
k
P
i=1
n
P
xi
xi
i=1
uk = Anteil der k kleinsten an der Gesamtzahl der MM-Träger =
Etschberger (HS Weingarten)
Statistik
k
n
Sommersemester 2008
31
2. Deskriptive Statistik
Univariate Daten
Lorenzkurve: Beispiel
Markt mit fünf Unternehmen; Umsätze: 6, 3, 11, 2, 3 (Mio. €)
5
P
vk
xk = 25
⇒ n = 5,
k=1
•
k
1
2
3
4
5
xk
2
3
3
6
11
pk
vk
uk
2
25
2
25
1
5
3
25
5
25
2
5
3
25
8
25
3
5
6
25
14
25
4
5
11
25
45 ◦
-L
in
ie
1
14
25
1
1
8
25
5
25
2
25
Etschberger (HS Weingarten)
•
•
•
•
•
1
5
2
5
3
5
Statistik
2. Deskriptive Statistik
L
4
5
uk
1
Sommersemester 2008
32
Univariate Daten
Lorenzkurve
◮
Knickstellen:
- Bei i-tem Merkmalsträger ⇐⇒ xi+1 > xi
- Empirische Verteilungsfunktion liefert Knickstellen:
◮
aj
2
3
6
11
h(aj )
f(aj )
F(aj )
1
2
1
1
1
5
1
5
2
5
3
5
1
5
4
5
1
5
1
Vergleich von Lorenzkurven:
•
•
•
•
➀
➀
➁
➁
•
Gleichverteilung
•
extreme Konzentration
Etschberger (HS Weingarten)
•
➁ höher konzentriert als ➀
Statistik
•
unvergleichbar
Sommersemester 2008
33
2. Deskriptive Statistik
Univariate Daten
Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP
1.0
0.8
Anteil am BSP
Bangladesch
Brasilien
Deutschland
Ungarn
USA
0.6
0.4
(Stand 2000)
0.2
0
0
0.2
0.4
0.6
0.8
1.0
Anteil der Bevölkerung
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
34
Univariate Daten
Gini-Koeffizient
◮ Numerisches Maß der Konzentration:
Fläche zwischen 45◦ -Linie und L
G=
=
Fläche unter 45◦ -Linie
◮ Aus den Daten:
2
G=
n
P
i xi − (n + 1)
i=1
n
P
xi
i=1
n
n
P
xi
2
=
n
P
i pi − (n + 1)
i=1
n
xi
pi = P
n
xi
i=1
i=1
◮ Problem: Gmax =
wobei
n−1
n
➠ Normierter Gini-Koeffizient:
G∗ =
Etschberger (HS Weingarten)
n
· G ∈ [0; 1]
n−1
Statistik
Sommersemester 2008
35
2. Deskriptive Statistik
Univariate Daten
Gini-Koeffizient: Beispiel
Beispiel:
i
xi
pi
G=
Mit Gmax =
2· 1·
4−1
4
1
20
1
1
2
2
3
2
4
15
1
20
2
20
2
20
15
20
2
20
+2·
+3·
4
2
20
+4·
15
20
P
20
1
− (4 + 1)
= 0,525
= 0,75 folgt
G∗ =
4
· 0,525 = 0,7
4−1
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
36
Univariate Daten
Weitere Konzentrationsmaße
◮ Konzentrationskoeffizient:
CRg = Anteil, der auf die g größten entfällt =
n
X
pi = 1 − vn−g
i=n−g+1
◮ Herfindahl-Index:
H=
n
X
p2i
(∈ [ n1 ; 1])
i=1
Es gilt: H =
1
n
(V 2 + 1)
V=
bzw.
◮ Exponentialindex:
E=
n
Y
ppi i
i=1
∈ [ n1 ; 1]
√
n·H−1
wobei
00 = 1
◮ Im Beispiel:
CR2 =
17
20
= 0,85; H =
Etschberger (HS Weingarten)
1 2
20
+ ··· +
15 2
20
Statistik
= 0,59; E =
1
20
201
···
15
20
15
20
= 0,44
Sommersemester 2008
37
2. Deskriptive Statistik
Multivariate Daten
Auswertungsmethoden für mehrdimensionales
Datenmaterial
Kontingenztabelle und Streuungsdiagramm
◮
Gegeben: Urliste vom Umfang n zu zwei Merkmalen X und Y:
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
◮
Kontingenztabelle:
Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten.
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
38
Multivariate Daten
Kontingenztabelle
Unterscheide:
◮
Gemeinsame Häufigkeiten:
hij = h(ai , bj )
◮
Randhäufigkeiten:
hi· =
l
X
hij
und
j=1
◮
h·j =
k
X
hij
i=1
Bedingte (relative) Häufigkeiten:
f1 (ai | bj ) =
Etschberger (HS Weingarten)
hij
h·j
und
Statistik
f2 (bj | ai ) =
hij
hi·
Sommersemester 2008
39
2. Deskriptive Statistik
Multivariate Daten
Häufigkeiten
Beispiel: 400 unfallbeteiligte Autoinsassen:
leicht verletzt schwer verletzt
(= b1 )
(= b2 )
angegurtet
(= a1 )
nicht angegurtet
(= a2 )
f2 (b3 | a2 ) =
f1 (a2 | b3 ) =
4
40
4
10
tot
(= b3 )
264
(= h11 )
2
(= h21 )
90
(= h12 )
34
(= h22 )
6
(= h13 )
4
(= h23 )
360
(= h1· )
40
(= h2· )
266
(= h·1 )
124
(= h·2 )
10
(= h·3 )
400
(= n)
= 0,1
= 0,4
(10 % der nicht angegurteten starben.)
(40 % der Todesopfer waren nicht angegurtet.)
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
40
Multivariate Daten
Streuungsdiagramm
Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen
(z.B. stetige Merkmale)
➠ Alle (xi , yi ) sowie (x̄, ȳ) in Koordinatensystem eintragen.
y
Beispiel:
i
1 2 3 4 5
xi
yi
2 4 3 9 7
4 3 6 7 8
⇒ x̄ =
ȳ =
25
5
28
5
x̄
8
=5
= 5,6
P
25
28
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
•
•
•
•
•
ȳ
•
0
0 1 2 3 4 5 6 7 8 9
x
1 2 3 4 5 6 7 8 9
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
41
2. Deskriptive Statistik
Multivariate Daten
Korrelationsrechnung
◮
Frage: Wie stark ist der Zusammenhang zwischen X und Y?
◮
Antwort: Korrelationskoeffizienten
◮
Wahl abhängig vom Skalenniveau von X und Y:
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
43
Multivariate Daten
Bravais-Pearson-Korrelationskoeffizient
Voraussetzung: X, Y kardinalskaliert
n
P
n
P
xi yi − nx̄ȳ
s
=s
∈ [−1; +1]
r= s
n
n
n
n
P
P
P
P
(yi − ȳ)2
(xi − x̄)2
x2i − nx̄2
y2i − nȳ2
(xi − x̄)(yi − ȳ)
i=1
i=1
i=1
Etschberger (HS Weingarten)
i=1
i=1
Statistik
i=1
Sommersemester 2008
44
2. Deskriptive Statistik
Multivariate Daten
Bravais-Pearson-Korrelationskoeffizient
Im Beispiel:
i
1
2
3
4
5
P
x2i
y2i
xi yi
4
16
9
81
49
16
9
36
49
64
8
12
18
63
56
25 28 159 174
157
xi yi
2
4
3
9
7
4
3
6
7
8
Etschberger (HS Weingarten)

























x̄ = 25/5 = 5
ȳ = 28/5 = 5,6
⇒
157 − 5 · 5 · 5,6
√
159 − 5 · 52 174 − 5 · 5,62
= 0,703
r= √
(stark positive Korrelation)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
45
Multivariate Daten
Rangkorrelationskoeffizient von Spearman
◮
◮
Voraussetzung: X, Y (mindestens) ordinalskaliert
Vorgehensweise:
(′)
➀ Rangnummern Ri (X) bzw. Ri′ (Y) mit Ri = 1 bei größtem Wert
usw.
➁ Berechne
n
P
6 (Ri − Ri′ )2
rSP = 1 − i=1
∈ [−1; +1]
(n − 1) n (n + 1)
◮
Hinweise:
- rSP = +1 wird erreicht bei Ri = Ri′
- rSP = −1 wird erreicht bei Ri = n + 1 − Ri′
Etschberger (HS Weingarten)
Statistik
∀ i = 1, . . . , n
∀ i = 1, . . . , n
Sommersemester 2008
46
2. Deskriptive Statistik
Multivariate Daten
Rangkorrelationskoeffizient von Spearman
Im Beispiel:
rSP
xi
Ri
yi
Ri′
2
4
3
9
7
5
3
4
1
2
4
3
6
7
8
4
5
3
2
1
6 · [(5 − 4)2 + (3 − 5)2 + (4 − 3)2 + (1 − 2)2 + (2 − 1)2 ]
=1−
= 0,6
(5 − 1) · 5 · (5 + 1)
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
47
Multivariate Daten
Kontingenzkoeffizient
◮
◮
Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier)
Vorgehensweise:
➀ Ergänze Randhäufigkeiten
hi· =
l
X
hij
und
j=1
h·j =
k
X
hij
i=1
➁ Berechne theoretische Häufigkeiten“
”
hi· · h·j
h̃ij =
n
➂ Berechne
2
χ =
k X
l
X
(hij − h̃ij )2
i=1 j=1
h̃ij
χ2 hängt von n ab! (hij 7→ 2 · hij ⇒ χ2 7→ 2 · χ2 )
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
48
2. Deskriptive Statistik
Multivariate Daten
Kontingenzkoeffizient
➃ Kontingenzkoeffizient:
s
K=
wobei
χ2
n + χ2
∈ [0; Kmax ]
r
M−1
mit
M
➄ Normierter Kontingenzkoeffizient:
Kmax =
K∗ =
K
Kmax
M = min{k, l}
∈ [0; 1]
K∗ = +1 ⇐⇒
bei Kenntnis von xi kann yi erschlossen werden u.u.
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
49
Multivariate Daten
Kontingenzkoeffizient
Beispiel
X:
Y:
Staatsangehörigkeit
Geschlecht
hij
d
a
h·j
wobei h̃11 =
χ2 =
(30−24)2
24
K =
q
K∗ =
60·40
100
+
6,25
100+6,25
0,2425
0,7071
(d,a)
(m,w)
m
30
10
40
w
30
30
60
h̃ij
⇒ d
a
hi·
60
40
100
w
36
24
= 24 usw.
(30−36)2
36
+
= 0,2425;
(10−16)2
16
+
(30−24)2
24
= 6,25
M = min{2, 2} = 2;
= 0,3430
Etschberger (HS Weingarten)
m
24
16
Statistik
Kmax =
q
2−1
2
= 0,7071
Sommersemester 2008
50
2. Deskriptive Statistik
Multivariate Daten
Regressionsrechnung
◮
Interpretiere Y als Funktion von X:
y = f(x)
◮
X heißt Regressor bzw. unabhängige Variable
Y heißt Regressand bzw. abhängige Variable
◮
Hauptfall: f ist eine Gerade:
y = a+ bx
◮
Lineare Regression: Schätze a und b
◮
Prinzip der kleinsten Quadrate: a, b so, dass
n
X
Q(a, b) =
[yi − (a + b xi )]2 → min
i=1
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
51
Sommersemester 2008
52
Multivariate Daten
Prinzip der kleinsten Quadrate
Eindeutige Lösung:
b̂
=
=
n
X
(xi − x̄)(yi − ȳ)
i=1
n
X
n
X
(xi − x̄)2
i=1
xi yi − nx̄ȳ
i=1
n
X
x2i − nx̄2
i=1
und
â
=
ȳ − b̂ x̄
Regressionsgerade: ŷ = â + b̂ x
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Multivariate Daten
Beispiel Regressionsrechnung
Alle (xi , yi ) sowie (x̄, ȳ) als Streuplot in Koordinatensystem
eingetragen
y
Beispiel:
i
1 2 3 4 5
xi
yi
2 4 3 9 7
4 3 6 7 8
25
5
28
5
⇒ x̄ =
ȳ =
x̄
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
P
25
28
=5
= 5,6
•
•
•
•
•
ȳ
•
0
0 1 2 3 4 5 6 7 8 9
x
1 2 3 4 5 6 7 8 9
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
53
Multivariate Daten
Regressionsrechnung: Beispiel
i
1
2
3
4
5
P
x2i
y2i xi yi
4
16
9
81
49
16
9
36
49
64
8
12
18
63
56
25 28 159 174
157
xi yi
2
4
3
9
7
n
x̄
ȳ
P 2
xi
P
xi yi
⇒ b̂
â
⇒y
4
3
6
7
8
y
8
7
6
5
4
=
=
=
=
=
=
=
=
5
5
5,6
159
157
157−5·5·5,6
159−5·52
= 0,5
5,6 − 0,5 · 5 = 3,1
3,1 + 0,5 x
Etschberger (HS Weingarten)
3
2
1
x̄
8
•
7
â + b̂ x
•
6
•
5
4
•
ȳ
•
3
•
2
1
0
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
x
Prognose: ŷ(10) = 3,1 + 0,5 · 10 = 8,1
Statistik
Sommersemester 2008
54
2. Deskriptive Statistik
Multivariate Daten
Determinationskoeffizient
◮ Wie gut beschreibt â + b̂ x den Zusammenhang von X und Y?
◮ Q(â, b̂) =
n
P
(yi − ŷi )2 als Gütemaß ungeeignet (beliebig groß)
i=1
◮ Determinationskoeffizient (Bestimmtheitskoeffizient):
n
P
2
(ŷi − ȳ)
n
P
ŷ2i − nȳ2
= i=1
= r2 ∈ [0; 1]
R2 = i=1
n
n
P
P
(yi − ȳ)2
y2i − nȳ2
i=1
i=1
◮ R2 heißt auch durch die Regression erklärter Anteil der Varianz“
”
◮ R2 = 0 wird erreicht wenn X, Y unkorreliert
R2 = 1 wird erreicht wenn ŷi = yi ∀ i (alle Punkte auf Regressionsgerade)
P 2
◮ Im Beispiel: ŷi = 3,1 + 0,5 xi , n = 5, ȳ = 5,6,
yi = 174
2
2 −5·5,62
= 0,4942
R2 = 4,1 +···+6,6
i
1
2
3
4
5
174−5·5,62
⇒
ŷi
4,1 5,1 4,6 7,6 6,6
R2 = r2 = 0,7032
= 0,4942
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
55
Multivariate Daten
Modell des additiven Zeitreihenmodells
◮
Additives Zeitreihenmodell: yt = Tt + Zt + St + Ut mit:
Tt
Zt
St
Ut
:
:
:
:
Trendkomponente, i.d.R. linear
Zyklische Komponente, i.d.R. wellenförmig
Saisonkomponente, durch saisonalen Einfluss
Irreguläre Komponente, schwankt regellos um 0
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
59
2. Deskriptive Statistik
Multivariate Daten
Ermittlung der Zeitreihenkomponenten
◮
Tt : i.d.R. mit Regression nach t,
T̂t = â + b̂ · t
=⇒ Trendbereinigte Zeitreihe yt − T̂t
◮
Zt : Schätze zuerst die glatte Komponente
G t = Tt + Z t
auf Basis gleitender Durchschnitte =⇒
Ẑt = Ĝt − T̂t
(Hier nicht weiter betrachtet)
◮
St : Schätzung durch Saisonbereinigung
◮
Ut : Bleiben unberücksichtigt
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
60
Multivariate Daten
Saisonbereinigung: Gleitende Durchschnitte
◮
Zur Schätzung der glatten Komponente
◮
Ordnung“: Anzahl einbezogener Perioden =
b Saisonlänge
”
Gleitender Durchschnitt ungerader Ordnung 2 k + 1:
◮
t+k
X
1
∗
yt =
yτ
2k + 1
τ=t−k
◮
Gleitender Durchschnitt gerader Ordnung 2 k:


t+(k−1)
X
yt+k 
1  yt−k
∗
yτ +
+
yt =
2k
2
2
τ=t−(k−1)
◮
Problem: Am Rand“ gehen Werte verloren.
”
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
61
2. Deskriptive Statistik
Multivariate Daten
Beispiel gleitende Durchschnitte
Beispiel:
Wochentage, tägliche Daten
=⇒ Saisonlänge: 7
yt
y∗t
Mo Di Mi Do Fr Sa So Mo Di Mi Do Fr Sa So
3
4 5
5
4
2
1
2
4 4
5 3 1 1
− − − 3,43 3,29 3,29 3,14 3,14 3 2,86 2,86 − − −
Wert 1. Donnerstag:
1
7
· (3 + 4 + 5 + 5 + 4 + 2 + 1) = 3,43
Wert 1. Freitag:
1
7
· (4 + 5 + 5 + 4 + 2 + 1 + 2) = 3,29 = 3,43 −
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
3
7
+
2
7
Sommersemester 2008
62
Multivariate Daten
Saisonbereinigung
◮
Aus yt = Tt + Zt + St + Ut
folgt St = yt − (Tt + Zt ) .
| {z }
Ut = 0
unter Annahme von
= Gt
◮
Also: Schätze Gt mit gleitenden Durchschnitten y∗t und dann St gemäß
yt − y∗t
( um die glatte Komponente bereinigte Zeitreihe“).
”
◮ Periodentypische Abweichung (konstante Saisonfigur):
S̃j =
1 X
(yt − y∗t )
mj
Dabei: mj ist Anzahl der Werte, die in die Berechnung von S̃j eingehen
(z.B. Anzahl aller gleitenden Durchschnittswerte für Januar)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
63
2. Deskriptive Statistik
Multivariate Daten
Saisonbereinigung
Achtung: Anderer Index!
t = 1, . . . , n :
j = 1, . . . , ℓ :
◮
Alle Perioden der Zeitreihe
Perioden einer Saison
Aber: Im Allgemeinen ist
ℓ
X
j=1
S̃j 6= 0
=⇒ Saisonveränderungszahl:
ℓ
1X
S̃j
Ŝj = S̃j −
ℓ
j=1
◮
Saisonbereinigte Zeitreihe: yt − Ŝj
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
64
Multivariate Daten
Saisonbereinigung: Rezept“
”
Rezept Saisonbereinigung
y∗t
1.
Gleitende Durchschnitte der Ordnung ℓ:
2.
Um glatte Komponente bereinigte Werte: yt − y∗t
3.
Periodendurchschnitte:
4.
Normierte Werte:
5.
Saisonbereinigte Zeitreihe:
1
mj
P
(yt − y∗t )
P
S̃j
Ŝj = S̃j − 1ℓ
S̃j =
yt − Ŝj
Dabei:
◮
mj ist Anzahl der Werte, die in die Berechnung von S̃j eingehen
(z.B. Anzahl aller gleitenden Durchschnittswerte für Januar)
◮
l ist Anzahl der Saisonteile (z.B. l = 12 bei Jahressaisonfiguren mit
monatlichen Daten)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
65
2. Deskriptive Statistik
Verhältnis- und Indexzahlen
Klassifikation von Verhältniszahlen
Verhältniszahlen und Indexzahlen
Gliederungszahlen
(z.B. Eigenkapitalquote)
Verhältniszahlen
(Quotienten)
Messzahlen
(z.B. Preismesszahlen)
Beziehungszahlen
(z.B. Variationskoeffizient)
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
66
Verhältnis- und Indexzahlen
Preisindizes
◮
Preismesszahl: Misst Preisveränderung eines einzelnen Gutes:
Preis zum Zeitpunkt j
Preis zum Zeitpunkt i
dabei: j: Berichtsperiode, i: Basisperiode
◮
Preisindex: Misst Preisveränderung mehrerer Güter
(Aggregation von Preismesszahlen durch Gewichtung)
◮
Notation:
p0 (i) :
pt (i) :
q0 (i) :
qt (i) :
Etschberger (HS Weingarten)
Preis des i-ten Gutes in Basisperiode
0
Preis des i-ten Gutes in Berichtsperiode t
Menge des i-ten Gutes in Basisperiode
0
Menge des i-ten Gutes in Berichtsperiode t
Statistik
Sommersemester 2008
67
2. Deskriptive Statistik
Verhältnis- und Indexzahlen
Preisindizes
◮ Gleichgewichteter Preisindex:
G
P0t
n
n
X
pt (i)
1 X pt (i)
=
· g(i)
=
n
p0 (i)
p0 (i)
g(i) =
mit
i=1
i=1
1
n
Nachteil: Auto und Streichhölzer haben gleiches Gewicht
Lösung: Preise mit Mengen gewichten!
◮ Preisindex von Laspeyres:
L
P0t
=
n
P
i=1
n
P
pt (i)q0 (i)
p0 (i)q0 (i)
i=1
n
X
pt (i)
· g0 (i)
=
p0 (i)
mit
n
X
pt (i)
· gt (i)
p0 (i)
mit
g0 (i) =
i=1
p0 (i) q0 (i)
n
P
p0 (j) q0 (j)
j=1
◮ Preisindex von Paasche:
P
P0t
=
n
P
i=1
n
P
pt (i)qt (i)
=
p0 (i)qt (i)
i=1
gt (i) =
i=1
Etschberger (HS Weingarten)
p0 (j) qt (j)
j=1
Statistik
2. Deskriptive Statistik
p0 (i) qt (i)
n
P
Sommersemester 2008
68
Verhältnis- und Indexzahlen
Preisindizes: Beispiel
Campuslebenshaltungskosten:
1990
Gut 1:
Gut 2:
1 Tasse Kaffee
1 Mensaessen
L
P90,01
=
P
P90,01
=
Etschberger (HS Weingarten)
2001
Preis (DM)
Menge/Woche
Preis (DM)
Menge/Woche
0,65
3,50
3
5
1,10
4,80
1
2
3
1,10 · 3 + 4,80 · 5
27,3
=
= 1,4036
0,65 · 3 + 3,50 · 5
19,45
1,10 ·
0,65 ·
1
2
1
2
+ 4,80 · 3
14,95
= 1,3811
=
10,825
+ 3,50 · 3
Statistik
Sommersemester 2008
69
2. Deskriptive Statistik
Verhältnis- und Indexzahlen
Weitere Preisindizes
◮
Idealindex von Fisher:
F
P0t
=
◮
Marshall-Edgeworth-Index:
ME
P0t
=
n
P
q
L PP
P0t
0t
pt (i)[q0 (i) + qt (i)]
i=1
n
P
p0 (i)[q0 (i) + qt (i)]
i=1
◮
Preisindex von Lowe:
LO
P0t
=
n
P
i=1
n
P
pt (i)q(i)
p0 (i)q(i)
i=1
Etschberger (HS Weingarten)
Statistik
2. Deskriptive Statistik
Sommersemester 2008
70
Verhältnis- und Indexzahlen
Weitere Preisindizes: Beispiel
Campuslebenshaltungskosten:
1990
Gut 1:
Gut 2:
1 Tasse Kaffee
1 Mensaessen
F
P90,01
=
ME
P90,01
√
2001
Preis (DM)
Menge/Woche
Preis (DM)
Menge/Woche
0,65
3,50
3
5
1,10
4,80
1
2
1,4036 · 1,3811
3
= 1,3923
1,10 · (3 + 21 ) + 4,80 · (5 + 3)
42,25
=
= 1,3955
=
1
30,275
0,65 · (3 + 2 ) + 3,50 · (5 + 3)
LO
P90,01
=
Etschberger (HS Weingarten)
1,10 · 2 + 4,80 · 4
0,65 · 2 + 3,50 · 4
=
Statistik
21,4
= 1,3987
15,3
Sommersemester 2008
71
3. Wahrscheinlichkeitstheorie
Übersicht
1
Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheoretische
Grundlagen
Zufall und Wahrscheinlichkeit
Zufallsvariablen und Verteilungen
Verteilungsparameter
4
Induktive Statistik
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
72
Zufall und Wahrscheinlichkeit
Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten
◮
Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B. Münzwurf
◮
Elementarereignis ω: Ein möglicher Ausgang, z.B. Kopf “
”
Elementarereignisse schließen sich gegenseitig aus
( Kopf “ oder Zahl“)!
”
”
Ergebnismenge Ω: Menge aller ω
◮
◮
Beispiel: Werfen zweier Würfel:


(1, 1) (1, 2) · · · (1, 6)





(2, 1) (2, 2) · · · (2, 6)
Ω:
..
..
.. 
..

.
.
.
. 





(6, 1) (6, 2) · · · (6, 6)
⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . , 6}}
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
73
3. Wahrscheinlichkeitstheorie
Zufall und Wahrscheinlichkeit
Ereignisse und Wahrscheinlichkeiten
◮
◮
◮
◮
Ereignis A: Folgeerscheinung eines Elementarereignisses
Formal:
A⊂Ω
Ereignisse schließen sich nicht gegenseitig aus!
Beispiel: Werfen zweier Würfel:
Ereignis
verbal
Augensumme = 4
Erste Zahl = 2
A
B
◮
◮
formal
{(1, 3), (2, 2), (3, 1)}
{(2, 1), (2, 2), . . . , (2, 6)}
Wahrscheinlichkeit P(A): Chance für das Eintreten von A
Laplace-Wahrscheinlichkeit:
P(A) =
Etschberger (HS Weingarten)
Anzahl der für A günstigen Fälle
|A|
=
|Ω|
Anzahl aller möglichen Fälle
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
74
Zufall und Wahrscheinlichkeit
Laplace Wahrscheinlichkeit und Urnenmodell
◮
Beispiel: Werfen zweier Würfel:
Augensumme = 4 : A = {(1, 3), (2, 2), (3, 1)}
◮
1
3
= 12
= 0,083
|Ω| = 36, |A| = 3 ⇒ P(A) = 36
Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten
Anzahl Möglichkeiten:
mit Zurücklegen: Nn
ohne Zurücklegen: N · (N − 1) · · · (N − (n − 1)) =
◮
N!
(N−n)!
Beispiel:
Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 32-er
Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen?
a) Ziehen mit Zurücklegen,
b) Ziehen ohne Zurücklegen
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
75
3. Wahrscheinlichkeitstheorie
Zufall und Wahrscheinlichkeit
Rechenregeln für Wahrscheinlichkeiten
◮
Wichtige Rechenregeln:
1.
2.
3.
4.
5.
◮
P(A) ≦ 1
P(∅) = 0
A ⊂ B ⇒ P(A) ≦ P(B)
P(Ā) = 1 − P(A)
P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 )
Beispiel:
P( Augenzahl ≦ 5“) = 1 − P( Augenzahl = 6“) = 1 −
”
”
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
1
6
=
5
6
Sommersemester 2008
76
Zufall und Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
◮
Wahrscheinlichkeit von A hängt von anderem Ereignis B ab.
(B kann zeitlich vor A liegen, muss aber nicht!)
◮
Beispiel: Wahrscheinlichkeit für Statistiknote hängt von Mathenote ab.
◮
Formal:
P(A | B) =
◮
P(A ∩ B)
P(B)
Im Venndiagramm:
Ω
B
P(A) =
P(A | B) =
A
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
77
3. Wahrscheinlichkeitstheorie
Zufall und Wahrscheinlichkeit
Unabhängigkeit von Ereignissen
◮
A, B unabhängig: Eintreten von A liefert keine Information über P(B) u.u.
◮
Formal:
P(A | B) = P(A)
◮
Äquivalent zu:
P(A ∩ B) = P(A) · P(B)
◮
Dann gilt:
P(A ∪ B) = P(A) + P(B) − P(A) · P(B)
◮
Beispiel: Werfen zweier Würfel:
P(A ∩ B)
A : erster Würfel gleich 6“
”
⇒ P(A | B) =
=
B : zweiter Würfel gleich 6“
P(B)
”
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
1
36
1
6
=
1
6
= P(A)
Sommersemester 2008
78
Zufallsvariablen und Verteilungen
Zufallsvariablen
Zufallsvariablen und Verteilungen
◮
Beschreibung von Ereignissen durch reelle Zahlen
◮
Formal:
◮
X: Ω→R
Nach Durchführung des Zufallsvorgangs:
Realisation:
◮
Vor Durchführung des Zufallsvorgangs:
Wertebereich:
◮
x = X(ω)
X(Ω) = {x : x = X(ω), ω ∈ Ω}
Beispiel: Würfeln, X: Augenzahl, X(Ω) = {1, 2, . . . , 6}, x = 4 (z.B.)
P(X = 4) = 61 ,
Etschberger (HS Weingarten)
P(X ≦ 3) =
Statistik
3
6
=
1
2
Sommersemester 2008
79
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Verteilungsfunktion
◮ Zuweisung von Wahrscheinlichkeiten zu Realisationen
◮ Formal:
F(x) = P(X ≦ x)
◮ Eigenschaften:
-
F(x) ∈ [0; 1]
Definitionsbereich: R mit F(−∞) = 0, F(∞) = 1
monoton wachsend, d.h. x1 < x2 ⇒ F(x1 ) ≦ F(x2 )
Es gilt:
P(a < X ≦ b) = F(b) − F(a)
F(x)
1.0
0.5
1
2
3
4
Etschberger (HS Weingarten)
5
6
7
8
9
Statistik
3. Wahrscheinlichkeitstheorie
10
x
Sommersemester 2008
80
Zufallsvariablen und Verteilungen
Diskrete Zufallsvariablen
◮ X heißt diskret, wenn X(Ω) = {x1 , x2 , . . . } endlich ist.
◮ Wahrscheinlichkeitsfunktion dann:
f(x) = P(X = x)
Beispiel: Münze 2 mal werfen; X: Anzahl Kopf“
”
xi
f(xi )
(Z, Z)
(Z, K), (K, Z)
(K, K)
0
1
2
1
4
1
2
1
4
f(x)

0,


1
,
F(x) = 34
,


4
1,
F(x)
1
3
4
1
2
1
4
•
0
•
1
Etschberger (HS Weingarten)
1
4
•
2
x
•
<
<
<
≧
0
1
2
2
•
•
0
Statistik
falls
x
falls 0 ≦ x
falls 1 ≦ x
falls
x
1
2
x
Sommersemester 2008
81
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Binomialverteilung
◮
Wiederholter Zufallsvorgang
◮
n Durchführungen
◮
Pro Durchführung: A oder Ā mit P(A) = p (=
b Ziehen mit
Zurücklegen)
◮
Schreibe:
Xi =
◮
1, falls A bei i-ter Durchführung eintritt
0, falls Ā bei i-ter Durchführung eintritt
Dann gibt
X=
n
X
Xi
i=1
an, wie oft A eintritt.
◮
Gesucht: Wahrscheinlichkeitsfunktion von X
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
82
Zufallsvariablen und Verteilungen
Binomialverteilung
◮
Herleitung:
1) P(Xi = 1) = P(A) = p, P(Xi = 0) = P(Ā) = 1 − p
n
P
xi = x entspricht x mal Ereignis A und n − x mal Ā“
2)
”
i=1
Wahrscheinlichkeit (bei Unabhängigkeit): px · (1 − p)n−x
n
3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen:
x
➠ Wahrscheinlichkeitsfunktion:
 
 n · px · (1 − p)n−x , falls x ∈ {0, 1, . . . , n}
x
f(x) =


0,
sonst
◮
Kurzschreibweise: X ∼ B(n; p)
◮
F(x) in Tabelle 1; für f(x) gilt: f(x) = F(x) − F(x − 1)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
83
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Binomialverteilung: Beispiel
Beispiel
Aus einem 32-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen.
Wie wahrscheinlich ist es, 2-mal Herz“ zu ziehen?
”
1, falls i-te Karte Herz
8
)
Xi =
⇒ Xi ∼ B(1; 32
0,
sonst
n
P
X =
Xi = X1 + X2 + X3
⇒ X ∼ B(3; 41 )
i=1
Mithilfe der Wahrscheinlichkeitsfunktion:
3
P(X = 2) = f(2) =
· 0,252 · 0,751 = 0,1406
2
Mithilfe von Tabelle 1:
P(X = 2) = F(2) − F(1) = 0,9844 − 0,8438 = 0,1406
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
84
Zufallsvariablen und Verteilungen
Binomialverteilung (BB S. 308)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
85
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Hypergeometrische Verteilung
◮
n-faches Ziehen ohne Zurücklegen aus N Objekten,
davon M markiert.
X = Anzahl gezogener Objekte mit Markierung
◮
◮
◮
heißt hypergeometrisch verteilt mit den Parametern N, M, n.
Kurzschreibweise: X ∼ Hyp(N; M; n)
Wahrscheinlichkeitsfunktion:
 M
N
−
M




n−x
 x
, falls x möglich
f(x) =
N



n


0,
sonst
Ist n ≦
N
20 ,
so gilt: Hyp(N; M; n) ≈ B(n; M
N)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
86
Zufallsvariablen und Verteilungen
Beispiel
◮
Aus einem 32-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen
gezogen.
◮
Wie wahrscheinlich ist es, 2-mal Herz“ zu ziehen?
”
D.h.: N = 32, M = 8, n = 3, x = 2.
8
32 − 8
8
24
8!
· 24
2
3−2
2
1
2!
·
6!
P(X = 2) = f(2) =
= =
32!
32
32
3! · 29!
3
3
29! · 8! · 3! · 24
8 · 7 · 3 · 24
4032
21
=
=
=
=
= 0,1355
32! · 6! · 2!
32 · 31 · 30
29760
155
n!
n
n
Dabei wurde verwendet:
=
und
= n.
k
1
k!(n − k)!
◮
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
87
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Poisson-Verteilung
Approximation für B(n; p) und Hyp(N; M; n)
◮ Geeignet, wenn p klein (≦ 0,1), n groß (≧ 50) und np ≦ 10.
➠ Verteilung der seltenen Ereignisse“ (z.B. Anzahl 6-er pro
”
Lottoausspielung)
◮ Kurzschreibweise: X ∼ P(λ)
◮ Wahrscheinlichkeitsfunktion:
x
λ
· e−λ , falls x = 0, 1, 2, . . .
f(x) = x!
0,
sonst
◮
◮
◮
F(x) in Tabelle 2
Überblick: Approximation
p=
Hyp(N; M; n)
Etschberger (HS Weingarten)
M
N
B(n; p)
λ = np = n M
N
Statistik
3. Wahrscheinlichkeitstheorie
P(λ)
Sommersemester 2008
88
Zufallsvariablen und Verteilungen
Poisson-Verteilung: Beispiel
Beispiel
◮ X ∼ B(10 000; 0,0003); In Tabelle 1 nicht vertafelt! Approximation:

p = 0,0003 < 0,1
n = 10 000 > 50 ⇒ B(10 000; 0,0003) ≈ P(3)

np = 3
< 10
◮ Mithilfe der Wahrscheinlichkeitsfunktion:
P(X = 5) =
35 −3
· e = 0,1008188
5!
◮ Mithilfe von Tabelle 2:
P(X = 5) = F(5) − F(4) = 0,9161 − 0,8153 = 0,1008
◮ Exakter Wert: P(X = 5) = 0,1008239
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
89
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Poisson-Verteilung (BB S. 317)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
90
Zufallsvariablen und Verteilungen
Stetige Zufallsvariablen
◮
X heißt stetig, wenn F(x) stetig ist.
◮
Dann gilt:
F(x) =
Zx
f(t) dt
−∞
F ′ (x) = f(x) heißt Dichtefunktion von X.
◮
Dann:
P(a < X < b) = P(a ≦ X < b)
= P(a < X ≦ b)
= P(a ≦ X ≦ b)
Rb
= a f(x) dx
= F(b) − F(a)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
91
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Eigenschaften der Dichtefunktion
◮
◮
f(x) ≧ 0 für alle x ∈ R
Wegen F(∞) = 1 muss stets gelten:
Z∞
f(x) dx = 1
−∞
◮
◮
P(X = x) = 0 für alle x ∈ R
f(x) > 1 ist möglich
◮
F ′ (x) = f(x)
◮
Intervallgrenzen spielen keine Rolle:
P(X ∈ [a; b]) = P(X ∈ (a; b]) = P(X ∈ [a; b)) = P(X ∈ (a; b)) = F(b) − F(a)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
92
Zufallsvariablen und Verteilungen
Dichtefunktion: Beispiel
Beispiel
Verteilungsfunktion:
Zx
0
Etschberger (HS Weingarten)

x<0
 0, falls
1
, falls 0 ≦ x ≦ 10
f(x) = 10

0, falls
x > 10
f(t) dt =
Zx
0
x
t
x
1
dt =
⇒
=
10
10 0
10

x<0
 0, falls
x
F(x) = 10 , falls 0 ≦ x ≦ 10

1, falls
x > 10
Statistik
Sommersemester 2008
93
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Gleichverteilung
Eine Zufallsvariable X mit


1
, falls a ≦ x ≦ b
f(x) = b − a
 0 , sonst
heißt gleichverteilt im Intervall [a; b].
f(x)
1
b−a
a
x
b
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
94
Zufallsvariablen und Verteilungen
Gleichverteilung
◮
Verteilungsfunktion:





◮
0 , falls
x<a
x−a
, falls a ≦ x ≦ b
F(x) =

b
−
a


 1 , falls
x>b
Beispiel: X gleichverteilt in [1; 20]
P(2 ≦ X ≦ 12) = F(12) − F(2) =
2−1
12 − 1
−
20 − 1 20 − 1
10
12 − 2
=
20 − 1
19
= 0,5263
=
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
95
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Normalverteilung
Eine Zufallsvariable X mit
f(x) =
1
√
σ 2π
(x − µ)2
−
2σ2
·e
und σ > 0 heißt normalverteilt.
Kurzschreibweise: X ∼ N(µ; σ)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
96
Zufallsvariablen und Verteilungen
Normalverteilung: Gaußkurve
Gaußsche Glockenkurve f(x)
Etschberger (HS Weingarten)
C. F. Gauß
Statistik
Sommersemester 2008
97
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Eigenschaften der Normalverteilung
◮
Dichte ist symmetrisch zu µ:
f(µ − x) = f(µ + x)
➠ µ ist Lage-, σ ist Streuungsparameter
◮ Standardnormalverteilung:
N(0; 1) mit Verteilungsfunktion Φ(x) (→ Tabelle 3)
◮ Kenntnis von Φ(x), µ und σ genügt, denn:
X ∼ N(µ; σ) ⇐⇒ X−µ
⇒
σ ∼ N(0; 1)
x−µ
F(x) = Φ
σ
◮
Tabelle 3 enthält nur positive x:
Φ(−x) = 1 − Φ(x)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
98
Zufallsvariablen und Verteilungen
Normalverteilung: Beispiel
Beispiel:
Projektdauer X ∼ N(39; 2).
Wahrscheinlichkeit für Projektdauer zwischen 37 und 41 Wochen?
P(37 ≦ X ≦ 41) = F(41) − F(37)
41−39
−Φ
=Φ 2
37−39
2
= Φ(1) − Φ(−1)
= Φ(1) − [1 − Φ(1)]
= 2 · Φ(1) − 1
= 2 · 0,8413 − 1
= 0,6826
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
99
3. Wahrscheinlichkeitstheorie
Zufallsvariablen und Verteilungen
Standardnormalverteilung (BB S. 319)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
100
Verteilungsparameter
Lageparameter
a) Modus xMod : f(xMod ) ≧ f(x) für alle x
(i.A. nicht eindeutig, z.B. Gleichverteilung)
Beispiele:
- Normalverteilung: xMod = µ
- Diskrete Verteilung mit:
x 0 1 2
f(x) 41 21 41
b) Median xMed : F(xMed ) =
1
2
⇒ xMod = 1
bzw. kleinstes x mit F(x) >
1
2
Beispiele:
- Normalverteilung: xMed = µ
- Diskrete Verteilung oben: F(0) =
Etschberger (HS Weingarten)
1
4
Statistik
< 21 , F(1) =
3
4
>
1
2
⇒ xMed = 1
Sommersemester 2008
101
3. Wahrscheinlichkeitstheorie
Verteilungsparameter
Lageparameter: Fraktile
c) α -Fraktil xα : F(xα ) = α (für stetige Verteilungen)
Beispiel: X ∼ N(0; 1), Y ∼ N(3; 2)
x0,975 =
1,96
x0,025 = −x0,975
= −1,96
y0,025 = 2 · x0,025 +3 = −0,92
(Tab. 3)
Hinweise:
- xMed = x0,5
- Wenn xα nicht vertafelt → Interpolation:
xα ≈ xa + (xb − xa ) ·
mit
α−a
b−a
a : größte vertafelte Zahl < α
b : kleinste vertafelte Zahl > α
Beispiel: X ∼ N(0; 1); x0,6 ≈ 0,25 + (0,26 − 0,25) ·
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
0,6−0,5987
0,6026−0,5987
= 0,2533
Sommersemester 2008
102
Verteilungsparameter
Lageparameter: Erwartungswert
d) Erwartungswert E(X) bzw. µ:
X

xi f(xi ), falls X diskret




i


E(X) =
∞
Z





xf(x) dx, falls X stetig


−∞
x 0 1 2
f(x) 41 21 41
Beispiel: Diskrete Verteilung
E(X) = 0 ·
Etschberger (HS Weingarten)
1
4
+1·
Statistik
1
2
+2·
:
1
4
=1
Sommersemester 2008
103
3. Wahrscheinlichkeitstheorie
Verteilungsparameter
Rechenregeln für den Erwartungswert
➀ Ist f symmetrisch bzgl. a, so gilt E(X) = a
Beispiel: f der Gleichverteilung symmetrisch bzgl.
a+b
2
➁ Lineare Transformation:
⇒ E(X) =
a+b
2
E(a + bX) = a + b · E(X)
➂ Summenbildung:
E
n
X
Xi
i=1
!
=
n
X
E(Xi )
i=1
Beispiel: X gleichverteilt in [0; 10], Y ∼ N(1; 1); Z = X + 5Y
E(Z) = E(X + 5Y) = E(X) + E(5Y) = E(X) + 5 · E(Y) =
10+0
2
+ 5 · 1 = 10
➃ Unabhängigkeit:
X, Y unabhängig ⇒ E(X · Y) = E(X) · E(Y)
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
104
Verteilungsparameter
Streuungsparameter
◮ Varianz Var(X) bzw. σ2 :
X
[xi − E(X)]2 f(xi ), f. X diskret





 i
Var(X) = E([X − E(X)]2 ) =
∞
Z




[x − E(X)]2 f(x) dx, f. X stetig


−∞
◮ Standardabweichung Sta(X) bzw. σ:
Sta(X) =
◮ Beispiel: Diskrete Verteilung
x 0 1 2
f(x) 41 21 14
Var(X) = (0 − 1)2 ·
Etschberger (HS Weingarten)
p
Var(X)
:
1
1
1
1
+ (1 − 1)2 · + (2 − 1)2 · =
4
2
4
2
Statistik
Sommersemester 2008
105
3. Wahrscheinlichkeitstheorie
Verteilungsparameter
Rechenregeln für die Varianz
➀ Verschiebungssatz:
Var(X) = E(X2 ) − [E(X)]2
Beispiel: Diskrete Verteilung
E(X2 )
=
=
⇒
E(X2 ) − [E(X)]2
=
x 0 1 2
f(x) 14 12 41
02 ·
3
2
3
2
1
4
+ 12 ·
− 12 =
1
2
:
1
2
+ 22 ·
1
4
= Var(X)
➁ Lineare Transformation:
Var(a + bX) = b2 Var(X)
➂ Summenbildung:
Var
n
X
Xi
i=1
!
=
n
X
Var(Xi )
i=1
Setzt Unabhängigkeit der Xi voraus!
Etschberger (HS Weingarten)
Statistik
3. Wahrscheinlichkeitstheorie
Sommersemester 2008
106
Verteilungsparameter
Erwartungswerte und Varianzen wichtiger Verteilungen
Verteilung von X
E(X)
Var(X)
Binomialverteilung B(n; p)
np
np(1 − p)
Hypergemoetrische Verteilung
mit den Parametern N, M, n
nM
N
N−M N−n
nM
N N
N−1
Posson-Verteilung P(λ)
λ
λ
a+b
2
(b − a)2
12
µ
σ2
Gleichverteilung in [a; b]
mit a < b
Normalverteilung N(µ; σ)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
107
3. Wahrscheinlichkeitstheorie
Verteilungsparameter
Kovarianz und Korrelation
◮ Kovarianz:
Cov(X, Y)
= E[(X − E(X))(Y − E(Y))]
= E(X · Y) − E(X) · E(Y)
(Verschiebungssatz)
◮ Korrelationskoeffizient:
ρ(X, Y) = p
◮ Bemerkungen:
Cov(X, Y)
Var(X) · Var(Y)
➀ ρ ist r nachgebildet ⇒ ρ ∈ [−1; 1]
➁ |ρ| = 1 ⇐⇒ Y = a + bX (mit b 6= 0)
➂ ρ = 0 ⇐⇒ X, Y unkorreliert
◮ Varianz einer Summe zweier ZV:
Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
108
Sommersemester 2008
109
4. Induktive Statistik
Übersicht
1
Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheoretische
Grundlagen
4
Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Grundlagen
Grundlagen der induktiven Statistik
◮
Vollerhebung of unmöglich,
◮
Deshalb: Beobachte Teilgesamtheit und schließe auf
Grundgesamtheit
Beispiel
Warensendung von 1000 Stück; darunter M Stück Ausschuss.
M ist unbekannt.
→ Zufällige Entnahme von n = 30 Stück ( Stichprobe“).
”
Darunter 2 Stück Ausschuss.
Denkbare Zielsetzungen:
2
30
· 1000 = 66,67)
◮
Schätze M durch eine Zahl (z.B.
◮
Schätze ein Intervall für M (z.B. M ∈ [58; 84])
◮
Teste die Hypothese, dass M > 50 ist.
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
110
Grundlagen
Grundbegriffe
◮
Grundgesamtheit (G): Menge aller relevanten Merkmalsträger.
◮
Verteilung von G: F(x) = P(X ≦ x) = Wahrscheinlichkeit, dass ein
Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal
die Ausprägung x aufweist.
◮
Uneingeschränkte (reine) Zufallsauswahl:
Jedes Element von G hat die selbe Chance, ausgewählt zu werden.
◮
Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe.
◮
Einfache Stichprobe:
Uneingeschränkte Zufallsauswahl und unabhängige Ziehung.
→ Alle Stichprobenvariablen X1 , . . . , Xn sind iid.
◮
Stichprobenergebnis:
n-Tupel der Realisationen der Stichprobenvariablen, (x1 , . . . , xn ).
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
111
4. Induktive Statistik
Grundlagen
Wichtige Stichprobenfunktionen
◮
Gegeben: Einfache Stichprobe X1 , . . . , Xn ,
Beliebige Verteilung,
mit E(Xi ) = µ, Var(Xi ) = σ2
Stichprobenfunktion V
Bezeichnung
E(V)
Var(V)
n
X
Merkmalssumme
nµ
nσ2
Stichprobenmittel
µ
σ2
n
X̄ − µ √
n
σ
Gauß-Statistik
0
1
n
1 X
(Xi − µ)2
n
mittlere quadratische Abweichung bezüglich µ
1
n
mittlere quadratische Abweichung
Xi
i=1
X̄ =
n
1 X
Xi
n
i=1
i=1
n
X
(Xi − X̄)2
i=1
n
X
1
(Xi − X̄)2
n−1
i=1
√
2
S= S
S2 =
X̄ − µ √
n
S
◮
σ2
n−1 2
σ
n
σ2
Stichprobenvarianz
Stichproben-Standardabweichung
t-Statistik
Herleitungen: BB S. 140
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
112
Grundlagen
Testverteilungen
➀ Chi-Quadrat-Verteilung:
◮ Sind X1 , . . . , Xn iid N(0; 1)-verteilte ZV, so wird die Verteilung von
Z=
n
X
X2i
i=1
als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet.
◮
◮
Kurzschreibweise: Z ∼ χ2 (n)
Beispiel: χ2 (30): x0,975 = 46,98
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
113
4. Induktive Statistik
Grundlagen
Testverteilungen: Tabelle der χ2 -Verteilung (BB S. 324)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
114
Grundlagen
Testverteilungen
➁ t-Verteilung:
◮ Ist X ∼ N(0; 1), Z ∼ χ2 (n), X, Z unabhängig, so wird die Verteilung
von
X
T=q
1
nZ
als t-Verteilung mit n Freiheitsgraden bezeichnet.
◮
◮
Kurzschreibweise: T ∼ t(n)
Beispiel: t(10) x0,6 = 0,260, x0,5 = 0, x0,1 = −x0,9 = −1,372
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
115
4. Induktive Statistik
Grundlagen
Testverteilungen: Tabelle der t-Verteilung (BB S. 320)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
116
Punkt-Schätzung
Punkt-Schätzung
◮
Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis
einer Stichprobe geschätzt werden.
◮
Zum Beispiel: σ von N(10; σ)
◮
Schätzwert: ϑ̂
◮
Vorgehen: Verwendung einer Schätzfunktion
Θ̂ = g(X1 , . . . , Xn )
Beachte: Der Schätzwert ϑ̂ ist die Realisierung der ZV (!) Θ̂.
◮
Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet?
➠ Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen!
◮
Im Folgenden: Vorliegen einer einfachen Stichprobe,
d.h. X1 , . . . , Xn iid.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
117
4. Induktive Statistik
Punkt-Schätzung
Erwartungstreue und Wirksamkeit
◮
Eine Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) heißt erwartungstreu oder
unverzerrt für ϑ, wenn unabhängig vom numerischen Wert
von ϑ gilt:
E(Θ̂) = ϑ
Beispiel
Sind Θ̂ = X̄, Θ̂ ′ =
X1 +Xn
,
2
Θ̂ ′′ =
1
n−1
n
P
Xi erwartungstreu für µ?
i=1
a) Θ̂:
E(X̄) = µ
⇒ Θ̂ ist erwartungstreu.
1
n
= 2 [E(X1 ) + E(Xn )] = 12 (µ + µ) = µ
E X1 +X
b) Θ̂ ′ :
2
⇒ Θ̂ ′ ist erwartungstreu.
n
n
n
P
P
P
1
1
1
n
′′
c) Θ̂ : E n−1
µ 6= µ
Xi = n−1
E(Xi ) = n−1
µ = n−1
i=1
⇒ Θ̂
′′
i=1
i=1
ist nicht erwartungstreu
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
118
Punkt-Schätzung
Erwartungstreue und Wirksamkeit
◮
◮
Welche der erwartungstreuen Schätzfunktionen Θ̂, Θ̂ ′ ist besser“?
”
′
Von zwei erwartungstreuen Schätzfunktionen Θ̂, Θ̂ für ϑ
heißt Θ̂ wirksamer als Θ̂ ′ , wenn unabhängig vom numerischen
Wert von ϑ gilt:
Var(Θ̂) < Var(Θ̂ ′ )
Beispiel: (Θ̂ = X̄, Θ̂ ′ =
Wegen
X1 +Xn
)
2
=
σ2
n
= 14 (σ2 + σ2 ) =
σ2
Var(Θ̂) = Var(X̄)
Var(Θ̂ ′ ) = Var
X1 +X2
2
(falls n > 2) ist Θ̂ wirksamer als Θ̂ ′ .
Etschberger (HS Weingarten)
Statistik
2



⇒ Var(Θ̂) < Var(Θ̂ ′ )
Sommersemester 2008
119
4. Induktive Statistik
Intervall-Schätzung
Intervall-Schätzung
◮
Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer
Stichprobe ein Intervall geschätzt werden.
◮
Verwendung der Stichprobenfunktionen Vu , Vo , so dass Vu ≦ Vo und
P(Vu ≦ ϑ ≦ Vo ) = 1 − α
stets gelten.
[Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum Konfidenzniveau 1 − α.
◮
Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der ZV (!) Vu , Vo .
➠ Irrtumswahrscheinlichkeit α (klein, i.d.R. α ≦ 0,1)
◮
Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet?
➠ Hängt von Verteilung von G sowie vom unbekannten Parameter (µ, σ2 )
ab!
◮
Im Folgenden: Einfache Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
120
Intervall-Schätzung
Intervall-Schätzung
Wichtiger Spezialfall: Symmetrische Konfidenzintervalle
◮
Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern
◮
übereinstimmende W’keiten für Über-/Unterschreiten des KI, d.h.
P(Vu > ϑ) = P(Vo < ϑ) =
◮
α
2
Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des KI.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
121
4. Induktive Statistik
Intervall-Schätzung
Überblick Intervallschätzung (BB S. 172)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
122
Intervall-Schätzung
13.1.1 KI für µ bei Normalverteilung mit bekanntem σ2
Vorgehensweise:
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
123
4. Induktive Statistik
Intervall-Schätzung
Intervallschätzung: Beispiel
Beispiel
Normalverteilung mit σ = 2,4
(x1 , . . . , x9 ) = (184,2; 182,6; 185,3; 184,5; 186,2; 183,9; 185,0; 187,1; 184,4)
Gesucht: KI für µ zum Konfidenzniveau 1 − α = 0,99
1. 1 − α = 0,99
2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3; Interpolation)
2
3. x̄ =
1
9
σc
√
n
=
4.
(184,2 + · · · + 184,4) = 184,8
2,4·2,576
√
9
= 2,06
5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86]
Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [182,74; 186,86].
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
124
Sommersemester 2008
125
Intervall-Schätzung
Wichtige Fraktilswerte
Wichtige N(0; 1)-Fraktilswerte:
α
xα
0,9
0,95
0,975
0,99
0,995
1,281552
1,644854
1,959964
2,326348
2,575829
(I.d.R. genügen drei Nachkommastellen.)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Intervall-Schätzung
Intervalllänge
◮
Im Fall 13.1.1 gilt offenkundig
2σc
L = Vo − Vu = √
n
◮
Welcher Stichprobenumfang n sichert eine vorgegebene
(Maximal-)Länge L? ⇒
Nach n auflösen!
⇒
n≧
2σc
L
2
◮
Eine Halbierung von L erfordert eine Vervierfachung von n!
◮
Angewendet auf letztes Beispiel:
L = 4 ⇒n ≧
L = 2 ⇒n ≧
Etschberger (HS Weingarten)
2·2,4·2,576 2
4
2·2,4·2,576 2
2
= 9,556 ⇒ n ≧ 10
= 38,222 ⇒ n ≧ 39
Statistik
4. Induktive Statistik
Sommersemester 2008
126
Intervall-Schätzung
Konfidenzintervalllänge
KI für µ bei Normalverteilung mit unbekanntem σ2
◮
Vorgehensweise:
◮
Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung
verwendet.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
127
4. Induktive Statistik
Intervall-Schätzung
Konfidenzintervalllänge
Beispiel:
Wie das letzte Beispiel, jedoch σ unbekannt.
1. 1 − α = 0,99
2. t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4)
2
1
9 (184,2 + · · · + 184,4) = 184,8
q
s = 18 [(184,22 + · · · + 184,42 ) − 9 · 184,82 ] = 1,31
3. x̄ =
4.
sc
√
n
=
1,31·3,355
√
9
= 1,47
5. KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27]
Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [183,33; 186,27].
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
128
Intervall-Schätzung
Konfidenzintervall für µ bei beliebiger Verteilung
◮
Voraussetzung: n > 30, bzw. falls G dichotom: 5 ≦
n
P
xi ≦ n − 5
i=1
◮
Vorgehensweise:
◮
Zu Schritt 3: Manchmal kann anderer Schätzwert σ̂ sinnvoller sein.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
129
4. Induktive Statistik
Intervall-Schätzung
Konfidenzintervall für µ bei beliebiger Verteilung
Beispiel:
Poisson-Verteilung mit λ (= µ = σ2 ) unbekannt.
(x1 , . . . , x40 ) = (3; 8; . . . ; 6)
Gesucht: KI für λ zum Konfidenzniveau 1 − α = 0,9
1. 1 − α = 0,9
2. N(0; 1) : c = x1− α2 = x1− 0,1 = x0,95 = 1,645
2
1
(3 + 8 + · · · + 6) = 6,5
40
√
√
σ̂ = x̄ = 6,5 = 2,55 (da σ2 = λ)
2,55 · 1,645
σ̂c
√
= 0,66
4. √ =
n
40
5. KI = [6,5 − 0,66; 6,5 + 0,66] = [5,84; 7,16]
3. x̄ =
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
130
Sommersemester 2008
131
Intervall-Schätzung
13.2 KI für σ2 bei Normalverteilung
◮
Vorgehensweise:
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Intervall-Schätzung
KI für σ2 bei Normalverteilung
Beispiel:
G ∼ N(µ; σ); (x1 , . . . , x5 ) = (1; 1,5; 2,5; 3; 2)
Gesucht: KI für σ2 zum Konfidenzniveau 1 − α = 0,99
1. 1 − α = 0,99
2. χ2 (5) : c1 = x α2 = x0,005 = 0,41; c2 = x1− α2 = x0,995 = 16,75
3. x̄ = 51 (1 + 1,5 + · · · + 2) = 2
5
P
(xi − x̄)2 = (1− 2)2 + (1,5− 2)2 + (2,5− 2)2 + (3− 2)2 + (2− 2)2 = 2,5
i=1
4. vu =
2,5
16,75
= 0,15; vo =
2,5
0,41
= 6,10
5. KI = [0,15; 6,10]
(Extrem groß, da n klein.)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
132
Signifikanztests
Signifikanztests
◮
Vorliegen einer Hypothese über die Verteilung(en) der
Grundgesamtheit(en).
◮
Beispiele:
- Der Würfel ist fair.“
”
- Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind gleich.“
”
◮
Die Hypothese soll anhand einer Stichprobe überprüft werden.
◮
Prinzip:
- Hypothese verwerfen, wenn signifikanter“ Widerspruch zur Stichprobe.
”
- Ansonsten: Hypothese nicht verwerfen.
◮
Eine verworfene Hypothese gilt als statistisch widerlegt.
◮
Nicht-Verwerfung ist dagegen ein Freispruch aus Mangel an Beweisen“.
”
Zu Beachten:
Nicht-Verwerfung ist kein statistischer Beweis“, dass Hypothese wahr ist!
”
( Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!)
”
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
133
4. Induktive Statistik
Signifikanztests
Einstichproben-Gaußtest
◮
Zunächst:
- G ∼ N(µ; σ) mit σ bekannt
- Einfache Stichprobe X1 , . . . , Xn
- (Null-)Hypothese H0 : µ = µ0
◮
Beispiel: X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5)
Nullhypothese H0 : µ = 500, d.h. µ0 = 500
◮
Je nach Interessenlage sind unterschiedliche Gegenhypothesen möglich:
a)
b)
c)
◮
H1 : µ 6= µ0
H1 : µ < µ0
H1 : µ > µ0
Entscheidung:
a)
b)
c)
H0
H1
H1
H1
:
:
:
:
µ
µ
µ
µ
=
6
=
<
>
µ0
µ0 ,
µ0 ,
µ0 ,
wird abgelehnt gegenüber
wenn |x̄ − µ0 | sehr groß“ ist
”
wenn x̄ weit kleiner“ als µ0 ist
”
wenn x̄ weit größer“ als µ0 ist
”
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
134
Signifikanztests
Einstichproben-Gaußtest
√
0
◮ Alternatives Kriterium: v = x̄−µ
n
σ
◮ Vorteil: Verteilung bekannt: N(0; 1)
Mögliche Fehlentscheidungen
◮ Dann:
H0 : µ = µ0
wird abgelehnt gegenüber
◮ Ablehnung von H0 , obwohl H0
richtig ist: Fehler 1. Art
◮ Nicht-Ablehnung von H0 , obwohl H0
falsch ist: Fehler 2. Art
a) H1 : µ 6= µ0 , wenn |v| sehr groß“
ist
”
b) H1 : µ < µ0 , wenn v sehr negativ“ ist
”
c) H1 : µ > µ0 , wenn v sehr positiv“ ist
”
ten
H0 beibehal
htig
H 0 ric
H0 ablehnen
ten
H0 beibehal
H0 fals
ch
H0 ablehnen
◮ Signifikanzniveau α:
Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art.
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
135
4. Induktive Statistik
Signifikanztests
Einstichproben-Gaußtest
◮
Mithilfe von α und V kann geklärt werden, was sehr groß“ usw. heißt:
”
Wahrscheinlichkeit für Fehler 1. Art im Fall a): |v| > x, obwohl H0 richtig:
P(|V| > x) = P(V > x) + P(V < −x)
= 2 · P(V > x)
(Symmetrie der Normalverteilung)
!
= 2 · [1 − P(V ≦ x)] = 2 · [1 − Φ(x)] = α ⇐⇒
Φ(x) = 1 − α2 ⇐⇒
x = x1− α2
◮
H0 wird demnach verworfen, wenn |v| > x1− α2 bzw. v ∈ B ist.
B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich.
Analoge Vorgehensweise für die Fälle b) und c)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
136
Sommersemester 2008
137
Signifikanztests
Einstichproben-Gaußtest
➠ Insgesamt:
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Signifikanztests
Einstichproben-Gaußtest
Beispiel:
X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28
Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau α = 0,01
Lösung: Einstichproben-Gaußtest, Fall a)
1. α = 0,01
2. v =
499,28−500
1,5
·
√
25 = −2,4
3. N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576
⇒ B = (−∞; −2,576) ∪ (2,576; ∞)
4. v ∈
/ B ⇒ H0 nicht verwerfen
Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine
Abweichung vom Sollwert µ0 = 500 nachgewiesen werden.
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
138
Signifikanztests
Aufbau und Klassifikation von Signifikanztests
Der jeweils geeignete Test hängt ab von . . .
◮
dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide:
- Parametrische Hypothesen:
Beziehen sich auf unbekannte(n) Verteilungsparameter (µ, σ2 , . . . )
- Nichtparametrische Hypothesen:
Beinhalten sonstige Aussagen, z.B. Alter und Einkommen sind unabh.“
”
◮
den Voraussetzungen an die Verteilung/parameter (z.B. G ∼ N(µ; σ))
◮
den Voraussetzungen an den Stichprobenumfang (z.B. n > 30)
◮
Art und Anzahl der Stichproben; unterscheide:
- Signifikanztests bei einer einfachen Stichprobe
- Signifikanztests bei mehreren unabhängigen Stichproben
- Signifikanztests bei zwei verbundenen Stichproben
Hier nur einfache Stichproben
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
139
4. Induktive Statistik
Signifikanztests
Signifikanztests bei einer einfachen Stichprobe (BB S. 184)
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
140
Signifikanztests
Einstichproben-t-Test und approximativer Gaußtest
Gegeben:
◮ Einfache Stichprobe X1 , . . . , Xn mit
◮ E(Xi ) = µ, Var(Xi ) = σ2
Hypothesenpaare:
a)
b)
c)
H0 : µ = µ0
H0 : µ = µ0
H0 : µ = µ0
H1 : µ 6= µ0
(oder µ ≧ µ0 ), H1 : µ < µ0
(oder µ ≦ µ0 ), H1 : µ > µ0
Voraussetzungen:
1. Normalverteilung mit σ unbekannt (Einstichproben-t-Test) oder
P
2. Beliebige Verteilung mit n > 30 bzw. 5 ≦ xi ≦ n − 5 (bei B(1; p))
(approximativer Gaußtest)
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
141
4. Induktive Statistik
Signifikanztests
Einstichproben-t-Test, approx. Gaußtest; Vorgehensweise
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
142
Signifikanztests
Einstichproben-t-Test, approx. Gaußtest
Beispiel:
X1 , . . . , X2000
2000
P
1, falls i-te Person Wähler der Partei
∼ B(1; p) mit Xi =
0, sonst
xi = 108
i=1
Prüfe H0 : p ≦ 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 %
Lösung:
approx. Gaußtest, Fall c); Voraussetzung 2 erfüllt: 5 ≦ 108 ≦ 2000 − 5
1. α = 0,02
2. v = √
108
2000 −0,05
0,05·(1−0,05)
√
2000 = 0,82
3. N(0; 1) : x1−α = x0,98 = 2,05 (Tab. 3) ⇒ B = (2,05; ∞)
4. v ∈
/ B ⇒ H0 nicht verwerfen
Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung!
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
143
4. Induktive Statistik
Signifikanztests
Chi-Quadrat-Test für die Varianz
◮
Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ)
◮
Hypothesenpaare:
a) H0 : σ2 = σ20
b) H0 : σ2 = σ20
c) H0 : σ2 = σ20
◮
H1 : σ2 6= σ20
(oder σ2 ≧ σ20 ), H1 : σ2 < σ20
(oder σ2 ≦ σ20 ), H1 : σ2 > σ20
Vorgehensweise:
Etschberger (HS Weingarten)
Statistik
4. Induktive Statistik
Sommersemester 2008
144
Signifikanztests
Chi-Quadrat-Test für die Varianz
Beispiel:
G ∼ N(µ; σ)
(x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200)
Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1
Lösung: χ2 -Test für die Varianz, Fall a); Voraussetzungen erfüllt
1. α = 0,1
2. x̄ =
v=
1
10 (2100 + 2130 + · · · + 2200) = 2164
1
2
2
402 [(2100 − 2164) + (2130 − 2164) +
· · · + (2200 − 2164)2] = 16,65
3. χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92 (Tab. 5)
⇒ B = [0; 3,33) ∪ (16,92; ∞)
4. v ∈
/ B ⇒ H0 nicht verwerfen
Etschberger (HS Weingarten)
Statistik
Sommersemester 2008
145
Herunterladen