statistik - Fakultät Informatik/Mathematik

Werbung
STATISTIK
Wintersemester 2016/2017
Skript zur Vorlesung
(für Smartphones)
Andreas Löpker, HTW Dresden
7. Februar 2017
Inhaltsverzeichnis
1
2
Einführung
1
1.1
Was ist Statistik? . . . . . . . . . . . . . .
2
1.2
R . . . . . . . . . . . . . . . . . . . . . . .
4
Deskriptive Statistik
2.1
2.2
2.3
2.4
. . . . . . . . . . . . . . .
6
2.1.1
Die Grundgesamtheit
. . . .
6
2.1.2
Stichproben . . . . . . . . . .
7
2.1.3
Merkmale . . . . . . . . . . .
2.1.4
Klassikation von Merkmalen
Kenngröÿen univariater Daten
. . . . . . .
8
10
13
2.2.1
Stichproben . . . . . . . . . .
13
2.2.2
Häugkeiten
14
2.2.3
Klassenbildung
2.2.4
Empirische Verteilungsfunktion
. . . . . . . . .
. . . . . . . .
17
20
Diagramme und Graken . . . . . . . . . .
22
2.3.1
Stab- und Säulendiagramme .
23
2.3.2
Kreis- und Tortendiagramme
24
2.3.3
Histogramm
und
empirische
Dichtefunktion . . . . . . . .
24
Lagemaÿe . . . . . . . . . . . . . . . . . .
28
2.4.1
Arithmetisches Mittel
28
2.4.2
Arithmetisches
Mittel
klassierte Daten
. . . . . . .
2.4.3
2.5
6
Ausgangspunkt
. . . .
für
32
Arithmetisches Mittel für gepoolte Daten . . . . . . . . .
33
2.4.4
Die Ordnungsstatistik
. . . .
35
2.4.5
Getrimmtes Mittel . . . . . .
35
2.4.6
Median . . . . . . . . . . . .
37
2.4.7
Quantile und Quartile
40
2.4.8
Das geometrische Mittel . . .
41
2.4.9
Weitere Mittelwerte
. . . . .
43
. . . . . . . . . . . . . . .
45
Streuungsmaÿe
2.5.1
Varianz
und
. . . .
Standardabwei-
chung . . . . . . . . . . . . .
2.5.2
Varianz
für
gepoolte
(Varianzzerlegung) . . . . . .
1
45
Daten
51
Ÿ0.0
2.5.3
Spannweite und Interquartilsabstand . . . . . . . . . . . .
52
2.5.4
Variationskoezient
54
2.5.5
Weitere Streuungsmaÿe
. . . . .
. . .
Boxplots . . . . . . . . . . . . . . . . . . .
63
2.7
Konzentrationsmaÿe
65
2.8
. . . . . . . . . . . .
2.7.1
Die Lorenz-Kurve
2.7.2
Das Gini-Maÿ
. . . . . .
69
Bivariate Daten . . . . . . . . . . . . . . .
71
Häugkeiten und Kontingenztabellen . . . . . . . . . . . .
72
2.8.2
Unabhängige Merkmale
75
2.8.3
Zusammenhangsmaÿe für no-
. . .
minale Daten . . . . . . . . .
2.8.4
Zusammenhangsmaÿe
metrische Daten
2.8.5
. . . . . . .
. . . . . . . . .
Wahrscheinlichkeitsrechnung
3.2
3.3
85
. . . .
90
3.1.1
Laplace-Experimente . . . . .
94
3.1.2
Bedingte Wahrscheinlichkeiten
97
3.1.3
Unabhängigkeit . . . . . . . .
99
. . . . . . . . . . . . . . . .
101
3.2.1
Kombinatorik
Permutationen . . . . . . . .
101
3.2.2
Variationen und Kombinationen 102
Zufallsvariablen und ihre Verteilungen
. . .
106
3.3.1
Zufallsvariablen . . . . . . . .
106
3.3.2
Verteilungsfunktionen
. . . .
107
. . . . . . . .
112
Erwartungswert und Varianz
3.5
Das Gesetz der groÿen Zahlen
3.6
Unabhängigkeit und Korrelation
3.8
81
88
Ereignisse und Wahrscheinlichkeiten
3.4
3.7
77
für
Zusammenhangsmaÿe für ordinale Daten
3.1
65
. . . . . . . .
2.8.1
3
54
2.6
Fünf wichtige Verteilungen
. . . . . . .
115
. . . . . .
117
. . . . . . . . .
119
3.7.1
Die Bernoulli-Verteilung
. . .
119
3.7.2
Die Binomialverteilung . . . .
120
3.7.3
Die geometrische Verteilung .
121
3.7.4
Die Multinomialverteilung
3.7.5
Die stetige Gleichverteilung
. .
.
125
130
Die Normalverteilung und ihre Verwandten .
132
3.8.1
Die Standardnormalverteilung
132
3.8.2
Tabellen und Quantile
134
. . . .
Seite ii
Ÿ0.0
3.8.3
Der zentrale Grenzwertsatz
.
137
3.8.4
Abschätzungen . . . . . . . .
142
3.8.5
Die allgemeine Normalverteilung145
3.8.6
Rechenregeln
und
Transfor-
mationen für die Normalverteilung
4
. . . . . . . . . . . .
3.8.7
Die Chi-Quadrat-Verteilung
3.8.8
147
.
149
Die t-Verteilung
. . . . . . .
151
3.8.9
Die F-Verteilung
. . . . . . .
153
3.8.10
Ein Beispiel zum Schluss . . .
154
Induktive Statistik
158
4.1
Punktschätzer . . . . . . . . . . . . . . . .
158
4.1.1
Punktschätzer für den Erwartungswert . . . . . . . . . . .
4.1.2
161
Punktschätzer für die Varianz
bei bekanntem Erwartungswert 164
4.1.3
Punktschätzer für die Varianz
bei unbekanntem Erwartungs-
4.2
wert . . . . . . . . . . . . . .
165
Intervallschätzer . . . . . . . . . . . . . . .
167
4.2.1
Intervallschätzer für den Erwartungswert
bei
bekannter
Varianz . . . . . . . . . . . .
4.2.2
167
Intervallschätzer für den Erwartungswert bei unbekannter
Varianz . . . . . . . . . . . .
4.2.3
rianz
bei
bekanntem
Erwar-
tungswert . . . . . . . . . . .
4.2.4
171
Intervallschätzer für die Va174
Intervallschätzer für die Varianz bei unbekanntem Erwar-
4.2.5
4.3
tungswert . . . . . . . . . . .
176
Schätzen ohne Zurücklegen
178
Hypothesentests . . . . . . . . . . . . . . .
180
4.3.1
Idee . . . . . . . . . . . . . .
180
4.3.2
Wahl des Ablehnungsbereiches
183
4.3.3
Vorgehensweise . . . . . . . .
185
4.3.4
Die Gütefunktion . . . . . . .
188
4.3.5
Der p-Wert . . . . . . . . . .
189
4.3.6
Einstichprobentests
Erwartungswert
bei
für
den
normal-
verteilter Grundgesamtheit . .
192
Seite iii
Ÿ0.0
(1)
Test
bei
bekann-
ter Varianz . . . .
(2)
4.3.7
Test
bei
kannter
Varianz
(t-Test)
. . . . .
Einstichprobentests
Varianz
bei
für
194
die
normalverteilter
Grundgesamtheit . . . . . . .
(1)
193
unbe-
Test
bei
198
bekann-
tem Erwartungswert 198
(2)
Test
bei
un-
bekanntem
Erwartungswert
4.3.8
.
che Erwartungswerte (t-Test)
4.3.9
. . .
Chi-Quadrat-Anpassungstest
209
4.3.11
Weitere Tests auf Normalität
214
4.3.12
Q-Q-Plots
215
4.3.13
Der
. . . . . . . . . .
Chi-Quadrat-Homogeni-
tätstest . . . . . . . . . . . .
Der
220
Chi-Quadrat-
Unabhängigkeitstest
. . . . .
223
. . . . . .
226
Einfache lineare Regression . . . . . . . . .
229
4.3.15
Test auf Ausreiÿer
4.4.1
Die Kleinste-Quadrate-Methode234
4.4.2
Prognosen
4.4.3
Standardbedingungen
. . . . . . . . . .
Güte der Schätzer
B
206
4.3.10
4.3.14
A
203
Zweistichprobentest auf gleiche Varianzen (F-Test)
4.4
202
Zweistichprobentest auf glei-
238
und
. . . . . .
. . .
240
4.4.4
Das Bestimmtheitsmaÿ
4.4.5
Intervallschätzer
. . . . . . .
245
4.4.6
Tests zur Anpassungsgüte . .
247
4.4.7
Beispielregression mit R
. . .
250
Übungsaufgaben
242
255
A.1
Aufgaben
. . . . . . . . . . . . . . . . . .
255
A.2
Musterlösungen . . . . . . . . . . . . . . .
283
Anhang
B.1
288
Kleine Formelsammlung . . . . . . . . . . .
288
Seite iv
Ÿ0.0
B.1.1
Notationen (Deskriptive Statistik) . . . . . . . . . . . . .
288
B.1.2
Wahrscheinlichkeitstheorie . .
288
B.1.3
Schätzer und Kondenzintervalle . . . . . . . . . . . . . .
C
290
Hinweise zur Klausur
291
C.1
Hilfsmittel . . . . . . . . . . . . . . . . . .
291
C.2
Welche Abschnitte und Gegenstände werden
nicht abgefragt? . . . . . . . . . . . . . . .
292
C.3
Grundsätzliches
292
. . . . . . . . . . . . . . .
Seite v
Ÿ1.0
1.
Einführung
Beispiel B1.1: Eine Firma stellt Spielwürfel her und überprüft von Zeit zu Zeit ihre
Produkte, indem sie Stichproben zieht. Dazu wird ein Würfel ausgewählt und 120 Mal
geworfen. Die Anzahl der Würfe für die verschiedenen Augenzahlen wird notiert.
Es ergibt sich folgende Häugkeitstabelle:
Augenzahl:
Häugkeit:
1
15
2
18
3
30
4
18
5
21
6
18
Wir können z.B. folgende Fragen stellen:
Seite 1
Ÿ1.1
Wie kann man die Daten grasch darstellen?
Wie häug sollten die Augenzahlen bei einem fairen Würfel vorkommen? (Ist so eine
Frage überhaupt sinnvoll?)
Welche Abweichungen sind noch akzeptabel?
Kann man sagen, ob der vorliegende Würfel fair ist?
Mit welcher Sicherheit ist eine solche Aussage zu machen?
1.1. Was ist Statistik?
Erhebung, Erfassung, Darstellung/Präsentation, Analyse und Interpretation von Daten.
Man unterscheidet:
Seite 2
Ÿ1.1
Deskriptive/beschreibende
duktion
von
Statistik:
Datenmengen,
Re-
Darstellung
durch Tabellen und Diagramme, Ermittlung
aussagekräftiger
Kenngröÿen
(z.B.
Mittelwert, Varianz)
Induktive Statistik: Weitere Rückschlüsse
durch mathematische Methoden aus der
Wahrscheinlichkeitsrechnung (z.B. Schätzen
des
Erwartungswertes,
Hypothesen-
tests)
Woher kommen die Daten?
Beispiele:
Technische Messungen (z.B. in der Meteorologie)
Umfragen (z.B. im Vorfeld von Wahlen
oder zur Kundenzufriedenheit)
Nutzerstatistiken (z.B. für Internetprovider)
Patientendaten
Seite 3
Ÿ1.2
Zugverspätungen
Jahresberichte von Konzernen
Statistische Ämter
Finanzdaten: z.B. via Yahoo-Finance
...
1.2. R
Die Graken/Analysen in diesem Skript wurden mit R, einer Programmiersprache, die primär für statistische Anwendungen geschaen
wurde, erstellt.
Begleitend zur Vorlesung kann optional R
auf dem Rechner installiert werden (s. erste
Übung). Das Erlernen von R ist nicht Gegenstand der Vorlesung und wird nicht von den
Studierenden verlangt.
Gleichwohl ist ein begleitendes Lernen computergestützter Methoden mit R hilfreich für
das Verständnis im Umgang mit Daten.
Seite 4
Ÿ1.2
Links:
The R Project for Statistical Computing
RStudio (GUI)
Seite 5
Ÿ2.1
2.
Deskriptive Statistik
2.1. Ausgangspunkt
2.1.1. Die Grundgesamtheit
Als
Grundgesamtheit
(Population)
be-
zeichnet man eine Menge von sogenannten
statistischen Einheiten
Beispiel
B2.1:
! 2 .
Beim
einmaligen
feln kann man als Grundgesamtheit
Wür-
=
f1; 2; 3; 4; 5; 6g wählen. Jede der sechs Elemente ist dann eine statistische Einheit.
Beispiel B2.2: Alle Studierenden der HTW
Dresden werden im Rahmen einer Umfrage
befragt. Wir wählen z.B.
= f00000; : : : ; 99999g
Seite 6
Ÿ2.1
und identizieren die Studierenden mit ihrer
fünfstelligen Matrikelnummer.
Beispiel B2.3: Ein Thermometer misst jeden Tag morgens um acht Uhr die Auÿentemperatur. Man kann das Intervall
= [ 30; 50]
als Grundgesamtheit wählen.
2.1.2. Stichproben
Man unterscheidet bei der Datenerhebung
zwischen:
Vollerhebungen: Erfassung der gesamten
Population
.
Beispiel B2.4)B2 :2 : Alle Studierenden
der HTW werden befragt.
Seite 7
Ÿ2.1
Teilerhebungen:
Stichprobe
S
Erfassung
einer
Beispiel B2.5)B2 :2 : Nur die Studierenden der Vorlesung Statistik werden befragt.
Teilerhebungen sind kostengünstiger und
weniger
aufwendig,
aber
der
Statistiker
muss von der Stichprobe auf die Grundgesamtheit schlieÿen.
2.1.3. Merkmale
Ein Merkmal ist eine Eigenschaft, die jede der
statistische Einheiten aufweist.
Beispiel B2.6)B2 :2 : Studierende an der
HTW werden in einer Umfrage befragt. Folgende drei Merkmale werden erfasst:
das Semester,
die gesammelten ECTS-Punkte,
das Alter,
mit Abitur?
Seite 8
Ÿ2.1
Für jeden Studierenden ergibt sich für jedes dieser Merkmale jeweils eine Beobachtung,
z.B.
für
den
Studierenden
mit
der
Matrikelnummer 60182, Semester=1, ECTSPunkte=0, Alter=19.
man ein Merkmal
der Menge
X
Mathematisch kann
als Abbildungen aus
in die Menge aller möglichen
Merkmalsausprägungen
MX
auassen:
X : ! MX :
X repräsentiere die Semesterzahl. Dann ist X eine
Beispiel B2.7)B2 :2 : Das Merkmal
Abbildung von
= f00000; : : : ; 99999g
in die Menge der Merkmalsausprägungen
MX = f1; 2; 3; 4; 5; 6; 7; 8; 9; 10g:
Seite 9
Ÿ2.1
2.1.4. Klassikation von Merkmalen
Merkmale
werden
u.a.
nach
ihrem
Skalenniveau eingeteilt:
Nominalskala: Keine sinnvolle Anordnung
der Ausprägungen.
Beispiel B2.8)B2 :2 : Das Merkmal Y nehme die beiden Werte Ja oder Nein an, je
nachdem, ob der Studierende das Abitur besitzt oder nicht, es ist also
Dann ist
Y
MY = fJa; Neing.
ein nominales Merkmal, denn es
gibt keine Reihenfolge unter den Ausprägungen.
Beispiel
bahn
gen
ke
B2.9:
werden
notiert.
ist
ein
die
Das
An
einer
Auto-
vorbeifahrenden
Merkmal
nominales
Wa-
Automar-
Merkmal.
Seite 10
Ÿ2.1
Ordinalskala: Die Ausprägungen lassen sich
anordnen und die Anordnung macht Sinn.
Es gibt eine '
Beispiel
'-Relation.
B2.10: Die Examensnote von
Studierenden ist ein ordinales Merkmal.
Beispiel
chen
ein
B2.11:
Ausgaben
ordinales
eines
Die
monatli-
Haushalts
sind
Merkmal.
Intervallskala: Es macht auÿerdem Sinn von
einem Abstand bzw. der Dierenz zwischen
den Ausprägungen zu sprechen. Kein sinnvoller Nullpunkt und keine Möglichkeit der
Multiplikation.
Beispiel B2.12: Eine gemessene Temperatur ist intervallskaliert. (Was ist mit dem
Nullpunkt?)
Beispiel B2.13: Das Merkmal Uhrzeit ist
intervallskaliert.
Seite 11
Ÿ2.1
Verhältnisskala: Es macht Sinn von Verhältnissen zwischen den Ausprägungen zu
sprechen. Multiplikation und Division machen Sinn, ein Nullpunkt ist vorhanden.
Beispiel B2.14: Die Körpergröÿe von Befragten ist verhältnisskaliert.
Beispiel B2.15: Das Merkmal Preis für
eine Ware ist verhältnisskaliert.
Ein Merkmal ist diskret, wenn es nur abzählbar viele Werte annehmen kann.
(Abzählbar)
Eine Menge
A heiÿt
abzählbar, wenn man ein Verfahren
angeben kann, mit dem man an jedes
Element in
mer
A
eine eindeutige Num-
2 N vergeben kann.
Beispiel B2.16)B2 :2 : Das Merkmal Lebensalter (angegeben in Jahren) ist ein diskretes Merkmal.
Seite 12
Ÿ2.2
Ein Merkmal ist stetig, wenn praktisch jeder Zahlenwert in einem Zahlenintervall als
Ausprägung vorkommen kann.
Beispiel B2.17: Das Merkmal L, dass die
Länge eines gefertigten Werkstücks bezeichnet, ist ein stetiges Merkmal.
2.2. Kenngröÿen univariater Daten
Univariate Daten liegen vor, wenn nur ein
Merkmal
X untersucht wird.
2.2.1. Stichproben
Wir betrachten eine Stichprobe des Merkmals
X vom Umfang n, also n Beobachtungen
x1 = X (!1 ); x2 = X (!2 ); : : : ; xn = X (!n ):
Wir schreiben dafür meistens einfach
x1 ; x2 ; : : : ; xn :
Seite 13
Ÿ2.2
Es können natürlich verschiedene Beobachtungen denselben Werte besitzen.
2.2.2. Häugkeiten
X zusätzlich diskret, d.h.
Es sei nun
MX = fa1 ; a2 ; a3 ; : : :g
mit
den
Merkmalsausprägungen
1; 2; 3; : : :.
(Mächtigkeit
einer
Menge)
ai , i =
Wir
]A für die Anzahl der Elemente in einer Menge A, z.B.
schreiben
]f1; 2; 3; 4; 5; 6g = 6; ]fA; B; C g = 3; ]N =
Seite 14
Ÿ2.2
Die absolute Häugkeit der Ausprägung
MX
ai 2
ist der Wert
ni = n(ai ) = Anzahl der xj mit xj = ai
= ]fj 2 f1; 2; : : : ; ngjxj = ai g:
Beispiel B2.18: Ein Würfel wird
Mal geworfen. Das Merkmal
X
n=5
entspreche
der Augenzahl, d.h.
MX = f1; 2; 3; 4; 5; 6g;
a1 = 1; a2 = 2; : : : ; a6 = 6:
Die entsprechenden Beobachtungen seien
x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6:
Dann
sind
die
absoluten
Häugkeiten
der
Merkmalsausprägungen gegeben durch
n1 = n(1) = 1; n2 = n(2) = 0;
n3 = n(3) = 1; n4 = n(4) = 0;
n5 = n(5) = 1; n6 = n(6) = 2:
Seite 15
Ÿ2.2
ai 2
Die relative Häugkeit der Ausprägung
MX
ist der Wert
n
hi = h(ai ) = ni :
Es gilt
0 hi 1;
(2.1)
ni = n;
(2.2)
hi = 1:
(2.3)
]MX
X
i =1
]M
XX
i =1
Man drückt die relativen Häugkeiten auch in
Prozent aus: Einer relativen Häugkeit von
entsprechen dann
hi 100%.
hi
Die kumulativen
absoluten/relativen Häugkeiten sind gegeben durch die Summen
Ni = N ( a i ) = n 1 + n 2 + : : : + n i =
H i = H ( ai ) = h 1 + h 2 + : : : + h i =
i
X
k =1
i
X
k =1
nk ;
hk :
Seite 16
Ÿ2.2
Beispiel B2.19)B2 :18 : Im obigen Beispiel
ergibt sich:
i ni hi Ni Hi
1
1
0.2
1
0.2
2
0
0.0
1
0.2
3
1
0.2
2
0.4
4
1
0.2
3
0.6
5
0
0.0
3
0.6
6
2
0.4
5
1.0
2.2.3. Klassenbildung
Ist die Anzahl der Ausprägungen eines Merkmals sehr groÿ oder sogar unendlich, so empehlt es sich, die Daten in Klassen einzuteilen.
Die Klassen müssen folgende Eigenschaften
erfüllen:
Jede Ausprägung muss in einer Klasse
vorkommen,
Keine zwei Klassen enthalten dieselbe
Ausprägung.
Seite 17
Ÿ2.2
Natürlich ist die Klasseneinteilung mit einem
Informationsverlust verbunden.
Faustregeln für die Klassenanzahl
p
m n
m 1 + log2 (n):
m:
(Sturges)
Man deniert Klassenhäugkeiten als absolute/relative Häugkeiten, summiert über alle
Elemente der Klasse.
Für eine Klasse
K MX
n (K ) =
h (K ) =
X
a 2K
X
a 2K
ergibt sich also
n(a);
h(a):
Beispiel B2.20: Fläche von 407 bundes-
2
deutschen Landkreisen (in km , Quelle: Stat.
Bundesamt).
Seite 18
Ÿ2.2
Wir teilen die Merkmalsausprägungen in Klassen ein:
K1 = (0; 500]; K2 = (500; 1000]; K3 = (1000; 1500];
K4 = (1500; 2000]; K5 = (2000; 1):
Absolute und relative Häugkeiten:
i
n(Ki ) h(Ki )
1
129
0.317
2
127
0.312
3
96
0.236
4
30
0.074
5
30
0.074
Seite 19
Ÿ2.2
Daten sortiert nach der Kreisgröÿe:
2.2.4. Empirische Verteilungsfunktion
empirische
Die
Verteilungsfunktion
x 2 R die relative
von Beobachtungen xi mit xi x :
schreibt für jedes
Fn (x ) =
be-
Anzahl
]fi 2 f1; 2; : : : ; ngjxi x g
:
n
Es gilt:
1.
Fn (x ) ist monoton steigend (aber nicht
streng monoton),
2.
0 Fn (x ) 1, Fn (x ) strebt gegen 0,
wenn x gegen
1 strebt, Fn (x ) strebt
Seite 20
Ÿ2.2
3.
gegen
1, wenn x gegen 1 strebt,
Fn (x )
ist dort konstant, wo keine Be-
obachtungswerte vorliegen.
5
Beispiel B2.21)B2 :18 : Ein Würfel wird
n=
Mal geworfen, die entsprechenden Beob-
achtungen sind:
x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6:
Es ergibt sich folgende empirische Verteilungsfunktion:
Beispiel B2.22)B1 :1 : Im Eingangsbeispiel
wurde ein Testwürfel
120 Mal geworfen. Es
ergibt sich:
Seite 21
Ÿ2.3
Wir werden später sehen, dass
Fn (x )
etwa
der Verteilungsfunktion der Zufallsvariablen
Augenzahl
B2.23)B2 :20 :
entspricht.
Für
das
Beispiel
Landkreisgröÿen-
Beispiel ergibt sich die folgende empirische
Verteilungsfunktion:
2.3. Diagramme und Graken
Seite 22
Ÿ2.3
2.3.1. Stab- und Säulendiagramme
In Stabdiagrammen werden die relativen/absoluten Häugkeiten als vertikale Linien dargestellt.
Beispiel B2.24)B1 :1 :
Im Balkendiagramm verwendet man stattdessen Balken.
Beispiel B2.25)B1 :1 :
Seite 23
Ÿ2.3
2.3.2. Kreis- und Tortendiagramme
Im Kreisdiagramm werden die relativen Häugkeiten
durch
Kreissektoren
beschrieben.
Das Tortendiagramm ist eine dreidimensionale Variante.
Beispiel B2.26)B1 :1 :
2.3.3. Histogramm und empirische Dichtefunktion
Klassierte Daten kann man übersichtlich in einem Histogramm darstellen. Dabei repräsentiert jeder Balken die absoluten Klassenhäugkeiten der entsprechenden Klasse.
Beispiel
B2.27: Tagesgewinne/-verluste
des DAX vom 1.Januar bis 27.April 2011, in
Punkten (Quelle: yahoo.com)
Seite 24
Ÿ2.3
Wenn die Klassen nicht alle gleich groÿ
sind, ist es nicht ratsam in Histogrammen
absolute oder relative Häugkeiten anzugeben.
Beispiel B2.28: 200 Besucher eines Einkaufszentrums werden befragt, über wieviel
Geld sie im Monat verfügen (Nettogehalt).
Die Befragung ergibt folgende Zahlen:
Klasse
0-1000
1000-1500
1500-2000
2000-3500
3500-
1
n (K )
64
40
30
47
19
Die 70 Befragten mit Gehältern zwischen
1000 und 2000 Euro und die 19 Befragten
über 3500 Euro scheinen in der Grak unterbzw. überrepräsentiert.
Seite 25
Ÿ2.3
Die empirische Dichtefunktion ist im Falle
von Klassenbildung mit Klassen
Ki = (ai ; bi ]
deniert als
h (K )
fn (x ) = b ia ; x 2 Ki :
i
i
(2.4)
Vorteil: Im Balkendiagramm ist die Gesamtäche der Balken stets eins.
Im Diagramm entspricht nun die Balkenäche
der (geschätzten) Wahrscheinlichkeit dafür,
dass das Merkmal einen Wert in der entsprechenden Klasse annimmt.
Bei klassierten Daten mit unterschiedlich
groÿen
Klassen
besser
geeignet
als
das
Standardhistogramm!
Beispiel B2.29)B2 :28 : Vergleich des klassischen Histogramms mit dem Diagramm für
die empirische Dichte:
Seite 26
Ÿ2.3
Beispiel
deutscher
B2.30:
Städte
Einwohnerzahl
am
31.12.2015
http://www.citypopulation.de,
187
(Quelle:
Angaben
in
Mill. Einwohnern). Wir denieren folgende
Klassen der Form
i
1
2
3
4
a
0
0.1
0.4
1.0
b
0.1
0.4
1.0
4.0
(a; b] (in Mill. Einw.):
n ( Ki ) h ( Ki )
108
64
11
4
0.578
0.342
0.059
0.021
fn (Ki )
5.775
1.141
0.098
0.007
Es ergeben sich folgende Diagramme:
Seite 27
Ÿ2.4
2.4. Lagemaÿe
Lagemaÿe
intervall-
sind
und
im
Allgemeinen
verhältnisskalierte
für
Daten
(sog. metrische Daten) deniert.
Lagemaÿe
sollen
einen
ersten
Eindruck
über die durchschnittliche Lage der Daten geben.
2.4.1. Arithmetisches Mittel
Das
arithmetische
Mittel
(häug
Mittelwert) einer Stichprobe
einfach
x1 ; x2 ; : : : ; xn
ist deniert als
Seite 28
Ÿ2.4
x=
Das
Pn
i =1 xi :
n
arithmetische
gewichtete
Summe
schen Gewichten
1=n.
Mittel
mit
ist
jeweils
eine
identi-
Das arithmetische Mittel ist linear:
ax + b = ax + b;
a; b 2 R:
Speziell gelten die Identitäten
und
ax = ax
x + y = x + y:
Beide Eigenschaften sind mehr oder weniger oensichtlich (Beweis in der Übung).
Warnung: Es gilt i.A. keineswegs
f (x ), z.B ist
(x 2) 6= (x )2.
f (x ) =
Seite 29
Ÿ2.4
Beispiel B2.31)B2 :18 : Ein Würfel wird
5 Mal geworfen:
n=
x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6:
Dann ergibt sich
x=
3 + 6 + 1 + 5 + 6 = 21 :
5
5
Auÿerdem berechnet man leicht, dass
aber
(x 2) = 9 + 36 + 15+ 25 + 36 = 107
=2
5
2
441 = 17:64
2
=
(x ) = 21
5
25
gilt.
Seite 30
Ÿ2.4
Die Summe der Abweichungen vom Mittelwert ist null:
n
X
i =1
Das
(xi x ) = 0:
arithmetische
Mittel
minimiert
das
mittlere Abweichungsquadrat:
n
X
i =1
(xi c )2
.
Alternative Formeln:
1
x=n
oder auch
x=
X
m 2 MX
X
m 2M X
m n (m )
m h(m)
Vorteile des arithmetischen Mittels als Lagemaÿ:
Intuitive Formel, die leicht zu berechnen
ist.
Seite 31
Ÿ2.4
Nachteile:
Das arithmetische Mittel ist nicht robust, sondern reagiert empndlich auf
Ausreiÿer (s.Übung).
Manchmal ist die Interpretation als Mittelwert
fragwürdig
(s.
geometrisches
Mittel 2.4.8).
2.4.2. Arithmetisches Mittel für klassierte
Daten
Angenommen die Daten liegen in reduzierter
K1 ; K2 ; : : : ; Kn vor. Dabei
seien 1 ; 2 ; : : : ; n die entsprechenden KlasForm in Klassen
senmittelwerte (z.B. die Intervallmitten).
Dann berechnen wir als arithmetisches Mittel
x=
n
X
i =1
h(Ki ) i :
Seite 32
Ÿ2.4
Oenbar haben wir dabei implizit vorausgesetzt, dass die Daten in ihren Klassen
gleichverteilt sind.
Der so ermittelte Mittelwert stimmt nicht
mit dem arithmetischen Mittel der unklassierten Originaldaten überein.
2.4.3. Arithmetisches Mittel für gepoolte
Daten
Angenommen es liegen mehrere Stichproben
Stichprobe 1:
Stichprobe 2:
x11 ; x12 ; : : : ; x1n
x21 ; x22 ; : : : ; x2n
1
2
.
.
.
Stichprobe m:
mit
.
.
.
.
.
.
xm1 ; xm2 ; : : : ; xmnm
verschiedenen
x 1 ; x 2 ; : : : ; x m vor.
Mittelwerten
Dann kann man den Mittelwert der gepoolten
Daten
x11 ; x21 ; : : : ; xmnm
einfach berechnen,
Seite 33
Ÿ2.4
ohne die Daten selbst zu kennen:
x=
m
X
xk
k =1
nk
n
(gepoolter Mittelwert).
Spezialfall: Möchte man zu einer Stichprobe
x1 ; x2 ; : : : ; xn
einen weiteren Datenpunkt
xn+1
hinzufügen,
so ergibt sich
x neu =
n x alt + xn+1
n+1
(2.5)
als der neue Mittelwert.
Man erkennt, dass für sehr groÿe Werte von
n etwa
x
x neu x alt + nn+1
gilt, d.h. die Änderung des Mittelwertes ist
etwa von der Gröÿenordnung
xn+1 =n.
Seite 34
Ÿ2.4
2.4.4. Die Ordnungsstatistik
Gegeben seien ordinalskalierte Daten
x1 ; x2 ; : : : ; xn :
Als Ordnungsstatistik bezeichnet man die in
aufsteigender Gröÿe angeordneten Daten
x(1) x(2) : : : x(n) :
Dann ist z.B.
x(1) = minfx1 ; x2 ; : : : ; xn g;
x(n) = maxfx1 ; x2 ; : : : ; xn g:
2.4.5. Getrimmtes Mittel
Das arithmetische Mittel ist anfällig für Ausreiÿer. Das getrimmte Mittel ignoriert die
Seite 35
Ÿ2.4
bnc gröÿten und kleinsten Beobachtungen:
nX
bnc
1
x () = n 2bnc
x(i ) :
i =bnc+1
Vorteile:
Robust gegen Ausreiÿer.
Nachteile:
Einige Datenpunkte werden nicht verwendet.
Wahl von
beliebig. Missbrauch möglich.
Beispiel B2.32: Dreiÿig Jahre lang wurde
an
einem
Ort
die
Tageshöchsttemperatur
am 1.September gemessen:
Seite 36
Ÿ2.4
Es ergibt sich ein arithmetisches Mittel von
t = 20:3o C
Wir wählen
und
= 0:1
= 0:2:
2.4.6. Median
Der (empirische) Median ist die kleinste Zahl
xe ,
für die mindestens die Hälfte der Beob-
achtungen
xe ist und die andere Hälfte xe
ist.
Seite 37
Ÿ2.4
Genaue Denition:
x
; n=2 62 N
xe = med (x ) = 1(bn=2c+1)
2 x(n=2) + x(n=2+1) ; n=2 2 N
(
Der
Median
Pn
i =1 jxi
c j.
minimiert
den
Abstand
Seite 38
Ÿ2.4
Vorteile des Median:
Robust gegen Ausreiÿer
Nachteile des Median:
Nicht alle Datenpunkte werden berücksichtigt.
Beispiel B2.33)B2 :32 : Ordnungsstatistik
der Temperaturen:
9, 11, 13, 13, 16, 16, 16, 16, 17, 18,
18, 18, 19, 19, 20, 20, 20, 21, 21, 21,
21, 22, 22, 22, 25, 26, 29, 32, 34, 34.
Da
n = 30 ist ergibt sich n=2 2 N, also ist
x +x
20 + 20
xe = (15) 2 (16) = 2 = 20:
Beispiel B2.34)B2 :18 : Ein Würfel wird
5 Mal geworfen:
n=
x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6:
Seite 39
Ÿ2.4
Da
n=2 62 N ergibt sich für den Median
xe = x(3) = 5:
2.4.7. Quantile und Quartile
-Quantil ist die kleinste Zahl xe für die
e sind:
mindestens n der Daten x
Das
x
; n 62 N
xe = 1(bnc+1)
2 x(n) + x(n+1) ; n 2 N
(
50%-Quantil.
Die 25%- und 75%-Quantile heiÿen auch
Der Median ist das
unteres und oberes Quartil.
Beispiel B2.35)B2 :32 : Ordnungsstatistik
der Temperaturen:
9, 11, 13, 13, 16, 16, 16, 16, 17, 18,
18, 18, 19, 19, 20, 20, 20, 21, 21, 21,
21, 22, 22, 22, 25, 26, 29, 32, 34, 34.
Dann ergibt sich für das untere Quartil
Seite 40
Ÿ2.4
xe0:25 = x(b7:5c+1) = x(8) = 16:
2.4.8. Das geometrische Mittel
Beispiel B2.36: Ein Aktienindex steigt in
drei Jahren zunächst um 15%, dann um 21%
und sinkt schlieÿlich um 12%. Wie groÿ ist
das durchschnittliche Wachstum?
Insgesamt steigt der Index um den Faktor
1:15 1:21 0:92 = 1:22452, also um knapp
22%.
Wie hoch müsste das Wachstum im Durchschnitt jährlich sein, um in drei Jahren insgesamt auf den Faktor
1:22452 zu kommen?
Wir suchen eine Lösung der Gleichung
also
p
x 3 = 1:22452;
x = 1:22452 = 1:069848, das mittle3
re Wachstum beträgt also knapp 7%.
Das
geometrische Mittel verwendet man, um Mittelwerte von relativen Wachstumszahlen zu
Seite 41
Ÿ2.4
berechnen:
v
u n
uY
n
xg = t
xk :
k =1
Liegen die Daten nahe bei eins, so gilt die
Schätzung
x g x:
Beispiel B2.37: Es sei
x1 = 1:1; x2 = 1:03; x3 = 0:99; x4 = 1:07:
Dann ist
x = 1:0475; x g = 1:046676:
Seite 42
Ÿ2.4
2.4.9. Weitere Mittelwerte
Das harmonische Mittel ist gegeben durch die
Formel
n
X
1
1
xh = n x
k =1 k
! 1
:
Es entspricht also dem Kehrwert des arithmetischen Mittels der Datenkehrwerte.
Beispiel B2.38: Drei Autos legen eine
Strecke von 100 km mit unterschiedlichen
Geschwindigkeiten zurück (100 km/h, 150
km/h und 200 km/h). Wie ist ihre Durchschnittsgeschwindigkeit?
300
=
1
1
1
100 + 150 + 200
3
v h = 100 100 100
100 + 150 + 200
1
= 138:4615 km/h:
Seite 43
Ÿ2.4
Der Modalwert (Modus)
xm
ist bei diskreten
Merkmalen die in der Stichprobe am häugsten vorkommende Beobachtung. Bei klassierten Daten wählt man die Mitte der Klasse
mit den meisten Beobachtungen.
Der Modalwert ist nicht eindeutig.
Modus und arithmetisches Mittel müssen
keinesfalls nahe beieinander liegen.
Beispiel B2.39)B2 :32 : Im Beispiel B2.32
wurden 30 Jahre lang Temperaturen gemessen:
9, 11, 13, 13, 16, 16, 16, 16, 17, 18,
18, 18, 19, 19, 20, 20, 20,21, 21, 21,
21, 22, 22, 22, 25, 26, 29, 32, 34, 34.
Sowohl 16 als auch 21 sind Modi.
Seite 44
Ÿ2.5
2.5. Streuungsmaÿe
In der Aufgabe 12 zeigte sich, dass sehr unterschiedliche Datensätze denselben Mittelwert aufweisen können. Um Daten adäquat
mit wenigen Kennzahlen zu beschreiben, benötigen wir mindestens noch ein weiteres Maÿ
für die Streuung der Daten um den Mittelwert.
2.5.1. Varianz und Standardabweichung
Die empirische Varianz ist durch
b2 (x ) =
Pn
k =1 (xk
n
x )2
deniert, also durch die mittlere quadratische
Abweichung der Datenpunkte von ihrem Mittelwert.
Seite 45
Ÿ2.5
b2 (x ) ist immer nicht-negativ und null nur
dann, wenn alle xk gleich sind.
Wie schon im Falle des Mittelwerts gibt es
eine oftmals kürzere Variante, die mit Hilfe
der relativen Häugkeiten formuliert wird:
1
b2 (x ) = n
X
m 2M X
(m x )2 n(m):
Meistens ist folgende alternative Formel
leichter zu berechnen:
b2 (x ) = (x 2 ) (x )2 :
Die emp. Varianz ist nicht linear, aber es
gilt aber
b2 (ax + b) = a2 b2 (x ):
Speziell
ist
die
Varianz
translationsinvariant.
Die Standardabweichung ist deniert als
b (x ) = b2 (x ):
p
Seite 46
Ÿ2.5
Die Standardabweichung hat dieselbe Einheit, wie die Originaldaten.
Es gilt die einprägsame Formel
b) = ab (x ).
b (ax +
Vorteile und Nachteile der Varianz (Standardabweichung) als Streuungsmaÿ:
Einleuchtende Interpretation.
Leicht
zu
berechnen
und
mathematisch
handhabbar.
Anwendbar nur bei hinlänglich symmetrischen und möglichst eingipfeligen Verteilungen der Daten.
Die emp. Varianz und die Standardabweichung reagieren empndlich auf Ausreiÿer.
Seite 47
Ÿ2.5
In der Statistik benötigt man neben der oben
beschriebenen
empirischen
Varianz
noch
die Stichprobenvarianz (korrigierte Varianz)
und
die
Stichprobenstandardabweichung
(korrigierte Standardabweichung):
b2 (x ) =
Pn
k =1 (xk
p n 1
b(x ) = b2 (x ):
x )2
;
Es gilt oenbar
n
b2 (x ) = n 1 b2 (x ):
Die Stichprobenvarianten der Varianz und
der
Standardabweichung
werden
in
der
Schätztheorie verwendet, weil sie sog. erwartungstreue Schätzer liefern.
Für groÿe Werte von
n sind beide Varianten
etwa gleich.
Seite 48
Ÿ2.5
Beispiel B2.40:
x = 67:73633;
b2 (x ) = 472:267;
b(x ) = 21:73171;
Fn (x + b (x )) Fn (x b (x )) = 0:7
Beispiel B2.41:
Seite 49
Ÿ2.5
x = 60:44387
b2 (x ) = 452:3576;
b(x ) = 21:2687;
Fn (x + b (x )) Fn (x b (x )) = 0:56
Beispiel B2.42:
x = 65:37265
b2 (x ) = 4082:81;
b(x ) = 63:89687;
Fn (x + b (x )) Fn (x b (x )) = 0:84
Seite 50
Ÿ2.5
2.5.2. Varianz für gepoolte Daten (Varianzzerlegung)
Bei mehreren Stichproben
Stichprobe 1:
Stichprobe 2:
x11 ; x12 ; : : : ; x1n
x21 ; x22 ; : : : ; x2n
1
2
.
.
.
Stichprobe m:
mit
.
.
.
.
.
.
xm1 ; xm2 ; : : : ; xmnm
verschiedenen
Mittelwer-
x 1; x 2; : : : ; x m
und
Varianzen
2
2
2
b (x1 ); b (x2 ); : : : ; b (xm ) ergibt sich
ten
m
m 2
X
b (xk ) nk X (x k x )2 nk
2
+
:
b (x ) =
n
n
k
=1
k|=1 {z
} |
{z
}
interne V arianz
externe V arianz
(Varianzzerlegung).
Seite 51
Ÿ2.5
Beispiel B2.43: Gegeben seien die Stichproben
xki
nk x k
b2 (xk )
1
1,3,2,5,4
5
3.0
2.0
2
5,5,5
3
5.0
0.0
3
6,1,4,5
4
4.0
3.5
Gepoolter
3:83.
Mittlerwert:
5+44 =
x = 53+3
5+3+4
Pm b (xk )nk
= 2:0
k =1
n
Pm (x k x ) nk
Varianz:
= 0:638.
k =1
n
2
Interne Varianz:
Externe
Varianz:
2
b2 (x ) = 2 + 0:63 = 2:638.
2.5.3. Spannweite
und
Interquartilsab-
stand
Als Spannweite bezeichnet man den Abstand
zwischen Minimum und Maximum der Stichprobe:
Rx = x(n) x(1) :
Seite 52
Ÿ2.5
Nur wenige Daten ieÿen in die Berechnung ein.
Oenbar ist die Spannweite nicht robust
gegenüber Ausreiÿern.
Der Interquartilsabstand misst den Abstand
zwischen oberem und unterem Quartil:
IQRx
= xeo xeu :
Robust in Bezug auf Ausreiÿer.
Seite 53
Ÿ2.5
2.5.4. Variationskoezient
Der Variationskoezient setzt die durch die
Standardabweichung gemessene Streuung ins
Verhältnis zu ihrem Mittelwert:
b (x )
V (x ) = x
Relatives Streuungsmaÿ
0 V (x ) p n .
Deniert für positive metrische Daten.
Es
her
gilt
deniert
man
den
Da-
normierten
Variationskoezienten
b (x )
V (x ) = p
nx
mit Werten im Intervall
[0; 1].
2.5.5. Weitere Streuungsmaÿe
Der
Median
der
absoluten
Abweichungen
(MAD)
MADx
= med (jx xej)
Seite 54
Ÿ2.5
ist unempndlich in Bezug auf Ausreiÿer (viele Varianten).
Die mittlere absolute Abweichung vom Mittel
jx x j
und die mittlere absolute Abweichungen vom
Median
jx xej
sind weniger robust.
Beispiel B2.44)B2 :18 : Für sechs Monate
wird die Anzahl der Unfälle an einer befahrenen Ausfahrtstraÿe in einer Statistik erfasst:
x1 = 5; x2 = 1; x3 = 3; x4 = 2; x5 = 1; x6 = 6
Es ist
x = 18=6 = 3 und daher
Seite 55
Ÿ2.5
(5 3)2 + (1 3)2 + : : : + (6 3)2
6
4
+
4
+
0
+
1
+
4
+ 9 = 22 = 3:3:
=
6
6
b2 (x ) =
Alternative Formel:
b2 (x ) = x 2 (x )2
2 + 12 + 32 + 2 2 + 1 2 + 62
5
2
=
3
6
22
76
= 6 9 = 6 = 3:3:
Für die Standardabweichung ergibt sich
b (x ) = b2 (x ) 1:92
p
Die Stichprobenvarianz ist entsprechend etwas gröÿer als die empirische Varianz:
n
22
b2 (x ) = n 1 b2 (x ) = 5 = 4:4
Seite 56
Ÿ2.5
Dementsprechend ist
p
b(x ) = 4:4 2:1
Die Spannweite der Daten ist oenbar
Rx = 6 1 = 5:
Zur Berechnung des Interquartilabstands benötigen wir das untere und das obere Quartil.
Es ist
x(1) = 1; x(2) = 1; x(3) = 2; x(4) = 3;
x(5) = 5; x(6) = 6
Also ergibt sich
xe0:25 = x(b6=4c+1) = x(2) = 1;
xe0:75 = x(b18=4c+1) = x(5) = 5:
Dann erhalten wir
IQRx
= 5 1 = 4:
Seite 57
Ÿ2.5
Variationskoezient:
22=6
b (x )
V (x ) = x = 3 0:64
V (x )
V (x ) = p 0:26
p
6
MAD:
MADx
= med (2:5; 1:5; 0:5; 0:5; 1:5; 3:5) = 1:5
Mittlere absolute Abweichung vom Mittel:
jx x j = (2; 2; 0; 1; 2; 3) = 10
6 1:67
Mittlere absolute Abweichungen vom Median
(
xe = 2:5):
jx xej = (2:5; 1:5; 0:5; 0:5; 1:5; 3:5) = 10
6
Seite 58
Ÿ2.5
Im siebten Monat geschehen 20 Unfälle.
Nun ergibt sich:
b2 (x )
b (x )
Rx
IQRx
MADx
Alt
Neu
3.67
38.53
1.91
6.21
5
19
4
5
1.5
2
Beispiel B2.45: IT-Unternehmen in Österreich mit mehr als 99 Mitarbeitern (Quelle:http://data.opendataportal.at)
Name Umsatz Mitarbeiter
1
A1 Telekom Austria AG
256
16240
2 Raiffeisen Informatik GmbH
172
3000
3
KAPSCH Group
361
5250
Wir betrachten die Umsatzwerte für 67 FirSeite 59
Ÿ2.5
men mit weniger als 50 Mio Euro Umsatz.
Histogramm:
Arithmetisches Mittel und Median:
U = 21:8394
Ue = 19:
Seite 60
Ÿ2.5
Varianz, Standardabweichung:
b2 (U ) = 90:90
b (U ) = 9:53
b2 (U ) = 92:28
b(U ) = 9:61
Seite 61
Ÿ2.5
Quartile:
0%
25%
50%
75%
100%
8.70
13.93
19.00
28.40
48.00
Spannweiter und Interquartilsabstand:
RU = 48 8:7 = 39:3
IQRU = 28:4
13:93 = 14:47
Seite 62
Ÿ2.6
2.6. Boxplots
In
einem
Boxplot
werden
die
wichtigsten
Lage- und Streuungsmaÿe grasch zusammengefasst.
Vorgehensweise:
Eine horizontale Linie wird auf der Höhe
des Median eingezeichnet.
Das oberes und untere Quartil bestimmen die obere und untere Seite der
Box.
Die
Länge
(Whiskers)
1.5-fachen
oberen-
der
beiden
entspricht
des
bzw.
IQR
Antennen
maximal
dem
(gerechnet
vom
unteren
Quartil
aus).
Die Antennen enden aber beim letzten
tatsächlich
vorliegenden
Datenwert
unter- bzw. oberhalb dieser Marke.
Alle Datenpunkte auÿerhalb der Antennen werden als Ausreiÿer als Punkte
eingezeichnet.
Seite 63
Ÿ2.6
x
=
(4; 7; 9; 11; 12; 14; 14; 15; 22; 27).
Hier
e = 13, xeu = 9, xeo = 15,
ist n = 10, x
IQRx = 6 und 1:5 IQR = 9.
Beispiel:
Seite 64
Ÿ2.7
Beispiel B2.46: Bürgerschaftswahlen in
Hamburg (2009)
Stimmanteile für die CDU in den Wahllokalen
2.7. Konzentrationsmaÿe
2.7.1. Die Lorenz-Kurve
Beispiel
B2.47)B2 :45 :
Mitarbeiterzahl
Unternehmen.
tion
für
die
von
und
österreichischen
Empirische
Umsätze
Umsatz
im
IT-
VerteilungsfunkBeispiel
B2.45:
Seite 65
Ÿ2.7
Ein relativ groÿer Teil der Umsatzgesamtsumme entfällt auf wenige Firmen (sog.
Konzentration).
Um
eine
solche
darzustellen,
Konzentration
verwendet
Lorenz-Kurve.
Berechne zunächst für
man
grasch
häug
i = 1; 2; : : : ; n
die
die
Werte
Li =
=
Summe der kleinsten i Umsätze
Gesamtsumme der Umsätze
Pi
x
Pkn =1 (k ) :
k =1 x(k )
Interpretation:
100 i=n Prozent der klein-
sten Beobachtungen machen in der Summe
100 Li Prozent der Gesamtsumme der
Beobachtungen aus.
Seite 66
Ÿ2.7
Zeichne dann eine Kurve, die im Einheitsquadrat die Punkte
(i=n; Li )
miteinander
verbindet (Polygonzug)
Seite 67
Ÿ2.7
Beispiel B2.48: Sechs Mitarbeiter einer
Firma haben folgende jährliche Gehälter (in
tsd. Euro):
Gehalt:
Orderst.:
Li :
i=n:
30
20
0.1
1/6
20
20
0.2
2/6
30
30
0.35
3/6
70
30
0.5
4/6
30
30
0.65
5/6
20
70
1.0
6/6
Seite 68
Ÿ2.7
Beispiel B2.49)B2 :45 :
Interpretation:
Auf die oberen 20% der Firmen entfallen
etwa 90% der Umsätze
2.7.2. Das Gini-Maÿ
Um eine Konzentration auch quantitativ zu
erfassen, kann man das Gini-Maÿ berechnen:
Gx =
Pn
i =1 (2i
n2 x
1)x(i ) 1:
Das Gini-Maÿ entspricht der doppelten Fläche zwischen der Lorenz-Kurve und der
Winkelhalbierenden.
Seite 69
Ÿ2.8
Je gröÿer
Gx
ausfällt, desto gröÿer ist die
Konzentration.
Es gilt
0 Gx (n 1)=n, daher berech-
net man auch das normierte Gini-Maÿ
n
Gx = n 1 Gx :
mit Werten im Intervall [0; 1].
Beispiel B2.50)B2 :48 &B2 :45 :
Gx = 0:23;
Gx = 0:28:
Gx = 0:8645807;
Gx = 0:8654585:
Seite 70
Ÿ2.8
2.8. Bivariate Daten
Häug interessiert man sich in der Statistik
gleichzeitig für mehrere Merkmale. Insbesondere versucht man etwas über die Abhängigkeit der Merkmale untereinander herauszunden. Wir beschäftigen uns in diesem Paragraphen mit der Statistik bivariater Daten, also
mit dem Fall zweier Merkmale.
Seien im Folgenden
X
male
Funktionen
(deniert
als
und
Y
zwei Merkauf
dem-
selben Stichprobenraum/derselben Grundgesamtheit).
Die entsprechenden Merkmalsausprägungen
seien
MX = fa1 ; a2 ; : : :g
MY = fb1 ; b2 ; : : :g:
Bivariate Daten lassen sich besonders einfach
Seite 71
Ÿ2.8
im Streudiagramm darstellen.
B2.51)B2 :45 :
Beispiel
und
Mitarbeiterzahl
schen
als
IT-Unternehmen
100
Mill.
Euro
von
Umsatz
österreichi-
mit
Umsatz
weniger
(Quel-
le:http://data.opendataportal.at).
2.8.1. Häugkeiten und Kontingenztabellen
Wir betrachten jetzt Stichproben der Form
(xi ; yi ), genauer
f(xi ; yi ); i = 1; 2; : : : ; n; Xi 2 MX ; yi 2 MY g:
Wie schon bei den univariaten Daten denieren wir die absolute bivariate Häugkeit der
Seite 72
Ÿ2.8
Ausprägung
(ai ; bj ).:
nij = n(ai ; bj ) = ]fk : xk = ai ; yk = bj g:
Als absolute Randhäugkeit bezeichnen wir
die Werte
ni = ]fk : xk = ai g;
nj = ]fk : yk = bj g:
Entsprechend ist
n
hij = nij
die relative bivariate Häugkeit der Ausprägung
(ai ; bj ) und
n
hi = ni ;
n
hj = nj
die relative Randhäugkeit.
lich
vieler
Im Falle end-
Merkmalsausprägungen
werden
die bivariaten Häugkeiten am übersichtlichSeite 73
Ÿ2.8
sten durch sogenannte Kontingenztafeln bzw.
Kontingenztabellen dargestellt. Dort werden
die bivariaten Häugkeiten
nij in der i-ten Zei-
le und j-ten Spalte eingetragen.
Beispiel B2.52: Für 40 Studierende werden das Geburtsjahr und der gewünschte Studienabschluss (B/M/D) ermittelt.
Kontingenztabelle mit absoluten Häugkeiten:
B
M
D
ni 1990-1994
1
9
5
15
1995-1999
15
9
1
25
16
18
6
40
Studienabschluss:
Geburtsjahr
nj
Kontingenztabelle mit relativen Häugkeiten:
Studienabschluss:
Geburtsjahr
1990-1994
1995-1999
hj
B
M
D
hi 1/40
3/8
2/5
9/40
9/40
9/20
1/8
1/40
3/20
3/8
5/8
1
Seite 74
Ÿ2.8
Die relative Häugkeit für die Ausprägung
(1990 1994; D) ist
h1;3 = 1=8 = 12:5%
Die
relative
Randhäugkeit
für
den
Bachelor-Studienabschluss ist
h1 = 2=5 = 40%:
2.8.2. Unabhängige Merkmale
Die Merkmale
X
und
Y
heiÿen unabhängig,
wenn
h(ai ; bj ) = h(ai ; ) h(; bj )
für jede Kombination
bj 2 MY
(ai ; bj ) mit ai 2 MX und
gilt. Wir können das auch kurz als
hij = hi hj ;
8i; j : 1 i k; 1 j l
Seite 75
Ÿ2.8
oder
n n
nij = i n j ;
8i; j : 1 i k; 1 j l
schreiben.
8 ist der sog. Allquantor und be-
deutet für alle.
Beispiel B2.53)B2 :52 : Im obigen Beispiel,
Studienabschluss:
Geburtsjahr
1990-1994
1995-1999
hj
B
M
D
hi 1/40
3/8
2/5
9/40
9/40
9/20
1/8
1/40
3/20
3/8
5/8
1
sind die Merkmale gewiss nicht unabhängig,
denn es gilt z.B.
h1;2 = 9=40 6= h1 h;2 = 3=8 9=20 = 27=160:
Seite 76
Ÿ2.8
2.8.3. Zusammenhangsmaÿe für nominale
Daten
Die über alle Kombinationen von i und j summierte quadrierte Abstand
ni nj 2
n
nij
kann als Maÿ für die Unabhängigkeit der beiden untersuchten Merkmale gelten.
Um
Tests
noch
später
entsprechende
durchführen
durch
ni nj
n
zu
können,
und
Chi-Quadrat-Koezienten
statistische
teilt
man
deniert
den
(auch
einfach
nur Chi-Quadrat) als:
k
l
XX
2 =
i =1 j =1
nij
ni nj 2
n
:
ni nj
n
Seite 77
Ÿ2.8
Zwei alternative Formeln (häug einfacher
zu verwenden):
2 = n nij2
n n
i =1 j =1 i j
l
k X
X
!
1
hij2
h h
i =1 j =1 i j
!
!
!
und
2 = n l
k X
X
1 :
Auch für nominalskalierte Merkmale deniert.
Schwer vergleichbar, da von der Dimension
der Kontingenztafel abhängig.
Korrektur:
Der
Pearsonsche
Kontingenzkoezient ist gegeben durch
C=
s
2
2 + n :
Seite 78
Ÿ2.8
Weitere
Verbesserung:
korrigierter
Pearsonsche Kontingenzkoezient
C =
s
minfk; l g C:
minfk; l g 1
Dann gilt
0 C 1:
Beispiel B2.54)B2 :52 : Gegeben Sei folgende Kontingenztabelle:
A
B
ni C
4
2
6
D
1
8
9
5
10
15
nj
nij
ni nj
2
Wir tragen die Werte für
ein:
A
B
C
8/15
1/15
D
1/45
32/45
Seite 79
Ÿ2.8
2 = 15 24 + 3 + 1 + 32 1 = 5:
45
Es ist
C=
s
2
2 + n
5 =1
= 20
2
r
und
C =
s
minfk; l g C = p2 1 = 0:7071
minfk; l g 1
2
Deutet eher auf einen stärkeren Zusammenhang der beiden Merkmale hin.
Seite 80
Ÿ2.8
2.8.4. Zusammenhangsmaÿe
für
metri-
sche Daten
Gibt es einen positiven Zusammenhang zwischen
X und Y , so gilt:
(xi
für (yi
Ist (xi
für (yi
x ) positiv, so gilt das häug auch
y ).
x ) negativ, so gilt das häug auch
y ).
Also gilt für viele Datenpaare (x1 ; yi ): (xi
x ) (yi y ) > 0.
Ist
Daher wählt man als Maÿzahl die empirische
Kovarianz
n
X
1
sxy = n (xi x ) (yi y )
i =1
bzw. die Stichprobenkovarianz
n
X
1
sbxy = n 1 (xi x ) (yi y ):
i =1
Seite 81
Ÿ2.8
B2.55)B2 :45 :
Beispiel
Mitarbeiterzahl
von
Umsatz
österreichischen
und
IT-
Unternehmen mit weniger als 100 Mill. Euro
Umsatz.
sxy = 730:9737;
sbxy = 731:7472:
Alternative Berechnungsformel:
sxy = xy x y:
Seite 82
Ÿ2.8
Es gilt:
sxy = syx ;
s(ax +b)(cx +d ) = a c syx ;
sxx = b2 (x )
und die Cauchy-Schwarzsche Ungleichung:
jsxy j b(x )b(y ).
Man verwendet daher den (empirischen)
Korrelationskoezienten
(Bravais/Pear-
son)
s
rxy = b (x )xyb (y )
mit Werten im Intervall
rxy
[ 1; 1].
kann als Maÿ für einen linearen Zusam-
menhang gelten:
rxy
=1
x = ay + b a > 0
2 [0:5; 1)
2 [0; 0:5)
2 [ 0:5; 0)
2 [ 1; 0:5)
= 1
x = ay + b a < 0
,
, perfekte pos. Korrelation
starke positive Korrelation
schwache positive Korrelation
schwache negative Korrelation
starke negative Korrelation
,
, perfekte neg. Korrelation
Seite 83
Ÿ2.8
Ein unmittelbarer kausaler Zusammenhang
kann nicht erkannt werden.
Wir werden später noch sehen, wie man
einen möglichen linearen Zusammenhang
genauer untersuchen kann (Abschnitt Lineare Regression)
Seite 84
Ÿ2.8
2.8.5. Zusammenhangsmaÿe für ordinale
Daten
Beispiel B2.56: Zehn Studierende werden
MX = f; g)
Statistikklausurnote Y (MY
=
nach ihrer Motivation Y (
und
der
f1; 2; : : : ; 5g) gefragt.
Motivation:
Note:
4
4
2
3
5
1
3
4
1
5
Gibt es einen Zusammenhang?
Kontingenztabelle:
1
2
3
4
5
2
1
2
1
1
7
0
0
0
2
1
3
2
1
2
3
2
10
R(xi ) einer Beobachtung x1 ist
Zahl m deniert, für die x(m) = xi
Der Rang
als die
gilt.
Ist
der
Rang
Bindungen),
so
schnittswert
der
nicht
bildet
in
eindeutig
man
Frage
den
(sog.
Durch-
kommenden
Ränge.
Seite 85
Ÿ2.8
Beispiel B2.57)B2 :56 : Im obigen Beispiel
ergeben sich die folgenden Ränge für die
beiden Merkmale:
Motivation:
R(xi ):
Note:
R(yi ):
Motivation:
R(xi ):
Note:
R(yi ):
2
7
7
7
2
4
4
2
3
5
7
7
3
4.5
9.5
7
7
2
7
7
1
3
4
1
5
1.5
4.5
7
1.5
9.5
Es gilt für den Mittelwert der Ränge
n+1
R= 2 :
Gauÿsche Summenformel:
3 + ::: + n =
n(n+1)
1+2+
2
Seite 86
Ÿ2.8
Idee: Man verwendet die ermittelten Ränge
um den sog. Rangkorrelationskoezienten
(Spearman) zu berechnen:
Rxy =
Pn
2
R
(
x
)
R
(
y
)
nR
i
i
k
=1
q
q
Pn
2 nR2 Pn R(yi )2
R
(
x
)
i
k =1
k =1
Es gilt wieder
Rxy 2 [ 1; 1].
Perfekter Zusammenhang, wenn
nR2
:
jRxy j = 1
gilt, abnehmend mit abnehmendem Absolutbetrag des Koezienten.
Seite 87
Ÿ3.0
3.
Wahrscheinlichkeitsrechnung
Beispiel B3.1)B1 :1 : Im Beispiel B1.1 wurde ein Spielwürfel 120 Mal gewürfelt. Es ergaben sich folgende Augenzahlen:
Häugkeitstabelle:
Augenzahl:
Häugkeit:
1
15
2
18
3
30
4
18
5
21
6
18
Seite 88
Ÿ3.1
Neben den statistischen Fragestellungen, die
unmittelbar die erhobenen Daten betreen,
können wir noch vom konkreten Experiment
abstrahieren
und
uns
allgemeinere
Fragen
stellen:
Wie wahrscheinlich sind die verschiedenen Augenzahlen bei einem Würfelwurf ?
Wie wahrscheinlich sind die hier vorliegenden Augenzahlenhäugkeiten bei
120 Würfen?
Was
ist
Wahrscheinlichkeit
über-
haupt?
Frequentistische
Interpretation:
Die
Wahr-
scheinlichkeit eines Ereignisses ist der Zahlenwert, gegen die relative Häugkeit mit wachsendem Stichprobenumfang konvergiert.
Seite 89
Ÿ3.1
3.1. Ereignisse und Wahrscheinlichkeiten
Die axiomatische Wahrscheinlichkeitstheorie
lässt die philosophischen Fragen hinter sich
und betrachtet Ereignisse und Wahrscheinlichkeiten als mathematische Objekte mit bestimmten Eigenschaften.
Das Grundgerüst kennen wir bereits aus der
Statistik:
Die
Grundgesamtheit
wird
nun
Wahrscheinlichkeitsraum genannt.
Die Merkmale heiÿen nun Zufallsvariablen.
Die Teilmengen von
heiÿen Ereignisse.
Seite 90
Ÿ3.1
Die gesamte Menge
repräsentiert das
sichere Ereignis,
; das unmögliche Ereignis.
Die Vereinigungsmenge A [ B repräsentiert
die leere Menge
das Eintreten von
A
oder von
B
(dabei
wird zugelassen, dass beide Ereignisse eintreten).
A \ B repräsentiert das
gleichzeitige Eintreten von A und B .
Die Schnittmenge
A und B
unvereinbar, wenn A und B
sind, d.h. es gilt A \ B = ;.
Zwei
Ereignisse
heiÿen
disjunkt
Seite 91
Ÿ3.1
Die Dierenzmenge
A bei
Eintreten von B .
Eintreten von
A=B repräsentiert das
gleichzeitigem Nicht-
A
Nicht-Eintreten von A.
Das
Komplement
Jedem Ereignis
P
repräsentiert
das
A kann man eine Zahl
(A), seine Wahrscheinlichkeit, zuordnen.
In der mathematischen Wahrschein-
lichkeitstheorie stellt sich heraus, dass
man nicht jedem Ereignis eine Wahrscheinlichkeit zuordnen kann. Das führt
zu einigen Komplikationen, die wir hier
ignorieren
wollen
!
(
Vitali-Mengen,
Banach-Tarski-Paradoxon).
Seite 92
Ÿ3.1
Das Wahrscheinlichkeitsmaÿ P muss dabei
folgende Bedingungen erfüllen:
(
) = 1,
P (A [ B ) = P (A) + P (B ), wenn A
1. P
2.
und
B unvereinbar sind.
Folgende Regeln gelten dann automatisch:
(A) = 1 P A .
P (; ) = 0 .
P (A) P (B ) wenn A ) B .
P
Additionsregel:
P
(A [ B ) = P (A) + P (B )
P
(A \ B) :
Seite 93
Ÿ3.1
3.1.1. Laplace-Experimente
Wir sprechen von einem Laplace-Experiment,
= f!1; !2; : : : ; !n g endlich ist und
1
P (! ) = P (! ) = : : : = P (! ) =
wenn
1
2
n
n
gilt.
Bei Laplace-Experimenten kann man Wahrscheinlichkeiten abzählen:
Satz 3.2 (Laplace-Experiment)
Im Laplace-Experiment gilt für jedes
Ereignis
A
P
(A) = ]A
n:
Seite 94
Ÿ3.1
Beispiel B3.2: Ein Würfel wird geworfen.
Es sei
Dann
= f1; 2; 3; 4; 5; 6g:
handelt
es
sich
um
ein
Laplace-
Experiment mit
P
Es sei
(!) = 61 ; 8! 2 :
A = f2; 4; 6g
das Ereignis, dass die
Augenzahl gerade ist. Dann gilt
P
(A) = 63 = 12 :
Liegt kein Laplace-Experiment vor, so gilt
allgemein nur noch
P
(A) =
X
! 2A
P
(! ) :
Beispiel B3.3: Ein Würfel werde zweimal
geworfen. Wir wählen
= f(i; j )ji; j 2 f1; 2; 3; 4; 5; 6gg:
Dann
handelt
es
sich
um
ein
LaplaceSeite 95
Ÿ3.1
Experiment mit
P
Es sei
1 ; 8 ! 2 :
(!) = 36
A = f(i; j ) 2 ji < j g
das Ereignis,
dass der zweite Wurf eine höhere Augenzahl
anzeigt, als der erste Wurf. Dann ist
P
3 + 2 + 1 = 15 = 5 :
(A) = 5 + 4 +36
36 12
Seite 96
Ÿ3.1
3.1.2. Bedingte Wahrscheinlichkeiten
Als bedingte Wahrscheinlichkeit bezeichnet
man die Wahrscheinlichkeit eines Ereignisses
A, unter der Voraussetzung, dass der Eintritt
eines zweiten Ereignisses B (mit P (B ) 6= 0)
schon bekannt ist:
P
(AjB) = P (A; gegeben B) :
Satz 3.3
Es gilt
P
(AjB) = P (PA(B\ )B) ;
Daraus ergibt sich unmittelbar
P
(A) = P (AjB) P (B) :
Seite 97
Ÿ3.1
Beispiel B3.4: Es werde ein Würfel geworfen. Es sei
A
B
=
=
= f2; 4; 6g;
Die Augenzahl kleiner als 5 = f1; 2; 3; 4g:
Die Augenzahl ist gerade
Dann gilt
(AjB) = P (Pf1(f; 22;; 34;g4) g) = 12 ;
P (f2; 4g)
2:
=
P (B jA) =
P (f2; 4; 6g)
3
P
Seite 98
Ÿ3.1
3.1.3. Unabhängigkeit
Zwei Ereignisse
A und B heiÿen stochastisch
unabhängig, wenn
P
(A \ B) = P (A) P (B)
gilt.
Die obige Bedingung ist gleichbedeutend
mit
P
(AjB) = P (A)
bzw.
P
Nicht
mit
(BjA) = P (B) :
Unvereinbarkeit
verwechseln:
Zwei unvereinbare Ereignisse sind fast immer abhängig.
Seite 99
Ÿ3.1
Beispiel B3.5)B3 :4 : Es sei wieder
A
B
=
=
= f2; 4; 6g;
Die Augenzahl kleiner als 5 = f1; 2; 3; 4g:
Die Augenzahl ist gerade
Die beiden Ereignisse sind stochastisch unabhängig:
P
(A \ B) = P (f2; 4g) = 31 = P (A) P (B) :
Die Ereignisse
P
A und A sind nicht unabhängig:
1
A \ A = P (;) = 0 6= 4 = P (A)2 :
Seite 100
Ÿ3.2
3.2. Kombinatorik
3.2.1. Permutationen
Aus einem Gefäÿ mit
n
Kugeln werden alle
Kugeln gezogen. Wieviele Möglichkeiten der
Anordnung (sog. Permutationen) dieser gezogenen Kugeln gibt es?
Satz 3.4
Es gibt
n!
verschiedene Möglichkeiten
n Objekte anzuordnen.
Seite 101
Ÿ3.2
3.2.2. Variationen und Kombinationen
Als nächstes ziehen wir nur
k
der
n Kugeln.
Seite 102
Ÿ3.2
Unterscheidet
gezogenen
man
Kugeln,
die
so
Reihenfolge
spricht
man
der
von
Variationen.
Legt man die Kugeln nicht wieder zurück,
so kommt man auf
n!
n (n 1) (n k + 1) = (n k )!
Möglichkeiten.
Legt man die Kugeln nach dem Ziehen jeweils wieder zurück, so ergeben sich
n n n = nk
verschiedene Möglichkeiten.
Seite 103
Ÿ3.2
Unterscheidet man die Reihenfolge der gezogenen Kugeln nicht, so spricht man von
Kombinationen.
Möglichkeiten ohne Zurücklegen:
n!
(n k )! | {z }
V ariationen
1
k!
|{z}
Anordnungen
= kn :
Möglichkeiten mit Zurücklegen (ohne Beweis):
n+k 1
:
k
Seite 104
Ÿ3.2
Zurücklegen
Ohne Zurücklegen
Reihenfolge
Reihenfolge
V kn = nk
Vnk =
n!
(n
k )!
Zurücklegen
Ohne Zurücklegen
Ohne Reihenfolge
Ohne Reihenfolge
C kn =
n+k
k
1
Cnk =
n
k
Seite 105
Ÿ3.3
3.3. Zufallsvariablen und ihre Verteilungen
3.3.1. Zufallsvariablen
Zufallsvariablen sind die wahrscheinlichkeitstheoretischen Pendants metrischer Merkmale, also Abbildungen
! R.
Wir unterscheiden wie bei den Merkmalen
diskrete und stetige Zufallsvariablen.
Eine Zufallsvariable ist diskret, wenn sie nur
abzählbar viele Werte annehmen kann.
Ein Zufallsvariable heiÿt stetig, wenn ihr
Wertebereich ein Intervall oder die ganze
Zahlengerade ist und eine weiter Bedingung erfüllt ist, die wir später betrachten.
Wir schreiben im Folgenden kurz P
(X x )
an Stelle der korrekteren aber umständlicheren Schreibweise P
(f! 2 jX (!) x g).
Seite 106
Ÿ3.3
3.3.2. Verteilungsfunktionen
Die Verteilungsfunktion einer Zufallsvariablen
X ist gegeben durch die Funktion
FX (x ) = P (X x ) :
Wir schreiben kurz
F
statt
FX , wenn klar ist,
welche Zufallsvariable gemeint ist.
F
F
ist stets nicht-fallend,
ist rechtsseitig stetig,
limx ! 1 F (x ) = 0, limx !1 F (x ) = 1.
Die stochastischen Eigenschaften einer Zufallsvariablen werden durch Angabe der Verteilungsfunktion vollständig beschrieben.
Mit Hilfe der Verteilungsfunktion kann man
Wahrscheinlichkeiten berechnen:
Seite 107
Ÿ3.3
(X > x ) = 1 F (x )
P (y < X x ) = F (x )
F (y )
P (X = x ) = F (x )
F (x )
P (X < x ) = F (x )
P (X x ) = 1
F (x )
P (y X x ) = F (x )
F (y )
P
.
.
.
.
.
.
.
.
.
F (x ) bezeichnet den linksseitigen
Grenzwert
F (x ) = lim
F (u ):
u "x
Es
gibt
noch
weitere
Möglichkeiten
die
stochastischen Eigenschaften einer Zufallsvariablen zu beschreiben:
Seite 108
Ÿ3.3
Für
eine
Werten
diskrete
Zufallsvariable
MX = fx1 ; x2 ; : : :g
X
mit
deniert man
die Wahrscheinlichkeitsfunktion:
p (x ) = P (X = x ) =
Für
dass
stetige
F
renzierbar
; x 62 Mx
P (X = xi )
; x = xi
0
(
Zufallsvariablen
stetig
ist.
und
Man
fordern
stückweise
deniert
wir,
die-
dann
die
Wahrscheinlichkeitsdichte als die Ableitung
f (x ) = F 0 (x )
an den Stellen, wo
F
dierenzierbar ist (an
allen anderen Stellen kann man
f (x ) belie-
big denieren).
Seite 109
Ÿ3.3
Beispiel B3.6)B3 :4 : Es sei wieder
X
die
Augenzahl beim einmaligen Wurf mit einem
fairen Würfel. Verteilungsfunktion:
Wahrscheinlichkeitsfunktion:
p (x ) =
0 ; x 62 f1; 2; 3; 4; 5; 6g
1=6 ; x 2 f1; 2; 3; 4; 5; 6g
(
Diskreten und stetigen Zufallsvariablen ist
also die Verteilungsfunktion
F (x ) = P (X x )
gemeinsam.
Seite 110
W.-Dichte
für stetige ZV.
Symbol
Nicht-Negativität
x 2A\MX
f (x )
p (x ) 0
f (x ) 0
pP(x ) = 0; 8x 62 MX R 1
1 p (x ) = 1
Normierung
i P
i =1
1 f (x )Rdx = 1
Wahrscheinlichkeiten P (A) =
p(x ) P (A) = x 2A f (x ) dx
W.-Funktion
für diskrete ZV.
p (x ) = P (X = x )
Sie unterscheiden sich bei der Wahrscheinlichkeits- bzw. Dichtefunktion:
Ÿ3.3
Seite 111
Ÿ3.4
3.4. Erwartungswert und Varianz
Der Erwartungswert ist das wahrscheinlichkeitstheoretische Gegenstück zum arithmetischen Mittel.
Für diskrete Zufallsvariablen:
E
(X ) =
1
X
i =1
xi p(xi ):
Für stetige Zufallsvariablen:
E
(X ) =
Z 1
1
x f (x ) dx:
Allgemeiner kann man den Erwartungswert
von Funktionen
g:R!R
einer Zufallsva-
riablen erklären:
Seite 112
Ÿ3.4
Für diskrete Zufallsvariablen:
E
(g (X )) =
1
X
i =1
g (xi ) p(xi ):
Für stetige Zufallsvariablen:
E
(g (X )) =
Z 1
1
g (x ) f (x ) dx:
Natürlich ist der Erwartungswert nur deniert, wenn die entsprechende Summe oder
das
entsprechende
Integral
deniert
sind.
Auf den Fall, wo diese Gröÿen deniert aber
unendlich sind, gehen wir hier nicht näher
ein.
Seite 113
Ÿ3.4
Die Varianz und die Standardabweichung einer Zufallsvariable sind deniert als
Var
(X ) = E (X
= E X2
(X ))2
2
E (X ) :
E
und
b (X ) =
p
Var
(X ):
Beide Gröÿen beschreiben die Streuung der
Zufallsvariablen
X.
Es gelten die schon vom arithmetischen Mit-
(aX + b) = a (X ) + b,
2
Var (aX + b ) = a Var (X ),
b (aX + b) = ab (X ),
E (X + Y ) = E (X ) + E (Y ).
tel vertrauten Rechenregeln:
E
E
Seite 114
Ÿ3.5
3.5. Das Gesetz der groÿen Zahlen
Beispiel B3.7)B1 :1 : Im Beispiel B1.1 ergab sich ein arithmetisches Mittel von
x =
3:55. Das liegt verdächtig nahe beim theoretischen Erwartungswert
E
(X ) = 3:5
der Augenzahlen-Zufallsvariable
Wir
betrachten
1 Pn
n i =1 xi
den
der ersten
X.
Mittelwert
n Würfe:
xn
=
Man kann zeigen: Das ist kein Spezialfall,
sondern einer der wesentlichen Grenzwertsätze der Wahrscheinlichkeitstheorie.
Seite 115
Ÿ3.6
Satz 3.6 (Das starke Gesetz der
groÿen Zahlen)
Es seien
X1 ; X2 ; : : :
unabhängige und
identisch verteilte Zufallsvariablen mit
dem gemeinsamen Erwartungswert
und
Xn =
Pn
i =1 Xi :
n
Dann ist die Wahrscheinlichkeit dafür,
dass
lim X n = n!1
gilt, eins.
Xn
ist also bei groÿen Stichprobenumfän-
gen ein guter Schätzer für den u.U. unbekannten Erwartungswert (ein sog. stark
konsistenter Schätzer).
Seite 116
Ÿ3.6
3.6. Unabhängigkeit und Korrelation
Zwei
Zufallsvariablen
X und Y hei-
ÿen
stochastisch
unabhängig,
wenn
die
gemeinsame Verteilungsfunktion
FX;Y (x; y ) = P (X x und Y y ) = P (X x; Y y )
die Produktgleichung
FX;Y (x; y ) = FX (x )FY (y ):
erfüllt.
Für unabhängige Zufallsvariablen
X
und
Y
gilt
Var
(X + Y ) = Var (X ) + Var (Y ) :
Seite 117
Ÿ3.6
Als Maÿ für den Zusammenhang zweier Zufallsvariablen kann die Kovarianz
(X; Y ) = E ((X E (X )) (Y E (Y )))
= E (XY ) E (X ) E (Y )
Cov
verwendet werden.
Der Korrelationskoezient
Cov(X; Y )
%(X; Y ) = b (X )b (Y )
nimmt Werte im Intervall
[ 1; 1]
an und
gibt Auskunft über den linearen Zusammenhang der beiden Zufallsvariablen.
Gilt E
(XY ) = E (X ) E (Y ), so nennt man
X und Y
unkorreliert. Unabhängige Zufalls-
variablen sind immer unkorreliert.
Seite 118
Ÿ3.7
3.7. Fünf wichtige Verteilungen
3.7.1. Die Bernoulli-Verteilung
Eine
Bernoulli-verteilte
nimmt
nur
die
(Misserfolg)
an.
Sie
ist
beiden
und
dann
Werte
x2 = 1
das
X
Zufallsvariable
Ergebnis
x1 = 0
(Erfolg)
eines
sog.
Bernoulli-Experiments.
P
(X = 1) = p;
P
(X = 0) = 1 p:
Oenbar gilt
E
(X ) = (1 p) 0 + p 1 = p
und
Var
(X ) = E X 2 E (X )2
= (1 p) 02 + p 12 p2 = p(1 p):
Seite 119
Ÿ3.7
3.7.2. Die Binomialverteilung
n Bernoulli-Experimente unabhängig
voneinander mit Ergebnissen X1 ; X2 ; : : : ; Xn
Werden
durchgeführt, so hat die Zufallsvariable
K =
Anzahl der Erfolge
eine Binomialverteilung und es gilt
(K = k ) = kn pk (1 p)n k :
P
Dann ergibt sich
(K ) = nE (X1) = np;
Var (K ) = n Var (X1 ) = np (1
p):
E
n = 10; p = 0:5
Seite 120
Ÿ3.7
n = 10; p = 0:3
3.7.3. Die geometrische Verteilung
Es
werden
Bernoulli-Experimente
solange
ausgeführt, bis zum ersten Mal Erfolg eintritt.
Es sei
Z
der Index, für den zum ersten Mal
XZ = 1 gilt. Dann hat Z
eine geometrische
Verteilung (Typ I):
P
(Z = k ) = (1 p)k 1p; k = 1; 2; 3; : : : :
Die Anzahl der Misserfolge
M=Z
1 hat
eine geometrische Verteilung vom Typ II:
P
(M = k ) = (1 p)k p; k = 0; 1; 2; 3; : : : :
Es gilt
Seite 121
Ÿ3.7
E
Typ I
Typ II
()
1
p
1 p
p
Var
()
1 p
p
1 p
2
p
2
p = 0:3
p = 0:8
p = 0:5
Seite 122
Ÿ3.7
p = 0:1
Seite 123
unbegrenzt
unbegrenzt
Geometrisch II
n
1
Experimente
Anzahl
Geometrisch I
Binomial
Bernoulli
Verteilung
Index mit letztem Misserfolg
Index mit erstem Erfolg
Anzahl der Erfolge
Ausgang (0=Misserfolg, 1=Erfolg)
Gefragt
Ÿ3.7
Übersicht:
Seite 124
Ÿ3.7
3.7.4. Die Multinomialverteilung
Gegeben seien eine Folge diskreter Zufalls-
X1 ; X2 ; : : : ; Xn mit Werten in der
Menge fx1 ; x2 ; : : : ; xm g und jeweils gleicher
Wahrscheinlichkeitsfunktion p . Es sei Ki die
absolute Häugkeit der X -Zufallsvariablen
mit Wert xi . Dann gilt für die gemeinsame
variablen
Wahrscheinlichkeitsfunktion
(K1 = k1; K2 = k2; : : : ; Km = km )
n
= k k k p(x1)k p(x2)k p(xm )km ;
P
1
1 2
wobei
2
m
Pm
i =1 ki
= n gelten muss.
(Multinomialkoezient)
n!
=
k1 k2 kn
k1 !k2 ! kn ! :
n
Seite 125
Ÿ3.7
Beispiel B3.8)B1 :1 : Es sei
Ai
die Augen-
zahl im i-ten Wurf mit einem fairen Würfels
und
Xi =
Dann besitzen die
Verteilung mit
E
(Xi ) = 61 ;
1 ; Ai = 6;
0 ; Ai 6= 6:
(
p=
Xi
jeweils eine Bernoulli-
1
6 , d.h.
Var
5:
(Xi ) = p(1 p) = 36
Es gilt z.B.
6
P
(X1 = 1; X2 = 2; : : : ; X6 = 6) = 16
1 :
= 46656
K die Anzahl der 6er bei 120 Würfen.
Dann ist K binomialverteilt, d.h.
Es sei
120
k
n k
P (K = k ) =
(1
=
6)
(5
=
6)
:
k
Seite 126
Ÿ3.7
Zum Beispiel ist
120
18
102
P (K = 18) =
18 (1=6) (5=6) 0:09
und
P (K
18) =
P (K
30) =
B
Es sei
18 X
120
j
(1=6)j (5=6)120 j = 0:3657
j
(1=6)j (5=6)120 j = 0:0129
j =0
120 X
120
j =30
das Ereignis, dass folgende Häu-
gkeiten beobachtet werden:
Augenzahl:
1
2
3
4
5
6
Häugkeit:
15
18
30
18
21
18
Dann ist
P (B ) =
120
120
1
6 10 7 :
15 18 30 18 21 18 6
Seite 127
Ÿ3.7
Wollen wir die Wahrscheinlichkeit einer Abweichung von der zu erwartenden Tabelle
Augenzahl:
Häugkeit:
1
20
2
20
3
20
4
20
5
20
6
20
berechnen, müssen wir tiefer in die Trickkiste
greifen. Mehr dazu später.
Seite 128
Ÿ3.7
Wie lange dauert es im Mittel, bis eine 6 gewürfelt wird?
Die Zufallsvariable
Z = ] Versuche, bis eine 6 gewürfelt wird:
Dann hat
Z
eine geometrische Verteilung,
d.h.
k 1
P
(Z = k ) = 56
1 ; k = 1; 2; 3; : : : :
6
Als Erwartungswert erhalten wir
E
(Z ) = p1 = 6:
Seite 129
Ÿ3.7
3.7.5. Die stetige Gleichverteilung
Ist
X
gleichverteilt auf dem Intervall
so liegt
X
[a; b],
quasi maximal zufällig verteilt in
dem Intervall.
Handelsübliche
über eine
Taschenrechner
verfügen
RND -Taste, die gleichverteilte
Zufallszahlen erzeugt.
Mit
Hilfe
gleichverteilter
Zufallsvariablen
kann man anders verteilte Zufallszahlen erzeugen (Inversionsmethode, Monte-CarloSimulation)
Verteilungs- und Dichtefunktion der stetigen
Gleichverteilung sind gegeben durch
Seite 130
Ÿ3.7


0


x
;x < a
a
F (x ) = 
; x 2 [a; b)
b
a



1
;x b
(
1 ; x 2 [a; b)
f (x ) =
0 ; x 62 [a; b)
a = 0; b = 1
Es gilt für eine auf
[a; b] gleichverteilte Zu-
fallsvariable
(X ) = a +2 b ;
(b a )2 :
Var (X ) =
12
E
Seite 131
Ÿ3.8
3.8. Die Normalverteilung und ihre
Verwandten
3.8.1. Die Standardnormalverteilung
Die wichtigste Verteilung der Statistik ist die
Standardnormalverteilung.
Die Standardnormalverteilung besitzt die
Dichtefunktion
1
'(x ) = p e
2
Die
zugehörige
x =2 :
2
Verteilungsfunktion
lässt
sich nicht in geschlossener Form angeben:
Z x
1
(x ) = p
e
2 1
Verteilungsfunktion
'(x ):
u =2 du:
2
(x ) und Dichtefunktion
Seite 132
Ÿ3.8
= 0; = 1
Wir schreiben
malverteilung
N (0; 1) für die Standardnorund X N (0; 1) für eine
standardnormalverteilte Zufallsvariable.
X N (0; 1)
Var (X ) = 1.
Für
gilt E
(X ) = 0
und
Seite 133
Ÿ3.8
3.8.2. Tabellen und Quantile
Die
Werte
(x )
sind
tabellarisch
gege-
ben oder können mit Taschenrechnern und
Computern abgerufen werden (s. Tabelle
Seite
??).
Beispiel:
(1:16) = 0:877
Seite 134
Ÿ3.8
Für negative Argumente kann man die Umformungsregel
( x ) = 1 (x )
verwenden.
Beispiel:
( 1:0) = 1 0:8413 = 0:1587,
Seite 135
Ÿ3.8
-Quantil bezeichnet den Wert z für
den (z ) = gilt. Man verwendet die Bezeichnung z für diesen Wert.
Als
Die Quantile kann man ebenfalls aus der
Tabelle auf Seite
Beispiel:
?? entnehmen.
z0:6 = 0:25.
Seite 136
Ÿ3.8
3.8.3. Der zentrale Grenzwertsatz
Beispiel B3.9)B1 :1 : Wir wiederholen das
Würfelexperiment aus dem Beispiel B1.1 eintausend Mal und betrachten für jeden Durchgang das arithmetische Mittel:
Standardabweichung
0:159.
Wir würfeln nun
dieser
Mittelwerte:
n = 1000 Mal und wieder-
holen das Experiment 1000 Mal:
Standardabweichung der Mittelwerte:
0:054.
Seite 137
Ÿ3.8
Wir beobachten: Die Standardabweichung
wird mit wachsendem
Es
seien
n immer kleiner.
X1 ; X2 ; X3 ; : : :
unabhängige
und
identisch verteilte Zufallsvariablen mit Erwartungswert
und Standardabweichung und
n
X
1
X n = n Xi
i =1
ihr arithmetisches Mittel.
Dann gilt
E
n
X
1
X n = n E (Xi ) = ;
i =1
n
X
1
2
X n = n2 Var (Xi ) = n ;
i =1
q
b (X n ) = Var X n = p :
n
Var
Seite 138
Ÿ3.8
Satz 3.8
Das arithmetische Mittel
Xn
der Zu-
X1 ; X2 ; : : : besitzt den Erwartungswert und die Standardabweip
chung = n .
fallsvariablen
Es folgt, dass die standardisierte Zufallsvariable
p Xn Xn = n den Erwartungswert
weichung
1 besitzt.
Wir können auch mit
0
und die Standardab-
n erweitern und schrei-
ben:
X =
n
Pn
i =1 X
pi
n
Welche Verteilung besitzt
n
:
Xn ?
120 Würfe, 100 Mal wiederholt:
Seite 139
Ÿ3.8
= 0; = 1
10 000 Würfe, 10 000 Mal wiederholt:
= 0; = 1
Seite 140
Ÿ3.8
Satz
3.9
(Zentraler
Grenzwert-
satz)
Gegeben
seien
identisch
verteilte
X1 ; X2 ; : : :
und
die
mit
Varianz
unabhängige
2.
Verteilung
und
Zufallsvariablen
Erwartungswert
Dann
der
konvertiert
standardisierten
Zufallsvariablen
p Xn Xn = n n ! 1 gegen die Standardnormalverteilung (x ).
für
= 0; = 1
Seite 141
Ÿ3.8
3.8.4. Abschätzungen
Mit Hilfe des zentralen Grenzwertsatzes können wir Wahrscheinlichkeiten für den Mittelwert und Summen von unabhängigen und
identisch verteilten Zufallsvariablen abschätzen.
Satz 3.10 (Zentraler Grenzwertsatz, Teil II)
Für groÿe Werte von
P
n
X
n gilt
x n
Xi x p
:
n
i =1
!
und
P
x p
Xn x :
= n
Beispiel B3.10)B1 :1 : War der gewürfelte
Mittelwert im Beispiel B1.1 signikant abweichend vom Erwartungswert?
Wie groÿ ist die Wahrscheinlichkeit, bei 120
Seite 142
Ÿ3.8
Würfen mit einem Spielwürfel, einen Mittelwert
P
X n > 3:55 zu erhalten?
X 120 > 3:55 = 1
P
X 120 3:55
3:55 3:5 
1 q
35 =p120
12
= 1 (0:3207135)
S:
= 1 0:6255
= 0:3745


??
Die Wahrscheinlichkeit für einen Mittelwert
3:55
37:5%.
über
beträgt
bei
120
Würfen
etwa
Beispiel B3.11: Bei einem Spiel verliert der
Spieler mit Wahrscheinlichkeit 0.7 fünf Euro
und gewinnt mit Wahrscheinlichkeit 0.3 acht
Euro. Es sei
Xi
der Gewinn bzw. Verlust im
i-ten Spiel (sog. Irrfahrt/Random Walk). Wie
groÿ ist die Wahrscheinlichkeit, dass der Spieler nach 30 Spielen einen (positiven) Gewinn
verzeichnet?
Seite 143
Ÿ3.8
= E (X ) = 0:7 5 + 0:3 8 = 1:1
Var (X ) = 0:7 25 + 0:3 64
1:12 =
Es gilt
und
35:49.
Damit erhalten wir
P
30
X
k =1
!
Xk > 0 = 1
P
30
X
k =1
Xk 0
!
0
30
(
1
:
1)
1 p35:49 30
= 1 (1:011)
= 1 0:8438 = 0:1562:
Seite 144
Ÿ3.8
3.8.5. Die allgemeine Normalverteilung
Wenn
X N (0; 1) gilt, dann besitzt X + eine sog. Normalverteilung.
Die Normalverteilung besitzt die Dichtefunktion
'; (x ) = p
Die
lässt
zugehörige
sich
1 e
2
1=2( x )
2
:
Verteilungsfunktion
wieder
nicht
in
;
geschlossener
Form angeben.
Wir schreiben
N (; )
für die Normalver-
teilung.
In vielen Büchern bezeichnet
N (; s )
ei-
ne Normalverteilung mit Erwartungswert
und Varianz
s.
Seite 145
Ÿ3.8
= 0; = 1
= 5; = 1
= 5; = 2
= 5; = 1=3
Seite 146
Ÿ3.8
3.8.6. Rechenregeln und Transformationen für die Normalverteilung
Angenommen
X N (; ). Dann gilt
aX + b N (a + b; jaj ):
Speziell erhalten wir, wenn wir
und
b = = wählen,
a = 1
X N (0; 1):
Umgekehrt folgt aus
X N (0; 1)
X + N (; ):
Die Summe von zwei normalverteilten
Zufallsvariablen ist wieder normalverteilt.
Falls
Y N (; )
und
N (; ) unabhängig sind, gilt
X X + Y N ( + ; 2 + 2 ):
p
Wenn
X1 ; X2 ; : : : ; Xn
unabhängig sind
Seite 147
Ÿ3.8
und
Xi N (; ) gilt, so ergibt sich
n
X
i =1
p
Xi N (n; n)
und
p
X n N (; = n):
Seite 148
Ÿ3.8
3.8.7. Die Chi-Quadrat-Verteilung
Wenn
X1 ; X2 ; : : : ; Xn
standardnormalverteil-
te unabhängige Zufallsvariablen sind, so besitzt die Summe der Quadrate
n
X
2 = Xi2
i =1
eine
sog.
Chi-Quadrat-Verteilung
mit
n
Freiheitsgraden.
n=3
-Quantil n; der Chi-QuadratVerteilung mit n Freiheitsgraden ist der
Werte z für den F (z ) = gilt, wenn
F die Chi-Quadrat-Verteilungsfunktion beDas
zeichnet.
Seite 149
Ÿ3.8
Die Quantile sind aus der Tabelle auf Seite
?? zu entnehmen. Zum Beispiel ist
6;0:99 = 16:81:
Das bedeutet, dass
P
6
X
i =1
ist, wenn die
!
Xi2 16:81 = 0:99
Xi
unabhängige standardnor-
malverteilte Zufallsvariablen sind.
Seite 150
Ÿ3.8
3.8.8. Die t-Verteilung
Wenn
X und X1 ; X2 ; : : : ; Xn standardnormal-
verteilte unabhängige Zufallsvariablen sind,
dann besitzt die Zufallsvariable
T=q
eine
X
1 Pn X 2
n i =1 i
(Student)-t-Verteilung
n
mit
Freiheitsgraden .
n=3
Das
n
-Quantil tn;
Freiheitsgraden
den
F (z ) = der t-Verteilung mit
ist
gilt,
der
Werte
wenn
F
z
die
für
t-
Verteilungsfunktion bezeichnet.
Seite 151
Ÿ3.8
Die Quantile sind aus der Tabelle auf Seite
?? zu entnehmen.
Beispielsweise ergibt sich
t20;0:9 = 1:325;
d.h.
P
(T 1:325) = 0:9:
Seite 152
Ÿ3.8
3.8.9. Die F-Verteilung
Es
seien
X1
und
X2
zwei
Chi-Quadrat-
verteilte unabhängige Zufallsvariablen mit
bzw.
n
m Freiheitsgraden. Dann hat die Zufalls-
variable
X
F = X1
2
eine
F-Verteilung
mit
n
und
m
Freiheitsgraden .
n = 10, m = 5
-Quantil F(n;m); der F-Verteilung mit
n und m Freiheitsgraden ist der Werte z
für den F (z ) = gilt, wenn F die entspreDas
chende Verteilungsfunktion bezeichnet.
Seite 153
Ÿ3.8
Die Quantile ndet man in den Tabellen ab
Seite
??. Es ist z.B.
F(10;5);0:95 = 4:735;
d.h.
P
(F 4:735) = 0:95:
3.8.10. Ein Beispiel zum Schluss
Beispiel B3.12: In einer Fabrik wird Obst
verpackt. Die Packungsgröÿe soll dabei jeweils 500g betragen, allerdings kommt es naturgemäÿ zu kleinen Schwankungen.
Das Gewicht
X
einer Obstpackung sei nor-
=
500g und einer Standardabweichung von =
malverteilt mit einem Mittelwert von
3:
Seite 154
Ÿ3.8
Stichprobe,
Stichprobe,
Stichprobe,
n = 30
n = 100
n = 5000
Nach einer Norm für den Obsthandel darf die
Packungsgröÿe der Ware nicht um mehr als
fünf Gramm vom angegebenen Gewicht abweichen.
Seite 155
Ÿ3.8
Wie groÿ ist die Wahrscheinlichkeit einer solchen unzulässigen Abweichung?
Wir transformieren
X in eine standardnormal-
verteilte Zufallsvariable:
(X > 505 oder X < 495)
= 1 P (X 2 [495; 505])
X 500 495 500 505 500
=1 P
2
;
3
3
3
= 1 P X 3500 2 [ 5=3; 5=3]
= 1 ((5=3) ( 5=3)) = 2(1 (5=3)) = 0
P
Seite 156
Ÿ3.8
In
einem
2430
LKW
3 3 3 90 =
sollen
der Obstpackungen transportiert wer-
den, aber höchstens 1230 Kilogramm. Mit
welcher Wahrscheinlichkeit ist das möglich?
Das Gesamtgewicht
Y
der 2430 Packungen
(Y ) = 0:5 2430 =
1215 kg und b(Y ) = 0:003 2430 = 7:29.
ist normalverteilt mit E
1215
1230
1215
P (Y 1230) = P
7:29 7:29
= (2:058) = 0:98
Y
Seite 157
Ÿ4.1
4.
Induktive Statistik
4.1. Punktschätzer
Beispiel B4.1: Bei einem Spiel ist dem
Spieler die Wahrscheinlichkeit zu gewinnen
nicht bekannt. In 20 Spielen hat er fünf Mal
gewonnen. Wie kann der Spieler die Gewinnwahrscheinlichkeit schätzen?
Beispiel B4.2: In zehn Würfen mit einem
u.U. nicht fairen Würfel ist die Augensumme
41. Wie kann man den Erwartungswert der
Augenzahl schätzen? Wie kann man die Varianz schätzen?
Seite 158
Ÿ4.1
Gegeben
seien
unabhängige
und
identisch
verteilte Zufallsvariablen
X1 ; X2 ; X3 ; : : : ; Xn ;
eine sog. Stichprobe. Die gemeinsame Verteilung der
Xi
nennen wir auch Verteilung der
Grundgesamtheit.
Wir schreiben
= E (X 1 )
für den gemeinsamen Erwartungswert und
2 = Var (X1 )
= b (X1 )
für die Varianz und die Standardabweichung
der Stichprobenelemente.
ble
Eine Zufallsvaria-
S , die aus den Zufallsvariablen X1 bis Xn
gebildet wird heiÿt Statistik.
Seite 159
Ÿ4.1
Beispiele für Statistiken:
Pn
i =1 Xi ,
P
X = n1 ni=1 Xi ,
1 Pn
2
n i =1 (Xi X ) ,
1 Pn
2
n i =1 (Xi E (X )) ,
mini =1;2;:::;n Xi ,
maxi =1;2;:::;n Xi .
Punktschätzer sind Statistiken, die geeignet
sind, einzelne Parameter der zugrundeliegenden Verteilung zu schätzen.
Solche Parameter sind z.B.
Die
Erfolgswahrscheinlichkeit
p
der
Bernoulli-Verteilung,
n oder p bei der Binomialverteilung,
p bei der geometrischen Verteilung,
den Erwartungswert oder die Varianz
2.
Seite 160
Ÿ4.1
b für einen Punktschätzer des
b für einen PunktParameters , also z.B. b
schätzer des Erwartungswertes , oder Wir schreiben
für einen Punktschätzer der Standardabweichung.
4.1.1. Punktschätzer für den Erwartungswert
der Erwartungswert der Zufallsvariablen X1 ; X2 ; X3 ; : : :.
Es sei
Ein naheliegender Schätze für
ist der Mit-
telwert
n
X
1
b = X =
X:
n i =1
Dabei ist zu beachten, dass
satz zur Zahl
,
i
b, im Gegen-
weiterhin eine Zufallsva-
riable ist, also eine Verteilung, einen Erwartungswert und eine Varianz besitzt.
Seite 161
Ÿ4.1
Wir haben schon früher den Erwartungswert der Zufallsvariablen
X
berechnet. Es
ergab sich
E
Wir sagen:
b
ist
(b) = :
erwartungstreu ,
bzw.
unverzerrt: Der geschätzte Wert ist im Mittel gleich dem zu schätzenden Wert.
Beispiel B1.1:
b für n = 20, 1000 Mal wiederholt.
) Satz 3.8.3)
Es gilt (
b (b) = p ;
n
d.h. die Standardabweichung nimmt mit
wachsendem
n immer weiter ab
Seite 162
Ÿ4.1
Auÿerdem gilt
lim b (b) = 0:
n!1 Wir sagen dann, dass
b
ein konsistenter
Schätzer ist.
Im allgemeinen ist die Verteilung von
b
nicht einfach zu beschreiben. Es gilt aber
nach dem zentralen Grenzwertsatz
b
N (; pn )
annähernd
für groÿe Werte von
n.
Ist die Grundgesamtheit normalverteilt mit
bekanntem
und bekanntem
,
dann er-
gibt sich, wie bereits oben gezeigt,
b N (; p ):
n
Seite 163
Ÿ4.1
4.1.2. Punktschätzer für die Varianz bei
bekanntem Erwartungswert
Ist der Erwartungswert
bekannt, so ist
die empirische Varianz
b2 =
ein
n
1X
2
(
X
i )
n
konsistenter
i =1
und
erwartungstreuer
Schätzer, d.h.
E
b2 = Var (X )
und
b2 = 0:
lim
Var n!1
Ist die Grundgesamtheit normalverteilt, so
besitzt die Zufallsvariable
b2
n 2
hat eine Chi-Quadrat-Verteilung mit
n Frei-
heitsgraden.
Seite 164
Ÿ4.1
4.1.3. Punktschätzer für die Varianz bei
unbekanntem Erwartungswert
Wenn man bei unbekanntem
den Ansatz
n
2
1X
X
i X
n
i =1
als Punktschätzer für die Varianz verwendet,
so stellt sich heraus, dass der Erwartungswert
dieses Schätzers
n 1 2
n
ist.
Um einen erwartungstreuen Schätzer der Varianz zu erhalten, müssen wir also den Schätzer
b2 = b2 (X ) =
1
n
X
n 1 i =1
Xi X 2
verwenden.
Seite 165
Ÿ4.1
Dieser neue Schätzer ist erwartungstreu,
E
b2 = 2 ;
und konsistent:
lim Var b2 = 0:
n!1
Ist die Grundgesamtheit normalverteilt, so
hat die Zufallsvariable
2
(n 1) b2
eine Chi-Quadrat-Verteilung mit
(n
1)
Freiheitsgraden.
Seite 166
Ÿ4.2
4.2. Intervallschätzer
4.2.1. Intervallschätzer
für
den
Erwar-
tungswert bei bekannter Varianz
Wir haben gesehen, dass der Mittelwert
b
ein erwartungstreuer und konsistenter
Schätzer für den Erwartungswert
ist.
Es wäre interessant zu wissen, was man
über die Abweichung
j bj sagen kann.
Der Einfachheit halber gehen wir nun davon
aus, dass
1. die
Grundgesamtheit
ist, d.h. es gilt
2. die Varianz
normalverteilt
Xi N (; ) und
2 bekannt ist.
Seite 167
Ÿ4.2
Dann ist
wert
d.h.
b normalverteilt mit Erwartungsp
Standardabweichung = n ,
und
b b +cp
=
P
P pn c = (c )
n
!
für jedes Zahl
Wenn wir
c 2 R.
c = z1
=2
(Quantil der Normal-
verteilung) wählen, so gilt
b + z1 =2 p = 1 2 :
n
P
Ebenso kann man zeigen:
P
b z1 =2 p = 2
n
Es ergibt sich dann
b
P z1
b + z1
=2 pn =2 pn = 1 :
Seite 168
Ÿ4.2
Das zufällige Intervall
heiÿt
b z1 =2 p ; b + z1
n
=2 p
n
(1 ) 100%-Kondenzintervall.
Es enthält (als Zufallsgröÿe verstanden,
also solange es noch nicht konkret anhand
vorliegender
mit
Daten
ausgerechnet
Wahrscheinlichkeit
schätzenden Parameter
1
.
wurde)
den
zu
Beispiel B4.3: Die Temperaturen an einem
Ort werden 100 Jahre lang jeweils am 1.Juni
gemessen. Angenommen die Standardabweichung der Temperaturen betrage
4 Grad und
die Temperaturen seien normalverteilt.
Seite 169
Ÿ4.2
Es ergibt sich als Schätzer für den Erwartungswert der Temperatur
b = 22:6
= 0:05)
Als 95%-Kondenzintervall (
erhalten wir dann
b z0:975 p ; b + z0:975 p
n
n 4 ; 22:6 + 1:96 4
= 22:6 1:96
10
10
= [21:82; 23:38] :
= 0:1)
Als 90%-Kondenzintervall (
be-
rechnen wir
b z0:95 p ; b + z0:95 p
n
n
1
:645 4
1
:645 4
= 22:6
10 ; 22:6 + 10
= [21:94; 23:26] :
Seite 170
Ÿ4.2
Der Erwartungswert
liegt nicht mit 90%
bzw. 95% Wahrscheinlichkeit in diesen Intervallen!
ist eine feste Zahl, keine Zu-
fallsvariable.
4.2.2. Intervallschätzer
für
den
Erwar-
tungswert bei unbekannter Varianz
Ist die Varianz unbekannt, so muss sie geschätzt werden:
b2 =
Um allerdings
1
n 1 i =1
Xi X 2
b b
b + c p = P b p c
n
= n
P
n
X
zu berechnen, benötigen wir die Verteilung
der Zufallsvariablen
b T=bp :
= n
Man kann zeigen, dass
T
eine t-Verteilung
mit (n-1)-Freiheitsgraden besitzt.
Seite 171
Ÿ4.2
Wenn wir
c = tn 1;1
=2
(Quantil der t-
Verteilung) wählen, so gilt
b
b + tn 1;1 =2 p = 1 2 :
n
P
und
b
b tn 1;1 =2 p = 2 :
n
P
Wir
erhalten
das
(1
) 100%-
Kondenzintervall
b
b tn 1;1 =2 p ; b + tn 1;1
n
b
=2 p ;
n
dass den zu schätzenden Parameter
Wahrscheinlichkeit
1 mit
enthält (solan-
ge noch kein konkretes Intervall berechnet
wurde).
Seite 172
Ÿ4.2
Beispiel B4.4)B4 :3 : Die Temperaturen an
einem Ort werden 100 Jahre lang jeweils am
1.Juni gemessen. Angenommen die Temperaturen seien normalverteilt mit unbekanntem
und unbekanntem
2.
Die Punktschätzer für den Erwartungswert
und die Varianz (Standardabweichung) der
Temperatur sind
b = 22:6
b2 = 12:25; (b = 3:5)
Als 95%-Kondenzintervall (
= 0:05) erhal-
Seite 173
Ÿ4.2
ten wir dann
b
b
b t99;0:975 p ; b + t99;0:975 p
n
n
1
:984 3:5
1
:984 3:5
= 22:6
10 ; 22:6 + 10
= [21:91; 23:29] :
4.2.3. Intervallschätzer für die Varianz bei
bekanntem Erwartungswert
Ist
bekannt, so ist b2 unser erwartungs-
treuer Schätzer für die Varianz und es gilt
b2 = P
P 2 c wobei
F
b2 n
n 2 c = 1 F (n=c );
die Verteilungsfunktion einer Chi-
Quadrat-Verteilung mit
n
Freiheitsgraden
bezeichnet.
Seite 174
Ÿ4.2
n
c = n;=
Wir setzen
2
bzw.
c = n; n =
1
2
und
erhalten
nb2
;
P
=
1
n;=2
2
nb2
2
P =
n;1 =2
2:
2 Dann ergibt sich
P
Wir
nb2
n;1
=2
erhalten
2 das
nb2
n;=2 = 1 :
(1
) 100%-
Kondenzintervall
nb2
nb2
n;1 =2 ; n;=2 :
Seite 175
Ÿ4.2
4.2.4. Intervallschätzer für die Varianz bei
unbekanntem Erwartungswert
unbekannt, so verwenden den Schätb2 .
zer Ist
Es gilt dann, ganz ähnlich wie im Fall bekannten Erwartungswertes,
P
b
c b = P (n 1) n 1 = 1 F ((1 n)=c );
c
2
wobei
2
2
2
F
die Verteilungsfunktion einer Chi-
Quadrat-Verteilung mit
(n 1) Freiheits-
graden bezeichnet.
Wie oben ergibt sich das
(1 ) 100%-
Kondenzintervall
(n 1)b2 ; (n 1)b2 :
n 1;1 =2 n 1;=2
Seite 176
Ÿ4.2
Beispiel B4.5: Es seien
X1 ; X2 ; : : : ; X20 die
Ausgaben von zwanzig Kunden in einem bestimmten Supermarkt. Wir gehen von einer
Normalverteilung
Xi N (; ) der Grundge-
samtheit aus.
Die Punktschätzer für den Erwartungswert
und die Varianz (Standardabweichung) sind:
b = 36:23
b2 = 327:94
(b = 18:11)
Wir erhalten die Intervallschätzer (
b
b tn 1;1 =2 p ; b + tn 1;1
n
= [29:23; 43:23]
= 10%)
b
=2 p
n
Seite 177
Ÿ4.2
für den Erwartungswert und
(n 1)b2 ; (n 1)b2 n 1;1 =2 n 1;=2
= [206:70; 615:87] ([14:3; 24:82])
für die Varianz (bzw. Standardabweichung).
90%-Kondenzintervalle für für 100 Supermärkte:
4.2.5. Schätzen ohne Zurücklegen
Wird eine Stichprobe ohne Zurücklegen aus
einer endlichen Grundgesamtheit der Grö-
N gezogen, so sind die Zufallsvariablen
X1 ; X2 ; : : : ; Xn nicht mehr unabhängig.
ÿe
Seite 178
Ÿ4.2
b = X
Der Mittelwert
ist weiterhin ein
erwartungstreuer konsistenter Schätzer für
den wahren Erwartungswert
.
Allerdings ist der Schätzer für die Varianz
nicht länger erwartungstreu.
Ein
erwartungstreuer
und
konsistente
Schätzer ist nun
n
N 1 1 X
b2 = N n 1
Xi X 2 :
i =1
Oensichtlich
liegt
der
Korrekturfaktor
(N 1)=N nahe bei eins, wenn N sehr groÿ
ist.
Seite 179
Ÿ4.3
4.3. Hypothesentests
4.3.1. Idee
Bei einem statistischen Test versucht man
anhand von Daten, den Wahrheitsgehalt
von Hypothesen zu bestimmen.
Meistens handelt es sich um Hypothesen,
die die wahre Verteilung der Stichprobe betreen, z.B. die Hypothesen
über den Erwartungswert,
über die Varianz,
über den Median oder Quartile,
über die Verteilung.
Es kann auch eine Hypothese über den
Zusammenhang oder über Unabhängigkeit
von Merkmalen getestet werden.
Meistens wird zunächst eine Nullhypothese
H0
formuliert, z.B., dass der Erwartungs-
wert
einen bestimmten Wert 0 hat:
H0 :
= 0 :
Seite 180
Ÿ4.3
Eine einfache Hypothese liegt vor, wenn
wir,
wie
im
Fall
oben,
annehmen,
dass
ein Verteilungsparameter einen bestimmten
Wert annimt. Ansonsten ist die Hypothese
zusammengesetzt.
Die Alternative
H1
beschreibt eine zweite
Hypothese (die Gegenhypothese), die nur
dann eintreten kann, wenn
H0
nicht ein-
tritt, z.B.
oder
H1 : > 0
H1 : =
6 0:
Häug handelt es sich bei
sche Komplement von
H0 .
H1 um das logi-
Seite 181
Ÿ4.3
Die generelle Vorgehensweise bei einem Hypothesentest ist:
1. Wir stellen eine Hypothese auf und formulieren sie mathematisch.
2. Wir nden eine passende Teststatistik
T.
3. Wir
nden
einen
Ablehnungsbereich
A
sinnvollen
derart,
dass
wir die Hypothese dann ablehnen, wenn
T nach
A liegt.
Auswertung der Stichprobe in
Beispiel B4.6)B1 :1 : Wir haben den Verdacht, dass bei unserem Würfelexperiment zu
Beginn der Vorlesung die Drei häuger erschien, als gewöhnlich. Es sei
X1 ; : : : ; X120
eine
Stichprobe von Augenzahlen.
1. Es sei
p
die Wahrscheinlichkeit einer
Drei. Dann stellen wir die Nullhypothese
H0 : p = 1=6:
Seite 182
Ÿ4.3
auf. Die Alternative wäre
H1 : p > 1=6.
2. Als Teststatistik wählen wir die Anzahl
T
der Dreier bei
n Würfen:
T = ]fXi jXi = 3g
3. und lehnen ab, wenn
T > 20 + C
ist,
C noch passend wählen müssen. Es ist also A = (20 + C; 1).
wobei wir
4.3.2. Wahl des Ablehnungsbereiches
Es stellt sich die Frage, wie wir einen passenden und sinnvollen Ablehnungsbereich
nden können.
Meistens ergeben sich aus der Hypothese bereits Ansatzpunkte, z.B., dass
A, wie
im obigen Beispiel, ein bestimmtes Intervall ist, bei dem noch die Intervallgrenzen
zu bestimmen sind.
Nach welchen Kriterien soll man
A wählen?
Seite 183
Ÿ4.3
Wir überlegen uns, dass wir insgesamt zwei
wichtige Fehler machen können:
1. Fehler erster Art: Wir lehnen die Hypothese ab, obschon sie zutrit.
2. Fehler zweiter Art: Wir lehnen die Hypothese nicht ab, obschon sie nicht
zutrit.
Üblicherweise wird nun bei einem statistischen Hypothesentest der Ablehnungsbereich
A so festgelegt, dass die Wahrschein-
lichkeit eines Fehlers erster Art eine bestimmte, vorher festgelegte Schwelle, das
Signikanzniveau
, nicht überschreitet.
Dazu benötigt man natürlich die Verteilung
von
T
unter
H0 (d.h. wenn H0 gilt).
Warum sollte man nicht versuchen,
A
so
festzulegen, dass die Wahrscheinlichkeit eines Fehlers erster Art minimal wird?
Seite 184
Ÿ4.3
4.3.3. Vorgehensweise
1. Formulierung der Hypothese
2. Finden einer geeigneten
T,
deren Verteilung unter
Teststatistik
H0
bekannt
ist.
3. Festlegen eines Signikanzniveaus
.
4. Angabe eines Ablehnungsbereiches mit
P
(T 2 AjH0) = :
5. Konkrete Berechnung der Teststatistik
t
anhand der Daten.
6. Ablehnen der Hypothese genau dann,
wenn
t 2 A gilt.
Seite 185
Ÿ4.3
Beispiel B4.7)B1 :1 : Die Anzahl
T
der
Dreier bei 120 Würfen ist binomialverteilt
mit Erfolgswahrscheinlichkeit
= 0:01.
Wir lehnen die Hypothese
T > 20 + C ist.
p.
Wir setzen
p = 1=6 ab, wenn
Die Wahrscheinlichkeit eines Fehlers erster
Art ist:
P (T
> 20 + C jH0 ) =
120 X
120
k =20+C
Es ist sehr aufwendig
C
k
120
k (1=6) (5=6)
k
so zu bestimmen,
dass
P
(T > 20 + C jH0) = 0:01
gilt.
Seite 186
Ÿ4.3
Wir verwenden den zentralen Grenzwertsatz
in folgender sehr bekannter Form:
Satz
4.1
(Satz
von
Moivre-
Laplace)
Ist
T
binomialverteilt, so konvergiert
die Verteilung von
T np
np(1 p)
p
für
n ! 1 gegen eine Standardnormal-
verteilung.
Entsprechend haben wir die Näherung
P
(T x ) x np
:
np(1 p)
!
p
Also gilt

P (T > 20 + C jH ) 1  q
0
=1 n
1
6
C
(1
100=6
p

C
1
6
!
)

= 0:01
!
Seite 187
Ÿ4.3
genau dann, wenn
C = 100=6 z0:99 = 4:0825 2:3264 = 9:4973
p
ist, d.h. unser Ablehnugsbereich ist
A = (29:4973; 1):
Bei 30 Dreiern, wie im Beispiel B1.1, würden wir also zum 1%-Niveau die Hypothese
p = 1=6 zu Gunsten der Alternative p > 1=6
ablehnen!
4.3.4. Die Gütefunktion
Angenommen unsere Hypothese beinhaltet
(z.B. den Erwartungswert
oder die Varianz 2 ).
einen Parameter
Die Gütefunktion
G (x ) = P (T 2 Aj = x )
beschreibt die Wahrscheinlichkeit, die Hypothese abzulehnen, wenn
=x
ist.
Seite 188
Ÿ4.3
Bei einem Signikanzniveau
gilt G (x ) wenn x in dem Bereich liegt, wo die Nullhypothese gilt.
4.3.5. Der p-Wert
Bei
einem
Hypothesentest
beschreibt
der
p-Wert die Wahrscheinlichkeit, bei einer erneuten Stichprobe eine Teststatistik
T
zu be-
obachten, die unplausibler ist, als die konkret
beobachtete Statistik
Ist
t.
A = [a; 1) (rechtsseitiger Test), so
ergibt sich
p = P (T t jH0 ) :
Ist
A = ( 1; b] (linksseitiger Test), so
ergibt sich
p = P (T t jH0 ) :
Ist
A = ( 1; b] [ [b; 1) (zweiseitiger
Seite 189
Ÿ4.3
Test), so ergibt sich
p = P (jT j jt j jH0 ) :
Ist der p-Wert klein, so ist der Wert
t
der
Teststatistik als extrem anzusehen und daher die Nullhypothese abzulehnen.
Ist der p-Wert groÿ, so ist der Wert
t
der
Teststatistik als eher durchschnittlich anzusehen und daher die Nullhypothese nicht
abzulehnen.
Bei einem Signikanztest zum Signikanzniveau
(vor dem Test festzulegen) lehnen
wir die Nullhypothese genau dann ab, wenn
p
ist.
Computersoftware berechnet heute bei Hypothesentests immer auch den zugehörigen p-Wert. Eine Kenntnis des Wertes der
Teststatistik und des Ablehnungsbereichs
ist dann in der Regel nicht mehr notwendig.
Seite 190
Ÿ4.3
Beispiel B4.8)B1 :1 : Für das Würfelbeispiel B1.1 ergibt sich die Gütefunktion
G (x ) = P (T > 29:4973jp = x )
!
29
:
4973
120
x
1 p
:
120x (1 x )
Unsere Teststatistik
T =
Anzahl der Dreier
hatte den konkreten Wert
t = 30 angenom-
men.
Es ergibt sich der p-Wert
10
p = P (T > 30) 1 p
= 0:0072;
100=6
!
Seite 191
Ÿ4.3
d.h. wir würden die Hypothese
jedem Niveau
p = 1=6
> 0:72% ablehnen.
zu
4.3.6. Einstichprobentests für den Erwartungswert bei normalverteilter Grundgesamtheit
Wir gehen wieder von einer normalverteilten
Grundgesamtheit aus und wollen die Hypothese
= 0
gegen die Alternative
6= 0 (zweiseitiger Test) bzw.
> 0 (rechtsseitiger Test) oder
< 0 (linksseitiger Test) testen.
Dabei ist
0
ein fester vorgegebener Wert
(der hypothetische Erwartungswert).
Seite 192
Ÿ4.3
(1) Test bei bekannter Varianz
In dem eher unrealistischen Fall bekannter
Varianz
2 wählen wir als Teststatistik
p X T = n 0 N (0; 1):
Es ergeben sich die Ablehnungsbereiche
A = ( 1; z1 =2 ) [ (z1
A = (z1 ; 1);
A = ( 1; z1 ):
=2 ;
1);
Wir lehnen also in folgenden Fällen ab:
jT j > z1
=2 ;
T > z1 ; T < z1 :
Seite 193
Ÿ4.3
Für die p-Wert ergibt sich
p = P (jT j > jt j jH0 ) = 2(1 (jt j));
p = P (T > t jH0 ) = 1 (t );
p = P (T < t jH0 ) = (t ):
Gütefunktion (
0 = 0, = 1, = 10%):
(2) Test bei unbekannter Varianz (t-Test)
Im Normalfall wird die Varianz, wie der Erwartungswert, nicht bekannt sein. In dem Fall
schätzen wir
2
b2
en Schätzer durch den erwartungstreu-
und verwenden die t-verteilte
Teststatistik
p X T = n b 0 t (n 1):
Seite 194
Ÿ4.3
Es ergeben sich die Ablehnungsbereiche
A = ( 1; tn 1;1 =2 ) [ (tn 1;1
A = (tn 1;1 ; 1);
A = ( 1; tn 1;1 ):
=2 ;
1);
Wir lehnen also in folgenden Fällen ab:
jT j > tn
T
T
1;1 =2 ;
> tn 1;1 ;
< tn 1;1 :
Wir erhalten die p-Werte
p = P (jT j > jt j jH0 ) = 2(1 Fn 1 (jt j));
p = P (T > t jH0 ) = 1 Fn 1 (t );
p = P (T < t jH0 ) = Fn 1 (t ):
Fn 1 die Verteilungsfunktit-Verteilung mit (n
1) Freiheits-
Hier bezeichnet
on der
graden.
Seite 195
Ÿ4.3
Beispiel B4.9: Tägliche Renditen für den
DAX, 2016 (Quelle: Yahoo)
Wir wollen zum Niveau
10% testen, ob = 0
gilt:
H0 : = 0; H1 : 6= 0:
Es ergibt sich in diesem Fall
p X 0
b
p
3:085 = 0:484;
= 255 101
:84
t = n
Seite 196
Ÿ4.3
mit
dem
Schätzer
für
die
Standardabwei-
chung
b =
Es ist
sP
n
k =1 (xk
n 1
)2
= 101:84:
t254;0:95 = 1:651 also jt j < t254;0:95 d.h.
H0 wird nicht abgelehnt.
Alternative: Als p-Wert ergibt sich
p = 2 (1 F254 (0:412)) = 0:629
so dass wir zu allen üblichen Signikanzniveaus
H0 nicht ablehnen.
Seite 197
Ÿ4.3
4.3.7. Einstichprobentests für die Varianz
bei normalverteilter Grundgesamtheit
Wir gehen von einer normalverteilten Grundgesamtheit aus und wollen die Hypothese
2 = 02
gegen die Alternative
2 6= 02 (zweiseitiger Test) bzw.
2 > 02 (rechtsseitiger Test) oder
2 < 02 (linksseitiger Test) testen.
Die hypothetische Varianz
0 ist dabei ein fest
vorgegebener Wert.
(1) Test bei bekanntem Erwartungswert
Bei bekanntem
stik
wählen wir als Teststati-
b2
T = n 2 2 (n):
0
Seite 198
Ÿ4.3
Es ergeben sich die Ablehnungsbereiche
A = [0; n;=2 ) [ (n;1
A = (n;1 =2 ; 1);
A = [0; n;=2 ):
=2 ;
1);
Wir lehnen also in folgenden Fällen ab:
T < n;=2 oder T > n;1
T > n;1 ;
T < n; :
=2
p-Werte:
p = (komplizierter)
p = P (T > t jH0 ) = 1 Fn (t );
p = P (T < t jH0 ) = Fn (t ):
Hier bezeichnet
Fn
die Verteilungsfunkti-
on der Chi-Quadrat-Verteilung mit
n Frei-
heitsgraden.
Seite 199
Ÿ4.3
Beispiel B4.10: Jahresmitteltemperaturen
in Sachsen, 1881-2016 (Quelle: DWD):
Dies ist ein Beispiel für eine Zeitreihe. Offenbar existiert ein gewisser Trend, den man
mit
Hilfe
der
Zeitreihenanalyse
(Kleinste-
Quadrate-Methode) herausrechnen kann.
Jahresmittelwerte
(
x1 ; x2 ; : : : ; x136 ):
ohne
Trend
Seite 200
Ÿ4.3
Wir wollen die Hypothese
2
= 0 :4
H0 :
Var
(X ) =
(=Varianz der Daten für Bay-
ern) mit einem zweiseitigen statistischen Test
zum Signikanzniveau
= 5% untersuchen.
Dabei können wir für den Erwartungswert
E
(X ) = = 0 annehmen.
Als erstes schätzen wir die Varianz mit Hilfe
der empirischen Varianz
b2 =
Pn
k =1 (xk
n
)2
P136 2
k =1 xk
= 136 = 0:495:
Dann bestimmen wir den Wert der Teststatistik:
b2
t = n 2 = 168:2:
0
Für die beiden relevanten Quartile ergibt sich
136;0:025 = 105:61 und 136;0:975 = 170:18.
Da t 2 [105:61; 170:18], lehnen wir H0 , d.h.
die Hypothese, dass die Varianz 0:4 ist, nicht
ab.
Seite 201
Ÿ4.3
(2) Test bei unbekanntem Erwartungswert
Bei nicht bekanntem
ergibt sich als Test-
statistik
b2
T = (n 1) 2 2 (n 1):
0
Es ergeben sich die Ablehnungsbereiche
A = [0; n 1;=2 ) [ (n 1;1
A = (n 1;1 =2 ; 1);
A = [0; n 1;=2 ):
=2 ;
1);
Wir lehnen also in folgenden Fällen ab:
T < n 1;=2 oder T > n 1;1
T > n 1;1 ;
T < n 1; :
=2
Seite 202
Ÿ4.3
p-Werte:
p = (komplizierter)
p = P (T > t jH0 ) = 1 Fn 1 (t );
p = P (T < t jH0 ) = Fn 1 (t ):
Fn 1 die Verteilungsfunktion der Chi-Quadrat-Verteilung mit (n
1)
Hier bezeichnet
Freiheitsgraden.
4.3.8. Zweistichprobentest auf gleiche Erwartungswerte (t-Test)
Wir
betrachten
normalverteilter
nun
den
Fall
unabhängiger
zweier
Stichpro-
X1 ; X2 ; : : : ; Xn N (1 ; ) und
Y1 ; Y2 ; : : : ; Ym N (2 ; ) mit gleichen,
ben
unbekannten Varianzen.
Das
Problem
Tests
mit
chen
Varianzen
eines
entsprechenden
möglicherweise
ist
schwerer
ungleizu
lösen
(Behrens-Fisher-Problem, Welch-Test).
Seite 203
Ÿ4.3
Wir wollen also die Hypothese
H0 : 1 = 2
gegen die Alternative
H1 : 1 6= 2
testen.
Wir verwenden die Teststatistik
T
X Y
=p
(n 1)b + (m 1)b
die unter
2
1
r
2
2
nm(n + m
n+m
2) ;
H0 eine t-Verteilung mit (n + m
2) Freiheitsgraden besitzt.
Ablehnungsbereich:
A = ( 1; tn+m 2;1
=2 ) [ (tn+m 2;1 =2 ; 1):
d.h. wir lehnen ab, falls
jT j > tn+m
2;1 =2
ist.
Seite 204
Ÿ4.3
P-Wert:
p = P (jT j > jt j jH0 ) = 2(1 Fn+m 2 (jt j)):
Beispiel B4.11: Zwei Maschinen stellen
Bauteile mit einem Gewicht
X
Y
bzw.
her
(Angaben in Gramm). Es ist bekannt, dass
beide Maschinen bei der Produktion Fehler
mit derselben (unbekannten) Varianz
2 ma-
chen. Es wird eine Stichprobe von 30, bzw.
20 Bauteilen untersucht.
Wir wollen zu einem Signikanzniveau von
10%
die Hypothese untersuchen, dass die
Mittelwerte
der
Bauteilgewichte
für
beide
Maschinen identisch sind.
Seite 205
Ÿ4.3
Wir erhalten
x = 2197:571; y = 2206:815
b12 = 320:3355; b22 = 323:2014
9:244066 p
t = 124:2198 24 = 1:786
p = 2 (1 F48 (1:786)) = 0:08042
H0 wird zu jedem Niveau > 0:08042 abgelehnt, also auch in unserem Fall.
4.3.9. Zweistichprobentest
auf
gleiche
Varianzen (F-Test)
Wir
betrachten
malverteilter
den
Fall
unabhängiger
zweier
Stichpro-
X1 ; X2 ; : : : ; Xn N (1 ; 1 )
Y1 ; Y2 ; : : : ; Ym N (2 ; 2 ).
ben
nor-
und
Seite 206
Ÿ4.3
Wir wollen nun die Hypothese
H0 : 12 = 22
gegen die Alternative
H1 : 12 =
6 22
testen.
Die Teststatistik
b2
T = b12
2
besitzt eine
F -Verteilung mit n 1 und m
1 Freiheitsgraden.
Ablehnungsbereich:
A = [0; F(n 1;m 1);=2 ) [ (F(n 1;m 1);1
=2 ;
1):
Wir lehnen ab, wenn
T < F(n 1;m 1);=2 oder T > F(n 1;m 1);1
ist.
Seite 207
=2
Ÿ4.3
Beispiel B4.12: Fünf bzw. sieben Wochen
lang wird jeden Tag von 16 bis 17 Uhr die
Verkehrsdichte (Fahrzeuge/h) an zwei Ausfahrtstraÿen einer Groÿstadt aufgezeichnet.
Es ist
b12 = 749347:3; b22 = 913983
Wir wollen zum Signikanzniveau
= 10%
testen, ob die Varianzen gleich sind:
H0 : 12 = 22 ; H1 : 12 =
6 22:
Es ist
b2
T = b12 = 0:82
2
Seite 208
Ÿ4.3
und
F(34;48);0:05 = 0:582; F(34;48);0:95 = 1:672:
Wir lehnen also die Hypothese nicht ab. Mit
Hilfe von Statistiksoftware kann man den pWert
p = 0:548 berechnen.
4.3.10. Chi-Quadrat-Anpassungstest
Wir wollen jetzt Hypothesen der Form
F = F0 testen. Dabei ist
F
H0 :
die (wahre und unbekannte) Vertei-
lungsfunktion der Grundgesamtheit,
F0
unsere
hypothetische
Verteilungs-
funktion.
Gegeben seien
eine Stichprobe
X1 ; X2 ; : : : ; Xn von un-
abhängigen Beobachtungen,
Klassen
K1 ; K2 ; : : : ; Km (u.U. auch aus
einzelnen Ausprägungen bestehend),
Seite 209
Ÿ4.3
absolute Häugkeiten
n(Ki ) und zu er-
wartende Klassenhäugkeiten für den
Fall, dass
P
H0
(X 2 Ki ).
zutrit,
ne (Ki ) = n Beispiel B4.13)B1 :1 : Für unser ursprüngliches Würfelbeispiel ergibt sich, wenn unsere
Hypothese die diskrete Gleichverteilung betrit:
Augenzahl:
n(Ki ):
ne (Ki ):
1
15
20
2
18
20
3
30
20
4
18
20
5
21
20
6
18
20
Als Testvariable könnten wir die absoluten
Abstände
m
X
k =1
jn(Ki ) ne (Ki )j
verwenden. Es stellt sich heraus, dass eine etwas anders gewählte Statistik besser geeignet
ist.
Seite 210
Ÿ4.3
Die
Chi-Quadrat-Statistik
ist
gegeben
durch
T=
ne (Ki ))2
:
ne (Ki )
m
X
(n(Ki )
k =1
T besitzt unter H0 asymptotisch (also für
n ! 1) eine Chi-Quadrat-Verteilung mit
(m 1) Freiheitsgraden. Für jede Schätzung eines weiteren Parameters verringert
sich diese Zahl um eins.
Wir lehnen die Hypothese ab, wenn
m 1;1
T >
ist.
Als p-Wert ergibt sich
p = P (T > t jH0 ) = 1 Fm 1 (t );
wo
Fm 1
die Verteilungsfunktion der Chi-
Quadrat-Verteilung ist.
Seite 211
Ÿ4.3
Beispiel B4.14)B1 :1 :
Augenzahl:
n(Ki ):
ne (Ki ):
1
15
20
2
18
20
3
30
20
4
18
20
5
21
20
6
18
20
Es ist
t=
25 + 4 + 100 + 4 + 1 + 4 = 6:9
20
und
p = 1 F5 (6:9) = 0:2281843
Wir lehnen die Hypothese zu keinem vernünftigen Signikanzniveau ab und gehen dementsprechend bis auf weiteres von einer diskreten
Gleichverteilung (fairer Würfel) aus.
Seite 212
Ÿ4.3
Beispiel B4.15)B4 :10 : Jahresmitteltemperaturen in Sachsen, 1881-2016, ohne Trend:
Einteilung in Klassen:
(-3,-2]
(-2,-1]
(-1,0]
(0,1]
(1,2]
1
11
50
69
5
Liegt eine Normalverteilung vor?
Es ist
b =
0 und b = 0:703, also ergibt sich für unsere
Hypothese
H0 : X N (0; 0:703):
Ki
n(Ki )
(ai =b )
(bi =b )
(bi =b ) (ai =b )
ne (Ki )
(-3,-2]
1
0.001
0.023
0.021
2.9
(-2,-1]
11
0.023
0.159
0.136
18.5
(-1,0]
50
0.159
0.500
0.341
46.4
(0,1]
69
0.500
0.841
0.341
46.4
(1,2]
5
0.841
0.977
0.136
18.5
Seite 213
Ÿ4.3
t=
Die
ne (Ki ))2
= 25:42
ne (Ki )
m
X
(n(Ki )
k =1
Teststatistik
T
hat
Quadrat-Verteilung mit
etwa
eine
Chi-
5 1 1 = 3 Frei-
heitsgraden (wir haben ja die Varianz geschätzt!).
Es ist
p = 1 F3 (25:42) = 1:26 10 5 :
Wir lehnen die Hypothese zu allen gängigen
Signikanzniveaus ab.
4.3.11. Weitere Tests auf Normalität
Es gibt noch eine Reihe weiterer Tests auf
Normalität, für die allerdings die Anwendung
von Statistiksoftware notwendig ist.
Der Shapiro-Wilks-Test liefert für das
obige Beispiel:
Seite 214
Ÿ4.3
Test Name :
+ Shapiro - Wilk normality test
Data :
t
Test Statistic :
W
+ = 0.9774639
P - value :
+ 0.02354978
Beim Lilliefors-Test ergibt sich:
Test Name :
+ Lilliefors ( Kolmogorov + Smirnov ) normality test
Data :
Test Statistic :
+ = 0.07416185
P - value :
+ 0.0641023
t
D
4.3.12. Q-Q-Plots
Optisch
sich
mit
besteht
Hilfe
eines
die
sog.
Möglichkeit
Q-Q-Plots
(Quantil-Quantil-Plot) von der Normalität
der Daten zu überzeugen.
Seite 215
Ÿ4.3
Dabei werden die Quantile der Normalverteilung und die empirischen Quantile der
vorliegenden
Daten
in
einem
Diagramm
aufgetragen.
Auÿerdem wird eine Hilfsgerade berechnet
und aufgetragen.
Im Fall einer vorliegenden Normalverteilung
liegen die Punkte etwa auf der angegebenen Geraden.
Etwa
normalverteilte
Daten
(oben:
n=5000, unten: n=25):
Seite 216
Ÿ4.3
Rechtsschiefe Daten:
Linksschiefe Daten:
Seite 217
Ÿ4.3
Bimodale Daten:
Beschränkter Träger:
Seite 218
Ÿ4.3
Wir erhalten im obigen Beispiel:
Seite 219
Ÿ4.3
4.3.13. Der
Chi-Quadrat-Homogenitäts-
test
Wir
wollen
hängige
jetzt
testen
ob
zwei
X1 ; X2 ; : : : ; Xn
Stichproben
unabund
Y1 ; Y2 ; : : : ; Ym ein und dieselbe Verteilung besitzen:
H0 : F1 = F2 :
Wir verwenden folgende Gröÿen:
Klassen
K1 ; K2 ; : : : ; Kk
(u.U. auch aus
einzelnen Ausprägungen bestehend),
absolute Häugkeiten:
Klasse:
X
Y
1
2
...
n1;1 n1;2 . . .
n2;1 n2;2 . . .
n1 n2 . . .
k
n1;k n1 = n
n2;k n2 = m
n k n + m
Seite 220
Ÿ4.3
Als Teststatistik dient der Chi-QuadratKoezient
2 =
der etwa eine
k
2 X
X
nij
i =1 j =1
ni nj 2
n+m
ni nj
n +m
2 -Verteilung mit k 1 Frei-
heitsgraden besitzt.
Ablehnung
k 1;1
der
ist.
P-Wert, falls
Hypothese,
2 = c
falls
2 >
ist:
p = P 2 > c = 1 Fk 1 (c );
wobei
Fk 1
die
entsprechende
Chi-
Quadrat-Verteilungsfunktion ist.
Beispiel B4.16: Die Besuchszahlen des
Oktoberfestes werden für zwei Jahre (X,Y)
an jeweils 30 Tagen verglichen.
Klassen: 0-30 30-50 50-70 70-90 90-110 ni X
2
9
10
6
3 30
Y
0
1
12
15
2 30
nj
2
10
22
21
5 60
Seite 221
Ÿ4.3
Liegen für
vor?
von
X
und
Y
identische Verteilungen
Wir testen bei einem Signikanzniveau
= 0:01. Es ist
2 = 12:639
und
4;0:99 = 13:2767
wir lehnen also
H0 nicht ab.
Alternativ können wir den p-Wert berechnen
und erhalten:
p = 1 F4 (12:639) = 0:01318:
Seite 222
Ÿ4.3
4.3.14. Der
Chi-Quadrat-
Unabhängigkeitstest
Wir wollen jetzt testen ob zwei Merkmale
und
Y
X
unabhängig sind:
H0 :
X und Y unabhängig
Voraussetzungen:
Stichproben
Y1 ; Y2 ; : : : ; Ym ,
Klassen
X1 ; X2 ; : : : ; Xn
oder
K1 ; K2 ; : : : ; Kk
und
Ausprägungen
und
L1 ; L2 ; : : : ; Lr ,
absolute Häugkeiten:
K1 K2
L1 n1;1 n1;2
.
.
.
.
.
.
.
.
.
Lr nr;1 nr;2
Y
n1 n2
...
...
.
.
.
...
...
Kk
n1;k
.
.
.
n1
.
.
.
nr;k
nr nk n + m
Seite 223
Ÿ4.3
Als
Teststatistik
dient
erneut
der
Chi-
Quadrat-Koezient
r
k
nij
XX
2 =
i =1 j =1
ni nj 2
n+m
ni nj
n +m
2 -Verteilung mit ` = (r
der etwa eine
1) (k 1) Freiheitsgraden besitzt.
Ablehnung
`;1
der
ist.
P-Wert, falls
Hypothese,
falls
2 >
c die berechnete Teststatistik
ist:
p = P 2 > c = 1 F` (c );
wobei
F`
die entsprechende Chi-Quadrat-
Verteilungsfunktion ist.
Beispiel B4.17: (Vergleiche mit Aufgabe
140
46)
An
einer
Studierende
können
zwischen
ins
3
Hochschule
erste
starten
Semester.
Studiengängen
Sie
A,B,C
und D wählen. Sind die beiden Merkmale
X =
Studiengang und
Y =
Geschlecht
unabhängig?
Seite 224
Ÿ4.3
A
B
C
D
m
10
30
10
5
55
w
20
20
40
5
85
30
50
50
10
140
Wir testen zum Niveau
= 0:1.
Wir erhal-
ten
2 = 17:718
und
3;0:9 = 6:251389:
Wir lehnen also ab.
In der Tat ist
p = 0:0005028544 < 0:01:
Seite 225
Ÿ4.3
4.3.15. Test auf Ausreiÿer
Ein Ausreiÿer ist ein Datenwert, der auÿergewöhnlich weit von den übrigen, bzw.
von den meisten anderen Daten entfernt
liegt. Es gibt keine genaue mathematische
Denition.
Der Grubbs-Test kann Ausreiÿer feststellen.
Dazu
wird
angenommen,
dass
die
Grundgesamtheit normalverteilt ist und die
Teststatistik
T=
maxi =1;:::;n jxi x j
b
berechnet.
Die Nullhypothese es liegt kein Ausreiÿer
vor wird abgelehnt, wenn
tn2 2;=2n
n 1
t > c = p
n n 2 + tn2 2;=2n
s
ist.
Seite 226
Ÿ4.3
Wird die Hypothese abgelehnt, so kann
man den verdächtigen Datenwert entfernen
und einen neuen Test starten.
Dieses
Verfahren
wird
solange
durchge-
führt, bis kein Ausreiÿer mehr erkannt wird
Das
Entfernen
sich
aus
dem
von
Datenpunkten
jeweiligen
muss
Zusammenhang
rechtfertigen lassen. Im Normalfall dürfen
keine Daten entfernt werden!
Beispiel B4.18: Ein handschriftlich notierter ursprünglich normalverteilter Datensatz
weist u.U. Zahlendreher auf:
13:3; 31:1; 10:0; 60:2; 33:7; 15:2; 16:2;
14:9; 17:7; 21:1; 29:8; 13:6; 11:4; 18:7; 41:1
Wir verwenden den Grubbs-Test zum Niveau
10%.
Seite 227
Ÿ4.3
Es ist
x = 23:2, b(x ) = 13:748 und
37
t = 13:748 = 2:691;
s
tn2 2;=2n
np 1
c =
= 2:409:
n n 2 + tn2 2;=2n
Wir lehnen also die Nullhypothese ab.
Wir entfernen den Datenwert
60:2 und erhal-
ten im zweiten Durchlauf
t = 2:157; c = 2:372:
Wir lehnen die Nullhypothese nicht ab, belassen also alle übrigen Werte im Datensatz.
Seite 228
Ÿ4.4
4.4. Einfache lineare Regression
In der einfachen linearen Regression versucht
man lineare Zusammenhänge zwischen zwei
Gröÿen
X
X und Y
eine
nachzuweisen. Dabei ist
für
uns
nicht
zufällige,
also
deterministische Gröÿe (die erklärende
Variable,
exogene
Regressor),
Stichprobe
eine
oder
Ermittlung
einer
konkret
Datenpunkte
Y
nach
Variable
gegeben
x1 ; x2 ; : : : ; xn und
zufällige
Gröÿe
durch
(die
zu
erklärende Variable, endogene Variable
oder
Regressand),
konkret
gegeben
y1 ; y2 ; : : : ; yn .
Zu jedem Datenelement xi gehört eindeutig eine Stichprobe yi .
durch eine Stichprobe
Seite 229
Ÿ4.4
Idealerweise läge ein linearer Zusammenhang vor:
Y = 0 + 1 X
mit
zwei
Regressionsparametern
unbekannten
0 ; 1 .
Tatsächlich werden allerdings noch gewisse Fehler- oder Störterme
Z
auftreten, so
dass dann
Y = 0 + 1 X + Z;
gilt.
Wenn wir annehmen, dass E
(Z ) = 0 ist,
dann können wir auch schreiben:
E
(Y jX = x ) = 0 + 1 x:
Seite 230
Ÿ4.4
Beispiel B4.19: Wir betrachten die Jahresmitteltemperaturen in Deutschland für den
Zeitraum 1970-2016 (Quelle: DWD):
Es ist hier
X
Y
=
=
Zeit seit 1970 (on Jahren)
Jahresmitteltemperatur Deutschland
Wir nehmen an, es gäbe einen linearen Trend.
Seite 231
Ÿ4.4
Mathematische Formulierung:
E
(Y jX = x ) = 0 + 1 x:
Die beiden Regressionsparameter
1
0
und
sind prinzipiell unbekannt und können
statistisch niemals mit 100%er Sicherheit
ermittelt werden. Wir werden sie schätzen
müssen...
Seite 232
Ÿ4.4
In
der
Praxis
x1 ; x2 ; : : : ; xn
und
liegen
konkrete
y1 ; y2 ; : : : ; yn
Daten
vor und es
gilt i.A. nicht
yk = 0 + 1 xk ;
sondern
yk = 0 + 1 xk + zk ;
mit konkreten, aber prinzipiell unbekannten
Fehlern
z1 ; z2 ; : : : ; zn .
Seite 233
Ÿ4.4
4.4.1. Die Kleinste-Quadrate-Methode
Wie müssen die unbekannten Parameter
und
1
schätzen, also anhand der Daten
möglichst gute Schätzer
Die
0
Ausgleichs-
oder
b0 ; b1 berechnen.
Regressionsgerade
sollte so verlaufen, dass sie die Daten möglichst gut beschreibt.
Was bedeutet möglichst gut?
Wir versuchen die Regressionsparameter so
zu wählen, dass der quadratische Fehler
n X
Q2 =
i =1
yi
(b0 + b1x )
2
möglichst klein wird.
Seite 234
Ÿ4.4
Die auf diese Art und Weise minimierten
Fehler
zbi = yi (b0 + b1 x )
(4.1)
nennen wir Residuen.
Wir minimieren also die Summe der Residuenquadrate:
n
X
Q2 = zbi2 :
i =1
Seite 235
Ÿ4.4
Mit Hilfe der Analysis (Extremwertbestimmung bei Funktionen mit mehreren Variablen, s.Mathe-Vorlesung) kann man die
Funktion
Q2 (b0 ; b1 ) minimieren.
Seite 236
Ÿ4.4
Es ergibt sich dann für die Steigung der
Regressionsgeraden
b1 =
x y x y
sxy
=
2
b2 (x )
x2 x
und für den Achsenabschnitt (Intercept)
b0 = y b1 x:
Speziell liegt der Schwerpunkt
(x; y ) immer
auf der Regressionsgeraden.
Beispiel B4.20)B4 :19 :
x y = 208:464; x = 23; y = 8:794
x y x y = 6:211; x 2 x 2 = 184
x y x y
b1 = 2 2 = 0:0338; b0 = y b1 x: = 8:017:
x x
Seite 237
Ÿ4.4
Interpretation: Die Temperatur steigt mit jedem Jahr um
0:0338 Grad.
4.4.2. Prognosen
Mit Hilfe der K-Q-Schätzer für das lineare Modell können wir für ein beliebiges
einen Schätzer
gehörige
yb
x
für das unbekannte zu-
y berechnen:
yb = b0 + b1 x :
Dabei machen wir naturgemäÿ einen Fehler, den Prognosefehler
= yb y
Seite 238
Ÿ4.4
Beispiel B4.21)B4 :19 : Jahresmitteltemperaturen in Deutschland, 1970-2016:
Für das obige Beispiel ergibt sich für die Jahresmitteltemperatur des Jahres 2020:
yb = 8:017 + 0:0338 50 = 9:705
also knapp
9:7 Grad Celsius.
Seite 239
Ÿ4.4
4.4.3. Standardbedingungen und Güte der
Schätzer
Normalerweise fordert man von den Residuen folgende Eigenschaften:
1.
Zi N (0; )
res
(Normalverteilung
der Störterme, mit Erwartungswert
null
und
Homoskedasitizität,
identische Varianzen
2.
rZi Zj = 0
für
2
),
i 6= j
res
d.h.
(keine
Autokorrelation).
Wir wollen das ab jetzt voraussetzen.
Unter diesen Bedingungen sind
b0
und
b1
jeweils normalverteilt:

s
b0 N 0 ; 2
res
1 + x 2  ;
n nb2 (x )

2
b1 N 1 ; nb2 (x ) :
s
!
res
Die beiden Koezienten sind nicht stochastisch unabhängig!
Seite 240
Ÿ4.4
Satz 4.2
Unter den genannten Voraussetzungen
sind die beiden K-Q-Schätzer
b0 und b1
erwartungstreu und konsistent, d.h
b0 = 0 ;
E b1 = 1 ;
E lim Var b0 = 0;
n!1
b1 = 0:
lim
Var n!1
Auÿerdem besitzen sie die sog. BLUEEigenschaft, d.h. die Varianzen der beiden Schätzer sind jeweils kleiner als die
Varianzen aller anderen linearen erwartungstreuer Schätzer (die Schätzer sind
ezient).
Seite 241
Ÿ4.4
4.4.4. Das Bestimmtheitsmaÿ
y -Datenwerte besitzen für die verschiedenen xi jeweils unterschiedliche Werte.
Die
Die resultierende Streuung um den Mittelwert wird durch die Stichprobenvarianz beschrieben:
b2 (y ) =
1
n
X
n 1 i =1
(yi y )2:
Die erklärte Varianz
b2 (y ) =
e
1
n
X
n 1 i =1
(ybi y )2:
misst Abweichungen der Schätzungen vom
y-Mittelwert.
Seite 242
Ÿ4.4
Die nicht erklärte Varianz der Residuen
bu2 (y ) =
1
n
X
n 1 i =1
(yi yb)2
misst die Streuung um die Regressionsgerade.
Seite 243
Ÿ4.4
Satz 4.3 (Varianzzerlegung)
Es gilt
b2 (y ) = be2 (y ) + bu2 (y ):
Je höher der Anteil der erklärten Varianz an
der Gesamtvarianz ausfällt, desto besser ist
unser Modell angepasst.
Der Anteil
be2 (y )
2
R = b2 (y )
der erklärten Varianz an der Gesamtvarianz
y ist ein Maÿ für die Güte des Modells.
2
Man nennt R das Bestimmtheitsmaÿ.
2
Je höher R ausfällt, desto besser ist das
von
Modell an die vorliegenden Daten angepasst, d.h. desto besser erklärt
riable
y.
x
die Va-
Seite 244
Ÿ4.4
Es gibt keine generelle Richtlinie, wie hoch
R2
ausfallen muss, damit von einer gu-
ten Anpassung geredet werden kann. Werte
< 0 :3
deuten allerdings eine schlechte
Anpassung an.
R2 nimmt zu, wenn weitere erklärende Variablen hinzugezogen werden, auch wenn
sich
das
Modell
durch
die
Hinzunahme
nicht verbessert.
In diesem Fall verwendet man auch das
korrigierte/adjustierte Bestimmtheitsmaÿ
n 1
R2 = 1 (1 R2 ) n k 1 ;
mit
k = Anzahl der erklärenden Variablen.
4.4.5. Intervallschätzer
Mit
b0
und
b1
besitzen wir zwei Punkt-
schätzer für die unbekannten Regressionsparameter.
Seite 245
Ÿ4.4
Wie kennen, unter den Standardbedingungen, sogar ihre Verteilung:

s
b0 N 0 ; 2
res
1 + x 2  ;
n nb2 (x )

2
b1 N 1 ; nb2 (x ) :
s
!
res
Allerdings muss vorher noch die Varianz
2
res
der Residuen geschätzt werden. Wir
verwenden den erwartungstreuen Schätzer
1
n
X
b2 = n 2 (yi ybi )2 :
i =1
res
Damit lässt sich problemlos ein
100%-Kondenzintervall für 0
I0 = b1 tn 2;1
h
und für
(1 ) b(b0 ); b1 + tn 2;1 =2 b(b0 )
=2 i
:
b(b1 ); b0 + tn 2;1 =2 b(b1 )
=2 i
:
1
I1 = b0 tn 2;1
h
bestimmen.
Seite 246
Ÿ4.4
Dabei benutzen wir die Schätzer
b(b0 ) =
s
b2
nb2 (x ) ;
res
s
b(b1 ) = b2
res
1 + x 2 :
n nb2 (x )
4.4.6. Tests zur Anpassungsgüte
Wenn wir die Güte unserer Schätzungen
beurteilen wollen, können wir entsprechende Hypothesentests verwenden.
Als Hypothese bietet sich an, jeweils die
Nullhypothesen
H0 : 0 = 0; H1 : 0 6= 0
und
H0 : 1 = 0; H1 : 1 6= 0
zu testen.
Seite 247
Ÿ4.4
Werden
die
Hypothesen
abgelehnt,
so
spricht das für unser lineares Modell. Anderenfalls muss ggf. über ein anderes Modell
nachgedacht werden.
Wir wissen bereits, dass unsere Schätzer
unter den Standardannahmen normalverteilt sind, d.h. unter der Hypothese
bzw.
1 = 0 gilt
 s
b0 N 0; 2
res
0 = 0
1 + x 2  ;
n nb2 (x )

2
b1 N 0; nb2 (x ) :
s
!
res
Dementsprechend können wir die ersten
beiden Hypothesen mit dem uns bekannten
t-Test testen (s. Abschnitt (2)).
Seite 248
Ÿ4.4
Zum testen der Hypothese
i = 0 ( i 2
0; 1) verwenden wird die Teststatistik
T=
bi
b(bi )
und lehnen ab, wenn
jT j > tn
2;1 =2
ist.
Als p-Wert ergibt sich also
p = P (jT j > jt j) = 2 (1 Fn 2 (jt j)) ;
mit der Verteilungsfunktion
Verteilung mit
Fn 2
der t-
(n 2) Freiheitsgraden.
Seite 249
Ÿ4.4
4.4.7. Beispielregression mit R
Beispiel B4.22)B4 :19 : Wir betrachten wieder die Jahresmitteltemperaturen in Deutschland für den Zeitraum 1970-2016 (Quelle:
DWD):
> tb = read . table ( " DWD . txt " , sep = " ; " , dec = "
+ . " , header =T , fill = T )
> tb = tb [90:136 ,]
> x = tb $ Jahr -1970
> t = tb $ Deutschland
> x
[1] 0 1 2 3 4 5 6 7 8 9 10
+ 11 12 13 14 15 16 17 18 19 20 21
+ 22 23 24
[26] 25 26 27 28 29 30 31 32 33 34 35
+ 36 37 38 39 40 41 42 43 44 45 46
> t
[1] 7.7 8.4 7.8 8.2 8.8 8.9 8.5
+
8.7 7.8 7.7 7.6 8.2 8.9
+ 9.0 8.0
[16] 7.4 7.9 7.4 9.1 9.5 9.5 8.3
+
9.4 8.5 9.7 8.9 7.2 8.9
+ 9.1 9.5
[31] 9.9 9.0 9.6 9.4 8.9 9.0 9.5
+
9.9 9.5 9.2 7.8 9.6 9.1
+ 8.7 10.3
[46] 9.9 9.5
> plot (x ,t , col = col , pch =20 , cex =1.4 , ylab =
+ " Jahresmittel " )
Seite 250
Ÿ4.4
> cor (x , t )
[1] 0.5895415
> lin = lm ( t ~ x )
> abline ( lin , col = " red " )
> lin
Call :
lm ( formula = t ~ x )
Coefficients :
( Intercept )
8.01729
x
0.03375
Seite 251
Ÿ4.4
> plot (x , lin $ residuals , col = col , pch =20 ,
+ cex =1.4 , ylab = " Residuen " )
> abline ( h =0 , col = " red " )
> mean ( lin $ residuals )
[1] -2.406021 e -17
> sd ( lin $ residuals )
[1] 0.6340938
> summary ( lin $ residuals )
Min . 1 st Qu .
Median
+ rd Qu .
Max .
-1.69500 -0.32610 0.08145
+ 0.49010 0.87260
Mean
3
0.00000
> par ( mar = c (2 ,4 ,1 ,1) , mfrow = c (1 ,2) )
> plot ( density ( lin $ residuals ) , main = " " ,
+ lwd =2 , col = " red " )
> qqnorm ( lin $ residuals , pch =16 , main = " " )
> qqline ( lin $ residuals , col = " red " , lwd =2)
Seite 252
Ÿ4.4
> summary ( lin )
Call :
lm ( formula = t ~ x )
Residuals :
Min
1Q
Median
+
Max
-1.69488 -0.32611 0.08145
+ 0.87263
3Q
0.49014
Coefficients :
Estimate Std . Error t value
+ Pr ( >| t |)
( Intercept ) 8.017287
0.184083 43.553
+
< 2e -16 * * *
x
0.033753
0.006894
4.896
+
1.3 e -05 * * *
--Signif . codes : 0 ` * * * ` 0.001 ` * * ` 0.01
+ ` * ` 0.05 ` . ` 0.1 ` ` 1
Residual standard error : 0.6411 on 45
+ degrees of freedom
Multiple R - squared : 0.3476 ,
+ Adjusted R - squared : 0.3331
F - statistic : 23.97 on 1 and 45 DF , p + value : 1.299 e -05
Seite 253
Ÿ0.0
> par ( mfrow = c (2 ,3) , mar = c (3 ,3 ,3 ,3) )
> for ( i in 1:6) plot ( lin , which = i )
Seite 254
Ÿ1.1
A.
Übungsaufgaben
A.1. Aufgaben
Übung 1
Aufgabe 1:
Es sei
x = (6; 1; 3; 4; 1).
rechnen Sie:
a)
b)
1 P5 x
5 k =1 k
P5
l =1 (xl
c)
3)2
d)
P5
i =1 i
Q5
j =1 (
Aufgabe 2: Die Gauÿklammer
Be-
x6 i
1)xj
bx c ist als die
x
ist, deniert. Es sei n = 8. Geben Sie bn c
für = 0:1; 0:4; 0:7 an.
gröÿte ganze Zahl, die kleiner oder gleich
Aufgabe 3: Berechnen Sie
6.
2
Aufgabe 4: Gelten die folgenden Rechenregeln?
Seite 255
Ÿ1.1
a)
(x y )b = x b y b
b)
(x + y )b = x b +
f)
c)
e (x ) = (e x )2
g)
d)
x 2 = jx j
e)
yb
2
p
log(x + y ) =
h)
log(x ) + log(y )
log(x y ) =
log(x ) log(y )
log(x y ) =
log(x ) + log(y )
Pn
a
=
Pk =1 k
n 1
k =0 ak +1
Aufgabe 5: Vereinfachen Sie:
a)
b)
3a 3b 3c
a3 b 3 c 3
Aufgabe 6:
Skizzieren Sie die folgenden
Funktionen:
a)
f (x ) = 2x 3
b)
f (x ) = log(x )
c)
f (x ) = e x
d)
f (x ) = e
x
e)
f (x ) = e
f)
f (x ) = e (x 1)
g)
f (x ) = e
x
2
2
x
(
2
2)
4
Seite 256
Ÿ1.1
Übung 2
Aufgabe 7: Im Rahmen einer Wahlumfrage
wird für 700 am Telefon Befragte das Alter
und die bevorzugte Partei (A,B,C oder D) ermittelt. Geben Sie ein passendes
an und
beschreiben Sie die Merkmale mathematisch
durch Angabe der Merkmalsausprägungen.
Aufgabe 8: Geben Sie für das Beispiel B1.1
eine Tabelle an, die die relativen und absoluten Häugkeiten, sowie die kumulativen relativen und kumulativen absoluten Häugkeiten
enthält.
Aufgabe 9:
Warum gelten die Gleichungen
2.12.3?
Aufgabe 10: Geben Sie jeweils ein weiteres
Beispiel für die besprochenen vier Merkmalsskalen an.
Aufgabe 11: Auf der Straÿe werden 20 erwachsene Passanten im Rahmen einer Umfrage befragt. Eines der erfassten Merkmale ist
Seite 257
Ÿ1.1
die Kinderzahl
K.
Folgende Beobachtungen
werden notiert:
1; 2; 0; 0; 2; 0; 0; 2; 1; 0; 3; 1; 0; 0; 0; 1; 1; 1; 0; 1
a) Geben Sie die Menge der Merkmalsausprägungen für das Merkmal
K an.
b) Stellen Sie eine Tabelle auf, die die relativen und absoluten Häugkeiten, sowie
die kumulativen relativen und kumulativen absoluten Häugkeiten enthält.
c) Zeichnen
Sie
die
empirische
Vertei-
lungsfunktion.
Übung 3
Aufgabe 12:
a) Berechnen Sie das arithmetische Mittel
der folgenden drei Datenreihen.
(i) 4, 6, 9, 10, 13, 18
50
(ii) 0, 2, 2, 3, 3,
(iii) 1, 2, 3, 17, 18, 19
Seite 258
Ÿ1.1
b) Worin unterscheiden sich die Datensätze hinsichtlich der Lage der Datenwerte
in Bezug auf ihren Mittelwert?
Aufgabe 13:
Zeichnen Sie ein Histogramm
für das Beispiel B2.20.
Aufgabe 14: Für 200 Hotels in Sachsen werden die monatlichen Übernachtungszahlen in
klassierter Form betrachtet:
Klasse:
]Hotels:
0-100 100-500 500-2000 2000-5000
20
90
40
50
a) Zeichnen Sie ein Histogramm.
b) Zeichnen Sie ein Diagramm, das die zugehörige empirische Dichte zeigt.
c) Berechnen Sie das arithmetische Mittel
für die klassiert vorliegenden Übernachtungszahlen.
Aufgabe 15:
Wann wird das arithmetische
Mittel bei Hinzunahme eines weiteren Datenpunktes groÿer? Argumentieren Sie unter Zuhilfenahme von Gleichung (2.5).
Seite 259
Ÿ1.1
Aufgabe 16: Betrachten Sie die Daten aus
Aufgabe 11.
a) Zeichnen Sie ein Balkendiagramm und
ein Kreisdiagramm.
b) Berechnen Sie das arithmetische Mittel
der Kinderzahl.
c) Geben Sie die Ordnungsstatistik an.
d) Berechnen Sie den Median.
e) Berechnen Sie das
für
= 0; 1.
-getrimmte Mittel
f ) Geben Sie das obere Quartil an.
Aufgabe 17:
Zeigen Sie, dass die Formel
ax + b = ax + b für beliebige Zahlen a; b 2 R
gilt (Linearität des arithmetischen Mittels).
Übung 4
Aufgabe 18: Auf einer Insel werden drei Jahre lang Erdbeben und ihre Stärke registriert.
Seite 260
Ÿ1.1
Dabei werden folgende Jahresmittelwerte und
Varianzen beobachtet.
Jahr
] Beben x
Var
(x )
2012
6
2
1
2013
3
4
4
2014
7
3
2
Berechnen Sie den gepoolten Mittelwert und
die gepoolte Varianz der Erdbebenstärken.
Aufgabe 19: Betrachten Sie die Daten aus
dem Beispiel B1.1.
a) Berechnen
Sie
die
Varianz
und
die
Standardabweichung des beobachteten
Merkmals Augenzahl.
b) Wieviele Daten liegen im Intervall
b (x ); x + b (x )]?
[x
c) Berechnen Sie den Median, die Quartile
und den IQR.
Aufgabe 20: Entwerfen Sie eine Stichprobe
von
n = 6 Daten mit folgenden Anforderun-
gen:
Seite 261
Ÿ1.1
a)
x = 0,
c)
b)
x = 5, b (x ) =
d)
1,
Aufgabe 21:
xe:25 =
xe:75 = 4
3,
xe = 7, Rx =
10.
Gegeben seien die folgenden
Schlusskurse des DAX an sieben aufeinander
folgenden Tagen.
Tag
2016-10-26
2016-10-25
2016-10-24
2016-10-21
2016-10-20
a) Berechnen
Sie
Schlusskurs
10710
10757
10761
10711
10701
die
Stichprobenvari-
anz und die Stichprobenstandardabweichung der Schlusskurse.
b) Geben Die die Spannweite, den IQR,
sowie den Variationskoezienten an.
c) Berechnen Sie den MAD.
Seite 262
Ÿ1.1
Übung 5
Aufgabe 22:
Sind alle Werte in einer Kon-
tingenztafel eindeutig bestimmt, wenn nur die
absoluten Randhäugkeiten angegeben sind?
Aufgabe 23: Geben Sie ktive absolute Häugkeiten für eine
3 2-Kontingenztabelle für
zwei unabhängige Merkmale an.
Aufgabe 24:
Ein neues Produkt kommt in
drei Varianten I,II und III auf den Markt. Es
ergeben sich an einem Tag an drei verschiedenen Standorten A,B und C in Deutschland
folgende Verkaufszahlen:
a) Geben
I
II
III
A
8
8
4
B
10
20
5
C
22
32
11
Sie
die
relativen
Häugkeiten
und die Randhäugkeiten an.
b) Sind die beiden Merkmale Version und
Seite 263
Ÿ1.1
Standort unabhängig?
c) Berechnen Sie
2
und beide Varian-
ten des Pearsonschen Kontingenzkoefzienten.
d) Interpretieren Sie das Ergebnis.
Aufgabe 25:
fünf
gröÿten
In einem Land besitzen die
Städte
3 000 000,
1 000 000,
500 000, 250 000 und 250 000 Einwohner.
Zeichnen Sie eine Lorenz-Kurve und geben
Sie den Gini-Koezienten an.
Aufgabe 26:
Warum ist der gröÿtmögliche
Wert des Gini-Maÿes
n 1?
n
Übung 6
Aufgabe 27: 14 Tage lang werden die Verkaufszahlen für ein Buch in einer Buchhandlung notiert: 7, 11, 12, 8, 10, 9, 9, 8, 0, 6,
13, 18, 5 und 11. Zeichnen Sie einen Boxplot
für die Daten.
Aufgabe 28:
Für 6 Straÿen werden die
Durchschnittsgeschwindigkeit und die Anzahl
Seite 264
Ÿ1.1
der Unfälle in einem Jahr angegeben:
Geschw.:
50
60
100
70
50
40
Unfälle:
2
2
7
4
2
1
:
Geben Sie die für die beiden Merkmale die
empirische Kovarianz und den Korrelationskoezienten an un interpretieren Sie das Resultat.
Aufgabe 29:
An zwei Hochschulen setzt
man unterschiedliche Benotungssysteme ein.
Während die Hochschule A die Benotungsskala
I ! II ! III ! IV
verwendet, mit
als bester Note, ist an der Hochschule
Skala
I
B die
a ! b ! c , mit a als bester Note, in
Gebrauch.
Für 20 Studierende, die von A nach B wechselten, wird die letzte Note an der Hochschule
A mit der ersten Note an der Hochschule B
verglichen:
A
B
A
B
I
a
II
a
I I I I I I II II II
a a a a b b a a a
II II III III III III IV IV
b b a b b c b b
IV
c
Berechnen Sie den Rangkorrelationskoezi-
Seite 265
Ÿ1.1
enten und interpretieren Sie das Ergebnis.
Übung 7
Aufgabe 30:
Ein Würfel wird dreimal ge-
worfen. Bestimmen Sie die Wahrscheinlichkeit,. . .
a) . . . , dass keine Sechs fällt,
b) . . . , dass die Augenzahlen gleich sind,
c) . . . , dass die Augensumme 8 ist,
d) . . . , dass die Augensumme 8 ist, gegeben, dass keine Sechs fällt.
e) . . . , dass genau zwei Sechsen fallen.
Aufgabe 31:
In einem Raum benden sich
12 Stühle. Fünf Personen kommen in den
Raum, wählen sich zufällig einen Stuhl aus
und setzen sich.
a) Wie
groÿ
ist
die
Wahrscheinlichkeit,
dass fünf vorher ausgewählte Stühle besetzt sind?
Seite 266
Ÿ1.1
b) Wie
groÿ
ist
die
Wahrscheinlichkeit,
dass die vorher ausgewählten Stühle mit
vorher genau benannten Personen besetzt sind?
Aufgabe 32:
Eine Zufallsvariable
X
nimmt
die Werte -2,-1,0,1 und 2 mit den Wahrscheinlichkeiten
0.2,0.1,0.4,0.1,0.2
an.
Zeichnen Sie die Wahrscheinlichkeitsfunktion
und
Var
berechnen
Sie
P
(X 0:7),
(X ) und E (jX j). Übung 8
Aufgabe 33: Die Zufallsvariable
E
(X ),
X beschrei-
be die Dauer zwischen zwei aufeinanderfolgenden Ankünften von Kunden in einer Bank
(Einheit: Minuten).
funktion
F (x ) =
X besitze die Verteilungs-
0
1 e
(
x=2
;x < 0
;x 0
a) Zeichnen Sie die Verteilungsfunktion.
b) Geben Sie die zugehörige Dichtefunktion an und zeichnen Sie sie.
Seite 267
Ÿ1.1
c) Wie
groÿ
ist
die
Wahrscheinlichkeit,
dass zwischen zwei Kundenankünften
weniger als fünf Minuten vergehen?
d) Ein Kunde erreicht die Bank um 12 Uhr.
Wie
groÿ
ist
die
Wahrscheinlichkeit,
dass der nächste Kunde nach 12:01
Uhr, aber vor 12:03 ankommt?
e) Berechnen Sie den Erwartungswert für
die Zwischenankunftszeiten.
f ) Mit welcher Wahrscheinlichkeit ist eine Zwischenankunftszeit länger als der
oben berechnete Erwartungswert?
Aufgabe 34: Angenommen zehn Prozent aller Autos seien weiÿ, 60 Prozent schwarz und
30 Prozent besäÿen eine andere Lackierung.
a) Auf einem Parkplatz stehen 30 Autos.
Wie groÿ ist der Erwartungswert der
Anzahl weiÿer Autos?
b) Wie
groÿ
ist
die
Wahrscheinlichkeit,
Seite 268
Ÿ1.1
dass unter den Wagen auf dem Parkplatz weniger als drei weiÿe Autos sind?
c) Wie
dass
groÿ
an
nicht-weiÿe
ist
die
einer
Wahrscheinlichkeit,
Kreuzung
Autos
erst
15
vorbeifahren,
be-
vor schlieÿlich ein weiÿes Auto vorbeikommt?
d) Wie lange muss man im Durchschnitt
auf ein weiÿes Auto warten?
e) Wie groÿ ist die Wahrscheinlichkeit unter zehn Autos zwei weiÿe, fünf schwarze und drei andersfarbige Wagen zu nden?
Seite 269
Ÿ1.1
Übung 9
Aufgabe 35:
Angenommen
X
besitze eine
Standardnormalverteilung. Berechnen Sie die
folgenden Wahrscheinlichkeiten.
(X 1),
( 1 X 1),
P (X > 2),
P (X > 2 oder X <
2).
a) P
b) P
c)
d)
Welche Verteilung besitzen die folgenden Zufallsvariablen?
e)
f)
g)
X=10,
3 X + 2,
5 (X 6).
Aufgabe 36:
Der jährliche Gewinn
X
einer
Firma sei normalverteilt mit Erwartungswert
70
Mill. Euro und Standardabweichung
12
Mill. Euro.
Seite 270
Ÿ1.1
Berechnen Sie die Wahrscheinlichkeit, dass
der Gewinn
a) gröÿer als 80 Millionen Euro ist,
b) kleiner als 50 Millionen Euro ist,
c) zwischen 50 und 80 Millionen liegt.
Eine zweite Firma macht
Y N (40; 5) Mil-
lionen Euro Gewinn.
d) Wie
groÿ
ist
die
Wahrscheinlichkeit,
dass die Summe der Gewinne beider
Firmen
die
100-Millionen-Euro-Marke
überschreitet?
X N (; )
Aufgabe 37: Es gelte
. Wie
groÿ sind folgende Wahrscheinlichkeiten?
a) P (X
> + ),
b) P (X ),
c) P (X
2 [ ; + ]),
x gilt
P (X > + x ) = 0:1,
P (X x) = 0:1,
P (X 2 [
x; + x]) = 0:9 ?
Für welchen Wert
g)
h)
i)
Seite 271
Ÿ1.1
Übung 10
Aufgabe 38: Das Einkommen von Arbeitern
in einem Land sei normalverteilt mit
und
= 0:8 (tsd.Euro monatlich).
a) Wie
groÿ
ist
die
= 3:5
Wahrscheinlichkeit,
dass ein Arbeiter mehr 3500, aber weniger als 5000 Euro verdient?
b) Ein Arbeiter sagt, 80% seiner Kollegen
verdienten mehr als er. Wieviel zusätzliches Gehalt müsste er bekommen, damit nur noch 50% der Kollegen mehr
verdienten?
c) Wie groÿ ist der Erwartungswert und
die Standardabweichung des arithmetischen Mittels von 100 zufällig ausgewählten Arbeitern?
Aufgabe 39: Ein Würfel werde 120 Mal gewürfelt.
a) Geben Sie ein genähertes Intervall an, in
dem die Augensumme mit 90% Wahrscheinlichkeit liegt.
Seite 272
Ÿ1.1
b) Wir betrachten das konkrete Beispiel
B1.1. Geben Sie Schätzer für den Erwartungswert und die Varianz der Augenzahlen an.
c) Schätzen Sie die Standardabweichung
des Schätzers für den Erwartungswert.
Aufgabe 40:
Wir betrachten das Beispiel
B4.1. Stellen Sie einen geeigneten Schätzer
auf und überlegen Sie, ob der Schätzer erwartungstreu und konsistent ist.
Übung 11
Aufgabe 41 : Eine Firma verkauft in 6 Monaten 18,17,19,10,14 und 15 Fahrzeuge. Bestimmen Sie
a) das
arithmeti-
c) den Median,
sche Mittel,
d) das
0:2-Quantil
und
b) die
Stichpro-
benvarianz,
e) den IQR.
Seite 273
Ÿ1.1
Aufgabe 42: Geben Sie für die Daten in Aufgabe 41 ein 99%-Kondenzintervall für den
Erwartungswert und die Varianz an. Gehen
Sie von normalverteilten Daten aus.
Aufgabe 43: Berechnen Sie für das Beispiel
B1.1 ein genähertes
95%-Kondenzintervall
für den Erwartungswert und für die Varianz.
Aufgabe 44: Ein Spieler gewinnt einen Euro,
wenn er bei einem Münzwurf die richtige Seite
vorhersagt, ansonsten verliert er zwei Euro.
Der Spieler startet mit einem Guthaben von
40 Euro.
a) Geben Sie ein genähertes Intervall an,
in dem das verbliebene Guthaben des
Spielers
nach
100
Spielen
mit
99%
Wahrscheinlichkeit liegt.
b) Geben Sie eine genäherte Wahrscheinlichkeit dafür an, dann noch ein positives Guthaben aufzuweisen.
Seite 274
Ÿ1.1
Übung 12
Aufgabe 45 : Für zwei Studiengänge A und
B werden 2016 an einer Hochschule insgesamt 1000 Studenten eingeschrieben. Davon
entfallen auf die verschiedenen Studiengänge
und Geschlechter:
m
w
A
250
450
B
100
200
a) Sind die beiden Merkmale Studiengang
(=X) und Geschlecht (=Y) unabhängig?
b) Berechnen Sie den Pearsonschen Kontingenzkoezienten.
c) Interpretieren Sie das Ergebnis.
Aufgabe
46:
dierenden
in
sei
ben
Die
der
normalverteilt.
sich
Anzahl
Vorlesung
In
folgende
10
der
Stu-
Statistik
Jahren
erge-
Studierendenzahlen:
88; 75; 72; 87; 99; 80; 70; 59; 69; 84:
Seite 275
Ÿ1.1
a) Geben
Sie
Schätzer
für
den
Erwar-
tungswert und die Standardabweichung
an.
b) Die wahre Standardabweichung sei von
nun an
= 10.
Geben Sie ein 90%-
Kondenzintervall für den Erwartungswert an.
c) Jemand stellt die Hypothese auf, dass
= 80
ist. Diese Hypothese wird zu-
gunsten der Alternative
< 80
abge-
b < D ist. Bestimmen Sie
die Konstante D so, dass der Fehler er-
lehnt, wenn
ster Art kleiner als 5% wird.
d) Der wahre Erwartungswert sei in der
Tat
= 80.
Wie groÿ ist die Wahr-
scheinlichkeit, dass ein Raum mit 90
Sitzplätzen zu klein für die Vorlesung
ist?
Seite 276
Ÿ1.1
Übung 13
Aufgabe 47 : Die Körpergröÿe der Bevölkerung sei in Deutschland normalverteilt mit
Erwartungswert
abweichung
= 170 cm und Standard-
= 10 cm.
a) Wie groÿ ist die Wahrscheinlichkeit dafür, dass eine zufällig ausgewählten Person über 190 cm groÿ ist?
b) Wie groÿ ist die Wahrscheinlichkeit unter 50 zufällig ausgewählten Probanden
weniger als zwei mit einer Körpergröÿe
über 190 cm zu nden?
c) Für einen Film wird ein Statist mit einer Gröÿe zwischen 190cm und 195cm
gesucht. Wie viele zufällig ausgewählte
Kandidaten muss man im Durchschnitt
einladen, bis ein passender Kandidat gefunden ist?
Seite 277
Ÿ1.1
Aufgabe 48: Gegeben seien folgende Daten
aus einer normalverteilten Grundgesamtheit:
12; 6; 8; 15; 14; 10; 25; 11; 10; 9:
a) Testen Sie zum Niveau
10% die Hypo-
H0 : = 11 gegen die Alternative
H1 : > 11.
these
b) Testen Sie zum Niveau
2
these H0 : 2
tive 6= 30.
10% die Hypo-
= 30 gegen die Alterna-
Für eine zweite normalverteilte Stichprobe
m = 10 ergibt sich ein arithmetisches Mittel y = 10 und eine Stichprob2 (y ) = 25.
benvarianz von vom Umfang
c) Testen Sie zum Niveau
10% die Hypo-
these gleicher Erwartungswerte.
d) Testen Sie zum Niveau
10% die Hypo-
these gleicher Varianzen.
Aufgabe 49
:
Der Preis
W
eines Pro-
duktes sei normalverteilt mit Erwartungswert
= 120 Euro und Varianz 2 = 100 Euro.
Seite 278
Ÿ1.1
Bestimmen Sie die Wahrscheinlichkeiten für
folgende Ereignisse:
a)
W > 120
b)
W < 120
c)
W > 130
d)
W < 130
e)
f)
Übung 14
Aufgabe 50
:
Der Preis
110 < W <
130
W > 140
W < 100
W
oder
eines Pro-
duktes sei normalverteilt mit Erwartungswert
= 120 Euro und Varianz 2 = 100 Euro.
Geben Sie im folgenden jeweils eine passende
Zahl z an.
a) P (W > z ) = 0:1,
c) P (W < z ) = 0:99,
d) P (jW 120j > z ) =
b) P (W < z ) = 0:05,
0:2.
Aufgabe 51:
Angeblich wählen 30% aller
Wähler eines Landes die Partei A, 20% Partei
B, 20% Partei C und 15% die Partei D (die
übrigen Wähler sind Nichtwähler). Eine Umfrage mit 80 Befragten ergibt folgende Häugkeiten:
Seite 279
Ÿ1.1
A
B
C
D
N
20
14
11
19
16
:
Testen Sie mit einem Signikanztest zum Niveau 10%, ob die obige Aussage plausibel ist.
Aufgabe 52: An vier Standorten A,B,C und
D einer Lebensmittelkette werden drei verschiedene Varianten (I,II,III) eines Nahrungsmittels verkauft. An einem Wochenende ergeben sich folgende Verkaufszahlen.
A
B
C
D
I
10
34
40
25
II
25
29
37
39
III
27
25
26
40
a) Testen Sie zum Niveau 5% die Unabhängigkeit der beiden Merkmale Standort und Variante.
b) Testen Sie zum Niveau 10% die Hypothese, die drei Nahrungsmittelvarianten
würden im Verhältnis 3:5:4 verkauft.
Seite 280
Ÿ1.1
Aufgabe 53:
Statistiknote
X
Für 10 Studierende wird die
und die Mathematiknote
Y
verglichen (Noten: 0 bis 15).
xi 3 7 12 11 15 14 11 13 5 7
yi 5 9 11 7 11 12 11 13 6 8
Zeichnen Sie ein Streudiagramm.
Übung 15
Aufgabe 54:
Bei
einem
Hypothesentest
zum Signikanzniveau 10% der Nullhypothe-
H0 : = 0 gegen die Alternative H1 : <
0 wird für die Teststatistik T = 8 berechse
net. Was genau bedeutet der p-Wert in Höhe
von
0:07?
Seite 281
Ÿ1.2
Aufgabe 55 : (s. Aufgabe 53) Für 10 Studierende wird die Statistiknote
thematiknote
Y
X und die Ma-
verglichen (Noten: 0 bis 15).
xi 3 7 12 11 15 14 11 13 5 7
yi 5 9 11 7 11 12 11 13 6 8
a) Berechnen Sie die Schätzer für die Regressionskoezienten.
b) Geben Sie auch die Residuen an.
Aufgabe 56 :
Angenommen die Grundge-
samtheit in Aufgabe 55 besäÿe eine Normalverteilung.
a) Geben Sie für die
x -Daten
ein 99%-
Kondenzintervall für den Erwartungswert an.
x -Daten zum Signikanzniveau 10% die Hypothese H0 :
= 12 gegen H1 : > 12.
b) Testen Sie für die
Seite 282
Ÿ1.2
A.2. Musterlösungen
Lösung 41:
a) x = 18+17+6 :::+15
= 15:5
b) Zwei mögliche Rechenwege:
6 182 + 172 + : : : + 152 15:52 = 10:7
5
6
2 + : : : + (15 15:5)2
(18
15
:
5)
b2 (x ) =
= 10:7
5
b2 (x ) =
c) Ordnungsstatistik: 10, 14, 15, 17, 18, 19
x(3) + x(4)
e
x=
2
= 16:
d) x(0:2) = x(b1:2c+1) = x(2) = 14
e)
x(0:25) = x(b1:5c+1) = x(2) = 14
x(0:75) = x(b4:5c+1) = x(5) = 18
Lösung 45:
Es ergeben sich folgende Randhäugkeiten:
m
w
A
250
450
700
B
100
200
300
350
650
1000
Seite 283
Ÿ1.2
a) Nein, denn es ist z.B.
h11 = 0:25 6= 0:35 0:7 = 0:245 = h1 h1
b) Wir berechnen zunächst den Chi-QuadratKoezienten:
nij2  
2 = n 
1 = 0:5232862
n n
i =1 j =1 i j

k X
l
X


Damit ergibt sich
C=
s
2
2 + n = 0:02286947
und dann der Pearsonsche Kontingenzkoezient:
C =
s
minfk; l g
2
minfk; l g 1 C = 1 0:02286947 = 0:03
r
c) Da C sehr nahe bei 0 liegt, können wir von
einer weitgehenden Unabhängigkeit der beiden
Merkmale ausgehen.
Lösung 47:
a) Es sei
X die Körpergröÿe einer zufällig ausgeSeite 284
Ÿ1.2
wählten Person. Dann ist
P (X
190 170 10
10
= P (X > 2) = 1 (2) = 0:0228
> 190) = P
X 170
>
b) Es sei N die Anzahl von Kandidaten mit einer
Körpergröÿe über 190cm. N besitzt eine Binomialverteilung mit p = 0:0228 und n = 50. Es
gilt also
P (N
< 2) = P (N = 0) + P (N = 1)
0 (1 p)50 + 50 p1 (1 p)49
= 50
p
0
1
= 0:6847559:
c) Es sei M die Anzahl der Kandidaten, die eingeladen werden müssen. Dann ist M geometrisch
verteilt mit Erfolgswahrscheinlichkeit
q =P (190 < X < 195)
= P 190 10 170 < X < 195 10 170
= (2:5) (2) = 0:01654047
Es gilt (s. Seite 235) E (M ) = 1=q = 60:45779.
Lösung 49:
a) P (W > 120)
verteilung)
= 0:5
(Symmetrie der NormalSeite 285
Ÿ1.2
b) P (W < 120)
verteilung)
= 0:5
e)
f)
P W 10120
> 13010120
=
(1) = 0:1586553
P (W < 130) = 1 P (W > 130) = 1
0:158655 = 0:8413447
P (110 < W < 130) = P ( 1 < W < 1) =
(1) ( 1) = 0:6826895
P (W > 140 oder W < 100) = P (W > 140)+
P (W < 100) = P (W > 2) + P (W < 2) =
2(1 (2)) = 0:04550026
c) P (W > 130) =
P (W > 1) = 1
d)
(Symmetrie der Normal
Seite 286
Ÿ1.2
Lösung 50:
a)
P (W
> z ) = 0:1
z 120
, P W > 10 = 0:1 ,
z 120
, z = 120 + z0:9 10 = 132:8155:
b)
c)
10
= z0:9
120
=0
P (W < z ) = 0:05 ,
10
, z 10120 = z0:05 , z = 120 + z0:05 10 = 103
z
P W <
P (W
< z ) = 0:99
, P W < z 10120 = 0:99
, z 10120 = z0:99
, z = 120 + z0:99 10 =
d)
,
,
P (jW 120j > z ) = 0:2
P (W < 120 z ) + P (W
> 120 + z ) = 0:2
z
z
P W <
+
P W >
10 10 = 0:2 z
z
, 2P W > 10
= 0:2 , P W > 10
= 0:1
z
, 10
= z0:9 = 1:281552
, z = 12:81552:
Seite 287
Ÿ2.1
B.
Anhang
B.1. Kleine Formelsammlung
B.1.1. Notationen (Deskriptive Statistik)
x
b (x ); b
2
b (x ); b
2
2
2
b (x ); b
b(x ); b
sxy
rxy
Arithmetisches Mittel
Empirische Varianz (früher Var(x))
\)
Stichprobenvarianz (früher Var(x)
Empirische Standardabweichung (früher (x ))
Stichprobenstandardabweichung
Empirische Kovarianz
Empirischer Korrelationskoezient
B.1.2. Wahrscheinlichkeitstheorie
Seite 288
Ÿ2.1
P A = 1 P (A)
P (A [ B) = P (A) + P (B) P (A \ B)
P (A [ B) = P (A) + P (B)
falls A; B unvereinbar
P (A \ B) = P (A) P (B)
falls A; B unabhängig
P (AjB) = P (A \ B) =P (B)
P (AjB) = P (A)
falls A; B unabhängig
E (aX + b) = aE (X ) + b a; b 2 R
E (X + Y ) = E (X ) + E (Y ) X; Y nicht notw. unabhängig
E (X Y ) = E (X ) E (Y ) falls X; Y unkorelliert
E Pni Xi = n
falls E (X ) = E (X ) = : : : = E X =
falls E (X ) = E (X ) = : : : = =1
1
1
1
1
Seite 289
Ÿ2.1
Var (X ) = E (X E (X )) = E
p
b (X ) = Var (X )
Var (aX + b) = a Var (X )
2
X
2
E (X )
2
a; b 2 R
2
a; b 2 R
b (aX + b) = jaj b (X )
Var (X + Y ) = Var (X ) + Var (Y ) + 2Cov(X; Y )
p
b (X + Y ) = b (X ) + b (Y ) + 2Cov(X; Y )
Var (X + Y ) = Var (X ) + Var (Y )
falls X; Y unk
p
falls X; Y una
b (X + Y ) = b (X ) + b (Y )
2
2
2
2
B.1.3. Schätzer und Kondenzintervalle
Schätzer für..
b = X
b
KI für..
KI
h
h
2
h
2
b z
b t
1
1
2
=
Pn
i =1 (Xi
n
1
X )2
1
+ z =
pbn ; b+t
b
=2 pn ; =2;n
Eigenschaften
erwartungstreu, konsistent
erwartungstreu, konsistent
i
nb2
nb2
n;1 =2 ; n;=2
h
i
b2
b2
(n 1)
(n 1)
n 1;1 =2 ; n 1;=2
1
1
2
pn
i
=2;n
1
pbn
i
Voraussetzung
Xi normalvert
Xi normalvert
Xi normalvert
Xi normalvert
Seite 290
Ÿ3.1
C.
Hinweise zur Klausur
C.1. Hilfsmittel
Als Hilfsmittel sind zugelassen:
Taschenrechner
Eine
gedruckte
oder
handschriftliche
Formelsammlung
Das komplette Vorlesungsskript, auch
mit
handschriftlichen
Notizen,
aller-
dings nicht mit Notizen zu den Lösungen, die wir in der Übung erarbeitet haben.
Generell nicht zugelassen sind Aufzeichnungen aus den Übungen.
Seite 291
Ÿ3.3
C.2. Welche Abschnitte und Gegenstände werden nicht abgefragt?
Kombinatorik (3.2)
Schätzen ohne Zurücklegen (4.2.5)
Beispielregression mit R (4.4.7)
Der Satz von Moivre-Laplace (S. 187)
Die Gütefunktion.
Im Kapitel Einfache lineare Regression (4.4): Testverfahren und Kondenzintervalle.
C.3. Grundsätzliches
Lesen
Sie
sich
die
Aufgaben
genau
durch!
Beantworten Sie nur die Aufgabenstellung!
Geben Sie den Rechenweg an!
Sie können in 120 Minuten insgesamt
120 Punkte erreichen (also maximal 1
Seite 292
Ÿ3.3
Punkt/Minute). Als bestanden gilt eine
Klausur bei einer erreichten Punktzahl
60.
Folgefehler nur dann negativ bewertet,
wenn sich aus dem begangenen Fehler
eine deutliche Vereinfachung der übrigen Aufgaben ergibt.
Seite 293
Herunterladen