Statistik für Betriebswirtschaft und International Management

Werbung
Statistik
für Betriebswirtschaft und International Management
Sommersemester 2014
Prof. Dr. Stefan Etschberger
Statistik
Etschberger - SS2014
Outline
1 Statistik: Einführung
4 Induktive Statistik
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der Datenerhebung
R und RStudio
2 Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3 Wahrscheinlichkeitstheorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und Verteilungen
Verteilungsparameter
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5 Datenanalyse Einleitung
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
2
Statistik
Etschberger - SS2014
Material zur Vorlesung
Kursmaterial:
2 Aufgabensätze:
Einer zu allgemeneiner Statistik als pdf,
einer zu R in moodle
1. Einführung
Handout der Folien und Aufgaben
2. Deskriptive Statistik
Alle Folien inklusive Anmerkungen
(nach der jeweiligen Vorlesung)
3. W-Theorie
4. Induktive Statistik
Beispieldaten
5. Datenanalyse
Alle Auswertungen als R-Datei
6. Repräsentation
7. Klassifikation
Literatur:
Bamberg, Günter, Franz Baur und Michael Krapp (2011). Statistik.
16. Aufl. München: Oldenbourg Verlag. ISBN: 3486702580.
Dalgaard, Peter (2002). Introductory Statistics with R. New York:
Springer.
Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (2009).
Statistik: Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg:
Springer. ISBN: 3642019382.
Dalgaard (2002)Fahrmeir u. a. (2009) Bamberg u. a. (2011)
3
Studiengang
Vorkenntnisse,
zusätzliches Interesse,
Tempo
International
Management
normal
Vorlesung
(ab 18.3.2014)
Statistik für IM
Prüfung
Klausur für IM
Mi ab 14.00
(90 Min., 6 Credits)
Betriebswirtschaft
höher
(WiMa mind. 2,3)
normal
Statistik Plus
Statistik für BW
Di ab 14.00
Zusatzklausur
(30 Min., 2 Credits
als Wahlfach)
Mi ab 14.00
Klausur für BW
(90 Min., 6 Credits)
Prüfung
Klausur:
Klausur am Ende des Semesters
Bearbeitungszeit: 90 Minuten
Eine Aufgabe zu Anwendung von R
Hilfsmittel:
Schreibzeug,
Taschenrechner, der nicht 70! berechnen kann,
ein Blatt (DIN-A4, vorne und hinten beschrieben) mit
handgeschriebenen Notizen (keine Kopien oder Ausdrucke),
Danach (optional): Für Teilnehmer der Statistik-Plus Vorlesung
noch eine 30-minütige Teilklausur über zusätzliche Inhalte
(2 Wahlfachcredits zusätzlich möglich;
Hilfsmittel TR und ein Blatt)
Datenbasis
Fragebogen
Umfrage Statistik Sommersemester 2014
Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus.
Ihr Alter (in Jahren)
Ihre Größe (in cm)
Ihr Geschlecht (m/w)
Wie alt ist
(bzw. wäre)
Ihr Vater heute?
Wie alt ist
(bzw. wäre)
Ihre Mutter heute?
Größe Ihres Vaters (cm)
Größe Ihrer Mutter (cm)
Wie viele Geschwister haben Sie?
Wunschfarbe
für Ihr nächstes Smartphone; mögliche
Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot
Ausgaben für Ihre mobile Kommunikation
(egal wer bezahlt hat) in den vergangenen 12 Monaten inkl. Hardware
(Smartphone, Zubehör), Software (Apps), Vertrag
Wie viele Paar Schuhe besitzen Sie?
Ausgaben für Ihre Schuhe
(egal wer bezahlt hat) in
den letzten 12 Monaten
Ihre Note in der Matheklausur
Mathe zufrieden?
Waren Sie mir Ihrer Leistung in
Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
1
Statistik: Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der Datenerhebung
R und RStudio
Statistik
Etschberger - SS2014
Zitate
Leonard Henry Courteney
(1832-1918):
„ There are three kinds of lies: lies,
damned lies and statistics.“
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Winston Curchill (1874-1965)
angeblich:
„ Ich glaube nur den Statistiken, die
ich selbst gefälscht habe.“
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Andrew Lang (1844-1912):
„ Wir benutzen die Statistik wie ein
Betrunkener einen Laternenpfahl:
Vor allem zur Stütze unseres
Standpunktes und weniger zum
Beleuchten eines Sachverhalts.“
Quellen: Wikimedia Commons
8
Statistik
Etschberger - SS2014
Bedeutungen des Begriffs Statistik
1. Einführung
Berühmte Leute zur Statistik
Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
Zusammenstellung
von Zahlen
Statistische
Methodenlehre
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Wahrscheinlichkeitstheorie
6. Repräsentation
Deskriptive
Statistik
7. Klassifikation
Induktive
Statistik
23
Statistik
Etschberger - SS2014
Einfaches Beispiel
Beispiel
12 Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km)
befragt.
Antworten: 4, 11, 1, 3, 5, 4, 20, 4, 6, 16, 10, 6
deskriptiv:
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
Durchschnittliche Entfernung: 7,5
Klassenbildung:
3. W-Theorie
4. Induktive Statistik
Klasse
Häufigkeit
[0; 5)
[5; 15)
[15; 30)
5
5
2
5. Datenanalyse
6. Repräsentation
7. Klassifikation
induktiv:
Schätze die mittlere Entfernung aller Beschäftigten.
Prüfe, ob die mittlere Entfernung geringer als 10 km ist.
24
Statistik
Etschberger - SS2014
Merkmale
Merkmalsträger: Untersuchte statistische Einheit
Merkmal: Interessierende Eigenschaft des Merkmalträgers
1. Einführung
Berühmte Leute zur Statistik
(Merkmals-)Ausprägung: Konkret beobachteter Wert des
Merkmals
Wie lügt man mit Statistik?
Grundgesamtheit: Menge aller relevanten Merkmalsträger
R und RStudio
Begriff Statistik
Grundbegriffe der
Datenerhebung
2. Deskriptive Statistik
Typen von Merkmalen:
a) qualitativ – quantitativ
· qualitativ: z.B. Geschlecht
· quantitativ: z.B. Schuhgröße
· Qualitative Merkmale sind quantifizierbar
(z.B.: weiblich 1, männlich 0)
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
b) diskret – stetig
· diskret: Abzählbar viele unterschiedliche Ausprägungen
· stetig: Alle Zwischenwerte realisierbar
25
Skalenniveaus
Statistik
Etschberger - SS2014
Nominalskala:
Zahlen haben nur Bezeichnungsfunktion
z.B. Artikelnummern
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Ordinalskala:
Grundbegriffe der
Datenerhebung
R und RStudio
zusätzlich Rangbildung möglich
z.B. Schulnoten
Differenzen sind aber nicht interpretierbar!
à Addition usw. ist unzulässig.
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Kardinalskala:
zusätzlich Differenzbildung sinnvoll
z.B. Gewinn
Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala,
Intervallskala
26
Statistik
Etschberger - SS2014
Skalendegression und Skalenprogression
Ziel der Skalierung: Gegebene Information angemessen abbilden,
möglichst ohne Über- bzw. Unterschätzungen
1. Einführung
Es gilt:
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundsätzlich können alle Merkmale nominal skaliert werden.
Grundbegriffe der
Datenerhebung
Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden.
R und RStudio
2. Deskriptive Statistik
Das nennt man Skalendegression. Dabei: Informationsverlust
3. W-Theorie
4. Induktive Statistik
Aber:
5. Datenanalyse
Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert
werden.
6. Repräsentation
7. Klassifikation
Ordinale Merkmale dürfen nicht metrisch skaliert werden.
Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr
Informationen in die Merkmale, als inhaltlich vertretbar.
(Gefahr der Fehlinterpretation)
27
Statistik
Etschberger - SS2014
Was ist R und warum soll man es benutzen?
R ist freie Software
1. Einführung
R ist sehr mächtig und weit verbreitet
in Wissenschaft und Industrie (sogar
von mehr Leuten benutzt als z.B. SPSS)
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
Ursprung von R: 1993 an der
Universität Auckland von Ross Ihaka
and Robert Gentleman entwickelt
R und RStudio
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Seitdem: Viele Leute haben R
verbessert mit tausenden von Paketen
für viele Anwendungen
Nachteil (auf den ersten Blick): Kein
point und click tool
5. Datenanalyse
6. Repräsentation
7. Klassifikation
source: http://goo.gl/axhGhh
Großer Vorteil (auf den zweiten Blick):
Kein point und click tool
graphics source: http://goo.gl/W70kms
28
Whas ist RStudio?
RStudio ist ein
Integrated Development
Environment (IDE)
um R leichter benutzen
zu können.
Statistik
Etschberger - SS2014
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
Gibt’s für OSX, Linux
und Windows
4. Induktive Statistik
Ist auch frei
5. Datenanalyse
Trotzdem: Sie müssen
Kommandos schreiben
6. Repräsentation
3. W-Theorie
7. Klassifikation
Aber: RStudio
unterstützt Sie dabei
Hausaufgabe:
Installieren Sie
RStudio von
RStudio.com
29
Erste Schritte
RStudio
Kennenlernen
Statistik
Etschberger - SS2014
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Code
Console
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
Workspace
3. W-Theorie
History
4. Induktive Statistik
5. Datenanalyse
Files
Plots
6. Repräsentation
7. Klassifikation
Packages
Help
AutoCompletion
Data Import
30
Daten einlesen und Struktur anschauen
# Arbeitsverzeichnis setzen (alternativ über Menü)
setwd("C:/ste/work/vorlesungen/2014SS_HSA_Statistik/Folien")
# Daten einlesen aus einer csv-Datei (Excel)
MyData = read.csv2(file="../Daten/Umfrage_HSA_2014_03.csv", header=TRUE)
Statistik
Etschberger - SS2014
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
# inspect structure of data
str(MyData)
## 'data.frame': 205 obs. of 14 variables:
## $ Alter
: int 21 20 19 20 20 24 20 27 23 21 ...
## $ Groesse
: int 173 164 172 168 169 185 170 165 184 178 ...
## $ Geschlecht : Factor w/ 2 levels "Frau","Mann": 1 1 1 1 1 2 1 1 2 2 ...
## $ AlterV
: int 54 57 49 45 43 54 49 53 52 55 ...
## $ AlterM
: int 51 57 58 49 42 52 53 53 48 55 ...
## $ GroesseV
: int 187 172 193 185 182 179 182 175 182 180 ...
## $ GroesseM
: int 170 166 162 164 164 163 172 165 175 168 ...
## $ Geschwister: int 1 0 3 3 5 2 2 1 2 1 ...
## $ Farbe
: Factor w/ 6 levels "blau","gelb",..: 6 6 4 4 6 4 3 6 4 6 ...
## $ AusgKomm
: num 156 450 240 35.8 450 250 100 300 450 1300 ...
## $ AnzSchuhe : int 17 22 15 15 22 8 20 10 3 7 ...
## $ AusgSchuhe : int 50 500 400 100 450 90 250 200 300 200 ...
## $ NoteMathe : num 5 1.7 2.3 2 2 4 NA 4 2.7 2.7 ...
## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: 1 4 4 4 4 2 1 1 3 3 ...
R und RStudio
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
31
Erste Zeilen der Datentabelle
Statistik
Etschberger - SS2014
# show first few lines of data matrix
head(MyData, 6)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
Alter Groesse Geschlecht AlterV AlterM GroesseV
21
173
Frau
54
51
187
20
164
Frau
57
57
172
19
172
Frau
49
58
193
20
168
Frau
45
49
185
20
169
Frau
43
42
182
24
185
Mann
54
52
179
GroesseM Geschwister
Farbe AusgKomm AnzSchuhe
170
1
weiss
156.0
17
166
0
weiss
450.0
22
162
3 schwarz
240.0
15
164
3 schwarz
35.8
15
164
5
weiss
450.0
22
163
2 schwarz
250.0
8
AusgSchuhe NoteMathe MatheZufr
50
5.0
nicht
500
1.7
sehr
400
2.3
sehr
100
2.0
sehr
450
2.0
sehr
90
4.0
geht so
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
# lege MyData als den "Standard"-Datensatz fest
attach(MyData)
# Wie Viele Objekte gibt's im Datensatz?
nrow(MyData)
## [1] 205
# Wie Viele Merkmale?
ncol(MyData)
## [1] 14
32
data inspection
Statistik
Etschberger - SS2014
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
# Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte]
MyData[1:3, 2:5]
##
Groesse Geschlecht AlterV AlterM
## 1
173
Frau
54
51
## 2
164
Frau
57
57
## 3
172
Frau
49
58
# Auswahl von Objekten über logische Ausdrücke
head(Geschlecht=="Frau" & Alter<20, 30)
## Error: Objekt ’Geschlecht’ nicht gefunden
# Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines
# Vaters und seiner Mutter
MyData[Geschlecht=="Frau" & Alter<20, c("Alter", "AlterM", "AlterV")]
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
## Error: Objekt ’Geschlecht’ nicht gefunden
33
data inspection
Statistik
Etschberger - SS2014
1. Einführung
Berühmte Leute zur Statistik
Wie lügt man mit Statistik?
Begriff Statistik
Grundbegriffe der
Datenerhebung
R und RStudio
# Zeige die Männer, die mehr als 1000 Euro für Schuhe
# und Mobilfunk zusammen ausgegeben haben
MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 1000,
c("Alter", "Groesse", "AusgSchuhe", "AusgKomm")]
## Error: Objekt ’Geschlecht’ nicht gefunden
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
34
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
2
Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
Statistik
Etschberger - SS2014
Häufigkeitsverteilungen
Auswertungsmethoden für eindimensionales Datenmaterial
Merkmal X wird an n Merkmalsträgern beobachtet à
Urliste (x1 , . . . , xn )
Im Beispiel: x1 = 4, x2 = 11, . . . , x12 = 6
Urlisten sind oft unübersichtlich, z.B.:
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
## [1] 4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5
## [26] 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 2 5 4 7 5
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
Dann zweckmäßig: Häufigkeitsverteilungen
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Ausprägung (sortiert)
aj
P
1
2
3
4
5
6
7
h(aj ) = hj
j
P
H(aj ) =
h(ai )
i=1
1
1
2
12
17
9
8
50
1
2
4
16
33
42
50
−
f(aj ) = h(aj )/n
j
P
F(aj ) =
f(ai )
i=1
1
50
1
50
2
50
12
50
17
50
9
50
8
50
1
1
50
2
50
4
50
16
50
33
50
42
50
1
−
6. Repräsentation
7. Klassifikation
absolute Häufigkeit
kumulierte abs. H.
relative Häufigkeit
kumulierte rel. H.
36
Statistik
Etschberger - SS2014
Graphische Darstellungen
Ê Balkendiagramm
Ë Kreissektorendiagramm
table(x)
## x
## 1
## 1
2
1
3 4 5
2 12 17
6
9
wj = 360◦ · f(aj )
Winkel:
7
8
w1 = 360◦ ·
z.B.
w7 = 360◦ ·
barplot(table(x), col="azure2")
1
50
8
50
1. Einführung
2. Deskriptive Statistik
= 7,2◦
Häufigkeiten
Lage und Streuung
= 57,6◦
Konzentration
Zwei Merkmale
15
Korrelation
pie(table(x))
Preisindizes
Lineare Regression
4
10
3. W-Theorie
4. Induktive Statistik
3
2
1
5. Datenanalyse
6. Repräsentation
5
5
7. Klassifikation
0
7
1
2
3
4
5
6
6
7
(Fläche proportional zu Häufigkeit)
(Höhe proportional zu Häufigkeit)
38
Statistik
Etschberger - SS2014
Graphische Darstellungen
Ì Histogramm
Fläche proportional zu
Häufigkeit:
Im Beispiel mit c =
1
:
12
Klasse
[0; 5)
[5; 15)
[15; 30]
h(aj )
Breitej
Höhej
5
5
5
10
2
15
1
12
1
24
1
90
Lage und Streuung
Konzentration
Zwei Merkmale
Preisindizes
Lineare Regression
3. W-Theorie
0.04
h(aj )
Breitej
Häufigkeiten
4. Induktive Statistik
0.02
Höhej = c ·
2. Deskriptive Statistik
6. Repräsentation
5. Datenanalyse
7. Klassifikation
0.00
⇒
1. Einführung
Korrelation
0.06
Höhej · Breitej = c · h(aj )
histData <- c(0,1,2,3,4,
5,6,7,10,14,
15,30)
truehist(histData,
breaks=c(0, 4.999, 14.999, 30),
col="azure2", ylab='')
0.08
für klassierte Daten
0
5
10
15
20
25
30
histData
40
Statistik
Etschberger - SS2014
Lageparameter
Modus xMod : häufigster Wert
Beispiel:
aj
h(aj )
1
4
2
3
4
1
⇒ xMod = 1
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Sinnvoll bei allen Skalenniveaus.
Zwei Merkmale
Korrelation
Preisindizes
Median xMed : ‚mittlerer Wert‘, d.h.
Lineare Regression
1. Urliste aufsteigend sortieren: x1 5 x2 5 · · · 5 xn
2. Dann
xMed
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
= x n+1 ,
2
∈ [x n2 ; x n2 +1 ],
falls n ungerade
falls n gerade (meist xMed =
7. Klassifikation
1
2
(x n2 + x n2 +1 ))
Im Beispiel oben:
1, 1, 1, 1, 2, 2, 2, 4 ⇒ xMed ∈ [1; 2], z.B. xMed = 1,5
Sinnvoll ab ordinalem Skalenniveau.
43
Statistik
Etschberger - SS2014
Lageparameter (2)
Arithmetisches Mittel x̄: Durchschnitt, d.h.
1X
1X
x̄ =
xi =
aj · h(aj )
n
n
n
i=1
k
j=1
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Im Beispiel:
Konzentration
Zwei Merkmale
x̄ =
1
8
· (1| + 1 {z
+ 1 + 1} + 2| +{z
2 + 2} + |{z}
4 ) = 1,75
1·4
2·3
4·1
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
Sinnvoll nur bei kardinalem Skalenniveau.
Bei klassierten Daten:
P
1
Klassenmitte · Klassenhäufigkeit
x̄∗ = n
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Im Beispiel:
x̄∗ =
1
12
· (2,5 · 5 + 10 · 5 + 22,5 · 2) = 8,96 6= 7,5 = x̄
44
Statistik
Etschberger - SS2014
Streuungsparameter
Voraussetzung: kardinale Werte x1 , . . . , xn
Beispiel:
a) xi
b) xi
1950
0
2000 2050
0
6000
1. Einführung
je x̄ = 2000
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Spannweite: SP = max xi − min xi
Zwei Merkmale
Im Beispiel:
Preisindizes
i
i
Korrelation
Lineare Regression
a) SP = 2050 − 1950 = 100
b) SP = 6000 − 0
= 6000
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Mittlere quadratische Abweichung:
7. Klassifikation
1X
1X 2
s =
(xi − x̄)2 =
xi − x̄2
n
n
i=1
| i=1{z
}
n
n
2
Verschiebungssatz
46
Statistik
Etschberger - SS2014
Streuungsparameter (2)
Mittlere quadratische Abweichung im Beispiel:
a) s2 = 13 · (502 + 02 + 502 )
=
2
b) s =
1
3
1
3
1
3
· (19502 + 20002 + 20502 ) − 20002 = 1666,67
2
2
2
· (2000 + 2000 + 4000 )
· (02 + 02 + 60002 ) − 20002
= 8000000
√
Standardabweichung: s = s2
Im Beispiel:
√
a) s = 1666,67 = 40,82
√
b) s = 8000000 = 2828,43
s
Variationskoeffizient: V =
(maßstabsunabhängig)
x̄
Im Beispiel:
a) V = 40,82
= 0,02 (=
b 2 %)
2000
=
b) V =
2828,43
2000
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
= 1,41 (=
b 141 %)
47
Statistik
Etschberger - SS2014
Graphing location and variation parameters
Boxplot
boxplot(AnzSchuhe ~ Geschlecht,
col="lightblue",
data=MyData, main="")
Whiskers: max/min.
values or
√
±1.58 · IQR/ n
1. Einführung
80
Box: Interquartile range
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
60
Graphical representation
of location and variance
Korrelation
Preisindizes
Outliers: outside of
whiskers boundaries
Lineare Regression
40
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
0
20
7. Klassifikation
Frau
Mann
„Wieviel Paar Schuhe besitzen Sie?“
49
Statistik
Etschberger - SS2014
Dateninspektion:
Umfrage: Überblick über alle Variablen
1. Einführung
summary(MyData[1:10])
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Alter
Min. :18.0
1st Qu.:20.0
Median :21.0
Mean :22.2
3rd Qu.:23.0
Max. :36.0
AlterM
Min.
:37.0
1st Qu.:48.0
Median :51.0
Mean
:51.5
3rd Qu.:54.0
Max.
:68.0
Geschwister
Min.
:0.00
1st Qu.:1.00
Median :1.00
Mean
:1.47
3rd Qu.:2.00
Max.
:9.00
Groesse
Min. :156
1st Qu.:166
Median :170
Mean :173
3rd Qu.:179
Max. :197
GroesseV
Min.
:160
1st Qu.:175
Median :180
Mean
:180
3rd Qu.:183
Max.
:202
Farbe
blau
:11
gelb
: 4
rot
:13
schwarz:97
silber :17
weiss :63
2. Deskriptive Statistik
summary(MyData[11:14])
Geschlecht
AlterV
Frau:134 Min. :38
Mann: 71 1st Qu.:50
Median :54
Mean :54
3rd Qu.:57
Max. :77
GroesseM
Min.
:150
1st Qu.:163
Median :166
Mean
:167
3rd Qu.:170
Max.
:192
AusgKomm
Min.
: 30
1st Qu.: 250
Median : 360
Mean
: 429
3rd Qu.: 570
Max.
:1868
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
AnzSchuhe
Min. : 2.0
1st Qu.:10.0
Median :20.0
Mean :21.6
3rd Qu.:30.0
Max. :80.0
MatheZufr
nicht
:68
geht so :47
zufrieden:43
sehr
:26
NA's
:21
AusgSchuhe
Min. :
0
1st Qu.: 150
Median : 250
Mean : 297
3rd Qu.: 400
Max. :2000
NoteMathe
Min.
:1.00
1st Qu.:2.50
Median :3.30
Mean :3.27
3rd Qu.:4.00
Max. :5.00
NA's
:34
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
50
Statistik
Etschberger - SS2014
Dateninspektion
Boxplots
for(attribute in c("Alter", "AlterV", "AlterM", "Groesse",
"AusgSchuhe", "AnzSchuhe")) {
data=MyData[, attribute]
boxplot(data, # all rows, column of attribute
col="lightblue",
# fill color
lwd=3,
# line width
cex=2,
# character size
oma=c(1,1,2,1)
)
text(0.7,max(data), attribute, srt=90, adj=1)
}
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
AnzSchuhe
80
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
60
60
1500
AusgSchuhe
2000
Groesse
190
AlterM
65
AlterV
70
Alter
35
Lineare Regression
180
20
500
170
160
0
0
40
40
20
45
50
25
50
40
7. Klassifikation
1000
55
60
30
6. Repräsentation
51
Statistik
Etschberger - SS2014
Konzentrationsmaße
Gegeben: kardinale Werte 0 5 x1 5 x2 5 · · · 5 xn
Achtung! Die Werte müssen aufsteigend sortiert werden!
1. Einführung
Lorenzkurve:
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Wieviel Prozent der Merkmalssumme entfällt
auf die x Prozent kleinsten Merkmalsträger?
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Beispiel: Die 90 % ärmsten besitzen 20 % des Gesamtvermögens.
Lineare Regression
3. W-Theorie
Streckenzug: (0,0), (u1 , v1 ), . . . , (un , vn ) = (1,1) mit
4. Induktive Statistik
5. Datenanalyse
k
P
vk = Anteil der k kleinsten MM-Träger an der MM-Summe =
i=1
n
P
6. Repräsentation
xi
7. Klassifikation
xi
i=1
uk = Anteil der k kleinsten an der Gesamtzahl der MM-Träger =
k
n
52
Statistik
Etschberger - SS2014
Lorenzkurve: Beispiel
Markt mit fünf Unternehmen; Umsätze: 6, 3, 11, 2, 3 (Mio. €)
5
P
⇒ n = 5,
xk = 25
k=1
1. Einführung
2. Deskriptive Statistik
vk
Häufigkeiten
Lage und Streuung
1
Konzentration
Zwei Merkmale
Korrelation
k
1
2
3
4
5
xk
2
3
3
6
11
pk
2
25
2
25
1
5
3
25
5
25
2
5
3
25
8
25
3
5
6
25
14
25
4
5
11
25
Preisindizes
Lineare Regression
3. W-Theorie
vk
uk
1
1
14
25
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
8
25
5
25
2
25
7. Klassifikation
uk
1
5
2
5
3
5
4
5
1
53
Statistik
Etschberger - SS2014
Lorenzkurve
Knickstellen:
Bei i-tem Merkmalsträger ⇐⇒ xi+1 > xi
Empirische Verteilungsfunktion liefert Knickstellen:
1. Einführung
2. Deskriptive Statistik
aj
2
3
6
Häufigkeiten
11
Lage und Streuung
Konzentration
h(aj )
f(aj )
F(aj )
1
2
1
1
Zwei Merkmale
1
5
1
5
2
5
3
5
1
5
4
5
1
5
Preisindizes
Korrelation
Lineare Regression
1
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Vergleich von Lorenzkurven:
6. Repräsentation
7. Klassifikation
Gleichverteilung
extreme Konzentration
stärker konzentriert als
schwer vergleichbar
54
Statistik
Etschberger - SS2014
Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP
Bangladesch
Brasilien
Deutschland
Ungarn
USA
1,0
1. Einführung
2. Deskriptive Statistik
Anteil am BSP
0,8
(Stand 2000)
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
0,6
Preisindizes
Lineare Regression
3. W-Theorie
0,4
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
0,2
7. Klassifikation
0,2
0,4
0,6
0,8
Anteil der Bevölkerung
1,0
55
Statistik
Etschberger - SS2014
Gini-Koeffizient
Numerisches Maß der Konzentration: Gini-Koeffizient G
Fläche zwischen 45◦ -Linie und L
G=
=
Fläche unter 45◦ -Linie
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Aus den Daten:
Konzentration
Zwei Merkmale
Korrelation
2
G=
n
P
i xi − (n + 1)
i=1
n
P
i=1
n
n
P
xi
2
=
xi
n
P
Preisindizes
i pi − (n + 1)
i=1
n
i=1
Lineare Regression
wobei
xi
pi = n
P
xi
i=1
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Problem: Gmax =
7. Klassifikation
n−1
n
à Normierter Gini-Koeffizient:
G∗ =
n
· G ∈ [0; 1]
n−1
56
Statistik
Etschberger - SS2014
Gini-Koeffizient: Beispiel
Beispiel:
P
i
1
2
3
4
xi
1
2
2
15
pi
1
20
2
20
2
20
15
20
1. Einführung
2. Deskriptive Statistik
20
Häufigkeiten
Lage und Streuung
1
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
G=
2· 1·
1
20
+2·
2
20
2
+ 3 · 20
+4·
4
15
20
− (4 + 1)
4. Induktive Statistik
= 0,525
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Mit Gmax =
4−1
4
= 0,75 folgt
G∗ =
4
· 0,525 = 0,7
4−1
57
Statistik
Etschberger - SS2014
Konzentrationsmaße: Beispiel
Verteilung der
Bruttoeinkommen in
Preisen von 2000
aus unselbständiger Arbeit
der Arbeitnehmer/-innen
insgesamt
Anteil am Einkommen
Armutsbericht der Bundesregierung 2008
1,0
1. Einführung
0,8
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
0,6
Konzentration
Zwei Merkmale
0,4
Korrelation
Preisindizes
0,2
Lineare Regression
3. W-Theorie
0,2
0,4
0,6
0,8
1,0
Anteil der Bevölkerung
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Arithmetisches Mittel
Median
Gini-Koeffizient
2002
2003
2004
2005
24.873
21.857
0,433
24.563
21.531
0,441
23.987
20.438
0,448
23.648
20.089
0,453
58
Statistik
Etschberger - SS2014
Weitere Konzentrationsmaße
Konzentrationskoeffizient:
n
X
CRg = Anteil, der auf die g größten entfällt =
pi = 1 − vn−g
i=n−g+1
1. Einführung
Herfindahl-Index:
2. Deskriptive Statistik
H=
n
X
Häufigkeiten
Lage und Streuung
p2i
(∈
1
[n
; 1])
Konzentration
Zwei Merkmale
i=1
1
Es gilt: H = n
(V 2 + 1)
Exponentialindex:
E=
n
Y
bzw.
Korrelation
V=
√
Preisindizes
n·H−1
Lineare Regression
3. W-Theorie
4. Induktive Statistik
1
∈ [n
; 1]
p
pi i
00 = 1
wobei
5. Datenanalyse
6. Repräsentation
i=1
7. Klassifikation
Im Beispiel mit x = (1, 2, 2, 15):
CR2 =
17
20
= 0,85
1 2
15 2
H=
+ ··· +
= 0,59
20
20
1
15
1
15 20
20
···
= 0,44
E=
20
20
59
Statistik
Etschberger - SS2014
Auswertungsmethoden für zweidimensionale Daten
Zweidimensionale Urliste
Urliste vom Umfang n zu zwei Merkmalen X und Y:
1. Einführung
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Kontingenztabelle:
Zwei Merkmale
Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten.
Preisindizes
Korrelation
Lineare Regression
3. W-Theorie
Ausprägungen von Y
Ausprägungen von X
b1
b2
...
bl
a1
a2
..
.
ak
h11
h21
..
.
hk1
h12
h22
..
.
hk2
...
...
h1l
h2l
..
.
hkl
...
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
60
Statistik
Etschberger - SS2014
Kontingenztabelle
Unterscheide:
Gemeinsame Häufigkeiten:
1. Einführung
2. Deskriptive Statistik
hij = h(ai , bj )
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Randhäufigkeiten:
Korrelation
Preisindizes
hi· =
l
X
hij
und
h·j =
j=1
k
X
Lineare Regression
3. W-Theorie
hij
4. Induktive Statistik
i=1
5. Datenanalyse
6. Repräsentation
Bedingte (relative) Häufigkeiten:
7. Klassifikation
f1 (ai | bj ) =
hij
h·j
und
f2 (bj | ai ) =
hij
hi·
61
Statistik
Etschberger - SS2014
Häufigkeiten
Beispiel: 400 unfallbeteiligte Autoinsassen:
1. Einführung
2. Deskriptive Statistik
leicht verletzt
(= b1 )
schwer verletzt
(= b2 )
tot
(= b3 )
264
(= h11 )
2
(= h21 )
90
(= h12 )
34
(= h22 )
6
(= h13 )
4
(= h23 )
360
(= h1· )
40
(= h2· )
266
(= h·1 )
124
(= h·2 )
10
(= h·3 )
400
(= n)
angegurtet
(= a1 )
nicht angegurtet
(= a2 )
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
f2 (b3 | a2 ) =
f1 (a2 | b3 ) =
4
40
4
10
7. Klassifikation
= 0,1
(10 % der nicht angegurteten starben.)
= 0,4
(40 % der Todesopfer waren nicht angegurtet.)
62
Statistik
Etschberger - SS2014
Streuungsdiagramm
Streuungsdiagramm sinnvoll bei vielen verschiedenen
Ausprägungen (z.B. stetige Merkmale)
à Alle (xi , yi ) sowie (x̄, ȳ) in Koordinatensystem eintragen.
1. Einführung
2. Deskriptive Statistik
y
Beispiel:
i
xi
yi
1 2 3
4
5
2
4
9
7
7
8
4
3
⇒ x̄ =
ȳ =
3
6
25
5
28
5
P
25
28
=5
= 5,6
9
8
7
6
5
4
3
2
1
Häufigkeiten
Lage und Streuung
x
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
y
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
x
1 2 3 4 5 6 7 8 9
63
Beispiel Streuungsdiagramm
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
(Datenquelle: Fahrmeir u. a. (2009))
64
Statistik
Etschberger - SS2014
Beispiel Streuungsdiagramm
mieten <- read.table('../../_data/MietenMuenchen.csv',
header=TRUE, sep='\t',
check.names=TRUE, fill=TRUE,
na.strings=c('',''))
x
<- cbind(Nettomieten=mieten$nm, Wohnflaeche=mieten$wfl)
1. Einführung
library("geneplotter") ## from BioConductor
smoothScatter(x, nrpoints=Inf,
colramp=colorRampPalette(brewer.pal(9,"YlOrRd")),
bandwidth=c(30,3))
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
150
3. W-Theorie
4. Induktive Statistik
100
6. Repräsentation
7. Klassifikation
50
Wohnflaeche
5. Datenanalyse
500
1000
1500
Nettomieten
65
Statistik
Etschberger - SS2014
Korrelationsrechnung
Frage: Wie stark ist der Zusammenhang zwischen X und Y?
Dazu: Korrelationskoeffizienten
Verschiedene Varianten: Wahl abhängig vom Skalenniveau
von X und Y:
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Skalierung von Y
Korrelation
Preisindizes
Skalierung von X
kardinal
kardinal
Bravais-PearsonKorrelationskoeffizient
ordinal
nominal
ordinal
nominal
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Rangkorrelationskoeffizient von
Spearman
7. Klassifikation
Kontingenzkoeffizient
66
Statistik
Etschberger - SS2014
Korrelationskoeffizient von Bravais und Pearson
Bravais-Pearson-Korrelationskoeffizient
Voraussetzung: X, Y kardinalskaliert
n
P
n
P
(xi − x̄)(yi − ȳ)
xi yi − nx̄ȳ
s
r= s
= s
∈ [−1; +1]
n
n
n
n
P
P
P
P
(xi − x̄)2
(yi − ȳ)2
x2i − nx̄2
y2i − nȳ2
i=1
i=1
i=1
i=1
i=1
i=1
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
7
Zwei Merkmale
6
Korrelation
5
Preisindizes
1
4
2
5
3
6
4
Konzentration
3
3. W-Theorie
2
4. Induktive Statistik
1
−2
1
−1
2
0
3
4
Lineare Regression
−1
0
1
2
3
4
−1
0
1
2
3
4
5
0
1
2
3
4
5. Datenanalyse
5
6. Repräsentation
−1
−2
−2
−2
−1
−1
0
0
0
1
1
1
2
2
2
3
3
3
4
4
4
7. Klassifikation
−2
−1
0
1
2
3
4
0
1
2
3
4
5
−3
−2
−1
0
1
2
3
67
Statistik
Etschberger - SS2014
Bravais-Pearson-Korrelationskoeffizient
Im Beispiel:
i
1
2
3
4
5
P
x2i
y2i
xi yi
4
16
9
81
49
16
9
36
49
64
8
12
18
63
56
25 28 159 174
157
xi yi
2
4
3
9
7
4
3
6
7
8

























1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
⇒
x̄ = 25/5 = 5
Konzentration
Zwei Merkmale
Korrelation
ȳ = 28/5 = 5,6
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
r= √
157 − 5 · 5 · 5,6
√
= 0,703
159 − 5 · 52 174 − 5 · 5,62
7. Klassifikation
(deutliche positive Korrelation)
68
Statistik
Etschberger - SS2014
Rangkorrelationskoeffizient von Spearman
Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge
eindeutig (keine Doppelbelegung von Rängen)
Vorgehensweise:
À Rangnummern Ri (X) bzw.
Wert usw.
Á Berechne
6
rSP = 1 −
n
P
Ri0
(Y) mit
(0)
Ri
= 1 bei größtem
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
(Ri − Ri0 )2
i=1
(n − 1) n (n + 1)
4. Induktive Statistik
∈ [−1; +1]
5. Datenanalyse
6. Repräsentation
Hinweise:
7. Klassifikation
rSP = +1 wird erreicht bei Ri = Ri0
rSP = −1 wird erreicht bei Ri = n + 1 − Ri0
∀ i = 1, . . . , n
∀ i = 1, . . . , n
69
Statistik
Etschberger - SS2014
Rangkorrelationskoeffizient von Spearman
Im Beispiel:
1. Einführung
xi
Ri
yi
Ri0
2
4
3
9
7
5
3
4
1
2
4
3
6
7
8
4
5
3
2
1
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
rSP
6 · [(5 − 4)2 + (3 − 5)2 + (4 − 3)2 + (1 − 2)2 + (2 − 1)2 ]
= 1−
= 0,6
(5 − 1) · 5 · (5 + 1)
70
Statistik
Etschberger - SS2014
Kontingenzkoeffizient
Gegeben: Kontingenztabelle mit k Zeilen und l Spalten
(vgl. hier)
Vorgehensweise:
À Ergänze Randhäufigkeiten
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
hi· =
l
X
und
hij
h·j =
k
X
Konzentration
hij
i=1
j=1
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
Á Berechne theoretische Häufigkeiten
4. Induktive Statistik
h̃ij =
hi· · h·j
n
5. Datenanalyse
6. Repräsentation
7. Klassifikation
 Berechne
k X
l
X
(hij − h̃ij )2
χ =
h̃ij
i=1 j=1
2
χ2 hängt von n ab! (hij 7→ 2 · hij ⇒ χ2 7→ 2 · χ2 )
71
Statistik
Etschberger - SS2014
Kontingenzkoeffizient
à Kontingenzkoeffizient:
s
K=
χ2
n + χ2
1. Einführung
∈ [0; Kmax ]
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
wobei
Zwei Merkmale
Korrelation
Preisindizes
r
Kmax =
M−1
M
Lineare Regression
mit
M = min{k, l}
4. Induktive Statistik
Ä Normierter Kontingenzkoeffizient:
K
K∗ =
Kmax
3. W-Theorie
5. Datenanalyse
6. Repräsentation
7. Klassifikation
∈ [0; 1]
K∗ = +1 ⇐⇒
bei Kenntnis von xi kann yi erschlossen werden u.u.
72
Statistik
Etschberger - SS2014
Kontingenzkoeffizient
Beispiel
X : Staatsangehörigkeit
Y : Geschlecht
(d,a)
(m,w)
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
hij
d
a
h·j
wobei h̃11 =
m
30
10
40
60·40
100
w
30
30
60
hi·
60
40
100
= 24
usw.
m
24
16
h̃ij
⇒ d
a
w
36
24
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
χ2 =
K =
K∗ =
(30−24)2
24
q
+
6,25
100+6,25
0,2425
0,7071
(30−36)2
36
+
(10−16)2
16
= 0,2425;
+
(30−24)2
24
6. Repräsentation
= 6,25
M = min{2,2} = 2;
7. Klassifikation
Kmax =
q
2−1
2
= 0,7071
= 0,3430
73
Statistik
Etschberger - SS2014
Graphische Repräsentation von Kontingenztabellen
Beispiel Autounfälle
Verletzung
leicht
schwer
tödlich
264
2
90
34
6
4
1. Einführung
2. Deskriptive Statistik
angegurtet
nicht angegurtet
360
40
Häufigkeiten
Lage und Streuung
Konzentration
266
124
10
400
Zwei Merkmale
Korrelation
Preisindizes
schwer
Lineare Regression
tödlich
<−4 −4:−2 −2:0 0:2
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Standardized
Residuals:
Gurt
Kein
Sicherheit
2:4
>4
leicht
Verletzungen
Mosaikplot Autounfälle
74
Statistik
Etschberger - SS2014
Preisindizes
Preismesszahl: Misst Preisveränderung eines einzelnen Gutes:
1. Einführung
Preis zum Zeitpunkt j
Preis zum Zeitpunkt i
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
dabei: j: Berichtsperiode, i: Basisperiode
Zwei Merkmale
Preisindex: Misst Preisveränderung mehrerer Güter
(Aggregation von Preismesszahlen durch Gewichtung)
Preisindizes
Korrelation
Notation:
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
p0 (i) :
pt (i) :
q0 (i) :
qt (i) :
Preis des i-ten Gutes in Basisperiode
0
Preis des i-ten Gutes in Berichtsperiode t
Menge des i-ten Gutes in Basisperiode
0
Menge des i-ten Gutes in Berichtsperiode t
6. Repräsentation
7. Klassifikation
78
Statistik
Etschberger - SS2014
Preisindizes
Gleichgewichteter Preisindex:
G
P0t =
n
n
X
pt (i)
1 X pt (i)
=
· g(i)
n i=1 p0 (i)
p0 (i)
i=1
mit
g(i) =
1
n
1. Einführung
2. Deskriptive Statistik
Nachteil: Auto und Streichhölzer haben gleiches Gewicht
Lösung: Preise mit Mengen gewichten!
Häufigkeiten
Lage und Streuung
Konzentration
Preisindex von Laspeyres:
Zwei Merkmale
Korrelation
n
P
L
P0t =
i=1
n
P
Preisindizes
pt (i)q0 (i)
p0 (i)q0 (i)
Lineare Regression
n
X
pt (i)
=
· g0 (i)
p0 (i)
i=1
mit
g0 (i) =
i=1
p0 (i) q0 (i)
n
P
p0 (j) q0 (j)
j=1
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Preisindex von Paasche:
n
P
P
P0t
=
i=1
n
P
i=1
pt (i)qt (i)
=
p0 (i)qt (i)
n
X
pt (i)
· gt (i)
p0 (i)
i=1
mit
gt (i) =
p0 (i) qt (i)
n
P
p0 (j) qt (j)
j=1
79
Statistik
Etschberger - SS2014
Preisindizes: Beispiel
Warenkorb: Kartoffeln und Kaffee
1. Einführung
1950
2013
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Preis
(€)
Menge pro
Woche
Preis
(€)
Menge pro
Woche
0,04
3,00
3,58
0,25
1,10
0,70
1,25
1,31
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
1 kg Kartoffeln
100 g Kaffeebohnen
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
L
P1950,
2013 =
1,10 · 3,58 + 0,70 · 0,25
≈ 4,6048
0,04 · 3,58 + 3,00 · 0,25
P
P1950,
2013 =
1,10 · 1,25 + 0,70 · 1,31
≈ 0,5759
0,04 · 1,25 + 3,00 · 1,31
6. Repräsentation
7. Klassifikation
80
Statistik
Etschberger - SS2014
Weitere Preisindizes
Idealindex von Fisher:
q
F
L PP
P0t = P0t
0t
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Marshall-Edgeworth-Index:
Lage und Streuung
Konzentration
n
P
ME
P0t
=
i=1
n
P
Zwei Merkmale
Korrelation
pt (i)[q0 (i) + qt (i)]
Preisindizes
Lineare Regression
3. W-Theorie
p0 (i)[q0 (i) + qt (i)]
4. Induktive Statistik
i=1
5. Datenanalyse
6. Repräsentation
Preisindex von Lowe:
n
P
LO
P0t
=
i=1
n
P
7. Klassifikation
Durchschn. Menge von
pt (i)q(i)
wobei
p0 (i)q(i)
q(i)=
ˆ Gut i über alle (bekannten)
Perioden
i=1
81
Statistik
Etschberger - SS2014
Weitere Preisindizes: Beispiel
Warenkorb: Kartoffeln und Kaffee
1950
2013
1. Einführung
2. Deskriptive Statistik
1 kg Kartoffeln
100 g Kaffeebohnen
Preis
(€)
Menge pro
Woche
Preis
(€)
Menge pro
Woche
0,04
3,00
3,58
0,25
1,10
0,70
1,25
1,31
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
F
P1950,2013
≈
√
4,6048 · 0,5759
= 1,6284
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
ME
P1950,2013
1,10 · (3,58 + 1,25) + 0,70 · (0,25 + 1,31)
=
0,04 · (3,58 + 1,25) + 3,00 · (0,25 + 1,31)
Lo
P1950,2013
=
= 1,3143
1,10 · 2,5 + 0,70 · 0,75
0,04 · 2,5 + 3,00 · 0,75
7. Klassifikation
= 1,3936
Annahme bei P LO : Durchschn. Mengen bei Kartoffeln bzw. Kaffebohnen von 1950 bis 2013
sind 2,5 bzw. 0,75.
82
Statistik
Etschberger - SS2014
Ausgangsdaten
Bundesliga 2008/2009
Gegeben: Daten zu
den 18 Vereinen der
ersten Bundesliga in
der Saison 2008/09
Merkmale:
Vereinssetat für
Saison (nur direkte
Gehälter und
Spielergehälter)
und Ergebnispunkte
in Tabelle am Ende
der Saison
FC Bayern
VfL Wolfsburg
SV Werder Bremen
FC Schalke 04
VfB Stuttgart
Hamburger SV
Bayer 04 Leverkusen
Bor. Dortmund
Hertha BSC Berlin
1. FC Köln
Bor. Mönchengladbach
TSG Hoffenheim
Eintracht Frankfurt
Hannover 96
Energie Cottbus
VfL Bochum
Karlsruher SC
Arminia Bielefeld
Etat
Punkte
80
60
48
48
38
35
35
32
31
28
27
26
25
24
23
17
17
15
67
69
45
50
64
61
49
59
63
39
31
55
33
40
30
32
29
28
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
(Quelle: Welt)
83
Statistik
Etschberger - SS2014
Darstellung der Daten in Streuplot
70
Bundesliga 2008/09
VfL Wolfsburg
FC Bayern
1. Einführung
VfB Stuttgart
Hertha BSC Berlin
2. Deskriptive Statistik
60
Hamburger SV
Häufigkeiten
Bor. Dortmund
Lage und Streuung
Konzentration
TSG Hoffenheim
Zwei Merkmale
Korrelation
50
Punkte
Preisindizes
FC Schalke 04
Bayer 04 Leverkusen
Lineare Regression
3. W-Theorie
SV Werder Bremen
4. Induktive Statistik
40
5. Datenanalyse
Hannover 96
1. FC Köln
6. Repräsentation
30
7. Klassifikation
Eintracht Frankfurt
VfL Bochum
Bor. Mönchengladbach
Energie Cottbus
Karlsruher SC
Arminia Bielefeld
20
40
60
80
Etat [Mio. Euro]
84
Statistik
Etschberger - SS2014
Trend als lineares Modell
Kann man die Tabellenpunkte näherungsweise über einfache
Funktion in Abhängigkeit des Vereinsetats darstellen?
Allgemein: Darstellung einer Variablen Y als Funktion von X:
1. Einführung
2. Deskriptive Statistik
y = f(x)
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Dabei:
Korrelation
X heißt Regressor bzw. unabhängige Variable
Y heißt Regressand bzw. abhängige Variable
Wichtiger (und einfachster) Spezialfall: f beschreibt einen
linearen Trend:
y = a + bx
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Dabei anhand der Daten zu schätzen: a (Achsenabschnitt)
und b (Steigung)
Schätzung von a und b: Lineare Regression
85
Statistik
Etschberger - SS2014
Fehlerquadratsumme
Pro Datenpunkt gilt mit Regressionsmodell:
yi = a + bxi + i
1. Einführung
Dabei: i ist jeweils Fehler (der Grundgesamtheit),
mit ei = yi − (â + b̂xi ): Abweichung (Residuen) zwischen
gegebenen Daten der Stichprobe und durch Modell
geschätzten Werten
Modell gut wenn alle Residuen ei zusammen möglichst klein
Einfache Summe aber nicht möglich, denn ei positiv oder
negativ
Deswegen: Summe der Quadrate von ei
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Prinzip der kleinsten Quadrate: Wähle a und b so, dass
Q(a, b) =
n
X
[yi − (a + bxi )]2 → min
i=1
86
Statistik
Etschberger - SS2014
Beste Lösung
Beste und eindeutige Lösung:
n
X
b̂ =
(xi − x̄)(yi − ȳ)
2. Deskriptive Statistik
i=1
n
X
(xi − x̄)2
i=1
n
X
=
1. Einführung
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
xi yi − nx̄ȳ
i=1
n
X
Lineare Regression
3. W-Theorie
4. Induktive Statistik
x2i − nx̄2
i=1
5. Datenanalyse
6. Repräsentation
7. Klassifikation
â = ȳ − b̂ x̄
Regressionsgerade:
ŷ = â + b̂ x
87
Statistik
Etschberger - SS2014
Bundesligabeispiel
Modell: ŷ = 25,443 + 0,634 · x
80
Berechnung eines
linearen Modells der
Bundesligadaten
70
dabei: Punkte =
ˆy
und Etat =
ˆ x:
1. Einführung
60
2. Deskriptive Statistik
Häufigkeiten
P
x2i
25209
xi yi
31474
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
18
5. Datenanalyse
20
n
50
46,89
40
y
P
Konzentration
30
33,83
Punkte
Lage und Streuung
x
6. Repräsentation
31474 − 18 · 33,83 · 46,89
25209 − 18 · 33,832
≈ 0,634
0
⇒ b̂ =
20
40
60
80
7. Klassifikation
Einkommen
Prognosewert für Etat = 30:
⇒ â = 46,89 − b̂ · 33,83
ŷ(30) = 25,443 + 0,634 · 30
≈ 25,443
≈ 44,463
88
Statistik
Etschberger - SS2014
Varianz und Information
Varianz der Daten in abhängiger Variablen yi als Repräsentant des
Informationsgehalts
Ein Bruchteil davon kann in Modellwerten ŷi abgebildet werden
80
80
1. Einführung
2. Deskriptive Statistik
70
70
60
60
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
50
Preisindizes
50
Lineare Regression
3. W-Theorie
40
40
4. Induktive Statistik
30
5. Datenanalyse
30
6. Repräsentation
7. Klassifikation
80
60
40
20
0
model
20
points
20
Empirische Varianz (mittlere quadratische Abweichung) für „rot“ bzw. „grün“
ergibt jeweils
1
18
18
X
i=1
(yi − y)2 ≈ 200,77
bzw.
1
18
18
X
(ŷi − y)2 ≈ 102,78
i=1
89
Statistik
Etschberger - SS2014
Determinationskoeffizient
Gütemaß für die Regression: Determinationskoeffizient
(Bestimmtheitskoeffizient):
n
P
R2 =
n
P
(ŷi − ȳ)2
i=1
n
P
=
(yi −
ȳ)2
i=1
i=1
n
P
1. Einführung
ŷ2i − nȳ2
= r2 ∈ [0; 1]
y2i
−
nȳ2
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
i=1
Zwei Merkmale
Korrelation
Preisindizes
Mögliche Interpretation von R2 :
Durch die Regression erklärter Anteil der Varianz
Lineare Regression
3. W-Theorie
R2 = 0 wird erreicht wenn X, Y unkorreliert
R2 = 1 wird erreicht wenn ŷi = yi ∀ i (alle Punkte auf
Regressionsgerade)
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Im (Bundesliga-)Beispiel:
18
P
R2 =
i=1
18
P
(ŷi − y)2
≈
(yi − y)2
102,78
≈ 51,19 %
200,77
i=1
90
Statistik
Etschberger - SS2014
Regression: 4 eindimensionale Beispiele
Berühmte Daten aus den 1970er Jahren:
1. Einführung
i
1
2
3
4
5
6
7
8
9
10
11
x1i
x2i
x3i
x4i
y1i
y2i
y3i
y4i
10
8
13
9
11
14
6
4
12
7
5
10
8
13
9
11
14
6
4
12
7
5
10
8
13
9
11
14
6
4
12
7
5
8
8
8
8
8
8
8
19
8
8
8
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
6,58
5,76
7,71
8,84
8,47
7,04
5,25
12,50
5,56
7,91
6,89
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
(Quelle: Anscombe (1973))
91
Statistik
Etschberger - SS2014
Beispieldaten
1. Einführung
2. Deskriptive Statistik
meineRegression = lm(AlterM ~ AlterV)
meineRegression
plot(AlterV, AlterM,
xlab="Alter des Vaters",
ylab="Alter der Mutter")
abline(meineRegression)
## Error: Objekt ’AlterM’ nicht
gefunden
## Error: Objekt ’meineRegression’
nicht gefunden
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
## Error: Objekt ’AlterV’ nicht gefunden
## Error: Objekt ’meineRegression’ nicht gefunden
## Error: plot.new wurde noch nicht aufgerufen
5. Datenanalyse
6. Repräsentation
7. Klassifikation
94
PLU
S
Statistik
Etschberger - SS2014
Cook’s Distanz
Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen
Idee: Was würde sich ändern, wenn solche Punkte
weggelassen würden?
Cook-Distanz: Misst den Effekt eines gelöschten Objekts
Formel für ein lineares Modell mit einem unabh. Merkmal:
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
n
P
Di =
Preisindizes
2
(ŷj − ŷj(ohne i) )
j=1
MSE
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Dabei bedeutet:
6. Repräsentation
7. Klassifikation
ŷj : Prognosewert des kompletten Modells für das j-te Objekt
ŷj(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te
Objekt
P
MSE = n1 · (ŷi − yi )2 : Normierender Term (Schätzwert für
Fehlerstreuung)
95
PLU
S
Statistik
Etschberger - SS2014
Ausreißer?
Anscombe-Daten: Regressionsmodell Nr. 3
Darstellung der Cook-Distanz neben Punkten
Faustformel: Werte über 1 sollten genau untersucht werden
1. Einführung
2. Deskriptive Statistik
1.39
Häufigkeiten
12
Lage und Streuung
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
10
Lineare Regression
3. W-Theorie
y3
4. Induktive Statistik
5. Datenanalyse
0.3
6. Repräsentation
8
0.06
0.03
7. Klassifikation
0.01
0.01
0
0
6
0
0.01
0.03
4
6
8
10
12
14
x3
96
Statistik
Etschberger - SS2014
Residualanalyse
Oft aufschlussreich: Verteilung der Residuen ei
Verbreitet: Graphische Darstellungen der Residuen
Z.B.: ei über ŷi
1. Einführung
3
12
3
2. Deskriptive Statistik
Häufigkeiten
Konzentration
1
Zwei Merkmale
Korrelation
Preisindizes
0
8
y3
Residuals
10
2
Lage und Streuung
−1
6
Lineare Regression
9
4
6
8
10
12
14
6
5
6
x3
7
8
9
10
Fitted values
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Residuals vs Fitted
2
6. Repräsentation
9
0
−1
6
y1
8
Residuals
1
10
7. Klassifikation
4
−2
10
4
6
8
10
x1
12
14
3
5
6
7
8
Fitted values
9
10
97
Residualanalyse
Wichtige Eigenschaften der Residuenverteilung
Möglichst keine systematischen Muster
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Keine Änderung der Varianz in Abhängigkeit von ŷi
(Homoskedastizität)
Nötig für inferentielle Analysen: Näherungsweise
Normalverteilung der Residuen (q-q-plots)
Konzentration
Zwei Merkmale
Korrelation
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
##
##
##
##
Error:
Error:
Error:
Error:
Objekt ’AlterV’ nicht gefunden
Objekt ’meineRegression’ nicht gefunden
plot.new wurde noch nicht aufgerufen
Objekt ’meineRegression’ nicht gefunden
5. Datenanalyse
6. Repräsentation
7. Klassifikation
98
Kausalität versus Korrelation
Statistik
Etschberger - SS2014
1. Einführung
Exkurs: Kausalität vs. Korrelation
2. Deskriptive Statistik
Häufigkeiten
Lage und Streuung
Meist wichtig für sinnvolle Regressionsanalysen:
Konzentration
Zwei Merkmale
Korrelation
Kausale Verbindung zwischen unabhängigem und
abhängigem Merkmal
Sonst bei Änderung der unabhängigen Variablen keine
sinnvollen Prognosen möglich
Oft: Latente Variablen im Hintergrund
Preisindizes
Lineare Regression
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
99
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
3
Wahrscheinlichkeitstheorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und Verteilungen
Verteilungsparameter
Statistik
Etschberger - SS2014
Kombinatorik: Anzahl von Kombinationen bei Auswahl
2-mal Würfeln, das
heißt Auswahl von
k = 2 aus n = 6
Zahlen.
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
ohne WH, ohne RF: Hälfte des letzten
Ergebnisses:
6
30
6!
2 = 15 = 4!2! = 2
mit WH, mit RF: alle Möglichkeiten,
62 = 36
ohne WH, mit RF: Diagonale entfällt,
6!
36 − 6 = 30 = 6 · 5 =
(6 − 2)!
mit WH, ohne RF: Letztes Ergebnis
plus Diagonale, 15 + 6 = 21 =
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
7
2
6. Repräsentation
7. Klassifikation
Auswahl von k aus n Dingen
mit Wiederholung
nk
mit
Reihenfolge
ohne
Reihenfolge
n+k−1
k
ohne Wiederholung
n!
(n − k)!
n
k
101
Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten
Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B.
Münzwurf
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
Elementarereignis ω: Ein möglicher Ausgang, z.B. „ Kopf “
Elementarereignisse schließen sich gegenseitig aus
(„ Kopf “ oder „ Zahl “)!
Ergebnismenge Ω: Menge aller ω
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
Beispiel: Werfen zweier Würfel:

(1,1) (1,2)



(2,1) (2,2)
Ω:
..
..

.
.



(6,1) (6,2)
5. Datenanalyse
···
···
..
.
···

(1,6)


(2,6)
..
. 



(6,6)
6. Repräsentation
7. Klassifikation
⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . ,6}}
102
Statistik
Etschberger - SS2014
Ereignisse und Wahrscheinlichkeiten
Ereignis A: Folgeerscheinung eines Elementarereignisses
Formal:
1. Einführung
A⊂Ω
2. Deskriptive Statistik
Ereignisse schließen sich nicht gegenseitig aus!
Beispiel: Werfen zweier Würfel:
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
Ereignis
A
B
verbal
Augensumme = 4
Erste Zahl = 2
formal
{(1,3), (2,2), (3,1)}
{(2,1), (2,2), . . . , (2,6)}
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Wahrscheinlichkeit P(A): Chance für das Eintreten von A
Laplace-Wahrscheinlichkeit:
P(A) =
|A|
Anzahl der für A günstigen Fälle
=
|Ω|
Anzahl aller möglichen Fälle
103
Statistik
Etschberger - SS2014
Laplace Wahrscheinlichkeit und Urnenmodell
Beispiel: Werfen zweier Würfel:
Augensumme = 4 : A = {(1,3), (2,2), (3,1)}
|Ω| = 36, |A| = 3 ⇒ P(A) =
1. Einführung
2. Deskriptive Statistik
3
36
=
1
12
= 0,083
3. W-Theorie
Kombinatorik
Urnenmodell: Ziehe n Objekte aus einer Menge
mit N Objekten
Anzahl Möglichkeiten:
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
mit Zurücklegen: Nn
ohne Zurücklegen: N · (N − 1) · · · (N − (n − 1)) =
6. Repräsentation
N!
(N−n)!
7. Klassifikation
Beispiel:
Wie groß ist die Wahrscheinlichkeit, aus einem gut
gemischten 32-er Kartenblatt bei viermaligem Ziehen vier
Asse zu bekommen?
a) Ziehen mit Zurücklegen,
b) Ziehen ohne Zurücklegen
104
Statistik
Etschberger - SS2014
Rechenregeln für Wahrscheinlichkeiten
Wichtige Rechenregeln:
1. Einführung
2. Deskriptive Statistik
1. P(A) 5 1
A
B
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
2. P(∅) = 0
Zufallsvariablen und
Verteilungen
3. A ⊂ B ⇒ P(A) 5 P(B)
Verteilungsparameter
4. Induktive Statistik
B
4. P(Ā) = 1 − P(A)
5. P(A ∪ B) =
P(A) + P(B) − P(A ∩ B)
5. Datenanalyse
6. Repräsentation
7. Klassifikation
A
C
Beispiel:
P(„Augenzahl 5 5“) = 1 − P(„Augenzahl = 6“) = 1 −
1
6
=
5
6
105
Statistik
Etschberger - SS2014
Beispiel Gegenereignis
Der Fall Sally Clark
Sally Clarks Söhne Christopher und Harry
sterben 1996 und 1997 beide kurz nach der
Geburt an plötzlichem Kindstod.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kinderarzt: „Wahrscheinlich Mord, da 2
maliger plötzlicher Kindstod sehr
unwahrscheinlich!“ (ohne konkrete
Hinweise)
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
Gerichtliche Untersuchung
5. Datenanalyse
Hauptargument der Anklage gestützt durch
Gerichtsgutachter Sir Roy Meadow
(renommierter Facharzt für
Kinderheilkunde): Wahrscheinlichkeit für
plötzlichen Kindstod ist 1:8500, d.h.
Wahrscheinlichkeit für 2 maliges Auftreten
in einer Familie
2
1
p=
≈ 1 : 72 000 000
8500
6. Repräsentation
7. Klassifikation
Urteil: Doppelmord; Strafe: 2 mal lebenslang;
Inhaftierung von Sally Clark 1999
106
Statistik
Etschberger - SS2014
Bedingte Wahrscheinlichkeiten
Wahrscheinlichkeit von A hängt von anderem Ereignis B ab.
(B kann zeitlich vor A liegen, muss aber nicht!)
Beispiel: Wahrscheinlichkeit für Statistiknote hängt von Mathenote
ab.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Formal:
Zufallsvariablen und
Verteilungen
P(A | B) =
P(A ∩ B)
P(B)
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
Im Venndiagramm:
6. Repräsentation
7. Klassifikation
B
A
Ω
108
Statistik
Etschberger - SS2014
Unabhängigkeit von Ereignissen
A, B unabhängig: Eintreten von A liefert keine Information
über P(B).
Formal:
1. Einführung
P(A | B) = P(A)
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Bei Unabhängigkeit ist äquivalent dazu:
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
P(A ∩ B) = P(A) · P(B)
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
Dann gilt:
6. Repräsentation
7. Klassifikation
P(A ∪ B) = P(A) + P(B) − P(A) · P(B)
Beispiel: Werfen zweier Würfel:
P(A ∩ B)
A : "‘erster Würfel gleich 6"’
⇒ P(A | B) =
B : "‘zweiter Würfel gleich 6"’
P(B)
=
1
36
1
6
=
1
6
= P(A)
109
Statistik
Etschberger - SS2014
Zufallsvariablen
Zufallsvariablen und Verteilungen
Beschreibung von Ereignissen durch reelle Zahlen
Formal: Zufallsvariable ist Abbildung von Ereignisraum in
reelle Zahlen:
X: Ω→R
Nach Durchführung des Zufallsvorgangs:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
Realisation:
x = X(ω)
6. Repräsentation
7. Klassifikation
Vor Durchführung des Zufallsvorgangs:
Wertebereich:
X(Ω) = {x : x = X(ω), ω ∈ Ω}
Beispiel: Würfeln, X: Augenzahl, X(Ω) = {1,2, . . . ,6}, x = 4
(z.B.)
P(X = 4) = 16 , P(X 5 3) = 36 = 12
110
Statistik
Etschberger - SS2014
Verteilungsfunktion
Zuweisung von Wahrscheinlichkeiten zu Realisationen
Formal:
F(x) = P(X 5 x)
1. Einführung
Eigenschaften der Verteilungsfunktion:
2. Deskriptive Statistik
3. W-Theorie
F(x) ∈ [0; 1]
Definitionsbereich: R mit F(−∞) = 0, F(∞) = 1
monoton wachsend, d.h. x1 < x2 ⇒ F(x1 ) 5 F(x2 )
Es gilt:
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
P(a < X 5 b) = F(b) − F(a)
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
F(x)
1
7. Klassifikation
0,5
0
−4
−2
0
2
x
4
6
8
Beispiel einer Verteilungsfunktion
111
Statistik
Etschberger - SS2014
Diskrete Zufallsvariablen
X heißt diskret, wenn X(Ω) = {x1 , x2 , . . . } endlich ist.
Wahrscheinlichkeitsfunktion dann:
1. Einführung
f(x) = P(X = x)
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Beispiel: Münze 2 mal werfen; X: Anzahl "‘Kopf"’
xi
f(xi )
(Z, Z)
(Z, K), (K, Z)
(K, K)
0
1
2
1
4
1
2
1
4
Zufallsvariablen und
Verteilungen

0,




1,
F(x) = 4
3

,


4


1,
Verteilungsparameter
falls
x<0
4. Induktive Statistik
falls 0 5 x < 1
5. Datenanalyse
falls 1 5 x < 2
6. Repräsentation
falls
x=2
7. Klassifikation
F(x)
f(x)
1
0,5
0,75
0,5
0,25
0,25
0
0
0
1
2
0
1
2
112
Statistik
Etschberger - SS2014
Binomialverteilung
Wiederholter Zufallsvorgang
1. Einführung
n Durchführungen (jeweils unabhängig)
Pro Durchführung: A oder Ā mit P(A) = p (=
b Ziehen mit
Zurücklegen)
Schreibe:
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Xi =
Verteilungsparameter
1,
0,
falls A bei i-ter Durchführung eintritt
falls Ā bei i-ter Durchführung eintritt
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Dann gibt
X=
n
X
Xi
i=1
an, wie oft A eintritt.
Gesucht: Wahrscheinlichkeitsfunktion von X
113
Binomialverteilung
Statistik
Etschberger - SS2014
Herleitung:
1) P(Xi = 1) = P(A) = p, P(Xi = 0) = P(Ā) = 1 − p
n
P
2)
xi = x entspricht "‘x mal Ereignis A und n − x mal Ā"’
i=1
Wahrscheinlichkeit (bei Unabhängigkeit): px · (1 − p)n−x
n
3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen:
x
à Wahrscheinlichkeitsfunktion der Binomialverteilung:
  n · px · (1 − p)n−x , falls x ∈ {0,1, . . . , n}
x
f(x) =

0,
sonst
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Kurzschreibweise: X ∼ B(n; p)
X ist binomialverteilt mit Parametern n und p
Tabellen zeigen meist F(x)
für f(x) gilt: f(x) = F(x) − F(x − 1)
114
X ∼ B(n, 0.25), Tabelle der Binomialverteilung F(x) = P(X ≤ x)
x\n
0
1
2
3
4
5
6
7
8
9
10
11
1
2
3
0.7500 0.5625 0.4219
1.0000 0.9375 0.8438
1.0000 0.9844
1.0000
Statistik
Etschberger - SS2014
4
5
6
7
8
9
10
11
12
13
14
15
0.3164
0.7383
0.9492
0.9961
1.0000
0.2373
0.6328
0.8965
0.9844
0.9990
1.0000
0.1780
0.5339
0.8306
0.9624
0.9954
0.9998
1.0000
0.1335
0.4450
0.7564
0.9295
0.9871
0.9987
0.9999
1.0000
0.1001
0.3671
0.6786
0.8862
0.9727
0.9958
0.9996
1.0000
1.0000
0.0751
0.3003
0.6007
0.8343
0.9511
0.9900
0.9987
0.9999
1.0000
1.0000
0.0563
0.2440
0.5256
0.7759
0.9219
0.9803
0.9965
0.9996
1.0000
1.0000
1.0000
0.0422
0.1971
0.4552
0.7133
0.8854
0.9657
0.9924
0.9988
0.9999
1.0000
1.0000
1.0000
0.0317
0.1584
0.3907
0.6488
0.8424
0.9456
0.9858
0.9972
0.9996
1.0000
1.0000
1.0000
0.0238
0.1267
0.3326
0.5843
0.7940
0.9198
0.9757
0.9944
0.9990
0.9999
1.0000
1.0000
0.0178
0.1010
0.2811
0.5213
0.7415
0.8883
0.9617
0.9897
0.9979
0.9997
1.0000
1.0000
0.0134
0.0802
0.2361
0.4613
0.6865
0.8516
0.9434
0.9827
0.9958
0.9992
0.9999
1.0000
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
x\n
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.0100
0.0635
0.1971
0.4050
0.6302
0.8104
0.9205
0.9729
0.9925
0.9984
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0075
0.0501
0.1637
0.3530
0.5739
0.7653
0.8929
0.9598
0.9876
0.9969
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0056
0.0395
0.1353
0.3057
0.5187
0.7175
0.8610
0.9431
0.9807
0.9946
0.9988
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0042
0.0310
0.1114
0.2631
0.4654
0.6678
0.8251
0.9226
0.9713
0.9911
0.9977
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0032
0.0243
0.0913
0.2252
0.4149
0.6172
0.7858
0.8982
0.9591
0.9861
0.9961
0.9991
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0024
0.0190
0.0745
0.1917
0.3674
0.5666
0.7436
0.8701
0.9439
0.9794
0.9936
0.9983
0.9996
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.0018
0.0149
0.0607
0.1624
0.3235
0.5168
0.6994
0.8385
0.9254
0.9705
0.9900
0.9971
0.9993
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.0013
0.0116
0.0492
0.1370
0.2832
0.4685
0.6537
0.8037
0.9037
0.9592
0.9852
0.9954
0.9988
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.0010
0.0090
0.0398
0.1150
0.2467
0.4222
0.6074
0.7662
0.8787
0.9453
0.9787
0.9928
0.9979
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
0.0008
0.0070
0.0321
0.0962
0.2138
0.3783
0.5611
0.7265
0.8506
0.9287
0.9703
0.9893
0.9966
0.9991
0.9998
1.0000
1.0000
1.0000
1.0000
0.0006
0.0055
0.0258
0.0802
0.1844
0.3372
0.5154
0.6852
0.8196
0.9092
0.9599
0.9845
0.9948
0.9985
0.9996
0.9999
1.0000
1.0000
1.0000
0.0004
0.0042
0.0208
0.0666
0.1583
0.2990
0.4708
0.6427
0.7860
0.8868
0.9472
0.9784
0.9922
0.9976
0.9993
0.9998
1.0000
1.0000
1.0000
0.0003
0.0033
0.0166
0.0551
0.1354
0.2638
0.4279
0.5998
0.7502
0.8616
0.9321
0.9706
0.9888
0.9962
0.9989
0.9997
0.9999
1.0000
1.0000
0.0002
0.0025
0.0133
0.0455
0.1153
0.2317
0.3869
0.5568
0.7126
0.8337
0.9145
0.9610
0.9842
0.9944
0.9982
0.9995
0.9999
1.0000
1.0000
0.0002
0.0020
0.0106
0.0375
0.0979
0.2026
0.3481
0.5143
0.6736
0.8034
0.8943
0.9494
0.9784
0.9918
0.9973
0.9992
0.9998
1.0000
1.0000
5. Datenanalyse
6. Repräsentation
7. Klassifikation
115
Binomialverteilung: Beispiel
Statistik
Etschberger - SS2014
Beispiel
Aus einem 32-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen
gezogen.
Wie wahrscheinlich ist es, 2-mal Herz zu ziehen?
1, falls i-te Karte Herz
8
Xi =
⇒ Xi ∼ B(1; 32
)
0,
sonst
n
P
X =
Xi = X1 + X2 + X3
⇒ X ∼ B(3; 14 )
i=1
Mithilfe der Wahrscheinlichkeitsfunktion:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
3
P(X = 2) = f(2) =
· 0,252 · 0,751 = 0,1406
2
Mithilfe der Tabelle (n = 3):
P(X = 2) = F(2) − F(1) = 0,9844 − 0,8438 = 0,1406
116
## Warning: package ’ggplot2’ was built under R version 2.15.3
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
117
Statistik
Etschberger - SS2014
Binomialverteilung: Wahrscheinlichkeitsfunktion
X ∼ B(3, 14 )
1. Einführung
2. Deskriptive Statistik
Binomial−Vtlg. mit n=3 p=0.25
3. W-Theorie
Kombinatorik
0.4
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
0.3
4. Induktive Statistik
p
5. Datenanalyse
6. Repräsentation
0.2
7. Klassifikation
0.1
0.0
0
1
2
3
x
117
Statistik
Etschberger - SS2014
Binomialverteilung: Wahrscheinlichkeitsfunktion
Binomial−Vtlg. mit n=10 p=0.25
Binomial−Vtlg. mit n=100 p=0.25
0.075
1. Einführung
p
p
0.2
2. Deskriptive Statistik
0.050
3. W-Theorie
0.1
Kombinatorik
0.025
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
0.0
0.000
0
1
2
3
4
5
6
7
8
9
10
Verteilungsparameter
10
14
18
22
26
x
30
34
38
42
x
4. Induktive Statistik
5. Datenanalyse
Binomial−Vtlg. mit n=30 p=0.25
Binomial−Vtlg. mit n=500 p=0.25
6. Repräsentation
7. Klassifikation
0.04
0.15
0.03
p
p
0.10
0.05
0.02
0.01
0.00
0.00
0
2
4
6
8
10
12
14
16
18
20
90
97 104 111 118 125 132 139 146 153 160
x
x
118
Hypergeometrische Verteilung
n-faches Ziehen ohne Zurücklegen aus N Objekten,
davon M markiert.
X = Anzahl gezogener Objekte mit Markierung
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
heißt hypergeometrisch verteilt mit den Parametern N, M, n.
Kurzschreibweise: X ∼ Hyp(N; M; n)
Wahrscheinlichkeitsfunktion:
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
 M
N
−
M




n−x
 x
, falls x möglich
f(x) =
N


n



0,
sonst
Ist n 5
N
20 ,
6. Repräsentation
7. Klassifikation
so gilt: Hyp(N; M; n) ≈ B(n; M
N)
119
Statistik
Etschberger - SS2014
Beispiel: Hypergeometrische Verteilung
Aus einem 32-Kartenblatt wird 3-mal eine Karte ohne
Zurücklegen gezogen.
1. Einführung
Wie wahrscheinlich ist es, 2-mal "‘Herz"’ zu ziehen?
2. Deskriptive Statistik
D.h.: N = 32, M = 8, n = 3, x = 2.
8
32 − 8
8
24
8!
· 24
2
3−2
2
1
2!
·
6!
P(X = 2) = f(2) =
= =
32!
32
32
3
3
3! · 29!
29! · 8! · 3! · 24
8 · 7 · 3 · 24
4032
21
=
=
=
=
32! · 6! · 2!
32 · 31 · 30
29760
155
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
= 0,1355
Dabei wurde verwendet:
n!
n
=
und
k
k!(n − k)!
n
= n.
1
120
Statistik
Etschberger - SS2014
Hypergeometrische Verteilung
Beispiel: x Treffer im Lotto 6 aus 49
X ∼ Hyp(49, 6, 6)
1. Einführung
0.4
2. Deskriptive Statistik
0.3
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
0.2
5. Datenanalyse
6. Repräsentation
7. Klassifikation
0.1
43.596498
41.301945
13.237803
1.765040
0.096862
0.001845
0.000007
Zufall und Wahrscheinlichkeit
0.0
0
1
2
3
4
5
6
Kombinatorik
P(X = x) (in %)
Wahrscheinlichkeit
x
3. W-Theorie
0
1
2
3
4
5
6
x
121
Statistik
Etschberger - SS2014
Poisson-Verteilung
Approximation für B(n; p) und Hyp(N; M; n)
Geeignet, wenn
p klein (5 0,1), n groß (= 50) und np 5 10.
1. Einführung
2. Deskriptive Statistik
à „Verteilung der seltenen Ereignisse“
(z.B. Anzahl 6-er pro Lottoausspielung)
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
X ist poissonverteilt mit Parameter λ: X ∼ P(λ)
Verteilungsparameter
Wahrscheinlichkeitsfunktion:
 x
 λ · e−λ , falls x = 0,1,2, . . .
f(x) = x!

0,
sonst
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
F(x) in Tabelle
Überblick: Approximation
p=
Hyp(N; M; n)
M
N
λ = np = n M
N
B(n; p)
P(λ)
122
Poissonverteilung: X ∼ P(λ), Tabelle der Verteilungsfunktionen
x\λ
0
1
2
3
4
5
6
7
8
9
10
11
12
Statistik
Etschberger - SS2014
1.6
1.7
1.8
1.9
2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3
0.2019
0.5249
0.7834
0.9212
0.9763
0.9940
0.9987
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.1827
0.4933
0.7572
0.9068
0.9704
0.9920
0.9981
0.9996
0.9999
1.0000
1.0000
1.0000
1.0000
0.1653
0.4628
0.7306
0.8913
0.9636
0.9896
0.9974
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
0.1496
0.4338
0.7037
0.8747
0.9559
0.9868
0.9966
0.9992
0.9998
1.0000
1.0000
1.0000
1.0000
0.1353
0.4060
0.6767
0.8571
0.9474
0.9834
0.9955
0.9989
0.9998
1.0000
1.0000
1.0000
1.0000
0.1225
0.3796
0.6496
0.8387
0.9379
0.9796
0.9941
0.9985
0.9997
0.9999
1.0000
1.0000
1.0000
0.1108
0.3546
0.6227
0.8194
0.9275
0.9751
0.9925
0.9980
0.9995
0.9999
1.0000
1.0000
1.0000
0.1003
0.3309
0.5960
0.7994
0.9163
0.9700
0.9906
0.9974
0.9994
0.9999
1.0000
1.0000
1.0000
0.0907
0.3085
0.5697
0.7787
0.9041
0.9643
0.9884
0.9967
0.9991
0.9998
1.0000
1.0000
1.0000
0.0821
0.2873
0.5438
0.7576
0.8912
0.9580
0.9858
0.9958
0.9989
0.9997
0.9999
1.0000
1.0000
0.0743
0.2674
0.5184
0.7360
0.8774
0.9510
0.9828
0.9947
0.9985
0.9996
0.9999
1.0000
1.0000
0.0672
0.2487
0.4936
0.7141
0.8629
0.9433
0.9794
0.9934
0.9981
0.9995
0.9999
1.0000
1.0000
0.0608
0.2311
0.4695
0.6919
0.8477
0.9349
0.9756
0.9919
0.9976
0.9993
0.9998
1.0000
1.0000
0.0550
0.2146
0.4460
0.6696
0.8318
0.9258
0.9713
0.9901
0.9970
0.9992
0.9998
1.0000
1.0000
0.0498
0.1992
0.4232
0.6472
0.8153
0.9161
0.9665
0.9881
0.9962
0.9989
0.9997
0.9999
1.0000
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
x\λ
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4
4.1
4.2
4.3
4.4
4.5
0.0451
0.1847
0.4012
0.6248
0.7982
0.9057
0.9612
0.9858
0.9953
0.9986
0.9996
0.9999
1.0000
1.0000
1.0000
1.0000
0.0408
0.1712
0.3799
0.6025
0.7806
0.8946
0.9554
0.9832
0.9943
0.9982
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
0.0369
0.1586
0.3594
0.5803
0.7626
0.8829
0.9490
0.9802
0.9931
0.9978
0.9994
0.9998
1.0000
1.0000
1.0000
1.0000
0.0334
0.1469
0.3397
0.5584
0.7442
0.8706
0.9422
0.9769
0.9917
0.9973
0.9992
0.9998
1.0000
1.0000
1.0000
1.0000
0.0302
0.1359
0.3209
0.5366
0.7255
0.8576
0.9347
0.9733
0.9901
0.9967
0.9990
0.9997
0.9999
1.0000
1.0000
1.0000
0.0273
0.1257
0.3028
0.5152
0.7064
0.8441
0.9267
0.9692
0.9883
0.9960
0.9987
0.9996
0.9999
1.0000
1.0000
1.0000
0.0247
0.1162
0.2854
0.4942
0.6872
0.8301
0.9182
0.9648
0.9863
0.9952
0.9984
0.9995
0.9999
1.0000
1.0000
1.0000
0.0224
0.1074
0.2689
0.4735
0.6679
0.8156
0.9091
0.9599
0.9840
0.9942
0.9981
0.9994
0.9998
1.0000
1.0000
1.0000
0.0203
0.0992
0.2531
0.4533
0.6484
0.8006
0.8995
0.9546
0.9815
0.9931
0.9977
0.9993
0.9998
1.0000
1.0000
1.0000
0.0183
0.0916
0.2381
0.4335
0.6288
0.7851
0.8893
0.9489
0.9786
0.9919
0.9972
0.9991
0.9997
0.9999
1.0000
1.0000
0.0166
0.0845
0.2238
0.4142
0.6093
0.7693
0.8787
0.9427
0.9755
0.9905
0.9966
0.9989
0.9997
0.9999
1.0000
1.0000
0.0150
0.0780
0.2102
0.3954
0.5898
0.7532
0.8675
0.9361
0.9721
0.9889
0.9959
0.9986
0.9996
0.9999
1.0000
1.0000
0.0136
0.0719
0.1974
0.3772
0.5704
0.7367
0.8558
0.9290
0.9683
0.9871
0.9952
0.9983
0.9995
0.9999
1.0000
1.0000
0.0123
0.0663
0.1852
0.3595
0.5512
0.7199
0.8437
0.9214
0.9642
0.9851
0.9943
0.9980
0.9994
0.9998
1.0000
1.0000
0.0111
0.0611
0.1736
0.3423
0.5321
0.7029
0.8311
0.9134
0.9598
0.9829
0.9933
0.9976
0.9992
0.9998
0.9999
1.0000
6. Repräsentation
7. Klassifikation
123
Statistik
Etschberger - SS2014
Poisson-Verteilung: Beispiel
Beispiel
X ∼ B(10 000; 0,0003); In Tabelle der Binomialverteilung nicht
vertafelt! Approximation:

p = 0,0003 < 0,1
n = 10 000 > 50 ⇒ B(10 000; 0,0003) ≈ P(3)

np = 3
< 10
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
Mithilfe der Wahrscheinlichkeitsfunktion:
5. Datenanalyse
6. Repräsentation
5
P(X = 5) =
3
· e−3 = 0,1008188
5!
7. Klassifikation
Mithilfe der Tabelle der Poissonverteilung:
P(X = 5) = F(5) − F(4) = 0,9161 − 0,8153 = 0,1008
Exakter Wert: P(X = 5) = 0,1008239
124
Statistik
Etschberger - SS2014
Poisson- versus Binomialverteilung: Vergleich
n=5 p=0.8
n=10 p=0.4
0.25
0.4
0.20
0.3
1. Einführung
Binomial
0.2
Verteilung
0.15
Binomial
p
p
Verteilung
Poisson
Poisson
0.10
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
0.1
Zufall und Wahrscheinlichkeit
0.05
0.0
Zufallsvariablen und
Verteilungen
0.00
0
1
2
3
4
5
Verteilungsparameter
0 1 2 3 4 5 6 7 8 9 10
x
4. Induktive Statistik
x
5. Datenanalyse
n=100 p=0.04
0.20
0.20
0.15
0.15
7. Klassifikation
Binomial
Verteilung
p
p
Verteilung
0.10
6. Repräsentation
n=1000 p=0.004
Binomial
0.10
Poisson
Poisson
0.05
0.05
0.00
0.00
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
x
x
125
Statistik
Etschberger - SS2014
Stetige Zufallsvariablen
X heißt stetig,
wenn F(x) stetig ist.
Dann existiert ein f(t) mit:
Zx
F(x) =
f(t) dt
−∞
3
2
f(t)
x
R
F(x) =
f(t)dt
−∞
1
1
1. Einführung
1
2
1
2
3. W-Theorie
2. Deskriptive Statistik
Kombinatorik
t
f(x) heißt Dichtefunktion
von X.
1x
2
1x
2
1
Dann:
3
2
Zufall und Wahrscheinlichkeit
x
Zufallsvariablen und
Verteilungen
1
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
f(x)
6. Repräsentation
7. Klassifikation
P(a < X < b) = P(a 5 X < b)
= P(a < X 5 b)
1
= P(a 5 X 5 b)
Rb
= a
f(x) dx
1
2
= F(b) − F(a)
x
a
1
2
b
1
126
Statistik
Etschberger - SS2014
Dichtefunktion
Eigenschaften der Dichtefunktion
f(x) = 0 für alle x ∈ R
1. Einführung
Wegen F(∞) = 1 muss stets gelten:
Z∞
f(x) dx = 1
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
−∞
Verteilungsparameter
P(X = x) = 0 für alle x ∈ R
4. Induktive Statistik
f(x) > 1 ist möglich
5. Datenanalyse
für x ∈ R ist F(x) differenzierbar ⇒ F 0 (x) = f(x).
6. Repräsentation
7. Klassifikation
Intervallgrenzen spielen keine Rolle:
P(X ∈ [a; b]) = P(X ∈ (a; b])
= P(X ∈ [a; b))
= P(X ∈ (a; b))
= F(b) − F(a)
127
Statistik
Etschberger - SS2014
Dichtefunktion: Beispiel
Beispiel
1. Einführung

 0,
1
f(x) = 10
,

0,
2. Deskriptive Statistik
falls
x<0
falls 0 5 x 5 10
falls
x > 10
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsfunktion:
x
Zx
Zx
t
x
1
f(t) dt =
dt =
=
⇒
10 0
10
0
0 10

x<0
 0, falls
x
F(x) = 10 , falls 0 5 x 5 10

1, falls
x > 10
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
128
Statistik
Etschberger - SS2014
Gleichverteilung
Eine Zufallsvariable X mit


1
,
f(x) = b − a
 0 ,
1. Einführung
falls a 5 x 5 b
2. Deskriptive Statistik
3. W-Theorie
sonst
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
heißt gleichverteilt im Intervall [a; b].
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
f(x)
7. Klassifikation
1
b−a
x
a
b
129
Statistik
Etschberger - SS2014
Gleichverteilung
Verteilungsfunktion der Gleichverteilung:
1. Einführung


0 , falls
x<a


x − a
, falls a 5 x 5 b
F(x) =

b−a


 1 , falls
x>b
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Beispiel: X gleichverteilt in [1; 20]
7. Klassifikation
P(2 5 X 5 12) = F(12) − F(2) =
12 − 1
2−1
−
20 − 1 20 − 1
12 − 2
10
=
20 − 1
19
= 0,5263
=
130
Statistik
Etschberger - SS2014
Normalverteilung
Eine Zufallsvariable X mit einer Dichtefunktion
f(x) =
1
√
σ 2π
(x − µ)2
−
2σ2
·e
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
und σ > 0 heißt normalverteilt.
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
f(x)
Verteilungsparameter
N(2; 13 )
1
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
N(2; 1)
0,5
N(0; 1)
N(2; 2)
x
−2
−1
1
Kurzschreibweise: X ∼ N(µ; σ)
2
3
4
5
131
Statistik
Etschberger - SS2014
Normalverteilung: Gaußkurve
Normalverteilung
1. Einführung
C.F. Gauß
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
132
Statistik
Etschberger - SS2014
Verteilungsfunktion Φ der Standardnormalverteilung
Dabei bedeutet Φ(x) zum Beispiel: Φ(2,13) = Φ(2,1 + 0,03) = 0,9834. Diesen Wert
findet man in der Zeile mit x1 = 2,1 und der Spalte mit x2 = 0,03.
x1 \x2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3
3.1
3.2
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7258
0.7580
0.7882
0.8159
0.8414
0.8643
0.8849
0.9032
0.9193
0.9332
0.9452
0.9554
0.9641
0.9713
0.9773
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9975
0.9981
0.9987
0.9990
0.9993
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7612
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9865
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8687
0.8888
0.9066
0.9222
0.9358
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9983
0.9987
0.9991
0.9994
0.5120
0.5517
0.5910
0.6293
0.6664
0.7020
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9083
0.9237
0.9370
0.9485
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7996
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9978
0.9984
0.9988
0.9992
0.9994
0.5199
0.5596
0.5987
0.6368
0.6737
0.7089
0.7422
0.7734
0.8023
0.8290
0.8532
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9600
0.9679
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.5239
0.5636
0.6026
0.6406
0.6773
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9516
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9995
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8079
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9526
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9933
0.9949
0.9962
0.9972
0.9980
0.9985
0.9989
0.9992
0.9995
0.5319
0.5714
0.6103
0.6480
0.6844
0.7191
0.7518
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9430
0.9535
0.9625
0.9700
0.9762
0.9812
0.9854
0.9887
0.9914
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.5359
0.5754
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8622
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
133
Statistik
Etschberger - SS2014
Eigenschaften der Normalverteilung
Dichte ist symmetrisch zu µ:
1. Einführung
f(µ − x) = f(µ + x)
2. Deskriptive Statistik
3. W-Theorie
à µ ist Lage-, σ ist Streuungsparameter
Kombinatorik
Standardnormalverteilung:
N(0; 1) mit Verteilungsfunktion Φ(x) (→ Tabelle 3)
Kenntnis von Φ(x), µ und σ genügt, denn:
X ∼ N(µ; σ) ⇐⇒ X−µ
⇒
σ ∼ N(0; 1)
x−µ
F(x) = Φ
σ
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Tabelle enthält nur positive x: Deswegen
Φ(−x) = 1 − Φ(x)
134
Statistik
Etschberger - SS2014
Normalverteilung: Beispiel
Beispiel:
Projektdauer X ∼ N(39; 2).
1. Einführung
Wahrscheinlichkeit für Projektdauer zwischen 37 und 41 Wochen?
3. W-Theorie
2. Deskriptive Statistik
Kombinatorik
Zufall und Wahrscheinlichkeit
Lösung:
Zufallsvariablen und
Verteilungen
Verteilungsparameter
P(37 5 X 5 41) = F(41) − F(37)
= Φ 41−39
−Φ
2
4. Induktive Statistik
37−39
2
= Φ(1) − Φ(−1)
5. Datenanalyse
6. Repräsentation
7. Klassifikation
= Φ(1) − [1 − Φ(1)]
= 2 · Φ(1) − 1
= 2 · 0,8413 − 1
= 0,6826
135
Statistik
Etschberger - SS2014
Lageparameter
a) Modus xMod : f(xMod ) = f(x) für alle x
(i.A. nicht eindeutig, z.B. Gleichverteilung)
1. Einführung
2. Deskriptive Statistik
Beispiele:
3. W-Theorie
Kombinatorik
Normalverteilung: xMod = µ
Diskrete Verteilung mit:
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
x 0 1 2
f(x) 41 12 14
Verteilungsparameter
4. Induktive Statistik
⇒ xMod = 1
5. Datenanalyse
6. Repräsentation
7. Klassifikation
b) Median xMed : F(xMed ) =
1
2
bzw. kleinstes x mit F(x) >
1
2
Beispiele:
Normalverteilung: xMed = µ
Diskrete Verteilung
oben: F(0) = 14 < 21 , F(1) =
3
4
>
1
2
⇒ xMed = 1
136
Statistik
Etschberger - SS2014
Lageparameter: Fraktile
c) α -Fraktil xα : F(xα ) = α (für stetige Verteilungen)
Beispiel: X ∼ N(0; 1), Y ∼ N(3; 2)
1. Einführung
2. Deskriptive Statistik
x0,975 =
1,96
x0,025 = −x0,975
= −1,96
y0,025 = 2 · x0,025 +3 = −0,92
(Tab. 3)
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
Hinweise:
4. Induktive Statistik
5. Datenanalyse
xMed = x0,5
Wenn xα nicht vertafelt → Interpolation:
xα ≈ xa + (xb − xa ) ·
mit
6. Repräsentation
7. Klassifikation
α−a
b−a
a : größte vertafelte Zahl < α
b : kleinste vertafelte Zahl > α
Beispiel: X ∼ N(0; 1); x0,6 ≈ 0,25 + (0,26 − 0,25) ·
0,2533
0,6−0,5987
0,6026−0,5987
=
137
Statistik
Etschberger - SS2014
Lageparameter: Erwartungswert
d) Erwartungswert E(X) bzw. µ:
X
xi f(xi ),




 i
∞
Z
E(X) =



xf(x) dx,


1. Einführung
falls X diskret
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
falls X stetig
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
−∞
Verteilungsparameter
4. Induktive Statistik
Beispiel: Diskrete Verteilung mit
5. Datenanalyse
6. Repräsentation
x 0 1 2
f(x) 14 21 14
⇒
E(X) = 0 ·
1
4
+1·
1
2
+2·
1
4
=1
7. Klassifikation
Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte
λ · e−λx für x ≥ 0
f(x) =
folgt
0
sonst
Z∞
Z∞
Z∞
1 −λx
1 −λx
−λx
E(X) =
x · f(x)dx = λ
x·e
dx = λ − xe
−
1· − e
dx
λ
λ
−∞
0
0
∞
1
1
1
−λx
−λx = −xe
− e
= −0 − −0 −
=
λ
λ
λ
0
138
Statistik
Etschberger - SS2014
Rechenregeln für den Erwartungswert
Ist f symmetrisch bzgl. a, so gilt E(X) = a
Beispiel: f der Gleichverteilung symmetrisch
bzgl. a+b
⇒ E(X) = a+b
2
2
1. Einführung
Lineare Transformation:
2. Deskriptive Statistik
3. W-Theorie
E(a + bX) = a + b · E(X)
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Summenbildung:
Verteilungsparameter
4. Induktive Statistik
E
n
X
i=1
!
Xi
=
n
X
5. Datenanalyse
E(Xi )
6. Repräsentation
i=1
7. Klassifikation
Beispiel: X gleichverteilt in [0; 10], Y ∼ N(1; 1); Z = X + 5Y
E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5·E(Y) =
10+0
2
+5·1 = 10
Unabhängigkeit:
X, Y unabhängig ⇒ E(X · Y) = E(X) · E(Y)
139
Statistik
Etschberger - SS2014
Streuungsparameter
Varianz Var(X) bzw. σ2 :
X
[xi − E(X)]2 f(xi ),




wenn X diskret
i
Var(X) = E([X − E(X)]2 ) =
Z ∞



[x − E(X)]2 f(x) dx,
1. Einführung
2. Deskriptive Statistik
wenn X stetig
−∞
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Standardabweichung Sta(X) bzw. σ:
Sta(X) =
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
x 0 1 2
1 1 1
f(x) 4
2 4
Beispiel: Diskrete Verteilung
p
Var(X)
:
6. Repräsentation
7. Klassifikation
2
Var(X) = (0 − 1) ·
1
1
1
1
2
2
+ (1 − 1) · + (2 − 1) ·
=
4
2
4
2
Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt
Z∞
Z∞
−λx
1 2
Var(X) =
(x − E(X))f(x)dx = λ
x− λ
·e
dx
−∞
= e
−λx
0
−
1 2
λ
1 2
1
= 2
λ
2
2x
λ
−x +
2
= 0 − −0 −
λ
−
2
λ2
−
2x
λ
+
2
λ2
∞
0
140
Statistik
Etschberger - SS2014
Rechenregeln für die Varianz
Verschiebungssatz:
Var(X) = E(X2 ) − [E(X)]2
1. Einführung
2. Deskriptive Statistik
Beispiel: Diskrete Verteilung
2
E(X )
⇒ E(X2 ) − [E(X)]2
2
x 0 1 2
1 1
f(x) 1
4 2 4
:
1
2
2
=
0 ·
=
3
2
3
2
=
1
4
2
+1 ·
3. W-Theorie
Kombinatorik
+2 ·
1
4
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
− 12 =
1
2
= Var(X)
Lineare Transformation:
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Var(a + bX) = b2 Var(X)
Summenbildung gilt nur, wenn die Xi unabhängig! Dann:
!
n
n
X
X
Var(Xi )
Var
Xi =
i=1
i=1
141
Erwartungswerte und Varianzen wichtiger Verteilungen
Verteilung von X
E(X)
Var(X)
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Binomialverteilung B(n; p)
np
np(1 − p)
Hypergeometrische Verteilung
mit den Parametern N, M, n
nM
N
N−M N−n
nM
N
N N−1
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Verteilungsparameter
4. Induktive Statistik
5. Datenanalyse
Poisson-Verteilung P(λ)
Gleichverteilung in [a; b]
mit a < b
Normalverteilung N(µ; σ)
λ
a+b
2
λ
(b − a)2
12
µ
σ2
6. Repräsentation
7. Klassifikation
142
Statistik
Etschberger - SS2014
Kovarianz und Korrelation
Kovarianz:
Cov(X, Y)
= E[(X − E(X))(Y − E(Y))]
= E(X · Y) − E(X) · E(Y)
(Verschiebungssatz)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Kombinatorik
Zufall und Wahrscheinlichkeit
Zufallsvariablen und
Verteilungen
Korrelationskoeffizient:
Verteilungsparameter
4. Induktive Statistik
ρ(X, Y) = p
Cov(X, Y)
Var(X) · Var(Y)
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Bemerkungen:
ρ ist r nachgebildet ⇒ ρ ∈ [−1; 1]
|ρ| = 1 ⇐⇒ Y = a + bX (mit b 6= 0)
ρ = 0 ⇐⇒ X, Y unkorreliert
Varianz einer Summe zweier ZV:
Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)
143
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
4
Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Grundlagen der induktiven Statistik
Vollerhebung of unmöglich,
Deshalb: Beobachte Teilgesamtheit und schließe auf
Grundgesamtheit
Beispiel
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Warensendung von 1000 Stück; darunter M Stück Ausschuss.
M ist unbekannt.
→ Zufällige Entnahme von n = 30 Stück („Stichprobe“).
Darunter 2 Stück Ausschuss.
Denkbare Zielsetzungen:
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
2
Schätze M durch eine Zahl (z.B. 30
· 1000 = 66,67)
Schätze ein Intervall für M (z.B. M ∈ [58; 84])
Teste die Hypothese, dass M > 50 ist.
145
Statistik
Etschberger - SS2014
Grundbegriffe
Grundgesamtheit (G): Menge aller relevanten Merkmalsträger.
Verteilung von G: F(x) = P(X 5 x) = Wahrscheinlichkeit, dass ein
Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal
maximal die Ausprägung x aufweist.
Uneingeschränkte (reine) Zufallsauswahl:
Jedes Element von G hat die selbe Chance, ausgewählt zu werden.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
Stichprobenumfang (n): Anzahl der Merkmalsträger in der
Stichprobe.
6. Repräsentation
7. Klassifikation
Einfache Stichprobe:
Uneingeschränkte Zufallsauswahl und unabhängige Ziehung.
→ Alle Stichprobenvariablen X1 , . . . , Xn sind iid.
Stichprobenergebnis:
n-Tupel der Realisationen der Stichprobenvariablen, (x1 , . . . , xn ).
146
Statistik
Etschberger - SS2014
Wichtige Stichprobenfunktionen
Gegeben: Einfache Stichprobe X1 , . . . , Xn ,
mit E(Xi ) = µ, Var(Xi ) = σ2
Stichprobenfunktion V
n
X
Beliebige Verteilung,
Bezeichnung
E(V)
Var(V)
Merkmalssumme
nµ
nσ2
µ
σ2
n
1. Einführung
2. Deskriptive Statistik
Xi
3. W-Theorie
i=1
n
1 X
X̄ =
Xi
n i=1
Stichprobenmittel
X̄ − µ √
n
σ
Gauß-Statistik
n
1 X
2
(Xi − µ)
n i=1
mittlere quadratische
Abweichung bezüglich µ
n
1 X
2
(Xi − X̄)
n i=1
mittlere quadratische
Abweichung
2
S =
n
X
1
2
(Xi − X̄)
n − 1 i=1
√
S=
S2
X̄ − µ √
n
S
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Stichprobenvarianz
0
1
5. Datenanalyse
6. Repräsentation
σ
2
7. Klassifikation
n−1 2
σ
n
σ2
StichprobenStandardabweichung
t-Statistik
147
Auswirkungen der Stichprobengröße
Statistik
Etschberger - SS2014
Ziehen von 10.000 Stichproben (jeweils vom Umfang n) und Berechnung der
Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
148
Auswirkungen der Stichprobengröße
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
149
Statistik
Etschberger - SS2014
Auswirkungen der Stichprobengröße
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
150
Statistik
Etschberger - SS2014
Testverteilungen
Chi-Quadrat-Verteilung
Sind X1 , . . . , Xn iid N(0; 1)-verteilte Zufallsvariablen, so wird
die Verteilung von
n
X
Z=
X2i
i=1
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet.
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
f(x)
5. Datenanalyse
6. Repräsentation
0,1
7. Klassifikation
0,05
x
1
10
14
Kurzschreibweise: Z ∼ χ2 (n)
Beispiel: χ2 (30): x0,975 = 46,98
151
Quantilstabelle der χ2 -Verteilung mit n Freiheitsgraden
α\n
0.005
0.01
0.025
0.05
0.1
0.2
0.25
0.4
0.5
0.6
0.75
0.8
0.9
0.95
0.975
0.99
0.995
1
2
3
4
0.00 0.01 0.07 0.21
0.00 0.02 0.11 0.30
0.00 0.05 0.22 0.48
0.00 0.10 0.35 0.71
0.02 0.21 0.58 1.06
0.06 0.45 1.01 1.65
0.10 0.58 1.21 1.92
0.28 1.02 1.87 2.75
0.45 1.39 2.37 3.36
0.71 1.83 2.95 4.04
1.32 2.77 4.11 5.39
1.64 3.22 4.64 5.99
2.71 4.61 6.25 7.78
3.84 5.99 7.81 9.49
5.02 7.38 9.35 11.14
6.63 9.21 11.34 13.28
7.88 10.60 12.84 14.86
Statistik
Etschberger - SS2014
5
6
7
8
9
10
11
12
13
14
15
0.41
0.55
0.83
1.15
1.61
2.34
2.67
3.66
4.35
5.13
6.63
7.29
9.24
11.07
12.83
15.09
16.75
0.68
0.87
1.24
1.64
2.20
3.07
3.45
4.57
5.35
6.21
7.84
8.56
10.64
12.59
14.45
16.81
18.55
0.99
1.24
1.69
2.17
2.83
3.82
4.25
5.49
6.35
7.28
9.04
9.80
12.02
14.07
16.01
18.48
20.28
1.34
1.65
2.18
2.73
3.49
4.59
5.07
6.42
7.34
8.35
10.22
11.03
13.36
15.51
17.53
20.09
21.95
1.73
2.09
2.70
3.33
4.17
5.38
5.90
7.36
8.34
9.41
11.39
12.24
14.68
16.92
19.02
21.67
23.59
2.16
2.56
3.25
3.94
4.87
6.18
6.74
8.30
9.34
10.47
12.55
13.44
15.99
18.31
20.48
23.21
25.19
2.60
3.05
3.82
4.57
5.58
6.99
7.58
9.24
10.34
11.53
13.70
14.63
17.27
19.68
21.92
24.73
26.76
3.07
3.57
4.40
5.23
6.30
7.81
8.44
10.18
11.34
12.58
14.85
15.81
18.55
21.03
23.34
26.22
28.30
3.56
4.11
5.01
5.89
7.04
8.63
9.30
11.13
12.34
13.64
15.98
16.98
19.81
22.36
24.74
27.69
29.82
4.07
4.66
5.63
6.57
7.79
9.47
10.17
12.08
13.34
14.69
17.12
18.15
21.06
23.68
26.12
29.14
31.32
4.60
5.23
6.26
7.26
8.55
10.31
11.04
13.03
14.34
15.73
18.25
19.31
22.31
25.00
27.49
30.58
32.80
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
α\n
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.005
0.01
0.025
0.05
0.1
0.2
0.25
0.4
0.5
0.6
0.75
0.8
0.9
0.95
0.975
0.99
0.995
5.14
5.81
6.91
7.96
9.31
11.15
11.91
13.98
15.34
16.78
19.37
20.47
23.54
26.30
28.85
32.00
34.27
5.70
6.41
7.56
8.67
10.09
12.00
12.79
14.94
16.34
17.82
20.49
21.61
24.77
27.59
30.19
33.41
35.72
6.26
7.01
8.23
9.39
10.86
12.86
13.68
15.89
17.34
18.87
21.60
22.76
25.99
28.87
31.53
34.81
37.16
6.84
7.63
8.91
10.12
11.65
13.72
14.56
16.85
18.34
19.91
22.72
23.90
27.20
30.14
32.85
36.19
38.58
7.43
8.26
9.59
10.85
12.44
14.58
15.45
17.81
19.34
20.95
23.83
25.04
28.41
31.41
34.17
37.57
40.00
8.03
8.90
10.28
11.59
13.24
15.44
16.34
18.77
20.34
21.99
24.93
26.17
29.62
32.67
35.48
38.93
41.40
8.64
9.54
10.98
12.34
14.04
16.31
17.24
19.73
21.34
23.03
26.04
27.30
30.81
33.92
36.78
40.29
42.80
9.26
10.20
11.69
13.09
14.85
17.19
18.14
20.69
22.34
24.07
27.14
28.43
32.01
35.17
38.08
41.64
44.18
9.89
10.86
12.40
13.85
15.66
18.06
19.04
21.65
23.34
25.11
28.24
29.55
33.20
36.41
39.36
42.98
45.56
10.52
11.52
13.12
14.61
16.47
18.94
19.94
22.62
24.34
26.14
29.34
30.68
34.38
37.65
40.65
44.31
46.93
11.16
12.20
13.84
15.38
17.29
19.82
20.84
23.58
25.34
27.18
30.43
31.79
35.56
38.89
41.92
45.64
48.29
11.81
12.88
14.57
16.15
18.11
20.70
21.75
24.54
26.34
28.21
31.53
32.91
36.74
40.11
43.19
46.96
49.64
12.46
13.56
15.31
16.93
18.94
21.59
22.66
25.51
27.34
29.25
32.62
34.03
37.92
41.34
44.46
48.28
50.99
13.12
14.26
16.05
17.71
19.77
22.48
23.57
26.48
28.34
30.28
33.71
35.14
39.09
42.56
45.72
49.59
52.34
13.79
14.95
16.79
18.49
20.60
23.36
24.48
27.44
29.34
31.32
34.80
36.25
40.26
43.77
46.98
50.89
53.67
7. Klassifikation
152
Statistik
Etschberger - SS2014
Testverteilungen: t-Verteilung
Ist X ∼ N(0; 1), Z ∼ χ2 (n), X, Z
unabhängig, so wird die Verteilung von
1. Einführung
X
T= q
1
n
2. Deskriptive Statistik
3. W-Theorie
Z
4. Induktive Statistik
Grundlagen
als t-Verteilung mit n Freiheitsgraden
bezeichnet.
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
William Sealy Gosset
1876 – 1937
5. Datenanalyse
6. Repräsentation
f(x)
7. Klassifikation
0,2
0,1
x
−3
−2
−1
1
2
3
Kurzschreibweise: T ∼ t(n)
Beispiel: t(10) x0,6 = 0,260, x0,5 = 0, x0,1 = −x0,9 = −1,372
153
Statistik
Etschberger - SS2014
Quantilstabelle der t-Verteilung mit n Freiheitsgraden
α\n
0.6
0.75
0.8
0.9
0.95
0.975
0.99
0.995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.698
0.696
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
1.376
1.061
0.979
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.875
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.312
1.311
1.310
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
12.706
4.303
3.183
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.059
2.055
2.052
2.048
2.045
2.042
31.820
6.965
4.541
3.747
3.365
3.143
2.998
2.897
2.821
2.764
2.718
2.681
2.650
2.624
2.603
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.054
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
154
t-Verteilung vs. Normalverteilung
Statistik
Etschberger - SS2014
Dichtefunktion
t-Verteilung mit 1 (blau), 3 (grün) und 10 (lila) Freiheitsgraden
Standardnormalverteilung (rot)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
155
Statistik
Etschberger - SS2014
Punkt-Schätzung
Ein unbekannter Parameter ϑ der Verteilung von G soll auf
Basis einer Stichprobe geschätzt werden.
1. Einführung
2. Deskriptive Statistik
Zum Beispiel: σ von N(10; σ)
3. W-Theorie
Schätzwert: ϑ̂
4. Induktive Statistik
Grundlagen
Vorgehen: Verwendung einer Schätzfunktion
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Θ̂ = g(X1 , . . . , Xn )
5. Datenanalyse
6. Repräsentation
Beachte: Der Schätzwert ϑ̂ ist die Realisierung der ZV (!) Θ̂.
7. Klassifikation
Frage: Welche Stichprobenfunktion ist zur Schätzung
geeignet?
à Kriterien für die Beurteilung/Konstruktion von
Schätzfunktionen!
Im Folgenden: Vorliegen einer einfachen Stichprobe,
d.h. X1 , . . . , Xn iid.
156
Statistik
Etschberger - SS2014
Erwartungstreue und Wirksamkeit
Eine Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) heißt
erwartungstreu oder unverzerrt für ϑ, wenn unabhängig
vom numerischen Wert von ϑ gilt:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
E(Θ̂) = ϑ
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Beispiel
Sind Θ̂ = X̄, Θ̂ 0 =
X1 +Xn
,
2
Θ̂ 00 =
1
n−1
n
P
5. Datenanalyse
Xi erwartungstreu für µ?
i=1
6. Repräsentation
7. Klassifikation
a) Θ̂:
E(X̄) = µ
⇒ Θ̂ ist erwartungstreu.
1
n
b) Θ̂ 0 :
E X1 +X
= 2 [E(X1 ) + E(Xn )] = 12 (µ + µ) = µ
2
⇒ Θ̂ 0 ist erwartungstreu.
n
n
n
P
P
P
00
1
1
1
n
c) Θ̂ : E n−1
Xi = n−1
E(Xi ) = n−1
µ = n−1
µ 6= µ
i=1
⇒ Θ̂
00
i=1
i=1
ist nicht erwartungstreu
157
Statistik
Etschberger - SS2014
Erwartungstreue und Wirksamkeit
Welche der erwartungstreuen Schätzfunktionen Θ̂, Θ̂ 0 ist
„besser“?
0
Von zwei erwartungstreuen Schätzfunktionen Θ̂, Θ̂ für ϑ
heißt Θ̂ wirksamer als Θ̂ 0 , wenn unabhängig vom
numerischen Wert von ϑ gilt:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Var(Θ̂) < Var(Θ̂ 0 )
5. Datenanalyse
6. Repräsentation
0
Beispiel: (Θ̂ = X̄, Θ̂ =
Wegen
X1 +Xn
)
2
7. Klassifikation

Var(Θ̂) = Var(X̄)
Var(Θ̂ 0 ) = Var
=
X1 +Xn
2
= 14 (σ2 + σ2 ) =
σ2 
n
2
σ
2

⇒ Var(Θ̂) < Var(Θ̂ 0 )
(falls n > 2) ist Θ̂ wirksamer als Θ̂ 0 .
158
Statistik
Etschberger - SS2014
Intervall-Schätzung
Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer
Stichprobe ein Intervall geschätzt werden.
Verwendung der Stichprobenfunktionen Vu , Vo , so
dass Vu 5 Vo und
P(Vu 5 ϑ 5 Vo ) = 1 − α
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
stets gelten.
[Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum
Konfidenzniveau 1 − α.
Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der
Zufallsvariablen (!) Vu , Vo .
à Irrtumswahrscheinlichkeit α (klein, i.d.R. α 5 0,1)
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet?
à Hängt von Verteilung von G sowie vom unbekannten Parameter
(µ, σ2 ) ab!
Im Folgenden: Einfache
Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2
159
Statistik
Etschberger - SS2014
Intervall-Schätzung
Wichtiger Spezialfall: Symmetrische Konfidenzintervalle
Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern
übereinstimmende Wahrscheinlichkeiten für Über-/Unterschreiten
des Konfidenzintervalls, d.h.
P(Vu > ϑ) = P(Vo < ϑ) =
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
α
2
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
f(x)
5. Datenanalyse
6. Repräsentation
0,1
7. Klassifikation
0,05
x
1
10
14
Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des
Konfidenzintervalls.
160
Konfidenzintervall für µ bei Normalverteilung mit bekanntem σ2
Vorgehensweise:
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
1
2
3
4
5
Festlegen des Konfidenzniveaus 1 − α
α
-Fraktils c der N(0, 1)-Verteilung
Bestimmung des 1 −
2
Berechnen des Stichprobenmittels x̄
σc
Berechnen des Wertes √
n
Ergebnis der Intervall-Schätzung:
σc
x̄ − √ ;
n
σc
x̄ + √
n
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
161
Statistik
Etschberger - SS2014
Intervallschätzung: Beispiel
Beispiel
Normalverteilung mit σ = 2,4
(x1 , . . . , x9 ) = (184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1,
184.4)
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau
1 − α = 0,99
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
1. 1 − α = 0,99
5. Datenanalyse
2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3;
2
Interpolation)
3. x̄ =
4.
σc
√
n
1
9
=
6. Repräsentation
7. Klassifikation
(184,2 + · · · + 184,4) = 184,8
2,4·2,576
√
9
= 2,06
5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86]
Interpretation: Mit 99 % Wahrscheinlichkeit
ist µ ∈ [182,74; 186,86].
162
Statistik
Etschberger - SS2014
Wichtige Fraktilswerte
1. Einführung
2. Deskriptive Statistik
Wichtige N(0; 1)-Fraktilswerte:
3. W-Theorie
4. Induktive Statistik
α
xα
0,9
1,281552
0,95
1,644854
0,975 1,959964
0,99
2,326348
0,995 2,575829
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
(I.d.R. genügen drei Nachkommastellen.)
163
Statistik
Etschberger - SS2014
Intervalllänge
Bei bekannter Standardabweichung gilt offenkundig
2σc
L = Vo − Vu = √
n
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Welcher Stichprobenumfang n sichert eine vorgegebene
(Maximal-)Länge L? ⇒
Nach n auflösen!
⇒
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
n=
2σc
L
2
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Eine Halbierung von L erfordert eine Vervierfachung von n!
Angewendet auf letztes Beispiel:
L = 4 ⇒n =
L = 2 ⇒n =
2·2,4·2,576 2
4
2·2,4·2,576 2
2
= 9,556 ⇒ n = 10
= 38,222 ⇒ n = 39
164
Statistik
Etschberger - SS2014
Konfidenzintervall
Konfidenzintervall für µ bei Normalverteilung mit
unbekanntem σ2
2. Deskriptive Statistik
Vorgehensweise:
1
2
3
4
5
1. Einführung
3. W-Theorie
Festlegen des Konfidenzniveaus
1−α
α
Bestimmung des 1 −
-Fraktils c der t(n − 1)-Verteilung
2
Berechnen des Stichprobenmittels x̄ und der
Stichproben-Standardabweichung s
sc
Berechnen des Wertes √
n
Ergebnis der Intervall-Schätzung:
sc
x̄ − √ ;
n
sc
x̄ + √
n
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung
verwendet.
165
Statistik
Etschberger - SS2014
Konfidenzintervalllänge
Beispiel:
Wie das letzte Beispiel, jedoch σ unbekannt.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
1
1 − α = 0,99
2
t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4)
Grundlagen
2
3
x̄ =
s=
1
9 (184,2 + · · · + 184,4) = 184,8
q
1
2
2
8 [(184,2 + · · · + 184,4 ) − 9
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
· 184,82 ] = 1,31
4
sc
√
n
5
KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27]
=
1,31·3,355
√
9
Punkt-Schätzung
6. Repräsentation
7. Klassifikation
= 1,47
Interpretation: Mit 99 % Wahrscheinlichkeit
ist µ ∈ [183,33; 186,27].
166
R Beispiel
x <- c(184.2, 182.6, 185.3, 184.5, 186.2,
183.9, 185.0, 187.1, 184.4)
t.test(x,conf.level=.99)
##
##
##
##
##
##
##
##
##
##
##
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
One Sample t-test
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
data: x
t = 422.1, df = 8, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
183.3 186.3
sample estimates:
mean of x
184.8
5. Datenanalyse
6. Repräsentation
7. Klassifikation
167
Statistik
Etschberger - SS2014
Konfidenzintervall für µ bei beliebiger Verteilung
n
P
Voraussetzung: n > 30, bzw. falls G dichotom: 5 5
xi 5 n − 5
i=1
Vorgehensweise:
1
2
3
4
5
1. Einführung
Festlegen des Konfidenzniveaus
1−α
α
Bestimmung des 1 − 2 -Fraktils c der
Standardnormalverteilung N(0; 1)
Berechnung des Stichprobenmittels x̄ sowe eines Schätzwertes
σ̂ für die Standardabweichung σ der GG mittels


σ,
falls σ bekannt
p
σ̂ =
x̄(1 − x̄), falls GG dichotom


s,
sonst
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
σ̂c
Berechnung von √
n
Ergebnis der Intervallschätzung:
σ̂c
σ̂c
x̄ − √ ; x̄ + √
n
n
Zu Schritt 3: Manchmal kann anderer Schätzwert σ̂ sinnvoller sein.
Konfidenzintervall für µ bei beliebiger Verteilung
Beispiel:
Poisson-Verteilung mit λ (= µ = σ2 ) unbekannt.
(x1 , . . . , x40 ) = (3; 8; . . . ; 6)
Gesucht: KI für λ zum Konfidenzniveau 1 − α = 0,9
168
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
1
1 − α = 0,9
2
N(0; 1) : c = x1− α2 = x1− 0,1 = x0,95 = 1,645
Signifikanztests
2
3
4
5
1
(3 + 8 + · · · + 6) = 6,5
40
√
√
σ̂ = x̄ = 6,5 = 2,55 (da σ2 = λ)
σ̂c
2,55 · 1,645
√ =
√
= 0,66
n
40
KI = [6,5 − 0,66; 6,5 + 0,66] = [5,84; 7,16]
x̄ =
5. Datenanalyse
6. Repräsentation
7. Klassifikation
169
Konfidenzintervall für σ2 bei Normalverteilung
Statistik
Etschberger - SS2014
Vorgehensweise
1. Einführung
1
2
3
α
2-
bzw. (1 −
Bestimmung der
2
χ (n − 1)-Verteilung
3. W-Theorie
α
2 )-Fraktile
(c1 bzw. c2 ) der
n
X
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Aus der Stichprobe: Berechnung der Größe
(n − 1)s2 =
2
(xi − x̄) =
i=1
4
2. Deskriptive Statistik
Festlegen eines Konfidenzniveaus 1 − a
n
X
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
x2i − nx̄2 v
6. Repräsentation
7. Klassifikation
i=1
Berechnung des Konfidenzintervalls
(n − 1)s2 (n − 1)s2
;
c2
c1
170
KI für σ2 bei Normalverteilung
Statistik
Etschberger - SS2014
Beispiel:
G ∼ N(µ; σ);
1. Einführung
(x1 , . . . , x5 ) = (1, 1.5, 2.5, 3, 2)
Gesucht: KI für σ
2
2. Deskriptive Statistik
3. W-Theorie
zum Konfidenzniveau 1 − α = 0,99
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
1
1 − α = 0,99
2
χ2 (5 − 1) : c1 = x α2
c2 = x1− α2
3
4
Intervall-Schätzung
Signifikanztests
= x0,005 = 0,21
5. Datenanalyse
6. Repräsentation
= x0,995 = 14,86
7. Klassifikation
x̄ = 15 (1 + 1,5 + 2,5 + 3 + 2) = 2
5
P
x2i − 5 · x̄2 = 12 + 1,52 + 2,52 + 32 + 22 − 5 · 22 = 2,5
i=1
2,5 2,5
= 0,17; 11,9
KI =
;
14,86 0,21
(Extrem groß, da n klein.)
171
Statistik
Etschberger - SS2014
Signifikanztests
Vorliegen einer Hypothese über die Verteilung(en) der
Grundgesamtheit(en).
1. Einführung
Beispiele:
2. Deskriptive Statistik
„Der Würfel ist fair.“
„Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind
gleich.“
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Hypothese soll anhand einer Stichprobe überprüft werden.
Prinzip:
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
Hypothese verwerfen, wenn „signifikanter“ Widerspruch zur Stichprobe.
Ansonsten: Hypothese nicht verwerfen.
6. Repräsentation
7. Klassifikation
Eine verworfene Hypothese gilt als statistisch widerlegt.
Nicht-Verwerfung ist dagegen ein „Freispruch aus Mangel an
Beweisen“.
Zu Beachten:
Nicht-Verwerfung ist kein „statistischer Beweis“, dass Hypothese wahr ist!
(„Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!)
172
Statistik
Etschberger - SS2014
Einstichproben-Gaußtest
Zunächst:
G ∼ N(µ; σ) mit σ bekannt
Einfache Stichprobe X1 , . . . , Xn
(Null-)Hypothese H0 : µ = µ0
Beispiel:
X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5)
Nullhypothese H0 : µ = 500, d.h. µ0 = 500
Je nach Interessenlage sind unterschiedliche Gegenhypothesen
möglich:
a) H1 : µ 6= µ0
b) H1 : µ < µ0
c) H1 : µ > µ0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Entscheidung:
H0
a) H1
b) H1
c) H1
:
:
:
:
µ
µ
µ
µ
=
6
=
<
>
µ0
µ0 ,
µ0 ,
µ0 ,
wird abgelehnt gegenüber
wenn |x̄ − µ0 | „sehr groß“ ist
wenn x̄ „weit kleiner“ als µ0 ist
wenn x̄ „weit größer“ als µ0 ist
173
Statistik
Etschberger - SS2014
Einstichproben-Gaußtest
Mögliche Fehlentscheidungen
Alternatives Kriterium:
v=
x̄ − µ0 √
n
σ
Ablehnung von H0 , obwohl H0
richtig ist: Fehler 1. Art
Nicht-Ablehnung von H0 , obwohl
H0 falsch ist: Fehler 2. Art
Vorteil: Verteilung bekannt: N(0; 1)
Dann:
H0 : µ = µ0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
wird abgelehnt gegenüber
Punkt-Schätzung
Intervall-Schätzung
a) H1 : µ 6= µ0 , wenn |v| „sehr groß“
ist
b) H1 : µ < µ0 , wenn v „sehr negativ“ ist
c) H1 : µ > µ0 , wenn v „sehr positiv“ ist
Signifikanztests
5. Datenanalyse
6. Repräsentation
alten
H0 beibeh
H0 r
7. Klassifikation
ichtig
H0 ablehn
en
alten
H0 beibeh
H0 f
alsch
H0 ablehn
en
Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art.
174
Statistik
Etschberger - SS2014
Einstichproben-Gaußtest
Mithilfe von α und V kann geklärt werden, was „sehr groß“
usw. heißt:
Wahrscheinlichkeit für Fehler 1. Art im Fall
a): |v| > x, obwohl H0 richtig:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
P(|V| > x) = P(V > x) + P(V < −x)
= 2 · P(V > x)
Punkt-Schätzung
(Symmetrie der Normalverteilung)
!
= 2 · [1 − P(V 5 x)] = 2 · [1 − Φ(x)] = α
⇐⇒ Φ(x) = 1 −
α
2
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
⇐⇒ x = x1− α2
H0 wird demnach verworfen,
wenn |v| > x1− α2 bzw. v ∈ B ist.
B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich.
Analoge Vorgehensweise für die Fälle b) und c)
175
Statistik
Etschberger - SS2014
Einstichproben-Gaußtest
Rezept
1. Einführung
2. Deskriptive Statistik
1
2
3
Ein Signifikanzniveau α wird festgelegt.
x − µ0 √
Der Testfunktionswert v =
n wird berechnet.
σ
Der Verwerfungsbereich
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
B = −∞; −x1−α/2 ∪ x1−α/2 ; ∞
im Fall a)
B = (−∞; −x1−α )
im Fall b)
B = (x1−α ; ∞)
im Fall c)
6. Repräsentation
7. Klassifikation
wird festgelegt, wobei x1−α/2 bzw. x1−α das (1 − α/2)- bzw.
das (1 − α)-Fraktil der N(0,1)-Verteilung ist.
4
H0 wird genau dann verworfen, wenn v ∈ B gilt.
176
Statistik
Etschberger - SS2014
Einstichproben-Gaußtest
Beispiel:
1. Einführung
X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28
Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau
α = 0,01
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Lösung: Einstichproben-Gaußtest, Fall a)
Signifikanztests
5. Datenanalyse
1
α = 0,01
499,28−500
1,5
·
√
6. Repräsentation
2
v=
3
N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576
⇒ B = (−∞; −2,576) ∪ (2,576; ∞)
4
25 = −2,4
7. Klassifikation
v∈
/ B ⇒ H0 nicht verwerfen
Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine
Abweichung vom Sollwert µ0 = 500 nachgewiesen werden.
177
Statistik
Etschberger - SS2014
Aufbau und Klassifikation von Signifikanztests
Der jeweils geeignete Test hängt ab von . . .
dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide:
Parametrische Hypothesen:
Beziehen sich auf unbekannte(n)
Verteilungsparameter (µ, σ2 , . . . )
Nichtparametrische Hypothesen:
Beinhalten sonstige Aussagen, z.B. „Alter und Einkommen sind
unabh.“
den Voraussetzungen an die Verteilung/parameter
(z.B. G ∼ N(µ; σ))
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
den Voraussetzungen an den Stichprobenumfang
(z.B. n > 30)
Art und Anzahl der Stichproben; unterscheide:
Signifikanztests bei einer einfachen Stichprobe
Signifikanztests bei mehreren unabhängigen Stichproben
Signifikanztests bei zwei verbundenen Stichproben
In dieser Vorlesung: Nur einfache Stichproben
178
Statistik
Etschberger - SS2014
Klassifizierung von Signifikanztests
Signifikanztests bei einer einfachen Stichprobe
eka
σb
nnt
Einstichproben
Gaußtest
1. Einführung
ilt
e
σu
ist ert
nbe
G )-v
kann
σ
t
,
µ
(
N
G ist
P dichotom und
5 ≤
xi ≤ n − 5
2. Deskriptive Statistik
Einstichproben
t-Test
4. Induktive Statistik
Grundlagen
Approximativer Gaußtest
p
eine
einfache
Stichprobe
pa
ra nich
m t
et
ris
ch
Signifikanztests
G
ist
ver belie
teil
big
t
n
> und
30
: 2
0
H0 σ
=
2
σ
am
ar
Punkt-Schätzung
Intervall-Schätzung
H
=0 :
µ
0
µ
ch
r is
et
3. W-Theorie
5. Datenanalyse
6. Repräsentation
Approximativer Gaußtest
7. Klassifikation
χ2 -Test für die Varianz
G ist
N(µ, σ)-verteilt
χ2 -Anpassungstest
H0 : F genügt
einem Verteilungstyp
(z.B. einer Normalverteilung)
(Umfangreichere Übersicht über alle möglichen Fälle siehe Bamberg u. a. (2011), Seite 171ff.)
179
Einstichproben-t-Test und approximativer Gaußtest
Statistik
Etschberger - SS2014
Gegeben:
Einfache Stichprobe X1 , . . . , Xn mit
1. Einführung
E(Xi ) = µ, Var(Xi ) = σ2
2. Deskriptive Statistik
3. W-Theorie
Hypothesenpaare:
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
a) H0 : µ = µ0
b) H0 : µ = µ0
c) H0 : µ = µ0
H1 : µ 6= µ0
(oder µ = µ0 ), H1 : µ < µ0
(oder µ 5 µ0 ), H1 : µ > µ0
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Voraussetzungen:
1
Normalverteilung mit σ unbekannt (Einstichproben-t-Test)
oder
2
Beliebige Verteilung P
mit n > 30 bzw. 5 5 xi 5 n − 5 (bei B(1; p))
(approximativer Gaußtest)
180
Einstichproben-t-Test, approximativer Gaußtest
Statistik
Etschberger - SS2014
Ablauf:
1
Festlegen des Signifikanzniveaus α
2
Berechnen des Testfunktionswertes:

x̄ − µ0 √



n


s




 x̄ − µ √
0
v=
n

σ






√
x̄ − µ0


n
p
µ0 (1 − µ0 )
3
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
falls Grundgesamtheit N(µ; σ)-verteilt, σ unbekannt
oder falls Verteilung der GG beliebig, n > 30, σ unbekannt
falls Verteilung der GG beliebig, n > 30, σ bekannt
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
falls GG gemäß B(1; µ)-verteilt, n > 30
6. Repräsentation
7. Klassifikation
Festlegen des Verwerfungsbereichs B:
Falls H1 : µ 6= µ0 :
Falls H1 : µ < µ0 :
Falls H1 : µ > µ0 :
B = (−∞; −x1−α/2 ) ∪ (x1−α/2 ; ∞)
B = (−∞; −x1−α )
B = (x1−α ; ∞)
Dabei steht x1−α/2 bzw. x1−α für das jeweilige Fraktil
der t(n − 1)-Verteilung bei n ≤ 29 bzw.
der N(0; 1)-Verteilung bei n ≥ 30.
181
Einstichproben-t-Test: Beispiel
Statistik
Etschberger - SS2014
Beispiel t-Test: Energieaufnahme von Frauen
Empfohlene täglich Energieaufnahme für Frauen: 7724 kJ (1845 kcal)
Nehme einfache Stichprobe von 11 Frauen und teste zum Signifkanzniveau
α = 0,05 für
H0 : „Der Erwartungswert der täglichen Energieaufnahme für Frauen ist
7724 kJ“ (µ0 )
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
gegen H1 : µ 6= µ0
Intervall-Schätzung
Signifikanztests
daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770)
t.test(daily.intake, alternative="two.sided", mu=7724, conf.level=0.95)
##
##
##
##
##
##
##
##
##
##
##
5. Datenanalyse
6. Repräsentation
7. Klassifikation
One Sample t-test
data: daily.intake
t = -2.818, df = 10, p-value = 0.01823
alternative hypothesis: true mean is not equal to 7724
95 percent confidence interval:
5986 7521
sample estimates:
mean of x
6754
182
Einstichproben-t-Test, approx. Gaußtest
Statistik
Etschberger - SS2014
Beispiel:
X1 , . . . , X2000 ∼ B(1; p) mit
1, falls i-te Person Wähler einer bestimmten Partei
Xi =
0, sonst
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Ergebnis der Stichprobe:
2000
P
xi = 108
i=1
Prüfe H0 : p 5 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 %
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
Lösung:
6. Repräsentation
approximativer Gaußtest bei dichotomer (zweiwertiger) Verteilung; Voraussetzung 2
erfüllt: 5 5 108 5 2000 − 5
7. Klassifikation
1 α = 0,02
108
2 v = √ 2000
−0,05
0,05·(1−0,05)
√
2000 = 0,82
3 N(0; 1) : x1−α = x0,98 = 2,05 (Tabelle) ⇒ B = (2,05; ∞)
4 v∈
/ B ⇒ H0 nicht verwerfen
Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung!
183
Statistik
Etschberger - SS2014
Chi-Quadrat-Test für die Varianz
Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ)
Hypothesenpaare:
1. Einführung
a)
2
H0 : σ =
σ20
b) H0 : σ2 = σ20
c)
2
H0 : σ =
σ20
2
H1 : σ 6=
(oder σ2 = σ20 ),
2
(oder σ 5
σ20 ),
σ20
H1 : σ2 < σ20
2
H1 : σ >
σ20
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Vorgehensweise:
5. Datenanalyse
1 Festlegen des Signifikanzniveaus α.
6. Repräsentation
2 Berechnung des Testfunktionswertes:
7. Klassifikation
n
(n − 1)s2
1 X
v=
= 2
(xi − x̄2 )
σ20
σ0 i=1
3 Festlegen des Verwerfungsbereichs:
B = 0; xα/2 ∪ x1−α/2 ; ∞
im Fall a)
B = [0; xα )
im Fall b)
B = (x1−α ; ∞)
im Fall c)
184
Chi-Quadrat-Test für die Varianz
Statistik
Etschberger - SS2014
Beispiel: G ∼ N(µ; σ)
(x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200)
Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Lösung: χ2 -Test für die Varianz, Hypothese Fall a);
Voraussetzungen sind erfüllt
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
1
α = 0,1
2
x̄ =
1
10
v=
1
402
3
5. Datenanalyse
(2100 + 2130 + · · · + 2200) = 2164
6. Repräsentation
7. Klassifikation
[(2100 − 2164)2 + · · · + (2200 − 2164)2 ] = 16,65
χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92
(Tabelle der χ2 -Verteilung)
⇒ B = [0; 3,33) ∪ (16,92; ∞)
4
v∈
/ B ⇒ H0 nicht verwerfen
185
Zwei verbundene einfache Stichproben: Kontingenztest
Statistik
Etschberger - SS2014
Situation: In Grundgesamtheit G: Zwei verbundene einfache
Stichproben, also Beobachtung zweier Merkmale X, Y
Hypothese:
1. Einführung
2. Deskriptive Statistik
H0 : Die beiden Merkmale X und Y sind in G unabhängig.
H1 : X und Y sind in G abhängig.
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Vorgehensweise Kontingenztest:
Signifikanztests
5. Datenanalyse
1
Festlegen des Signifikanzniveaus α.
2
Unterteilung der x-Achse in k ≥ 2 und die y-Achse in l ≥ 2 disjunkte,
aneinander angrenzende Intervalle A1 , . . . , Ak bzw. B1 , . . . , Bl
3
Erstellen einer Kontingenztabelle mit Randhäufigkeiten:
6. Repräsentation
x↓ y→ B1
B2
···
Bl
A1
A2
.
.
.
Ak
h11
h21
.
.
.
hk1
h12
h22
..
.
hk2
···
···
.
.
.
···
h1l
h2l
.
.
.
hkl
hk•
h•1
h•2
···
h•l
n
7. Klassifikation
h1•
h2•
186
Zwei verbundene einfache Stichproben: Kontingenztest
Statistik
Etschberger - SS2014
Vorgehensweise Kontingenztest (Fortsetzung):
4
Zu jeder Kombination aus i = 1, . . . , k und j = 1, . . . , l: Berechnung
der Größe
1. Einführung
2. Deskriptive Statistik
h̃ij =
hi• · h•j
n
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
5
Intervall-Schätzung
Berechnung des Testfunktionswerts v:
Signifikanztests
5. Datenanalyse
v=
k X
l
X
i=1 j=1
6
h̃ij − hij
h̃ij
2
=
k X
l
X
h2ij
i=1 j=1
h̃ij
6. Repräsentation
−n
7. Klassifikation
Mit dem Fraktilswert x1−α der χ2 -Verteilung mit (k − 1) · (l − 1)
Freiheitsgraden: Berechnung des Verwerfungsbereichs
B = (x1−α ; ∞)
7
Ablehnung von H0 genau dann, wenn v ∈ B.
187
Statistik
Etschberger - SS2014
Zwei verbundene einfache Stichproben: Kontingenztest
Kontingenztest: Beispiel
400 Erstkandidaten einer praktischen
Führerscheinprüfung schneiden
abhängig von der besuchten Fahrschule
folgendermaßen ab:
4 Berechnung der h̃ij :
1. Einführung
best.
durchg.
Fahrschule
A
B
C
130
70
88
38
62
12
A
B
C
140
60
88,2
37,8
51,8
22,2
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
bestanden
durchgefallen
Zum Signifikanzniveau von 5 % soll
getestet werden, ob das Bestehen der
Prüfung unabhängig von der besuchten
Fahrschule ist.
Punkt-Schätzung
5
(130 − 140)2
+ ...
v=
140
(12 − 22,2)2
+
22,2
≈ 9,077
Intervall-Schätzung
Signifikanztests
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Testdurchführung
6 χ2 -Verteilung mit
(3 − 1) · (2 − 1) = 2 Freiheitsgraden:
x1−0,05 = x0,95 = 5,99:
1 Signifikanzniveau α = 5 %
2 entfällt, da Skalenniveau nominal
3 Kontingenztabelle:
best.
durchg.
P
B = (5,99; ∞)
P
A
B
C
130
70
88
38
62
12
280
120
200
126
74
400
7 v ∈ B: Also wird H0 abgelehnt, die
Prüfungsergebnisse sind abhängig von
der Fahrschule.
188
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
5
Datenanalyse Einleitung
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Statistik
Etschberger - SS2014
Einleitung
Problemstellung
1. Einführung
2. Deskriptive Statistik
Synonym: Multivariate Datenanalyse, Numerische Taxonomie,
Multivariatenanalyse
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Aufgaben: Analyse von Zusammenhängen und
Ähnlichkeitsbeziehungen zwischen Elementen einer
bestimmten Menge
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
Teilgebiet der Statistik
7. Klassifikation
Einsatz sinnvoll bei großen Datenmengen mit mehr als einem
Merkmal
Ausgangspunkt: Datenmatrix oder Distanzmatrix.
190
Statistik
Etschberger - SS2014
Datenmatrix
Die Datenmatrix
enthält zeilenweise Objekte (Merkmalsträger, cases)
enthält spaltenweise Merkmale (variables, items)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Beispiel
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
type
income
education
prestige
prof
bc
prof
prof
bc
76
42
64
72
14
98
26
93
86
22
89
19
93
88
16
Datenanalyse: Prozess
6. Repräsentation
lawyer
streetcar.motorman
professor
engineer
cook
7. Klassifikation
(Auszug aus Daten von Duncan (1961))
191
Statistik
Etschberger - SS2014
Distanzen
Die Distanzmatrix
1. Einführung
enthält zeilen- und spaltenweise Objekte.
2. Deskriptive Statistik
Die Einträge der Matrix sind Werte für die Verschiedenheit
(Distanzen) zweier Objekte.
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Beispiel
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
lawyer
streetcar.motorman
professor
engineer
0.000
0.851
0.078
0.059
0.987
0.851
0.000
0.799
0.792
0.136
0.078
0.799
0.000
0.072
0.935
0.059
0.792
0.072
0.000
0.928
6. Repräsentation
cook
7. Klassifikation
lawyer
streetcar.motorman
professor
engineer
cook
0.987
0.136
0.935
0.928
0.000
192
Statistik
Etschberger - SS2014
Teilbereiche
3 Teilbereiche der Datenanalyse nach dem Zweck der
Anwendung
1. Einführung
Datenverdichtende Verfahren
(deskriptiv)
Strukturprüfende Verfahren
(induktiv)
Kennzahlen
Varianzanalyse
Indizes
Regressionsanalyse
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Faktorenanalyse
logistische Regression
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Diskriminanzanalyse
Strukturaufdeckende Verfahren
(explorativ)
Conjoint-Analyse
6. Repräsentation
7. Klassifikation
Kreuztabellen
Faktorenanalyse
Clusteranalyse
MDS
Korrespondenzanalyse
193
Klassische Anwendungsbereiche der Datenanalyse
Marketing/
Marktforschung
Marktsegmentierung
Kundentypisierung
Statistik
Etschberger - SS2014
Medizin
Hilfe bei Diagnosen
1. Einführung
Überprüfung von
Therapieerfolgen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Aufdecken von Marktnischen
Ermittlung von Marktreaktionen
Sozialwissenschaften
Einstellungsanalysen
Volkswirtschaft
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Input-Output-Analysen zur
Abgrenzung und
Aggregation von
Wirtschaftssektoren
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
7. Klassifikation
Qualifikationsprofile
Bibliothekswesen
Biologie
Zuordnung von Pflanzen oder
Tieren zu Gattungen
Katalogisierung
Auffinden von ähnlichen
Werken
194
Dreiteilung
Statistik
Etschberger - SS2014
Die klassische Dreiteilung der Datenanalyse
1. Einführung
Segmentierung (Clusteranalyse): Zusammenfassung von
Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten
in wichtigen Merkmalsbereichen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Repräsentation: Darstellung von Objekten durch Punkte im
2- oder 3-dimensionalen Raum, wobei
Ähnlichkeitsbeziehungen durch räumliche Nähe zum
Ausdruck kommen sollen
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
7. Klassifikation
Identifikation: Reproduktion einer gegebenen Segmentierung
oder Repräsentation mit Hilfe weniger aussagekräftiger
Merkmale (Ziel: Prognose, Klassifikation)
195
Statistik
Etschberger - SS2014
Dreiteilung: Methoden
Hauptkomponentenanalyse
Korrespondenzanalyse
Repräsentation
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
MDS
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Hierarchie
Datenanalyse
Dreiteilung der Datenanalyse
Segmentierung
Clusteranalyse
Datenanalyse: Prozess
Partition
einer Repräsentation
Varianzanalyse
6. Repräsentation
7. Klassifikation
Regression
Conjointanalyse
Identifikation
einer Klassifikation
Diskriminanzanalyse
196
Ablauf einer datenanalytischen Untersuchung
Statistik
Etschberger - SS2014
1. Präzisierung des Untersuchungsziels
Formulierung der Zielsetzung
Abgrenzung der Untersuchungsobjekte
Ableitung der taxonomischen Aufgabenstellung
Segmentierung
Repräsentation
Identifikation
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
2. Diskussion der Datenbasis
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Auswahl der Merkmale
Festlegung des Skalenniveaus oder
6. Repräsentation
7. Klassifikation
Charakterisierung der Objekte durch direkte Vergleiche
3. Datenerhebung und -erfassung
Primär- oder Sekundärerhebung
Vollerhebung oder Teilerhebung (Stichprobenauswahl!)
Datencodierung und ggf. Dateneingabe in DV-Systeme
197
Ablauf einer datenanalytischen Untersuchung
Statistik
Etschberger - SS2014
4. Datenanalyse
Univariate Datenanalyse
(Screening, erster Einblick in die Merkmalsstruktur,
Plausibilitätsprüfung)
−→ Deskriptive Verfahren
Multivariate Datenanalyse
(nicht ’statistics all’, sondern Verfahrenseinsatz nach Aufgabenstellung
und Zielsetzung)
−→ Explorative und induktive Verfahren
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
7. Klassifikation
5. Interpretation der Ergebnisse
Klassenstatistiken und Bezeichnungen bei Clusteranalysen
Benennung der Achsen bei Repräsentationsverfahren
Überprüfen der Modellqualität z.B. mittels Test- bzw.
Validierungsdaten bei Identifikationsverfahren
198
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
Bildquelle: Newton (2007)
6
Repräsentation
Einführung
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Repräsentation
Ziele der Repräsentation
Anordnung der Objekte in einem möglichst niedrig dimensionierten
Raum,
so dass die relative Lage der sich ergebenden Punkte (Objekte) die
Ähnlichkeit der Objekte angemessen beschreibt.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Dimension 2
Aufdeckung von
Gruppierungen leichter
(Kontrolle einer Klassifikation)
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Durch Interpretation der
Achsen evtl. Aufschluss über
den Grund der Lage
bestimmter Objekte
Dimension 1
200
Statistik
Etschberger - SS2014
Repräsentation
Varianten der Repräsentation: Hauptkomponentenanalyse
Berechnung der Repräsentation aus
Varianz-Kovarianz-Strukturen der Datenmatrix
1. Einführung
2. Deskriptive Statistik
A = (aik )n×m
Hauptkomponentenanalyse
−→
X = (xik )n×q
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Vorgehen: Datenmatrix wird direkt verarbeitet
Problem: Lassen sich die m quantitativen Merkmale sinnvoll
durch q (meist 2 oder 3) sogenannte Faktoren ersetzen?
Voraussetzung: Datenmatrix darf nur metrische Merkmale
enthalten
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Typische Fragestellungen der Hauptkomponentenanalyse in der
Marktforschung
Läßt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke
als wichtig empfinden, auf wenige komplexe Faktoren reduzieren?
Wie lassen sich darauf aufbauend die verschiedenen Marken anhand
dieser Faktoren beschreiben?
201
Statistik
Etschberger - SS2014
Repräsentation
Varianten der Repräsentation: Mehrdimensionale Skalierung
Berechnung der Repräsentation aus der Distanzmatrix
1. Einführung
Distanz
MDS
A = (aik )n×m −→ D = (dij )n×n −→ X = (xil )n×q
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Meistens: q ∈ {1,2,3}
Datenmatrix wird nicht direkt verarbeitet; Umweg über
Distanzmatrix
Keine Anforderung an das Skalenniveau der Merkmale
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Typische Fragestellungen der MDS in der BWL:
Welche Produkte einer Gruppe sind sich ähnlich/unähnlich?
Inwieweit entspricht das eigene Produkt den Idealvorstellungen der
Konsumenten?
Welches Image besitzt eine bestimmte Marke?
Hat sich die Einstellung der Konsumenten zu einer Marke in den
letzten Jahren verändert
203
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Idee
Faktorenanalyse: Grundlegende Idee
1. Einführung
Welche Aussagen lassen sich über die Struktur des
Zusammenhangs von Merkmalsvariablen treffen?
Idee: Darstellung der Struktur in den Daten durch paarweise
Korrelationen
Bei m gemessenen Merkmalen gibt es
m·(m−1)
2
Korrelationen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
m groß: Analyse des gesamten Variablenkomplexes dann oft
schwierig.
Einschränkung: HKA ist bivariate Analyse; betrachtet also nur
jeweils den Zusammenhang je zweier Variablen; Beziehungen
zwischen mehr als zwei Merkmalen werden nicht
berücksichtigt
204
Statistik
Etschberger - SS2014
Hauptaufgaben
Hauptaufgaben der Faktorenanalyse
1. Einführung
Extraktion von hypothetischen Merkmalen, den sog. Faktoren,
aus den Merkmalen und ihren Beziehungen
Also: Korrelierende Merkmale werden zu Merkmalspaketen
zusammengefasst (Faktorenextraktion)
Damit Reduktion der Komplexität in den Ausgangsdaten:
Anstelle von m Variablen wenige Faktoren
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Dabei: Möglichst wenig Informationsverlust
Durch Datenkompression: Evtl. leichtere Interpretation und
Übersicht
Außerdem: Faktoren sind konstruktionsbedingt unkorreliert
und damit qualifiziert als Ausgangsbasis für
korrelationssensible Verfahren (z.B. Regression)
205
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Bevorzugte Variante der Faktorenanalyse bei metrischen
Datenmatrizen: Hauptkomponentenanalyse.
Dabei unterstellt: Lineare Beziehung zwischen den
ursprünglich erhobenen und den neu zu bestimmenden
hypothetischen Größen (Faktoren).
k
Damit: Merkmalsvektoren a (Spaltenvektor) lassen sich als
Linearkombination von q Faktoren x1 , ..., xq (Spaltenvektoren)
darstellen.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Im Falle q = m immer möglich:
k
a =
m
X
fki xi
(k = 1, . . . , m)
i=1
206
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Faktoren und Ladung
Faktoren und Ladungsvektoren
Matriziell: A = X · FT bzw. mit Koeffizienten:
1. Einführung
a
···
11
 .
 .
 .

 ai1

 .
 .
.
an1
···
···
x
11
a1m 
 .
 .
. 
 .
. 
. 



aim  =  ..

 .

. 
 .
. 
.
 .
.
anm
xn1
···
.
.
.
xik
.
.
.
···
2. Deskriptive Statistik
x1q
.  
. 
. 
f11

.  
.
. ·
.
.   .

f1q
. 
. 
.
xnq

3. W-Theorie
···
..
.
···
fk1
.
.
.
fkq
···
..
.
···

fm1
. 
. 
. 
fmq
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Mit:
xip
xp
X
als
als
als
Faktorwert
Faktor
Faktorwertematrix
fkp
fk
F
als
als
als
Faktorladung
Ladungsvektoren
Faktorladungsmatrix
Damit: Ein Objekt i, dargestellt durch die Zeile i der Datenmatrix A
wird nun mit Hilfe der Zeile i der Faktorwertematrix X
repräsentiert
207
Hauptkomponentenanalyse: Informationsgehaltt
Problem: Ist diese Darstellung ohne großen
Informationsverlust möglich?
Dazu nötig: Maß für den Informationsgehalt einer Daten- bzw.
Faktorwertematrix
Also: Kovarianzmatrizen S = Cov(A) und C = Cov(X) als
Basis für Informationsmaß
Übliche Annahme: Informationsgehalt von
Merkmalen/Faktoren ist umso größer, je größer die Varianz
dieser Merkmale/Faktoren ist.
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Damit: Maß für Gesamtvariabilität aller Merkmale/Faktoren
über Summe der Varianzen aller betrachteten
Merkmale/Faktoren
Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich des
Informationsgehaltes der beiden Matrizen.
(Summe der Varianzen entspricht Spur der Kovarianzmatrix)
208
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Informationsgehalt
Berechnung des Informationsgehaltes
Für Datenmatrix A: Kovarianzmatrix S = (skl )m×m :
1. Einführung
skl
1
=
n
n
X
mit ā·k
(aik − ā·k )(ail − ā·l )
i=1
1
=
n
n
X
2. Deskriptive Statistik
aik
i=1
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Maß für die Gesamtinformation von A:
6. Repräsentation
Einführung
Spur S =
m
X
skk
k=1
1
=
n
n X
m
X
Hauptkomponentenanalyse
(aik − ā·k )2
7. Klassifikation
i=1 k=1
Analog für Faktorwertematrix X: Kovarianzmatrix C
= (ckl )q×q und Spur(C):
Spur(C) =
q
X
k=1
1 XX
=
(xik − x̄·k )2
n
n
ckk
q
i=1 k=1
209
Beispiel Informationsgehalt


22
5
25 10



21
4
Gegeben: Datenmatrix A = 


28 13
24
8
A soll mit Hilfe zweier unterschiedlicher Faktorkombinationen
repräsentiert werden
Faktorkombination 1 bzw. 2 ist dabei gegeben durch die
Faktorladungsmatrizen F 0 bzw. F 00 gemäß
0,6
0,8
0,9
0,2
F0 =
bzw. F 00 =
0,8 −0,6
0,8 −0,5
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Frage: Wie gut sind die beiden daraus resultierenden
Repräsentationen?
210
Statistik
Etschberger - SS2014
Beispiel Informationsgehalt
Beispiel - Berechnung Kombination 1
Berechnet man für die Matrix A die Kovarianzmatrix S und die
Spur S, so ergeben sich folgende Werte:
6
8
S=
⇒ Spur(S) = 6 + 10,8 = 16,8
8 10,8
Mit Hilfe der Faktorladungsmatrix F 0 und X = A · (F 0T )−1 ergibt
sich für X 0 folgendes:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation

17,2
 23

X0 = 
15,8
27,2
20,8

14,6
14 

14,4

14,6
14,4
sowie C =
16,752
−0,064
−0,064
0,048
⇒ Spur(C) = 16,752 + 0,048 = 16,8
211
Repräsentation: Beispiel 1
Statistik
Etschberger - SS2014
Beispiel - Interpretation Kombination 1
1. Einführung
Mit Hilfe der neuen Repräsentation kann die Objektmenge ohne
Informationsverlust dargestellt werden.
(Spur S = Spur C = 16,8)
Die neue Darstellung hat darüber hinaus den Vorteil, dass die
entstandenen Faktoren (nahezu) unkorreliert sind, während die
ursprünglichen Merkmale eine hohe Korrelation aufweisen. Es gilt
nämlich:
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
→ Korrelation (a1 , a2 ) = 0,9938
→ Korrelation (x1 , x2 ) = −0,0714
Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe des
11
ersten Faktors, so können immerhin noch c11c+c
≈ 99,71% der
22
Informationen dargestellt werden.
212
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 1
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Merkmal 2
1. Einführung
2. Deskriptive Statistik
)
0 2
1
3. W-Theorie
,f
0 1
10
4. Induktive Statistik
f1
·(
5. Datenanalyse
6. Repräsentation
10
Einführung
Hauptkomponentenanalyse
7. Klassifikation
10
·
5
(f 0
21 ,
f20
2)
20
22
24
25
26
28
30
Merkmal 1
213
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 1
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Faktor 2
1. Einführung
2. Deskriptive Statistik
15
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
10
Hauptkomponentenanalyse
7. Klassifikation
5
0
14
16
18
20
22
24
26
Faktor 1
214
Statistik
Etschberger - SS2014
Repräsentation: Beispiel 2
Beispiel - Berechnung Kombination 2
Wie oben bereits erwähnt ergibt sich für die Matrix A die
Kovarianzmatrix S und die Spur(S) wie folgt:
6
8
S=
⇒ Spur(S) = 6 + 10,8 = 16,8
8 10,8
Mit Hilfe der Faktorladungsmatrix F 00 und X = A · (FT )−1
ergibt sich für X 00 folgendes:

19,67
23,77

X 00 = 
18,52
27,21
22,29

21,47
18,03

21,63

17,54
19,67
sowie C =
9,49
−5,01
−5,01
2,87
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
⇒ Spur(C) = 9,49 + 2,87 = 12,36
215
Repräsentation: Beispiel 2
Statistik
Etschberger - SS2014
Beispiel - Interpretation Kombination 2
1. Einführung
Mit Hilfe dieser zweiten Repräsentation kann die Objektmenge
nicht ohne Informationsverlust dargestellt werden.
(Spur S = 16,8 und Spur(C) = 12,36)
Die neue Darstellung hat darüber hinaus den Nachteil, dass
die entstandenen Faktoren fast genauso hoch (absolut)
korreliert sind wie die ursprünglichen Merkmale. Es gilt
nämlich:
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Korrelation (a1 , a2 ) = −0,9938
Korrelation (x1 , x2 ) = −0,9597
Somit stellt sich also die Frage, wie die Repräsentation und
damit die Faktorladungsmatrix F optimal gewählt werden soll.
216
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 2
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Merkmal 2
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
10
10 ·
00 )
00
(f 11, f 12
Einführung
Hauptkomponentenanalyse
7. Klassifikation
10
5
· (f 00
21 ,
f200
2)
20
22
24
25
26
28
30
Merkmal 1
217
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 2
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 00
Faktor 2
1. Einführung
2. Deskriptive Statistik
24
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
22
6. Repräsentation
Einführung
Hauptkomponentenanalyse
20
7. Klassifikation
18
16
14
14
16
18
20
22
24
26
Faktor 1
218
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Satz 1 der Hauptkomponentenanalyse
1. Einführung
Sei A = X · FT und F orthogonal (d.h. FT · F = F · FT = E), dann gilt:
2. Deskriptive Statistik
3. W-Theorie
1
2
Spur S = Spur C
C = FT · S · F
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Bemerkungen:
Spur S = Spur C ↔ Information bleibt erhalten
F orthogonal ⇒ A = X · FT ⇔ A · F = X · FT · F = X
T
ckk = fk · S · fk , d.h. der durch den Faktor xk erklärte Anteil
der Varianz hängt nur von fk ab.
219
Statistik
Etschberger - SS2014
Faktorenwahl der HKA
Hauptkomponentenanalyse: Problem der Faktorenwahl
Ziel der HKA: Merkmalsreduktion, d.h., man möchte mit wenigen,
unkorrelierten Faktoren auskommen und trotzdem einen Großteil der
Information darstellen.
Die durch die Faktoren erklärten Varianzanteile sollen mit
wachsendem Index abnehmen, d.h., Faktor x1 soll den
größtmöglichen Varianzanteil erklären, Faktor x2 den zweitgrößten
Anteil ...
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Also: c11 ≥ c22 ≥ c33 ≥ . . . ≥ cqq
für q ≤ m
Hauptkomponentenanalyse
7. Klassifikation
Optimierungsproblem:
1 max c11 = max f1
T
2T
2 max c22 = max f
3 ...
· S · f1
· S · f2
mit f1
T
2T
mit f
· f1 = 1
· f2 = 1 und f2
T
· f1 = 0
Oder Allgemein: Optimierungsproblem (∗):
T
T
max ckk = max fk · S · fk mit fk · fk = 1
T
und fk · fl = 0 für l = 1, ..., k − 1
220
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Satz 2 der Hauptkomponentenanalyse
Die Lösung der Optimierungsprobleme (∗) impliziert folgendes
Eigenwertproblem von S:
(S − λ · E) · f = 0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
mit
Einführung
c11 , c22 , c33 , . . . , cmm ≥ 0 sind Eigenwerte von S
T
Hauptkomponentenanalyse
7. Klassifikation
T
f1 , f2 , . . . , fq mit fk · fk = 1, fk · fl = 0(l 6= k) sind
Eigenvektoren von S


c11
0


..
Für die Matrix C gilt: C = 

.
0
cqq
221
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Konsequenzen aus Satz 2 der HKA
A = X · FT ↔ X = A · F
→ Faktoren x1 = A · f1 , . . . , xm = A · fm
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
C ist Diagonalmatrix
→ Faktoren sind paarweise unkorreliert.
Numerierung der Faktoren x1 , . . . , xm derart, dass
λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0
P
→ x1 erklärt mit λ1 / P λk den größten Anteil der Varianz
→ x2 erklärt mit λ2 / λk den zweitgrößten Anteil ...
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Bewertung des Informationsverlustes einer Merkmalsreduktion
auf q < m Faktoren
h
i
λ1 +...+λq
c11 +...+cqq
b(q) = 1 − λ1 +...λm = 1 − c11 +...+cmm ∈ [0,1] und b(m) = 0
222
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Vorgehensweise der HKA
1. Einführung
Datenmatrix A, maximaler Informationsverlust b0
2. Deskriptive Statistik
3. W-Theorie
Berechne Kovarianzmatrix S
4. Induktive Statistik
5. Datenanalyse
Löse Eigenwertproblem (S − λ · E) · f = 0
6. Repräsentation
Einführung
Hauptkomponentenanalyse
λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0
7. Klassifikation
(f1 , f2 , . . . , fm ) = F
Bestimme q minimal, so dass b(q) = 1 −
λ1 +...+λq
λ1 +...+λm
≤ b0
Ladungsmatrix Fq = (f1 , f2 , . . . , fq )
Faktorwertematrix Xq = A · Fq = (x1 , x2 , . . . , xq )
223
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Beispiel 1 - Hauptkomponentenanalyse
Für die Produkte P1 , P2 , P3 und P4 konnten bezüglich der Merkmale
M1 , M2 und M3 folgende Werte erhoben werden:


6 0 0
8 8 4 

A=
0 4 0 
2 8 8
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren
Sie diese.
7. Klassifikation
Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie
die Ergebnisse.
Bestimmen Sie die Faktorwertematrix und stellen Sie diese
zweidimensional dar.
Betten Sie die ursprünglichen Merkmalsvektoren in den
Faktorwerteplot ein.
224
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Beispiel 2 - Hauptkomponentenanalyse
Gegeben ist die folgende Datenmatrix:

−9
−9

3
1


16
A =  16
 −12 −11
0
−2
1. Einführung
1
7
−2
20
−1

2. Deskriptive Statistik
3. W-Theorie





4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren
Sie diese.
7. Klassifikation
Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie
die Ergebnisse.
Bestimmen Sie die Faktorwertematrix und stellen Sie diese
zweidimensional dar.
Betten Sie die ursprünglichen Merkmalsvektoren in den
Faktorwerteplot ein.
226
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Interpretation
Interpretationshilfen
Aussage über den Zusammenhang rkp zwischen den ursprünglichen
Merkmalen ak und den Hauptkomponenten (Faktoren) xp z.B. wie folgt:
1. Einführung
1
n
rkp =
n
P
2. Deskriptive Statistik
(aik − ā·k )(xip − x̄·p )
i=1
√
√
skk cpp
,
k = 1, . . . , m
p = 1, . . . , q
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Korrelationskoeffizient rkp : Zusätzlicher Anhaltspunkt bei der Interpretation
der Analyseergebnisse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Kommunalitäten
7. Klassifikation
Mit Korrelationskoeffizienten rkp : Anteil der auf die ersten q Faktoren
(p = 1, ..., q) übertragene Information des k-ten Merkmals ak berechenbar
Dazu: Kommunalität kk mit
kk =
q
X
r2kp ∈ [0,1] für k = 1, . . . , m
p=1
kk gibt an, wieviel Prozent der Informationen des (standardisierten) Merkmals
ak noch in den Faktoren x1 . . . xq enthalten sind.
230
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Wahl der Repräsentationsdimension
Allgemeingültige Kriterien zur Bestimmung einer
problem-adäquaten Repräsentationsdimension q sind nicht
bekannt. Man kann sich aber an den folgenden Regeln orientieren:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Man wählt ein q aus, bei dem man bei weiterer Reduktion der
Faktorenzahl einen verhältnismäßig hohen zusätzlichen
Informationsverlust hätte (Ellenbogenkriterium).
Man wählt ein minimales q ≥ 1 mit b(q) < bmax , d.h. ein q
mit maximal zu akzeptierendem Informationsverlust , (mit z.B.:
b0 = 10% oder b0 = 25%).
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
Man wählt ein maximales q ≤ m mit
λq ≥ (λ1 + . . . + λm )/m, d.h. man gibt vor, dass jeder Faktor
mindestens die durchschnittliche Merkmalsvarianz erklären
soll (Kaiser-Kriterium).
231
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Schlußbemerkungen zur Hauptkomponentenanalyse
Die HKA hat einige Vorteile:
Statt Untersuchungsobjekte durch kaum übersehbare und
hochkorrelierte Merkmalsbatterien zu beschreiben, gelangt man zu
wenigen und wichtigen und weitgehend orthogonalen
Dimensionen des Merkmalsraumes,
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
in dem Untersuchungsobjekte anhand ihrer Faktorwerte positioniert
sind
5. Datenanalyse
6. Repräsentation
Einführung
Fehlinterpretationsmöglichkeiten I
Hauptkomponentenanalyse
7. Klassifikation
Die HKA projiziert mit Hilfe einer linearer Abbildung
die m-dimensionalen Untersuchungsobjekte (unter Verwendung der
Matrix Xq ) und
die m Merkmale ak (unter Verwendung der Matrix Fq )
in einen gemeinsamen q-dimensionalen Teilraum.
Deswegen: Sowohl die Objekte als auch die Merkmalsvektoren
dürfen nur relativ zueinander interpretiert werden.
Absolute Aussagen über die Lage der Objekte hinsichtlich der
einzelnen Merkmalsvektoren gelten nur approximativ.
232
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Fehlinterpretationsmöglichkeiten II
Wesentlich: Zahl und Art der Merkmale, die in die FA eingehen. Aus
den entsprechenden Gleichungen wird deutlich, daß auf einem
Faktor jene Merkmale hoch laden, die auch hoch korreliert sind.
Wenn ein Faktor durch sehr viele gleichartige Merkmale vertreten ist,
so laden diese auch hoch auf ihm.
Die Extraktion des ersten Faktors nach dem Kriterium des höchsten
Varianzbeitrages wird dann als bedeutendsten Faktor jenen
präsentieren, der durch viele Merkmale vertreten ist.
Damit zeigt sich aber, daß die FA für sich allein genommen nicht in
der Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln
(→ Conjointanalyse)
Bei Wahl von Merkmalen aus unterschiedlichen Bereichen (z.B.
soziodemographische und psychographische Merkmale), so kommt
es vor, dass die unterschiedlichen Merkmale auf ein und denselben
Faktor laden. Interpretation des Faktors dann wenig sinnvoll bzw.
schwierig.
Gängig: Faktoren nach dem am höchsten ladenden Merkmalen
benennen (Leitvariablenkonzept). Führt unter Umständen zu einer
Vernachlässigung relevanter Informationen für die Beschreibung der
Untersuchungsobjekte.
Hauptkomponentenanalyse
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
7. Klassifikation
233
Statistik
Etschberger - SS2014
Kovarianz- oder Korrelationsmatrix?
Die Hauptkomponentenanalyse kann statt mittels der
Kovarianzmatrix von A auch auf Basis der Korrelationsmatrix von A
durchgeführt werden.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können
nicht in die der Korrelationsmatrix überführt werden und geben
deshalb unterschiedliche Informationen.
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Vorteile der Korrelationsmatrix:
7. Klassifikation
- Die Ergebnisse zweier Analysen können direkt miteinander verglichen
werden
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr
sensitiv bzgl. der Einheiten der Merkmale
Vorteil der Kovarianzmatrix:
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr
sensitiv bzgl. der Einheiten der Merkmale (Manchmal möchte man
diesen Umstand benutzen)
234
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
7
Klassifikation
Bildquelle: Newton (2007)
7
Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Finanzkrise und Kreditausfälle
Kreditausfälle
Mai 2009:
Kreditkartenkonzern
American Express Co.:
Kreditausfallraten im April
2009 erstmals auf mehr als
10 Prozent
Herbst 2013: Commerzbank: Kreditausfallrate bei
Mittelstandskrediten stark gestiegen
Typisches Problem: Wie kann bekannte Information über
Kreditantragsteller benutzt werden, um Bonität zu beurteilen?
Statistik
Etschberger - SS2014
Klassifikation
Problemstellung in der Klassifikation
Ausganssituation: Daten von Objekten, bei denen jeweils die
Zugehörigkeit zu einer (von mehreren möglichen) Gruppen bekannt
ist
Problem: Bei einem neuen Objekt fehlt Information zur
Gruppenzugehörigkeit
Aufgabe: Mittels der bekannten Daten ein Modell bestimmen, dass
die Gruppenzugehörigkeit des neuen Objektes aufgrund der
vorhandenen Informationen ermöglicht
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Genauer:
Klassifikationsbäume
Abhängiges Merkmal Y (Gruppenzugehörigkeit) soll mit Hilfe der
unabhängigen Merkmale X1 , X2 , . . . , Xm erklärt (= klassifiziert,
identifiziert) werden.
Support-Vector-Machines
Dazu nötig: Bestimmung einer Funktion f(xi1 , ..xim ), die Objekte i
ihrer „richtigen“ Klasse ki zuordnet.
Unabhängige Merkmale können sowohl metrisch als auch nominal
interpretierbar sein.
237
Statistik
Etschberger - SS2014
Klassifikationsmodelle: Varianten
Lineare Trennfunktion
Manche Methoden erzeugen Trennmodelle aus
linearen Funktionen:
Dann Aufgabe: Ermittlung von „Gewichten“ α1 , α2 , . . . , αm
und Merkmale X1 , X2 , . . . , Xm mit
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Y = α1 · X1 + α2 · X2 + . . . + αm · Xm
6. Repräsentation
8
7. Klassifikation
Problemstellung
Beispielproblem
6
Lineare Diskriminanzanalyse
Klassifikationsbäume
−2
0
2
4
Support-Vector-Machines
−10
−5
0
Lineare Trennung möglich
5
238
Statistik
Etschberger - SS2014
Klassifikationsmodelle
Nichtlineare Modelle
Für manche Situationen hilfreich: Nichtlineare Trennmodelle:
Dann Modell allgemeiner: Eine Funktion f und Merkmale
X1 , X2 , . . . , Xm mit
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Y = f(X1 , X2 , . . . , Xm )
5. Datenanalyse
6. Repräsentation
7
7. Klassifikation
Problemstellung
Beispielproblem
6
Lineare Diskriminanzanalyse
Klassifikationsbäume
1
2
3
4
5
Support-Vector-Machines
2
4
6
8
Bild: Lineare Trennung beschreibt Struktur nicht ideal
239
Statistik
Etschberger - SS2014
Modelloptimierung und Überprüfung der Aussagekraft
Qualität des Modells
Sinnvoll deswegen: Dreiteilung
der Daten nach Berry und
Linoff (2004) in Trainingsdaten,
Testdaten und
Evaluierungsdaten Mehr
6
2. Deskriptive Statistik
3. W-Theorie
4
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
2
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
0
Aber: Durch viele
Modellvarianten und
Parametrisierungen Gefahr der
Anpassung des Modells an die
Stichprobe und nicht an die
Struktur in den Daten
(Overfitting)
1. Einführung
−2
Maßzahlen für die Güte eines
Modells: Anteil der
korrekt/falsch klassifizierten
Objekte
−5
0
5
240
Dreiteilung der Daten
Statistik
Etschberger - SS2014
Zurück
6
6
6
Beispieldaten in 2 Klassen,
pro Klasse jeweils 60 Objekte und zwei metrische Merkmale
1. Einführung
2. Deskriptive Statistik
4
4
4
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
2
2
2
6. Repräsentation
7. Klassifikation
Problemstellung
Lineare Diskriminanzanalyse
0
0
0
Beispielproblem
Klassifikationsbäume
−5
0
5
−5
0
5
6
5
6
0
6
−5
−2
−2
−2
Support-Vector-Machines
4
4
4
241
Statistik
Etschberger - SS2014
2
2
2
Beispiel: Kreditscoring
Ziel: Abschätzen der Bonität von potentiellen Kreditnehmern
2. Deskriptive Statistik
−2
−2
0
1. Einführung
0
Geschichtete Lernstichprobe mit jeweils 36 guten (“ok”) und
36 schlechten (“g”eplatzten) Krediten
−2
3. W-Theorie
Metrische Merkmale: Einkommen des Kreditnehmers, Dauer des
Beschäftigungsverhältnisses bei Kreditantrag (in Monaten)
4. Induktive Statistik
5. Datenanalyse
0
5
−5
120
−5
0
5
120
0
Daten von 72 vergebenen Krediten, 2 metrische Merkmale, 1 nominales
Merkmal
0
100
5
6. Repräsentation
Dauer der aktuellen Anstellung
7. Klassifikation
Problemstellung
100
Einkommen
−5
Beispielproblem
Lineare Diskriminanzanalyse
80
Klassifikationsbäume
20
0
20
40
40
60
60
80
Support-Vector-Machines
g
ok
g
ok
242
Statistik
Etschberger - SS2014
Inspektion der Daten
geplatzt
OK
geplatzt
OK
0.025
1. Einführung
0.03
2. Deskriptive Statistik
0.020
3. W-Theorie
4. Induktive Statistik
Dichte
Dichte
0.015
5. Datenanalyse
0.02
6. Repräsentation
7. Klassifikation
0.010
Problemstellung
0.01
Beispielproblem
Lineare Diskriminanzanalyse
0.005
Klassifikationsbäume
Support-Vector-Machines
0.000
0.00
0
50
100
150
0
Einkommen
50
100
150
Dauer der aktuellen Anstellung
Dichte-Plots nach Merkmal und Bonität
Anscheinend: Trennung bezüglich eines Merkmals nicht sinnvoll
243
Statistik
Etschberger - SS2014
120
Inspektion der Daten: Streuplot
100
1. Einführung
3. W-Theorie
80
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
60
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
40
Support-Vector-Machines
geplatzt
getilgt
20
Aktuelles Jahreseinkommen
2. Deskriptive Statistik
0
20
40
60
80
100
120
Dauer der aktuellen Anstellung (in Monaten)
244
Statistik
Etschberger - SS2014
Skalenniveaus und Verfahren
Zuordnung von Skalenniveaus zu Verfahren
unabhängige Variablen Xi
quantitativ
nominal
abhängige Variable Y
quantitativ
1. Einführung
2. Deskriptive Statistik
multiple
Regression
3. W-Theorie
Varianzanalyse
4. Induktive Statistik
5. Datenanalyse
quantitativ
Kovarianzanalyse
ordinal
Conjointanalyse
nominal
Diskriminanzanalyse
binär
Logistische
Regression
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Y heißt auch endogene Variable
X1 , . . . , Xm : exogene Variablen
Zu beachten: Kausale Abhängigkeit muss vorliegen
245
Statistik
Etschberger - SS2014
Lineare Diskriminanzanalyse
Lineare Diskriminanzanalyse: Klassisches
lineares Verfahren nach Fisher (1936)
1. Einführung
2. Deskriptive Statistik
Keine Verteilungsannahmen nötig, gleich
mächtige Klassengrößen aber sinnvoll
3. W-Theorie
4. Induktive Statistik
Idee: Lineare Reduktion aller Merkmale auf
eine (oder mehrere) Response-Variablen
Bestimmung linearer Gewichte und einer
Diskriminanzfunktion
5. Datenanalyse
6. Repräsentation
Ronald Aylmer Fisher
(1890 – 1962)
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Y = g1 · X1 + g2 · X2 + . . . + gm · Xm
Klassifikationsbäume
Support-Vector-Machines
Wähle gi so, dass Streuung zwischen Klassenmitten bzgl. Y groß und
innerhalb der Klassen klein wird (Optimale Werte: Eigenwertproblem)
Geometrisch: Projektion der Daten auf Ursprungsgerade in Richtung
von α
246
Statistik
Etschberger - SS2014
Lineare Diskriminanzanalye
Eigenschaften
Gegeben: m metrische Merkmale X1 , . . . , Xm sowie ein
nominales Merkmal Y.
Y entsteht häufig aufgrund einer Zerlegung der Objektmenge
in disjunkte Klassen K1 , . . . , Ks .
Gesucht: Lineare Funktion, d.h. eine Gewichtung der
Merkmale X1 , . . . , Xm , so dass die Variable Y bestmöglich
approximiert wird (1 < s < n) :
 
y1
x11
 ∼ .
bzw. Y =  ..  =
 ..
.
yn
xn1
···
..
.
···
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
∼ g1 X1 + . . . + gm Xm
Y=

1. Einführung
Support-Vector-Machines
  
x1m
g1
..  ·  ..  = X · g
.   . 
xnm
gm
247
Statistik
Etschberger - SS2014
Diskriminanzkriterium
Wann ist Gewichtung gut gewählt?
Gewichtung der unabhängigen Variablen so,
1. Einführung
dass die Unterschiede zwischen den prognostizierten Werten einer
Klasse möglichst klein,
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
die verschiedener Klassen aber möglichst groß sind, d.h.
5. Datenanalyse
6. Repräsentation
i, j ∈ Kk
i ∈ Kk und j ∈ Kl mit k 6= l
→
→
2
(ŷi − ŷj )
(ŷi − ŷj )2
−→
−→
min
max
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Deswegen: Varianzen innerhalb der Klassen sollen möglichst klein
und die Varianz zwischen den Klassen möglichst groß.
Klassifikationsbäume
Support-Vector-Machines
Kriterium sichert, dass Gewichtung gefunden wird, bei der die
Mittelwerte der einzelnen Klassen - und damit auch die Klassen
selbst - sehr verschieden sind und gleichzeitig auch die Homogenität
innerhalb der Klassen sehr groß ist. Überschneidungen bleiben
trotzdem möglich.
248
Statistik
Etschberger - SS2014
Inner- und Zwischengruppenvarianzen
Definition Innergruppen- und Zwischengruppenvarianz
1. Einführung
Innergruppenvarianz der Klasse K
1 X
wK =
(ŷi − ȳK )2
|K|
i∈K
2. Deskriptive Statistik
1 X
mit ȳK =
ŷi
|K|
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
i∈K
Gesamt-Innergruppenvarianz (gewichtete Summe der wk )
1X
w=
|K| · wK
n
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
K
Support-Vector-Machines
Zwischengruppenvarianz
1X
b=
|K|(ȳK − ȳ)2
n
K
1X
mit ȳ =
ŷi
n
i
249
Statistik
Etschberger - SS2014
Diskriminanzanalyse: Kovarianzmatrizen
Definition entsprechender Kovarianzmatrizen für
unabhängige Variablen X1 , . . . , Xm gemäß X = (xik )nxm )
Innergruppenkovarianzmatrix V K = (vK
kl )mxm
1. Einführung
2. Deskriptive Statistik
vK
kl
1 X
1 X
=
(xik − x̄Kk )(xil − x̄Kl ) mit x̄Kk =
xik
|K|
|K|
i∈K
i∈K
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Gesamt-Innergruppenkovarianzmatrix
Problemstellung
Beispielproblem
1X
V=
|K| · V K
n
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
K
Zwischengruppenkovarianzmatrix Z = (zkl )mxm
zkl
1X
1X
=
|K|(x̄Kk − x̄·k )(x̄Kl − x̄·l ) mit x̄·k =
xik
n
n
K
i
250
Statistik
Etschberger - SS2014
Hauptsatz der Diskriminanzanalyse (1)
Definitionen
Gegeben: Datenmatrix X = (xik )nxm der m unabhängigen
Variablen,
1. Einführung
und es gelte y = X · g·
3. W-Theorie
Ferner gegeben: Kovarianzmatrizen VK (k = 1, . . . , s), V, Z
und S = Cov(X) gegeben.
b
wK
=
=
gT Zg
und c
T
g VK g und w
=
=
gT Sg
gT Vg
Zu beachten dabei: Gesamtvarianz c von Y ist gemäß
c = w + b zu berechnen
2. Deskriptive Statistik
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Daraus: Diskriminanzkriterium (D):
b
gT Zg
λ=
= T
→ max
g
w
g Vg
251
Hauptsatz der Diskriminanzanalyse (2)
Statistik
Etschberger - SS2014
Satz
V sei regulär und positiv definit.
Dann impliziert die Lösung von (D) ein Eigenwertproblem
der Matrix V −1 Z gemäß
(V −1 Z + λ · E)g = 0.
Es existieren dann q Eigenwerte der Form
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
b
gT Zg
λ=
= T
>0
w
g Vg
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
wobei q = RgZ ≤ min{m, s − 1} ist.
Die zugehörigen Eigenvektoren g1 , . . . , gq sind linear
unabhängig.
252
Folgerungen aus dem Hauptsatz (1)
Mit den Eigenwerte λ1 , . . . , λq
und den zugehörigen Eigenvektoren g1 , . . . , gq folgt:
ŷk = Xgk
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Gewichtungsvektor g1 trennt die Klassen bestmöglich,
6. Repräsentation
Gewichtungsvektor g2 trennt die Klassen am zweitbesten,
usw.
7. Klassifikation
k
wobei die ŷ paarweise unkorreliert sind.
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Terminologie ((k = 1, . . . , q)):
ŷik = xTi gk
ŷik
gk
k-te Diskriminanzfunktion
Diskriminanzvariable
k-ter Diskriminanzkoeffizientenvektor
253
Folgerungen aus dem Hauptsatz (2)
Man erhält folgende Mittelwerte:
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
Klassenmittelwerte bzgl. der k-ten DA-Funktion
3. W-Theorie
4. Induktive Statistik
ȳKk =
x̄TK gk
mit x̄K = (x̄Kl )mx1
5. Datenanalyse
6. Repräsentation
Globalmittelwerte bzgl. der k-ten DA-Funktion
7. Klassifikation
Problemstellung
ȳ·k = x̄T gk mit x̄ = (x̄·l )mx1
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Und: Trennebenen bzgl. der k-ten DA-Funktion:
ȳ·k = x̄T gk = xT gk
Support-Vector-Machines
(mit x als Variablenvektor)
254
Folgerungen aus dem Hauptsatz (3)
Statistik
Etschberger - SS2014
1. Einführung
Identifikation neuer Objekte
2. Deskriptive Statistik
Durch Trennebenen: Neue, in der Analyse von X und Y noch
nicht enthaltene Objekte xj können durch Vergleich mit
Globalmittelwerten den verschiedenen Klassen zugeordnet
werden.
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Beispielproblem
xTj gk
4. Induktive Statistik
Problemstellung
Schema:
Falls
3. W-Theorie
Lineare Diskriminanzanalyse
Klassifikationsbäume
≥
<
ȳ·k
ȳ·k
Zuordnung zu K mit ȳKk ≥ ȳ·k
Zuordnung zu K mit ȳKk < ȳ·k
Support-Vector-Machines
255
Folgerungen aus dem Hauptsatz (4)
Statistik
Etschberger - SS2014
Trefferquote
Oft: Mit Identifikationsregeln für neue Objekte wird eine
Identifikation der Objekte erstellt, die zur Generierung des
Modells verwendet wurden.
Durch einen Vergleich der prognostizierten
Klassenzugehörigkeit und der wahren Klassenzugehörigkeit
kann dann der Anteil der richtig klassifizierten Objekte
bestimmt werden.
Also: Trefferquote TQ gemäß
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
TQ =
1
· Anzahl korrekt klassifizierter Objekte
n
Deskriptives Maß TQ kann als Maß für die Güte der
Diskriminanzanalyse verwendet werden.
256
Statistik
Etschberger - SS2014
Folgerungen aus dem Hauptsatz (5)
Anzahl der Trennebenen
Jede DA-Funktion trennt genau in zwei Gruppen.
Konsequenz für den Mehrgruppen-Fall: Zur korrekten
Trennung der s Klassen sind s − 1 DA-Funktionen notwendig.
Maß für die relative Wichtigkeit der einzelnen
Diskriminanz-Funktionen: Eigenwertanteil gemäß
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
λk
EAk =
λ1 + . . . + λq
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
EAk : Anteil der durch die k-te DA-Funktion erklärten
Streuung an der durch alle DA-Funktionen erklärten
Gesamtstreuung
257
Statistik
Etschberger - SS2014
Diskriminanzanalyse: Ablauf
Modellerstellung
1
Gegeben: Matrix X, Klassifikation K1 , . . . , Ks
2
Berechne V, V −1 , Z, RgZ, V −1 · Z
2. Deskriptive Statistik
3
Löse Eigenwertproblem (V −1 Z − λ · E)g = 0
3. W-Theorie
4
Bestimme λ1 ≥ . . . ≥ λq > 0
1
1. Einführung
4. Induktive Statistik
5. Datenanalyse
q
5
Bestimme G = (g , . . . , g )
6. Repräsentation
6
Berechne Ŷ = X · G (n × q)-Matrix der DA-Variablen
7. Klassifikation
Klassenmittelwerte ȳTK
T
T
x̄TK
·G
7
sowie
8
Globalmittelwerte ȳ = x̄ · G
Trennebenen ȳT = xT · G mit variablem x
9
=
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Identifikation
Falls xTj gk
≥
<
ȳ·k
ȳ·k
Zuordnung zu K mit ȳKk ≥ ȳ·k
Zuordnung zu K mit ȳKk < ȳ·k
258
Statistik
Etschberger - SS2014
Klassifikation der Beispieldaten mit LDA
120
Beispieldaten Bank
o
100
1. Einführung
2. Deskriptive Statistik
o
o
3. W-Theorie
60
6. Repräsentation
o
oo
o
o
g
g
g
o
g
o
o
o
o
g
g
g
g
g
0
g
40
Problemstellung
Beispielproblem
o
o
g
g
7. Klassifikation
o
Lineare Diskriminanzanalyse
g
g
20
5. Datenanalyse
o
40
Dauer Stelle
80
4. Induktive Statistik
o
o
o
g
g g
g
g g gg g
g
g g
g
g
g g
g
Klassifikationsbäume
o
o
o
Support-Vector-Machines
o o
o
o
o
60
g g g
o
80
oo
o
o o
o
g
o
100
Einkommen
260
Klassifikationsbäume
Grundprinzip Klassifikationsbäume
Merkmalsraum soll pro Merkmal so aufgeteilt werden, dass
Untermengen in sich möglichst homogen, untereinander
möglichst heterogen sind
Grundlegende Arbeit: Von Breiman et al. (1984)
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Schrittweiser Aufbau eines Entscheidungsbaumes
Problemstellung
Beispielproblem
1
Suche Merkmal und Trennpunkt mit bester Unterscheidung
zwischen Klassen
2
Teile Daten gemäß dieser Regel
3
Für jeden der beiden Bereiche wende 1. analog an, bis
Stopkriterium erfüllt
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
261
Statistik
Etschberger - SS2014
Entscheidungsbäume
Entscheidungsbaum der Beispieldaten
1
1. Einführung
yes is DauerSte < 21?
no
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
2
3
is Einkomme < 84?
is Einkomme < 59?
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
4
5
6
7
g
0.04 35%
ok
0.71 10%
g
0.29 19%
ok
1.00 36%
262
Statistik
Etschberger - SS2014
120
Entscheidungsbäume: Klassifikation der Beispieldaten
100
o
o
1. Einführung
o
3. W-Theorie
o
4. Induktive Statistik
o
oo
o
60
o
o
g
g
6. Repräsentation
g
20
o
o
g
g
o
g
g
g
g
g
g
g
0
g
40
o
o
g
g
g g
g
g
g
o
7. Klassifikation
o
o
g
g
o
o
g
g
5. Datenanalyse
o
o
g
o
g
40
Dauer Stelle
80
2. Deskriptive Statistik
Problemstellung
o
o
o
g
gg g
g g
g
60
80
g
o
o o
o
o o
o
o
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
o
g
o
100
Einkommen
Entscheidungsbäume sind nichtlineare Klassifikationsverfahren:
Damit Gefahr des Overfitting
263
Statistik
Etschberger - SS2014
Zurückschneiden eines Baumes: Pruning
Komplexität der Bäume a priori festlegen ist i.a. nicht optimal
Idee: Bäume erst wachsen lassen, anschließend zurückstutzen
(Pruning)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Entscheidungsbaum, unbeschnitten
Entscheidungsbaum, beschnitten
1
yes
5. Datenanalyse
1
is laufkont < 2.5? no
is laufkont < 2.5?
yes
3
no
is verw < 0.5?
6. Repräsentation
2
is laufzeit >= 11?
7. Klassifikation
2
4
6
is wohnzeit >= 1.5?
is weitkred < 2.5?
Problemstellung
is laufzeit >= 11?
Beispielproblem
8
is sparkont < 3.5?
Lineare Diskriminanzanalyse
4
16
is famges < 2.5?
Klassifikationsbäume
is wohnzeit >= 1.5?
33
is rate >= 2.5?
Support-Vector-Machines
67
is alter >= 34?
66
8
is alter < 26?
133
is sparkont < 3.5?
is alter >= 41?
267
is laufzeit >= 27?
132
ja
0.00 2%
32
ja
0.20 10%
534
266
ja
0.17 4%
ja
0.33 3%
134
535
nein
0.71 5%
ja
0.44 3%
5
17
135
nein
0.80 5%
nein
0.72 6%
9
nein
0.79 6%
nein
0.80 8%
13
12
ja
0.29 2%
nein
0.83 8%
7
nein
0.88 37%
16
17
9
5
3
ja
0.39 32%
nein
0.72 6%
nein
0.79 6%
nein
0.80 8%
nein
0.84 47%
264
Zurückschneiden eines Baumes: Pruning
Zurück
Statistik
Etschberger - SS2014
Komplexität der Bäume a priori festlegen ist nicht optimal
1. Einführung
Idee: Bäume erst wachsen lassen, anschließen zurückstutzen
(Pruning)
2. Deskriptive Statistik
Bewertung des zurückgeschnittenen Baumes z.B. mittels
Kosten-Komplexitäts-Maß
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Rα (T ) = R(T ) + α|T̃ |
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Dabei bedeutet:
Support-Vector-Machines
R(T ): Fehlklassifikationsrate durch den Baum T
|T̃ |: Anzahl der Knoten im Baum T
α > 0: Faktor des Komplexitäts-Bestrafungs-Terms
265
Statistik
Etschberger - SS2014
Pruning
Vorgehen beim Beschneiden von Bäumen
1
2
1. Einführung
Beschneide Baum um die Äste, die die Fehlklassifikationsrate
nicht verbessern
Bewerte bei allen Nicht-Endknoten At und den davon
ausgehenden Ästen T (At ) mittels Kosten-Komplexitäts-Maß
den Knoten, wenn er ein Endknoten wäre Rα (At ) und
den kompletten Ast ab diesem Knoten Rα (T (At ))
3
Stutze Baum beim Knoten mit dem kleinsten Unterschied von
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Rα (At ) − Rα (T (At ))
4
Gehe zu Schritt 2. solange Rα (At ) − Rα (T (At )) > 0
266
Statistik
Etschberger - SS2014
Beispiel ohne Pruning
Entscheidungsbaum, unbeschnitten
1
yes
is laufkont < 2.5? no
3
is verw < 0.5?
1. Einführung
2
is laufzeit >= 11?
2. Deskriptive Statistik
3. W-Theorie
4
6
is wohnzeit >= 1.5?
is weitkred < 2.5?
4. Induktive Statistik
5. Datenanalyse
8
is sparkont < 3.5?
6. Repräsentation
7. Klassifikation
16
is famges < 2.5?
Problemstellung
33
is rate >= 2.5?
Beispielproblem
Lineare Diskriminanzanalyse
67
Klassifikationsbäume
is alter >= 34?
Support-Vector-Machines
66
is alter < 26?
133
is alter >= 41?
267
is laufzeit >= 27?
32
ja
0.20 10%
132
534
134
17
5
13
ja
0.00 2%
ja
0.33 3%
ja
0.44 3%
nein
0.72 6%
nein
0.80 8%
nein
0.83 8%
266
ja
0.17 4%
535
nein
0.71 5%
135
nein
0.80 5%
9
nein
0.79 6%
12
ja
0.29 2%
7
nein
0.88 37%
267
Statistik
Etschberger - SS2014
Beispiel Pruning mit α =0.045
Entscheidungsbaum, beschnitten
1
is laufkont < 2.5?
yes
no
1. Einführung
2. Deskriptive Statistik
2
3. W-Theorie
is laufzeit >= 11?
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
4
7. Klassifikation
is wohnzeit >= 1.5?
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
8
Support-Vector-Machines
is sparkont < 3.5?
16
17
9
5
3
ja
0.39 32%
nein
0.72 6%
nein
0.79 6%
nein
0.80 8%
nein
0.84 47%
268
Statistik
Etschberger - SS2014
Support-Vector-Machines
Klassifikationsverfahren seit
Mitte der 1990er Jahre
(siehe Vapnik, 1999)
1. Einführung
2. Deskriptive Statistik
Idee: Unterteilung der Daten in
2 Klassen durch Abbildung der
Daten in höhere Dimension
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
In höherer Dimension:
Benutzung einer einfachen
Funktion zur
Abstandsbestimmung und
Bestimmung einer
“Trennungslinie”
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
Dabei möglichst: Abstand der Klassen zur Trennungslinie maximal
Äußerste Punkte der Klassen: Stützvektoren (Support Vector)
Falsch klassifizerte Objekte erhöhen eine Kostenfunktion
Mehr
269
Support-Vector-Machines
Statistik
Etschberger - SS2014
Zurück
Kernel Methoden: Nutzen Informationen über das innere
Produkt zwischen Objekten
Viele Algorithmen lassen sich umformulieren, so dass sie nur
noch das innere Produkt zwischen Daten benötigen
Wenn der Kernel bekannt ist, muss man die Eigenschaften der
Daten nicht spezifizieren
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Unabh. Daten im Raum: x ∈ X, Abhängige Daten in
y ∈ Y = {−1,1}; Zum Beispiel
f(x) = hw, xi + b,
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
h(x) = sign(f(x))
270
Support-Vector-Machines
Zurück
d.h. Transformation in Feature-Raum muss nicht gemacht
werden, es genügt, wenn die zugehörige Kernel-Funktion
bekannt ist.
Das heißt für einen Kernel
K(x1 , x2 ) = hφ(x1 ), φ(x2 )i
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
muss weder die Dimension, noch die Transformation φ
bekannt sein. Es genügt der Kernel
Kernel-Trick: Bilde Daten in Repräsentationsraum ab, in dem
sie (einigermaßen vernünftig) linear separierbar sind,
Messe Kosten aber nur via Kernelfunktion...
6. Repräsentation
7. Klassifikation
Problemstellung
Beispielproblem
Lineare Diskriminanzanalyse
Klassifikationsbäume
Support-Vector-Machines
271
Statistik
Etschberger - SS2014
120
Support-Vector-Machines: Ergebnisse mit Beispieldaten
100
o
o
1. Einführung
o
2. Deskriptive Statistik
80
3. W-Theorie
o
4. Induktive Statistik
o
oo
60
o
g
g
40
7. Klassifikation
g
Problemstellung
o
o
o
o
g
o
o
g
g
g
o
0
g
o
g
g
g
g
40
o
Klassifikationsbäume
o
g g
g
o
o
o
g
g
60
o o
o
o o
g
gg g
g g
g
g
g
g
g
Lineare Diskriminanzanalyse
o
o
Support-Vector-Machines
g
g
g
o
Beispielproblem
o
o
g
20
6. Repräsentation
o
o
g
o
g
g
5. Datenanalyse
o
o
80
100
272
Statistik
Etschberger - SS2014
o
o
g
g
o
o
o
40
o
o
g
g
g
g
0
g
40
g
gg g g
g
g
g
g
g
g
oo
o
gg
g
oo
o
20
g
g
o
60
g
100
o
o
g
g g
g
g
g
40
80
60
o
g
gg g g
g
g
g
g
g
g
g
oo
o
oo
o
gg
60
100
o
g
g
g g
g
g
g
g
40
6. Repräsentation
o o
o
o
g
g
g
o
o
o
o
g
80
o
o
o
o
g
go
o
o
g
o
4. Induktive Statistik
o
o
5. Datenanalyse
g
g
o o
o
o
g
g
o
o
g
80
o
o
g
go
o
o
g
g
o
o
o
g
g
g
o
g
o
g
g
g g
o
o
g
g
g
o o
o
0
20
g
o
o
o
g
g
o
o
g
o
40
g
g
g
g
o
o
40
o
o
3. W-Theorie
o
oo
0
o
g
o
2. Deskriptive Statistik
o
o
1. Einführung
o
o
oo
o
60
60
g
g
o
o
o
o
20
o
oo
o
o
80
80
o
o
100
o
100
100
o
120
120
120
Support-Vector-Maschines und Overfitting
g
gg g g
g
g
g
g
g
g
60
o
oo
o
oo
o
gg
Problemstellung
Beispielproblem
o
go
o
g
80
7. Klassifikation
Lineare Diskriminanzanalyse
Klassifikationsbäume
100
Support-Vector-Machines
Gefahr des Overfitting durch sukzessives Anpassen der
Methodenparameter sehr groß
Teil der Daten als Test- und ggf. Validierungsdaten unbedingt
erforderlich
273
Herunterladen