Mitschrift 2004/05

Werbung
Mitschrift im Seminar
Statistische Datenanalyse I
WS 2004/05
Dozent: W. Nagl
Skriptum Statistische Datenanalyse I WS 04/05
Seite 1
Inhaltsverzeichnis
1. Univariate Statistik
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Graphische Darstellung von Merkmalsausprägungen . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Nominalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Ordinalskala
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Intervallskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Skalenniveaus von Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Stichprobenmittelwerte bzw. –varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Simulationsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Wichtige Aspekte der Stichprobenverteilung von beiden Maßzahlen . . . . . . . . . . . . . . . 9
2.3 Form der Stichprobenverteilung des Mittelwerts bei großen Stichproben . . . . . . . . . . . . . 10
2.4 Stichprobenverteilungen für Maßzahlen und Standardfehler . . . . . . . . . . . . . . . . . . 10
3. Statistische Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1 Rolle von Varianz bzw. Standardabweichung
. . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1 Konfidenzintervalle (für μ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1.1 Konfidenzintervall für  bei bekanntem  . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1.2 Konfidenzintervall für  bei UNbekanntem 
. . . . . . . . . . . . . . . . . . . . 12
3.1.2 Mittelwerttests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2.1 Mittelwerttest bei bekanntem x (Gauß-Test) . . . . . . . . . . . . . . . . . . . . 13
3.1.2.2 Mittelwerttest bei UNbekanntem x (t-Test) . . . . . . . . . . . . . . . . . . . . . 14
3.2 Exkurs: Die Bayes`sche Statistik
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Fehler 1. Art, Fehler 2. Art und Macht des Tests
. . . . . . . . . . . . . . . . . . . . . . 16
4. Bivariate Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Test auf Unabhängigkeit zweier Merkmale (2-Test) . . . . . . . . . . . . . . . . . . . . . 18
4.2.1 Die Teststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2.2 Beschränkung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2.3 Prädiktion mit Hilfe der Anteile
4.3 Logistische Modelle
. . . . . . . . . . . . . . . . . . . . . . . . . . . 18
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3.1 Einführungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3.3 Das PRU-Maß und die Entropie. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.4 Maximum-Likelihood und Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.4.1 Maximum-Likelihood-Schätzmethode . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.4.2 Die Likelihoodfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.4.3 Der ML-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.4.4 Der Zusammenhang zur Entropie. . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4.1 Unterschied zwischen Residuen und Störgrößen . . . . . . . . . . . . . . . . . . . . . 26
Skriptum Statistische Datenanalyse I WS 04/05
Seite 2
4.4.2 Vorgehen im konkreten Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4.3 Erweiterung der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.5 Varianzanalyse
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.1 Die Hypothese, dass alle Mittelwerte gleich sind. . . . . . . . . . . . . . . . . . . . . 27
4.5.2 Testen: Konfidenzintervalle und das Bonferoni-Verfahren . . . . . . . . . . . . . . . . . 27
4.5.3 Holm-Modifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5.4 Vorrausetzungen für die Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Zusammenfassung: Modellkonzeptionen der bisherigen bivariaten Verfahren . . . . . . . . . . . 29
4.6.1 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6.2 Regressionsanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.7 Konstanthaltung von Variablen: Kovarianzanalyse
. . . . . . . . . . . . . . . . . . . . . 31
5. Prädiktion mit mehreren Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1 Strukturdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1 Einführungsbeispiel Erfolgsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.2 Pfaddiagrammregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.3 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.4 Umrechnung der Pfadkoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1.5 Pfaddiagramm und Regressionsgleichung
5.1.6 Kovarianzregeln
. . . . . . . . . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Partielle, semipartielle und multiple Korelationskoeffizienten . . . . . . . . . . . . . . . . . 38
5.2.1 Spezialfall: Modell mit zwei Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2.2 Ballantines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.3 Verallgemeinerung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.4 Behandlung von Drittvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.3 Spezifikationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.4 Robustheitsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.5 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5.1 Zweifaktorielle Varianzanalyse mit unverbundenen Gruppen . . . . . . . . . . . . . . . . 42
5.5.2 Zweifaktorielle Varianzanalyse mit Messwiederholung (repeated measurement) . . . . . . . . 43
5.6 Haupteffekt und Interaktion
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.6.1 Unterschied zwischen Haupteffekt und Interaktion . . . . . . . . . . . . . . . . . . . . 44
5.6.2 Interaktionsmuster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.7 Prinzipien der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Skriptum Statistische Datenanalyse I WS 04/05
Seite 3
1. Univariate Statistik
1.1 Graphische Darstellung von Merkmalsausprägungen
Abhängig vom Skalenniveau eines Merkmals sind bestimmte graphische Darstellungen möglich. Möglichkeiten
der graphischen Darstellung auf niedrigerem Skalenniveau sind dabei auch für höher skalierte Merkmale
zulässig.
1.1.1 Nominalskala
Stab- und Streifendiagramm
Bei diskreten Verteilungen werden die Anteile als Stäbe für abzählbar viele Werte der x-Achse dargestellt.
Daher können die Anteile als die Funktionswerte der x-Werte interpretiert werden. Diese für die gesamte xAchse definierte Funktion heißt DICHTEFUNKTION:
Beispiel, Altersverteilung
Formel
Dichtefunktion: Anteile als
f(x)
p
(
x
)
x

x

i
i
f (x)  
Stäbe für die in der
sonst
 0
Häufigkeitsverteilung
0.3
vorkommenden x-Werte, sonst 0. mit ‚sonst‘ ist der
0.2
Die graphische Darstellung dieser mögliche
0.1
Ausprägungsbereich
Funktion heißt Stabdiagramm.
des Merkmals gemeint. 0
x
18
20
22
24
26
28
30
Graphisch wirken dicke Streifen besser als die feinen Stäbe, die idealerweise bei quantitativen Merkmalen eine
Breite von 0 haben müssten. Daher werden in den meisten Computerprogrammen dicke Streifen gezeichnet, die
als Streifendiagramm (auch Balkendiagramm genannt) bezeichnet werden.
Bei Nominaldaten sind die Werte zwischen den Codes nicht definiert, daher können die Streifen beliebig breit
gemacht werden; der Lesbarkeit halber werden statt der Codes meist die Ausprägungsnamen verwendet.
Streifendiagramm, vertikal
Ad-hoc-Beispiel: Streifendiagramme für
das nominale Merkmal Familienstand.
Streifendiagramm, horizontal
0,8
f(x)
Merkmals
Ausprägung
ledig
verlobt
getrennt
0,6
0,4
0,2
Code
x
0
1
3
Anzah
l
11
4
1
Anteil
0.6875
0.2500
0.0625
getrennt
verlobt
ledig
0
ledig
verlobt
getrennt
Bei nominalen Merkmalen wird meist der
Ausprägungstext
als
Beschriftung
verwendet. f(x) ist der Anteil.
0
0,2
0,4
Staffeldiagramm (mosaic plot)
Beim Staffeldiagramm (engl. mosaic plot) werden die Anteile proportional zur Länge aufgetragen.
Beispiel:
Staffeldiagramm
für das Merkmal
Familienstand (s.
o.).
ledig
verlobt
verheiratet
0,6
f(x)
0,8
Skriptum Statistische Datenanalyse I WS 04/05
Seite 4
Kreisdiagramm
Ähnlich ist das Vorgehen beim
Kreisdiagramm. Hier werden die
Anteile proportional zum Umfang
aufgetragen.
verlobt
verheiratet
ledig
Beispiel: Kreisdiagramm für das Merkmal
Familienstand (s. o.)
Netzdiagramm
Netzdiagramm
Beim Netzdiagramm (auch Sternoder Spinnennetzdiagramm genannt,
engl. starplot) wird für jede
Ausprägung eine Achse gezeichnet
und auf ihr der Anteil bzw. die
Häufigkeit eingetragen.
ledig
70,00
35,00
getrennt
Beispiel: Netzdiagramm für das Merkmal
Familienstand (s.o.).
verlobt
1.1.2 Ordinalskala
Treppenfunktion
Die Fragestellung ‚Wie groß ist der Anteil der Werte kleiner oder gleich einem Wert x?‘ kann für den ganzen
Zahlenbereich erweitert werden, auch für Werte x, die gar nicht erhoben wurden. Dadurch entsteht eine
Funktion, die für alle x-Werte definiert werden kann:
Beschreibung
Anteil Werte kleiner
oder gleich x
Formeln
Beispiel
F(x) := (I(x1 x) + I(x2 x) F(20) = 0, F(20.5) = 0, F(20.99) = 0, F(20.999) = 0, F(21) = 0.375,
Sprungstellen: F(21) = 0.375, F(22) = 0.625, F(23) = 0.750, F(24)
+
= 0.9375, F(30) = 1
... + I(xn x))/n
Die (kumulierte)
1.0
Graph der
F(x)
Verteilungsfunktion
0.9
Verteilungsfunktion
ist für alle möglichen (theoretisch für x zwischen
0.8
Werte der Variablen
- und + )
0.7
definiert.
0.6
0.5
Form:
Treppenfunktion,
mit Sprungstellen
0.4
F(x) rechtsseitig stetig
0.3
0.2
0.1
monoton nichtfallend
ganz links = 0, ganz
rechts = 1
F(x)  F(x‘) für x  x‘
0  F(x)  1 für alle x
0
18
20
22
24
26
28
30
F(-)=0, F(+)=1
Die Treppenfunktion wird auch als Darstellung der kumulativen Anteile (engl. cumulativ distribution function,
kurz CDF) bezeichnet.
Stamm & Blatt-Diagramm (engl. stem & leaf-plot)
Für wenige Untersuchungseinheiten werden diese Diagramme so aufgebaut, dass einerseits ein Überblick über
die Verteilung vermittelt wird, andererseits die Werte der sortierten Liste auch bei vielen Ausprägungen auf
Grund des Diagramms rekonstruiert werden können.
Skriptum Statistische Datenanalyse I WS 04/05
Zuerst Klassenzusammenfassung festlegen (s. o.)
Pro Klasse gibt es ein Blatt. Die letzte Ziffer der
Ausprägung wird im Blatt eingetragen.
Die Klassen werden durch die vorderen Stellen
der
Ausprägung
charakterisiert
(die
verschiedenen Bezeichnungen der Klassen bilden
den Stamm).
Seite 5
Beispiel: Körpergröße (siehe oben: Entscheidung für 6 Klassen. Die
Klassengrenzen seien hier wie oben gewählt). Nach dieser Festlegung
kann das Diagramm direkt auf Grund der Urdaten erstellt werden
(Sortierung nur innerhalb der Klasse notwendig).
Stamm & Blatt-Diagramm in horizontaler Darstellung:
Die Ausprägung 190 hat als letzte Ziffer 0
(Blattinformation). Die Stellen davor sind Stamm Blatt Anzahl
19
014 3
19 (das ist die Stamminformation).
18
5699 4
167 ist in der letzten Zeile zu finden: im 18
44
2
Stamm 16, im Blatt 7.
17
58
2
186 (im Stamm 18, im Blatt 6).
17
044 3
16
57
2
Qantilplots
Eine Möglichkeit Daten zu veranschaulichen
bietet auch der Quantilplot. Hier werden Median,
Quartile, und Dezentile verwendet
10%Quantil
1.
Quartil
Median
90%Quantil
3.
Quartil
1.1.3 Intervallskala
Histogramm: Anteile als Flächen
Falls das Merkmal als stetig betrachtet wird, kann an jeder Stelle eines Bereichs der wahre Wert liegen; die
protokollierte Größe selbst ist nur eine ungenaue Angabe. Damit diese Tatsache bei der Darstellung
berücksichtigt werden kann, werden die einzelnen Angaben nur noch so interpretiert, als ob sie aus dem
entsprechenden Intervall stammten. Es muss dann aber das Intervall betrachtet werden. Die Einteilung in die
verschiedenen Intervalle wird auch als Klasseneinteilung bezeichnet, entsprechend die zusammengefassten
Elemente als Klassen.
Die Intervalle können
unterschiedlich breit sein.
grundsätzlich Formeln
Die ‚Anteilsmasse‘ pro Intervall soll auf das
Intervall gleichmäßig aufgeteilt werden.
Das kann am besten erreicht werden, wenn Für Intervall i:
pro Intervall der Anteil als Fläche
dargestellt wird. So kann berücksichtigt pi = Fläche
werden,
dass
Intervalle
auch
unterschiedlich breit sein können.
= bi * hi
Da die Breite dieser Fläche bekannt ist (und
hi = pi / bi
ebenfalls die Fläche), muss nur noch die
Höhe des entsprechenden Rechtecks
berechnet werden.
Die Dichtefunktion f(x) gibt
h i u i  x  o i
nun an, welche Höhe bei den f ( x )   0
sonst

Intervallen vorhanden ist.
Beispiel: Einkommensangaben mit 5 unterschiedlich breiten Intervallen seien bei 10 Personen erhoben worden. Ergebnis sind die
Häufigkeiten bzw. die Anteile.
Auf Grund der unteren und oberen Grenzen (u i, oi) wird die
Klassenbreite berechnet.
Index
Klassen
Klassen Häufig AnDichte
Grenzen
Breite
keimt
=Höhe
teil
i
ui
oi
bi
ni
pi
hi
1
2
3
4
5
f(x)
0
100
500
1000
2000
100
500
1000
2000
5000
100
400
500
1000
3000
1
1
2
3
3
0.10
0.10
0.20
0.30
0.30
0.00100
0.00025
0.00040
0.00030
0.00010
Histogramm
0.0010
0.0009
0.0008
0.0007
0.0006
Da pro Intervall nun die Fläche unter der Dichtefunktion den
Anteil darstellt, ist die gesamte Fläche unter der
Dichtefunktion insgesamt gleich eins.
0.0005
0.0004
0.0003
Diese Darstellung nach dem Prinzip der flächentreuen
Darstellung der Anteile weicht erheblich von einer
Darstellung der Anteile als Höhe ab, wenn die Intervalle
unterschiedlich breit sind.
0.0002
0.0001
0
0
1000
2000
3000
4000
5000
Einkommen
Bei diesen Überlegungen wurde unterstellt, dass die Anteilsmasse gleich verteilt wird in jedem Intervall. Die
graphische Darstellung heißt auch Histogramm.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 6
1.2 Skalenniveaus von Maßzahlen
Bestimmte Maßzahlen können erst auf ein Merkmal angewendet werden, wenn dieses ein bestimmtes
Mindestskalenniveau besitzt. Für eine Auswahl an Maßzahlen ist hier das Mindestskalenniveau angegeben.
Nominal
Häufigkeiten, Anteile, Modalwert
Ordinal
Quantile, kumulierte Anteile, Hinges, Eights
Intervall
Momente (z.B. x )
Zentrierte Momente (z.B. Var(x))
Schiefe
Skriptum Statistische Datenanalyse I WS 04/05
Seite 7
2. Stichprobenmittelwerte bzw. -varianzen
Die Vorgehensweise des Ziehens von Stichproben und die Beschreibung der Ergebnisse sollen für die beiden
wichtigen Maßzahlen der Stichprobenmittelwerte und Stichprobenvarianzen exemplarisch vorgeführt werden.
2.1 Simulationsexperiment
Das Simulationsexperiment besteht darin, aus einer Liste von 55 UEn (als Population) jeweils 5000 Stichproben
gleicher Größe zu ziehen. Dabei sollen die 55 Einheiten als Repräsentanten innerhalb einer unendlichen
Gesamtheit betrachtet werden. Daher werden die Stichproben auch MIT Zurücklegen gezogen. Um den
Aufwand etwas einzuschränken, soll vorläufig nur ein Merkmal betrachtet werden: Körpergröße.
In diesem Fall könnte die resultierende Verteilung
der Werte aller möglichen Stichproben auch
theoretisch leicht über die klassische Definition
der Wahrscheinlichkeit berechnet werden: für jede
Ausprägung den Anteil der ‚günstigen‘ durch die
möglichen
Fälle.
D.
h.
diese
Wahrscheinlichkeitsverteilung gleicht genau jener
in der Population.
Trotzdem sind diese beiden Verteilungen
konzeptionell klar zu unterscheiden.
Bei der Simulation wird dieser Sachverhalt auch
deutlich (bei nur 5000 Wiederholungen stimmen
die beiden Verteilungen zwar fast, aber nicht
völlig überein).
0.07
Populationsverteilung
der Körpergröße.
 =176.34545
0.06
Simulierte WahrscheinlichkeitsVerteilung der Körpergröße
E(X) = 176.34545
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
150
x (5000) =176.3206
0.07
160
170
180
0
150
190
Zufallsauswahl
160
170
180
190
Vert. bilden
Sp1
Sp2
Sp3
Sp4
Sp5
Sp6
Die simulierte Wahrscheinlichkeitsverteilung des Sp7
Merkmals, die Übersicht über alle möglichen Sp8
.........usw.........
Stichproben der Größe 1 (bei w=5000), ist rechts Sp9
Sp5000
oben dargestellt.
Werte
übertragen
Stichprobe der Größe 1 (n = 1):
Aus der Verteilung der Gesamtheit werden alle
Stichproben der Größe 1 gezogen.
.........usw.........
Für diese Verteilung kann auch der Mittelwert Der Mittelwert bei w=5000 ist x (5000) =176.3206. Dieser Mittelwert
x ( w ) berechnet werden, der bei wachsendem w strebt bei wachsendem w gegen den Erwartungswert: E(X)= 176.34545
(auf Grund theoretischer Berechnung über die klassische
gegen den Erwartungswert E(X) strebt.
Wahrscheinlichkeitsdefinition berechnet).
 Das arithmetische Mittel für die Population Andererseits kann für die Population selbst das arithmetische Mittel
berechnet werden, das als  bezeichnet wird:  = 176.34545.
(=) ist gleich groß wie der Erwartungswert:
Die beiden Werte (E(X) und ) sind gleich = 176.34545.
E(X) =.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 8
Aus der Verteilung
Stichproben (n = 4):
der Gesamtheit
werden Stichproben
Populationsverteilung
der Größe n
der Körpergröße.
gezogen.
 =176.34545
2
Die Werte der ersten
 = 91.31702
0.1
acht (Sp1-Sp8)
Stichproben und die 0.08
letzte (Sp5000) im
0.06
Rahmen der
Simulation für 5000 0.04
0.02
Wiederholungen
sind im Diagramm
0
150
160
170
180
190 x
dargestellt.
Simulierte WahrscheinlichkeitsVerteilung des arithm. Mittels
der Körpergröße
( 5000)
= 176.44925
x
E( X ) = 176.34545
Var( X ) = 22.829255
= 91.32985
0.08
0.008
0.06
0.006
0.04
0.004
0.02
0.002
2
S n 1
) = 91.31702
0
160
170
180
190 x
0
100
Vert. bilden
200
300
2
400 s
n 1
Vert. bilden
Sp1
Sp2
Sp3
Maßzahlen
berechnen
Sp4
Sp5
Sp6
Sp7
Sp8
.........usw.........
Sp9
.........usw.........
.........usw.........
Sp5000
Die Verteilung der
Maßzahl (über die
5000 Stichproben)
ist die simulierte
WahrscheinlichkeitsVerteilung der
Maßzahl (jeweils
oben im Diagramm).
Zusätzlich wurden
noch die Mittelwerte
bei w=5000 und die
Erwartungswerte
eingetragen. (Für das
arithm. Mittel auch
die Varianz).
Unter den
Verteilungen wird
der Mittelwert 
Standardabweichung
schematisch als
Intervall angezeigt.
Stichproben (n = 9):
Simulierte WahrscheinlichkeitsVerteilung der des arithm.
Mittels der Körpergröße
( 5000)
= 176.38084
x
E( X ) = 176.34545
Var( X ) = 10.1463356
Populationsverteilung
der Körpergröße.
 =176.34545
2
 = 91.31702
Simulierte WahrscheinlichkeitsVerteilung der Stichprobenvarianz der Körpergröße
2
E(
0.1
0.1
0.01
0.08
0.008
0.06
0.06
0.006
0.04
0.04
0.004
0.02
0.02
0.002
160
170
180
=91.408217
2
S n 1
) = 91.31702
0.012
0.08
0
150
( 5000)
s n 1
190
0
150
x
Zufallsauswahl
0
160
170
180
Vert. bilden
190 x
0
100
200
Sp2
Sp3
Sp4
Sp5
Sp6
Sp7
Sp8
.........usw.........
Sp9
Sp5000
.........usw.........
300
Vert. bilden
Sp1
Maßzahlen
berechnen
Danach wird die
Verteilung gebildet
für jede Maßzahl.
E(
0.012
0.01
0
150
( 5000)
2
s n 1
0.1
Zufallsauswahl
Für jede Stichprobe
wird hier als
Maßzahl das
arithmetische Mittel
und die
Stichprobenvarianz
(mit Division durch
n-1) s2n 1 berechnet.
Simulierte WahrscheinlichkeitsVerteilung der Stichprobenvarianz der Körpergröße
.........usw.........
400 s 2
n 1
Skriptum Statistische Datenanalyse I WS 04/05
Seite 9
2.2 Wichtige Aspekte der Stichprobenverteilung von beiden
Maßzahlen
Die Wahrscheinlichkeitsverteilung für die Maßzahl (hier Stichprobenvarianz und Stichprobenmittelwert) wird
als Stichprobenverteilung der Maßzahl bezeichnet. Sie stellt die Übersicht über die Ergebnisse für die Maßzahl
her bei allen möglichen Stichproben.
Die Ergebnisse des Simulationsexperiments bezüglich der beiden Maßzahlen sollen getrennt betrachtet werden.
Das Experiment regt zu folgenden Feststellungen an:
Zur Stichprobenverteilung des arithmetischen Mittels


Für Körpergröße:
 = 176.34545
Die Mittelwerte der Stichproben haben als Erwartungswert
das arithmetische Mittel der Population.
Bei der Simulation entspricht dieser Erwartungswert dem E( X n ) =.
Grenzwert des Mittelwerts über die Stichprobenmittelwerte. E( X n )
(Um
Ergebnisse
für
die
unterschiedlichen
(w)
Stichprobengrößen unterscheiden zu können, wird dem = plim x n
w 
Mittelwert n als Index beigefügt). Diese Eigenschaft wird als
die Erwartungstreue des arithmetischen Mittels bezeichnet.
E( X 4 )=
E( X 9 )= 176.34545
= 176.44925
( 5000 )
x9
= 176.38084
2
 = 91.31702
2
Dieser Eindruck kann präzisiert werden: Die Varianz der Var( X n ) =
n
Verteilung aller möglichen Mittelwerte sinkt im Verhältnis
1/n zur Varianz in der Population.
Die angegebene Varianz bei
den
Stichprobenverteilungen ist
die exakte, nicht nur die
simulierte:
Var( X 4 )= 22.829255
Entsprechend kann auch die Standardabweichung der Std( X n ) = 
Verteilung aller möglichen Mittelwerte berechnet werden.
n
Sie wird auch als Standardfehler des Mittelwerts
bezeichnet.
= 91.31702 / 4
Var( X 9 )= 10.1463356
= 91.31702 / 9
Zur Stichprobenverteilung der Stichprobenvarianz s2n 1 bzw. s2n
 Der Erwartungswert der mit der Formel s2 berechneten Die Populationsn 1
2
Stichprobenvarianzen ist gleich groß wie die Varianz in der Varianz   .
Population.
Bei der Simulation entspricht dieser Erwartungswert dem Es gilt:
Grenzwert des Mittelwerts über die Stichprobenvarianzen.
Diese Eigenschaft wird als die Erwartungstreue von  2 = E( S 2 )
n 1
s2n 1 bezeichnet. Dieser Eigenschaft wegen wird meist diese

( 5000 )
Varianz der Population:
Die Streuung des Mittelwerts wird kleiner mit zunehmender
Stichprobengröße.
Formel (also Division durch n-1 statt durch n) für die
Berechnung der Varianz in der Stichprobe verwendet. Im
Gegensatz dazu
ist s2n als Schätzer für
σ2 nicht
erwartungstreu.
Auch die Stichprobenverteilung der Varianz wird mit
zunehmendem
n
schmaler.
Der
Großteil
aller
Stichprobenvarianzen konzentriert sich zunehmend um die
Varianz der Population. Auch hier sind ähnliche
Beschreibungen wie für das arithmetische Mittel möglich.
x4
(=
plim
w 
s 2n 1
(w)
2
= 91.31702
2
E( S 4 1 )
2
E( S 9 1
=
) = 91.31702
Die simulierten Mittelwerte
der Varianzen:
2
)
( 5000)
= 91.32985
s n 1
2
s n 1
( 5000)
= 91.408217
Bei n=4 ist die
StichprobenvarianzenVerteilung noch viel breiter
als bei n=9.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 10
2.3 Form der Stichprobenverteilung des Mittelwerts bei großen
Stichproben
Bei zunehmender Stichprobengröße kann die Verteilung der Stichprobenmittelwerte durch die Normalverteilung
angenähert werden. Allerdings geht das unterschiedlich schnell, je nach Art der Populationsverteilung. Falls die
Populationsverteilung schief oder mehrgipflig ist, dauert es länger (größeres n erforderlich). Je ähnlicher die
Populationsverteilung einer Normalverteilung ist, desto schneller (auch schon bei kleinerem n) sind die
Mittelwerte normalverteilt. Ist die Population normalverteilt, sind automatisch auch die daraus gezogenen
Mittelwerte normalverteilt. Dazu sagt der Zentrale Grenzwertsatz:
Zentraler Grenzwertsatz:
Die Verteilung des
Mittelwerts über die n
unabhängig aus der gleichen
Populationsverteilung
gezogenen Werte nähert
sich bei zunehmendem n der
Normalverteilung an.
Diese Standardisierung bedeutet
etwa bei der Körpergröße (mit x=
176.34545 und x=9.556), dass
alle möglichen Mittelwerte
zentriert würden (176.34545
subtrahieren) und durch die
Standardabweichung des
Mittelwerts (je nach n)
Etwas genauer: die Verteilung der
standardisierten Zufallsvariable
X x
Z n
nähert sich bei steigendem n der
Std ( X n )
Standardnormalverteilung,
die einen Mittelwert von 0 und eine
Standardabweichung von 1 hat: Z ~ N(0,1)
Std( X n ) 
x
n
dividiert würden.
2.4 Stichprobenverteilungen für Maßzahlen und Standardfehler
Die Stichprobenverteilungen zeigen die Variation einer Stichprobenmaßzahl unter Berücksichtigung des
Stichprobenziehens aus einer Population, die selbst wieder durch Maßzahlen (Parameter der
Populationsverteilung) beschrieben werden können. Nach dem gleichen Populations-Stichproben-Schema,
nach dem die Stichproben-Verteilungen für das arithmetische Mittel und die Varianz erarbeitet wurden, könnten
auch die Stichprobenverteilungen (Stv) für alle anderen unter Kapitel 2 behandelten Maßzahlen berechnet
werden. Unten sind einige Beispiele aufgeführt.
Die Standardabweichung der Stichprobenverteilung für eine bestimmte Stichprobenmaßzahl wird als
Standardfehler der Stichprobenmaßzahl bezeichnet.
Standardfehler
bei Spezialfall
PV NormalVerteilung
Stichprobenmaßzahl
Erwartungswert
arithm. Mittel
µ

n

Anteil

(1   )
n


0.5 1
~) n
f (
symmetrisch,
~ sonst

 
Stv normal ca. ab n>30 (vorher
Binomialverteilung)
 * 1.2533 *
1
n
 * 1.3626 *
1
n
n 
1. bzw. 3.
Quartil
~
~

0.25 bzw.  0.75
siehe oben
0.25
~ )
f (
0.25
0.25
3
bzw.
~ )
f (
n
0.75
3
n
Stv normal ca. ab n>30, auch
wenn PV nicht normal
Stv normal, falls PV normal

~ falls Population

Median
Bemerkungen
Pop.Verteilung (PV) generell
Stv normal ca. für n>30. f ( ~ ) ist die
Dichte in der Populationsverteilung
beim Median
Stv normal ca. für n>30. f (~ 0.25 ) =
Dichte in Populationsverteilung beim 1.
Quartil, analog für 3. Quartil

Varianz:
2
S n 1

2
4
 4
n

2
2
n

Stv normal ca. für n>100
2
( n  1)S n 1

2
ist 2-verteilt mit n-1
Freiheitsgraden (df)
Standardabweichung:
S n 1

 
n 
ab ca. n=30
wobei 4. Moment:  4 
1
n
 (x  ) 4
4
 4
4 n
2

1
2n
Stv normal ca. für n>100
bei diskreten Verteilungen, bzw. bei stetigen:  4   ( x  ) 4 f ( x )dx
Skriptum Statistische Datenanalyse I WS 04/05
Seite 11
3. Statistische Schätztheorie
3.1 Rolle von Varianz bzw. Standardabweichung
Varianz bzw. Standardabweichung dienen dazu die Form einer Verteilung quantitativ zu beschreiben. Darüber
hinaus hat dieses Maß aber noch weitere Anwendungsmöglichkeiten, etwa bei der Konstruktion von
Konfidenzintervallen und beim Testen von Mittelwertshypothesen.
3.1.1 Konfidenzintervalle (für μ)
Eine Möglichkeit Informationen über einen Parameter der Gesamtheit zu erlangen, besteht darin, Intervalle zu
finden, innerhalb derer der Parameter mit angebbarer Sicherheit liegt. Solche Intervalle heißen
Konfidenzintervalle; die verlangte Sicherheit (z.B.: 0.99 bzw. 0.95 usw.) heißt Konfidenzzahl: 1-.
Voraussetzung für die Konstruktion der Intervalle ist die Kenntnis der Verteilung des Schätzers.
Bei der Konstruktion eines Konfidenzintervalls für  ist zu beachten, ob die Standardabweichung der Population
() bekannt oder unbekannt ist. Während im ersten Fall die Standardnormalverteilung zur Konstruktion des
Konfidenzintervalls zugrunde gelegt werden kann, wird bei unbekannter Populationsstandardabweichung die
Stichprobenstandardabweichung verwendet. Diese zusätzliche eingeführte Ungenauigkeit führt zu breiteren
Intervallen.
3.1.1.1 Konfidenzintervall für  bei bekanntem 
Als Schätzer wird der Stichprobenmittelwert verwendet. Er ist schon bei kleinem n normalverteilt, falls die
Populationswerte normalverteilt sind. Bei großem n sind die Stichprobenmittelwerte wegen des zentralen
Grenzwertsatzes normalverteilt.
Für die Standardnormalverteilung gilt, dass 95% der 

X 
 1.96   0.95
z-Werte zwischen –1.96 und 1.96 liegen. Dies gilt P  1.96 
x


auch für den standardisierten Stichprobenmittelwert.
X 
 1.96
Die Aussage, dass die standardisierte Zufallsvariable  1.96 
x
in einem vorgegebenen Intervall liegt, kann
umformuliert werden in die Aussage, dass  von   1.96 x  X    1.96 x
einem Intervall überdeckt wird. Das Intervall ist der
zufallsbehaftete Teil,  ist weiterhin fest.

X  1.96  x    X  1.96  x


U 0.95
O 0.95
Auch für dieses Überdeckungsintervall gilt die
Wahrscheinlichkeitsaussage.
Das
Überdeckungsintervall variiert zufallsbedingt von
Stichprobe zu Stichprobe und ist daher ein
PU 0.95    O 0.95   0.95
Zufallsintervall.
Für eine konkrete Stichprobe wird die
Zufallsvariable X durch den konkreten Mittelwert
der Stichprobe x ersetzt. Dieses Intervall heißt u 0.95    o 0.95 mit
Konfidenzintervall zur Konfidenzzahl 0.95.
u 0.95  x  1.96 x und o 0.95  x  1.96 x
Für
das
Konfidenzintervall
gilt
die
Wahrscheinlichkeitsaussage nicht mehr. Das Intervall
für eine spezielle Stichprobe überdeckt den Parameter
Das Konfidenzintervall überdeckt  oder eben nicht.
 oder es überdeckt ihn nicht.
Skriptum Statistische Datenanalyse I WS 04/05
E( IQ ) = 100
0.06
2
 = 152
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
55
70
85
100
115 130
145
0
55
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
70
85
100
115 130
Zufallsauswahl
145
nicht drin
IQ
Vert. bilden
drin
Vert. bilden
Sp1
Sp2
Sp3
Sp4
.........usw.........
Beispiel: Stichprobe7 (Sp7) IQ-Werte: 98, 106, 120, 145. x
o 0.95  x  1.96 x
1.0
0.9
Var( IQ ) = 152/4
IQ
Die
Konfidenzintervalle Sp5
sind so konstruiert, dass Sp6
95%
aller
Konfidenz- Sp7
Sp8
intervalle µ enthalten.
Das ist die Wahrschein- Sp9
Sp5000
.........usw.........
lichkeitsaussage
des
Überdeckens.
Berechnung des
Konfidenzintervalls:
u 0.95  x  1.96 x
Wahrscheinlichkeitsverteilung:
Das Zufallsintervall überdeckt
den Pop.-Mittelwert
P(Intervall überdeckt µ) = 0.95
µ im Intervall?
Beispiel: Aus einer Verteilung von
IQ-Werten werden Stichproben
(n=4)
gezogen
und
Konfidenzintervalle berechnet. Für
jedes einzelne Intervall gilt nur,
dass es entweder µ enthält oder
nicht enthält.
0.06
WahrscheinlichkeitsVerteilung des arithm. Mittels
des IQ
Populationsverteilung
IQ
 =100
Konfidenzinterva
ll bilden
berechnen
Für die Konzeption der
Darstellung ist relevant:
Die AnwenderIn kennt
die Lage der Verteilung
nicht. Sie kennt nur die
Varianz. Nur wir kennen die
wahre Lage der Verteilung.
Sie konstruiert nur ihre
Konfidenzintervalle.
Seite 12
.........usw.........
= (98+106+120+ 145 )/4= 117.25
 x   x / 4  15 / 2  7.5 . u 0.95  x  1.96 x  117.25  1.96 * 7.5 = 117.25 14.7=102.55
o0.95  x  1.96x  117.25  1.96 * 7.5 =117.25+14.7= 131.95
Das Konfidenzintervall (102.55, 131.95) überdeckt µ nicht. Das wird in der rechten Spalte vermerkt.
Alle übrigen Konfidenzintervalle enthalten µ.
Abkürzungskonvention für Konfidenzzahlen:
Der Wert 1.96 stammt aus der Standardnormalverteilung und
bezeichnet den Wert, bis zu dem 97.5 % der Fläche liegt, bzw.
bezeichnet den Wert, ab dem 2.5 % der Fläche liegt, bzw.
Abkürzungskonvention:
= z 0.975
= z 0.025
bezeichnet den Wert, für den gilt, dass im Intervall 0 1.96 95% der Fläche liegt
= z 0.95
Die Konfidenzintervalle können auch auf andere Konfidenzzahlen ausgedehnt werden. Allgemein sei die
Konfidenzzahl: 1-. Dann ist bei der obigen Konvention folgendes z zu wählen: z 1 bzw. z  bzw. z

2

1 
.
2
3.1.1.2 Konfidenzintervall für  bei UNbekanntem 
Falls die Varianz der Gesamtheit nicht bekannt ist, muss sie auf Grund der Stichprobe erst geschätzt werden (
wird also durch sn-1 nach der üblichen Formel in der einzelnen Stichprobe ersetzt). Das ist bei kleinen
Stichproben ein gravierender Eingriff, der zusätzliche Unsicherheit schafft. Bei großen Stichproben wird das
konsequenzenlos akzeptiert. Falls die Population normalverteilt ist, ist die Verteilung der standardisierten
Mittelwerte bekannt: die Student-t-Verteilung. Für große Stichproben stimmt die Student-t-Verteilung mit der
Normalverteilung überein. Bei kleinem n ist die t-Verteilung breiter. Die den z-Werten (z.B.: z=1.96)
entsprechenden t-Werte sind daher etwas größer. Die t-Werte führen also zu breiteren, aber von Stichprobe zu
Stichprobe unterschiedlich breiten Konfidenzintervallen.
Die Student-t-Verteilung ist nicht nur hier anwendbar, sondern auch bei anderen Fragestellungen. Dabei werden
Stichprobengrößen über die ‚Freiheitsgrade‘ berücksichtigt. Bei der vorliegenden Anwendung ist die Anzahl der
Freiheitsgrade = n - 1. Die Anzahl der Freiheitsgrade wird meist mit df (degrees of freedom) abgekürzt (hier
also: df = n - 1).
Skriptum Statistische Datenanalyse I WS 04/05
Seite 13
3.1.2 Mittelwerttests
Formen der
Nullhypothese
a) H0:    0 bzw.
b) H0:    0 bzw.
Beispiele:
µ=100
µ=35
µ5.3
µ20
c) H0:    0
Im Schnitt haben Studenten einen IQ von 100.
Im Durchschnitt arbeiten Studenten 35 Stunden.
Der durchschnittliche Benzinverbrauch des Autotyps ZX ist (höchstens) 5.3 l .
Durchschnittlich stehen jedem Bundesbürger (mindestens) 20 qm Wohnfläche zur
Verfügung.
Alternativhypothese
µ=120
Im Schnitt haben Studenten einen IQ von 120 (hier ist 120  µa).
Ha:    a bzw.    0
µ35
Die durchschnittliche Arbeitszeit der Studenten ist nicht 35 Stunden.
bzw.    0 bzw.    0
µ>5.3
Der durchschnittliche Benzinverbrauch des Autotyps ZX ist höher als 5.3 l.
µ<20
Durchschnittlich hat jeder Bundesbürger weniger als 20 qm Wohnfläche.
usw.
Teststatistik: Als Teststatistik wird der Mittelwert der Stichprobe verwendet bzw. ein standardisierter
Mittelwert.
Je nachdem, ob die Standardabweichung der Population bekannt oder unbekannt ist, muss die Testverteilung auf
der Standardnormalverteilung oder der Student-t-Verteilung aufbauen.
Kritischer Bereich: Die beiden ersten Schritte des Festlegens des Kritischen Bereichs können für beide Fälle
gemeinsam erfolgen. Der Stichprobenmittelwert (Teststatistik) ist im Sinn eines Schätzers unmittelbar
vergleichbar mit dem Populationsmittelwert. Trotz der Vielfalt von H 0-Ha-Konstellationen genügen drei Fälle,
alle Konstellationen abzudecken: Linksseitige, rechtsseitige und beidseitige Lokalisierung der Extrempunkte
(EP).
kritischer Bereich
x
sehr klein
x
H0
rechtsseitig
EP
beidseitig (symmetrisch)
EP
(H0: µ=100, Ha: µ=120), (H0: µ5.3, Ha: µ>5.3),
EP
µ0
linksseitig
H0-Ha-Konstellationen-Beispiele:
sehr groß
(H0: µ=100, Ha: µ=90), (H0: µ20, Ha: µ<20),
µ0
(H0: µ=35, Ha: µ35)
Kr
EP
itis
Kr
ch
er
3.1.2.1 Mittelwerttest beiitis
bekanntem

x (Gauß-Test)
Kr
Kr
ch
Be
itis
itis
er
rei
werde gezogen, wobei H0: µ=100 untersucht werden
ch
BeBeispiel: Eine Stichprobe von 4 StudentInnen
ch
soll
mit
H
:
µ>100.
Implizit
in
H
sei die Annahme enthalten, dass auch die Varianz die gleiche wie
a
0 er
er
rei
Be
Be normal sei.
chbei Gleichaltrigen und die Verteilung
Die ‚AnwenderIn‘ behauptet rei
rei
Wahrscheinlichkeitsverteilung
ch Wahrscheinlichkeitsdie Lage (Nullhypothese) und ch
Verteilung des arithm. Mittels
Der Stichprobenmittelwert fällt
die Varianz der Verteilung
H0 Populationsverteilung
des IQ
nicht in den kritischen Bereich.
IQ
zu kennen. Wir helfen ihr
IQ ) = 100
P( IQ liegt in krit. Ber.) = 0.05
E(
 =100
dabei, die Verteilung der
0.06
0.06
1.0
2
2
Var( IQ ) = 15 /4
 = 152
Mittelwerte zu finden, indem
0.9
µ0
0.05
aus der Hypothesenpopulation
0.04
beliebig viele Stichproben
gezogen werden.
0.03
Dadurch erhalten wir die
0.02
Testverteilung (=
Stichprobenverteilung des 0.01
arithmetischen Mittels unter 0
55
Geltung der Nullhypothese
H0). Die Testverteilung liefert
auch den kritischen Bereich. Sp1
0.05
0.03
0.02

0.01
70
85
100 115 130 145
0
55
70
85
100 115 130 145
Zufallsauswahl
Vert. bilden
Sp7
Vert. bilden
Mw. in KB?
Sp6
arithm. Mw.
berechnen
Sp5
nicht ablehnen
Kritischer
Bereich
Sp3
Sp4
ablehnen
Krit. Bereich
IQ
Sp2
Unter dieser Voraussetzung
(Geltung von H0, d. h. dass
wirklich aus einer solchen
Nullhypothesenpopulation
gezogen wurde) wird in 5%
aller möglichen Stichproben
die H0 verworfen.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.04
Sp8
Sp9
Sp5000
.........usw.........
.........usw.........
.........usw.........
Skriptum Statistische Datenanalyse I WS 04/05
Seite 14
Als Testwert kann sowohl der Stichprobenmittelwert x n als auch der standardisierte Stichprobenmittelwert
(z 
x n  0
x
n ) verwendet werden.
Die Testverteilung des Stichprobenmittels X n unter Geltung der Nullhypothese    0 ist die
Normalverteilung: NV(  0 ,
X  0
 2x
), die standardisierte Größe Z= n
x
n
Beispiel (Fortsetzung): Sei der IQ-Mittelwert der 4 StudentInnen =120. Dann ist der z-Wert=
n ist standardnormalverteilt NV(0,1).
120100
15
4 =2.67. Bei den folgenden
Fallunterscheidungen werden aus Übungsgründen alle möglichen Entscheidungen vorgeführt, obwohl nur die rechtsseitige in diesem
Beispiel relevant wäre.  sei = 0.05.
IQ-Mittelwert der 4 StudentInnen =120.
Teststatistik
z = 2.67. z 0.95 =1.645. 0 =100
z-Wert
Mittelwert
Kritischer Bereich
linksseitig
z  - z1
x n   0  z 1
rechtsseitig
z1  z
 0  z 1
beidseitig
z  - z 1
oder z 1  z
x
z (= 2.67) ist nicht  –1.645. Daher: H0
akzeptieren. Bzw. 120 ist nicht  (1001.645*(15/2)= -87.6625) daher: akzeptieren.
x
n
z 0.95 (=1.645) z (=2.67); daher: H0
ablehnen; bzw. ebenfalls: 100+1.645*(15/2)=
112.34  120.
 xn
n
x n   0  z 1
oder  0  z 1
x
n
x
n
 xn
z 0.95 =1.96. z (=2.67) ist größer als 1.96,
fällt daher in den kritischen Bereich.
Ebenfalls direkt nach der
Mittelwertteststatistik: Die beiden Grenzen
sind 100 1.96*(15/2)= (85.3; 114.7). Der
Kritische Bereich liegt außerhalb des
Intervalls. 120 liegt im Kritischen Bereich.
Daher: H0 ablehnen.
Eine dritte Möglichkeit, eine Entscheidung über die Nullhypothese herbeizuführen, ist es den sogenannten PWert des Stichprobenmittelwerts auszurechnen. Der P-Wert ist die Wahrscheinlichkeit, dass der Stichproben
mittelwert diesen oder einen noch extremeren Wert annimmt unter Geltung der Nullhypothese. Bei
Mittelwerttest ermittelt man den P-Wert, indem man den Stichprobenmittelwert standardisiert . Allerdings
Achtung bei zweiseitigen Hypothesen! Hier muss zusätzlich noch die Wahrscheinlichkeit berücksichtigt werden,
dass der negative standardisierte Stichprobenmittelwert diesen oder einen noch extremeren Wert annimmt. Der
P-Wert stellt hier die Summe beider Wahrscheinlichkeiten dar.
Hypothese
linkseitig
rechtseitig
P(Z  -z>1-α<)
P(Z  z>1-α<)
beidseitig
P(Z  -z>1-α/2<)+
P(Z  z>1-α/2<)
Die Nullhypothese wird dann verworfen, wenn der P-Wert gleich oder kleiner als das Signifikanzniveau ist
P-Wert
3.1.2.2 Mittelwerttest bei UNbekanntem x (t-Test)
Wie schon bei den Konfidenzintervallen wird hier die unbekannte Standardabweichung durch den StichprobenX  0
X  0
n modifiziert zu T= n
n . Unter der
Standardabweichungswert und so die Teststatistik Z= n
x
S n 1
Voraussetzung, dass das Merkmal in der Population normalverteilt ist, kann als Testverteilung für die so
modifizierte Teststatistik T die Student-t-Verteilung verwendet werden. Da die Populationsstandardabweichung
unbekannt ist, nimmt man als Schätzwert dafür die Stichprobenstandardabweichung sn-1. Entsprechend werden
bei der Berechnung der kritischen Bereiche die z-Werte durch t-Werte ersetzt. Die Anzahl der Freiheitsgrade (df)
ist wiederum n - 1.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 15
3.2 Exkurs: Die Bayes`sche Statistik
Die Bayes`sche Statistik verfolgt einen anderen Ansatz als die Klassische Statistik. Sie geht im Vergleich zu
Klassischen Statistik nicht von festen Populationsparametern aus, sondern von Parameterverteilungen, die sich
durch Stichprobenziehungen immer exakter dem wirklichen Parametern annähern lassen. Dieser Unterschied hat
weitreichende Konsequenzen, so auch etwa in der Interpretation von Konfidenzintervallen.
Klassische Statistik
Bayes`sche Statistik
Die Parameter der Populationsvertei- Die Parameter haben eine Verteilung, sie variieren zufällig
lung sind fest
Bsp.: Populationsmittelwert μ
A priori Verteilung von μ
Stichproben
A posteriori Verteilung μ
μ
μ
μ
Der Parameter μ hat keine Verteilung Anfangs wird eine hypothetische a priori Verteilung des Parameters
angenommen. Stichprobenziehungen führen dazu, dass diese korrigiert
wird: Die a posteriori Verteilung entsteht. Diese wird wiederum als a
priori Verteilung behandelt. Danach werden wiederum Stichproben
gezogen usw. Durch diesen Lernprozesses wird die Kenntnis vom
wahren Parameter immer exakter.
Konstruktion von Konfidenzintervallen
In der Bayes´schen Statistik ist
μ verteilt mit yn als Mittelwert
μ
yn
μ
yn
und

Standardabweichung.
n als
sei normalverteilt mit Mittelwert μ Es ist auch hier möglich, Konfidenzintervalle um yn zu konstruieren,
und Standardabweichung  n . z.B.
Yn
Zieht man nun einen konkreten
Stichprobenmittelwert, kann man um 95% K.I.: yn  1,96 
diesen
ein
Konfidenzintervall
konstruieren, z. B.
95% K.I.:
n
yn  1,96  n
Interpretation des Konfidenzintervalls
Es ist keine Angabe darüber möglich,
mit welcher Wahrscheinlichkeit ein
K. I. μ überdeckt. Man kann darüber
nur sagen: Es überdeckt μ, oder es
überdeckt μ nicht.
Dieses Konfidenzinterval ist tatsächlich so konstruiert, dass es μ mit
bestimmter angebbarer Wahrscheinlichkeit (hier 95%) überdeckt. Dies
ist eine Definition von Konfidenzintervall, die intuitiv oft in der
Klassischen Statistik angewendet wird, aber nur in der Bayes`schen
Statistik korrekt ist.
Allerdings bringt die Bayes´sche Statistik auch einige Probleme mit sich. Die Form der a
priori Verteilung beruht auf der subjektiven Überzeugung dessen, der sie konstruiert hat.
Die a priori Verteilungen verschiedener Leute werden sich deshalb mit ziemlicher
Sicherheit unterscheiden. Außerdem stellt sich bei der Konstruktion einer a priori
Verteilung immer die Frage, wie diese eigentlich genau aussehen soll. Ausweg bietet die
Skriptum Statistische Datenanalyse I WS 04/05
Seite 16
Annahme einer annähernden Gleichverteilung (Annäherung deshalb, weil die Verteilung
sonst von die Höhe Null hätte. Die Verteilung reicht ja von minus unendlich bis plus
unendlich) als a priori Verteilung. Diese Art der Verteilung wird auch nicht-informative
Verteilung genannt. Bei genügend großer Stichprobe erreicht man dann annähernd
dieselbe a posteriori Verteilung wie jemand, der schon a priori Annahmen hatte.
3.3 Fehler 1. Art, Fehler 2. Art und Macht des Tests
Der Hypothesentest entspricht einem Entscheidungsverfahren, bei dem auf Grund des Stichprobenergebnisses
die H0 akzeptiert oder abgelehnt (und damit die Ha akzeptiert) wird. Die Situation lässt sich gut durch eine
Kreuztabelle charakterisieren:
Entscheidung auf Grund der Stichprobe
H0 akzeptieren
H0 ablehnen
Zustand in
H0 ist richtig
P(H0|H0)
P(Ha|H0)
Gesamtheit
richtige Entscheidung
Fehler 1. Art
Ha ist richtig
P(H0|Ha)
P(Ha|Ha)
Fehler 2. Art
richtige Entscheidung
Die beiden Fehler-Wahrscheinlichkeiten und ihre Bedeutung:


Die Wahrscheinlichkeit eines Fehlers 1. Art sollte klein sein, sie wird mit  abgekürzt.  wird vor der
Durchführung des Tests fest vorgegeben; sie ist die Wahrscheinlichkeit, dass bei der Entscheidung der
Fehler erster Art ‚passiert‘; d. h. die Wahrscheinlichkeit, dass H0 abgelehnt wird, obwohl sie richtig ist. 
wird auch Signifikanzniveau genannt und meistens auf 0.05 oder 0.01 festgelegt. Die Wahrscheinlichkeit,
dass H0 akzeptiert wird, wenn H0 richtig ist, ist 1-.
Die Wahrscheinlichkeit eines Fehlers 2. Art sollte auch klein sein; es ist die Wahrscheinlichkeit, dass H0
akzeptiert wird, obwohl die Alternativhypothese richtig ist. Sie wird mit  abgekürzt, wird aber nicht
festgelegt.  kann berechnet werden; es hängt wesentlich von der Distanz zwischen H0 und Ha, der Größe
der Stichprobe und von  ab. 1- wird auch als Macht des Tests (oder Teststärke oder auch Testgüte)
genannt: Sie ist die Wahrscheinlichkeit, dass die Alternative akzeptiert wird unter der Voraussetzung, dass
die Alternative richtig ist.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 17
4. Bivariate Statistik
4.1 Zusammenfassung
Je nach dem Skalenniveau zweier Merkmale X und Y lassen sich verschiedene Nullhypothesen (und damit
verschiedene Tests), Prädiktionsregeln, Fehlermaße und graphische Darstellungsformen finden:
Y
nominal
nominal
Kontingenztabelle
ordinal intervall (continous)
ANOVA:
H0: μ1 = μ2 = ..... =μG-1 = μG
H0: X und Y unabhängig
bzw.
H0: πij = πi· πj
Mittelwertregeln
Diamant-Plot
Mosaic-Plot (Strukturiertes
Staffeldiagramm)
Gleichheit der Varianzen
(Levene-Test):
H0:  12 =  22 = ..... =  G2 1 =  G2
Modalregeln und λ (PRE-Maß)
Kruskal-Wallis-Test:
H0: Lage der Verteilungen von
X und Y sind gleich bzw. X
und Y kommen aus derselben
Verteilung
X
ordinal
intervall
(continous)
Logistische Regression
P(Y=yg) = logistische Funktion
Lineare Regression (y = a + bx)
H 0: β = 0
R2 (U): Pseudo R2 =
Entropiereduktionsanteil PRU
(proportional reduction of
uncertainty)
R2 (PRE-Maß)
Quadratische Reression
(y = a + bx + cx2)
H0:  = 0 ( ˆ = c)
H0: β = 0
R2
Splinefunktionen
Konturplots (zur Überprüfung der
Normalverteilungsannahme)
Diamant-Plots:
Statt in einem Streudiagramm sämtliche Ausprägungen des
Merkmals Y in Abhängigkeit einer bestimmten Ausprägung
von X darzustellen, kann man die Darstellung mit Hilfe von
Diamant-Plots vereinfachen.
y
95% K.I.
y
Die Breite gibt proportional zu den anderen Gruppen die
Größe der Gruppe wieder, die horizontalen Linien entsprechen
dem 95% - Konfidenzintervall bzw. den Grenzen, wo bei
gleicher Gruppengröße zwei Gruppenmittelwerte gerade noch
als signifikant unterschiedlich interpretiert werden können.
Die mittlere Linie steht für den Gruppenmittelwert..
Bei gleicher
Gruppengröße
Grenzen, bei
denen zwei
Gruppenmittelwerte gerade
noch signifikant
unterschiedlich
sind
x
Breite = Größe der Stichprobe
Skriptum Statistische Datenanalyse I WS 04/05
Seite 18
4.2 Test auf Unabhängigkeit zweier Merkmale (2-Test)
Die Hypothese der Unabhängigkeit zweier Merkmale (beide mit nominalem Mindestskalenniveau) kann mit
Hilfe des 2-Test (von PEARSON entwickelt) durchgeführt werden.
4.2.1 Die Teststatistik
Nullhypothese: Die beiden Merkmale
sind unabhängig (Die gemeinsamen
Populationsanteile sind als Produkt der
Populationsrandanteile darstellbar,
oder andere Formulierung).
In einer Stichprobe werden nur die
Häufigkeiten des gemeinsamen
Auftretens beobachtet, auf Grund derer
die gemeinsamen Anteile und
Randanteile berechnet werden
können.
Auf Grund der beobachteten
Randanteile können die unter
Unabhängigkeit erwarteten
gemeinsamen Anteile berechnet
werden (=hypothetische Anteile).
Konstruktion der Teststatistik: Eine
Maßzahl, die den Unterschied
zwischen realen und hypothetischen
gemeinsamen Anteilen in einer Zahl
zusammenfasst, ist gesucht.
Ein Maß für den Unterschied hat K.
Pearson entwickelt. Es ist die Summe
quadrierter, standardisierter
Abweichungen der realen und
hypothetischen gemeinsamen Anteile.
Alternativ kann das Likelihood-RatioChi² (LR2) verwendet werden.
Für die Population gilt:
 ij   i   j (bzw. irgendeine andere Art der Unabhängigkeitsformulierung).
Beobachtete Häufigkeiten
nij und Randanzahl bzw.
gemeinsame Anteile p ij
und Randanteile pi und pj.
Die unter Unabhängigkeit
erwarteten Anteile sind:
p i p  j
(hypothetisch erwartete
Anteile).
Zwei Maße können
verwendet werden, von
denen aber nur eines
vorgestellt wird.
PEARSON-Chi²=
P2 =
I
J
n 
i 1 j1
(p ij  p i p  j ) 2
Beispiel (Angst vor Prüfungen und Ausbildung
des Vaters): Die beiden Merkmale sind
unabhängig. Es besteht kein Zusammenhang.
Der Anteil derer, die Angst vor Prüfungen haben,
ist für alle Arten von Väterausbildung gleich groß.
n=10.
Tabelle mit den
beobachteten
gemeinsamen und
Randanteilen
Nur die Randanteile
werden für die Bilddung des Produkts
verwendet z.B.
0.70*0.40.
gemeinsame und Randanteile
ja
nein
VS.
0.40
0
0.40
hS.
0.20 0.10 0.30
Abi+
0.10 0.20 0.30
0.70 0.30
erwartete gemeinsame Anteile
unter Unabhängigkeit
ja
nein
VS.
0.28 0.12 0.40
hS.
0.21 0.09 0.30
Abi+
0.21 0.09 0.30
0.70 0.30
*
Ist der Unterschied zwischen den hypothetisch
geforderten Anteilen und den empirisch gefunden
‚zu groß‘? ‚Zu groß‘ würde bedeuten, dass die
Hypothese der Unabhängigkeit nicht passt.
P2 = 10*((0.4-0.28) 2/0.28+ (0.0-0.12) 2/0.12+
(0.2-0.21) 2/0.21+ (0.1-0.09) 2/0.09+
(0.1-0.21) 2/0.21+ (0.2-0.09) 2/0.09)
= 10*0.36507=3.6507
p i p  j
4.2.2 Beschränkung
Die Testverteilung für die Stichprobenmaßzahl P2 ist approximativ (n groß = n >20) Chi²-verteilt mit df=(I1)(J-1) Freiheitsgraden. Für kleines n können exakte Verteilungen konstruiert werden (FISHERs Exakt Test wurde
für je zwei dichotome Merkmale entwickelt; inzwischen wurde er erweitert auf größere Tabellen). Die bei
gegebenen Randhäufigkeiten zu erwartende Häufigkeit eij pro Zelle sollte mindestens 5 sein (d.h. nicht zu viele
Zellen bei einem gegebenen n): eij = (ni nj)n = n p i p  j 5. Dieses Kriterium ist sehr konservativ und gilt für
P2 , weniger für LR2. Es sollten aber insgesamt weniger als 20% solcher Zellen vorhanden sein, für die
n p i p  j <5.
Beim Angstbeispiel sind die Voraussetzungen für die Anwendung der Verteilungsapproximation durch die 2-Verteilung nicht erfüllt (n zu
klein). Auch die durchschnittliche Häufigkeit pro Zelle (10/6=1.667) ist zu klein.
4.2.3 Prädiktion mit Hilfe der Anteile
Auf Basis der Anteile in einer Kontingenztabelle lassen sich Prädiktionsregeln entwerfen, anhand deren man
über die Anteile auf die Y-Ausprägung schließen kann. Bei Abhängigkeit zweier Merkmale lässt sich dabei eine
Skriptum Statistische Datenanalyse I WS 04/05
Seite 19
Fehlerreduktion erreichen, wenn man bei der Prädiktion der Y-Ausprägung die X-Ausprägung berücksichtigt,
bei Unabhängigkeit dagegen nicht.
Bsp: Hypothetische Populationsverteilung zweier dichotomer Merkmale X und Y
Populationsverteilung
Tatsächlich
Unter Erwartung von Unabhängigkeit (  ij   i   j )
Y
X
0.5
0.1
0.6
Y
0.1
0.3
0.4
X-bedingte Anteile von Y
Y
0.83
0.167
X
0.25
0.75
0.6
0.4
X
0.36
0.24
0.6
0.24
0.16
0.4
0.6
0.4
0.4
0.4
0.6
0.4
Y
0.6
0.4
Hier gibt es einen Zusammenhang zwischen X und Y,
deshalb macht es Sinn, für verschiedene Ausprägungen
von X u. U. verschieden Y- Ausprägungen zu
prädizieren, und damit den Prädiktionsfehler zu
verringern.
Umgekehrt lässt sich sagen: Führt die Kenntnis von X
bei der Vorhersagen von Y zu einer signifikanten
Fehlerreduktion, sind X und Y abhängig.
X
0.6
0.6
Dagegen bringt eine Berücksichtigung der XAusprägung bei der Prädiktion der Y-Ausprägung
keinen zusätzlichen Informationsgewinn. Die Kenntnis
von X führt zu keiner Fehlerreduktion
Entsprechend kann man bei nicht-signifikanter
Fehlerreduktion nicht von einer Abhängigkeit beider
Merkmale ausgehen.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 20
4.3 Logistische Modelle
Für qualitative oder auch ordinale Prädikanden (y) wurden logistische Modelle konzipiert. Wenn die Prädiktoren
(x-Merkmale) quantitativ sind, werden die Modelle auch logistische Regressionsmodelle genannt. Falls die
Prädiktoren qualitativ sind, stellen die logistischen Modelle die Alternative zur Varianzanalyse dar.
Das Konzept soll für dichotome Prädikanden dargestellt werden, kann aber auf qualitative Merkmale mit
mehreren Ausprägungen erweitert werden.
4.3.1 Einführungsbeispiel
Anhand eines Beispiel soll in das Thema Beispiel: Behandlungserfolg als Prädikand (1. Ausprägung
eingeführt werden. Diese Daten wurden mit bedeutet Erfolg)
Hilfe des JMP bearbeitet, wobei das XAntei
Anza
Merkmal einmal als stetig, einmal als nominal
i.
l
Behandlungsgruppen
Gruppe hl n i
betrachtet wurde. Außerdem wurden zwei
p i1
verschiedene Einstellung zur Modellanpassung
Kontrollgruppe
1
40
0.10
verwendet: Fit X by Y und Fit Model. Die
Exp.-Gruppe 1
2
20
0.30
Ergebnisse sind unten dargestellt.
Exp.-Gruppe 2
3
20
0.60
Exp.-Gruppe 3
4
Gesamt
20
100
X stetig
s. unten
X nominal: Bei der Anwendung des Fit X by Y
nominal logistischen Modells ist zu
bemerken:
Das
Full-Model
berücksichtigt X als
qualitative
Variable, hat also hier vier Parameter
(π1, π2, π3, π4), das Reduced-Model baut
nur auf einem Parameter (Gesamt π)
auf, weil es X nicht berücksichtigt. Die
-Loglik sagt, wie gut das Modell jeweils Fit Model
passt. Ist deren Differenz signifikant (χ2
= 2 x Diff. = 2 x 22.12) kann man
sagen, dass X und Y abhängig sind: die
Berücksichtigung von X führt zu einer
signifikanten Fehlerreduktion.
Logistisches Modell
Model
Df
Diff
1
Full
Reduced
Lack of fit (2)
-Loglik
22.01
45.30
67.30
-Loglik
O.113
Logistisches Modell
0.90
0.40
X nominal
Df
-Loglik
Model
3
22.12
Error
45.18
Total
67.30
LR2 = 44.24
χ2-Analyse (log. Modell
für nominale Daten)
Model
Df -Loglik
Diff
3
22.12
Full
45.18
Reduced
67.30
Nominal logistische
Funktion
X stetig: Die Entscheidung, welches Modell mit wie viel Parameter man anwenden soll, hängt von der
Signifikanz der Differenzen zwischen den einzelnen Modellen ab. Auch hier kann eine Entscheidung mit Hilfe
von χ2-Tests herbeigeführt werden: Man testet, ob der Unterschied zwischen dem reduzierten Model und dem
Full Model bzw. einer logistischen Regression signifikant ist. Ist die Fehlerreduktion durch das Full-Modell und
das logistischen Modells signifikant, testet man, ob die Differenz zum logistischen Regressionsmodel signifikant
ist. Wenn nicht, entscheidet man sich für das Logistische Modell im Sinne der einfacheren Möglichkeit.
Beispiel: s. o.
Modell
Reduziert
Parameter
π,
Anz. Par.
1
-Loglik
67,30
Log. Regression
α, β
2
45,30
Full (nominal)
π1, π2, π3, π4 4
45,18
Die Differenz zwischen dem reduzierten Modell
und dem Regressionsmodell (χ2 = 2 x Diff.. =
44.00) bzw. dem Full-Model (χ2 = 2 x Diff. = 2 x
Diff = 44.24) ist signifikant, die Differenz
zwischen dem Regressionsmodell und dem FullModel nicht (χ2 = 2 x lack of fit (!) = 0.226)
Skriptum Statistische Datenanalyse I WS 04/05
Seite 21
4.3.2 Logistische Regression
Falls der Prädiktor quantitativ (mindestens intervallskaliert) ist, ist die Frage nahe liegend, ob die Anteile bzw.
Logits als lineare Funktion des Prädiktors darstellbar sind.
Da aber Anteile nur zwischen 0 und 1 liegen können, ist diese Fragestellung für die Anteile problematisch. Denn
bei hinreichend großem x (oder sehr kleinem x) würde eventuell ein Wert prädiziert werden, der größer als 1
(kleiner als 0) wäre und daher von vornherein nicht zugelassen werden könnte.
Dieses Problem existiert bei den Logits der Anteile nicht (die Logits variieren prinzipiell zwischen - und +).
Daher wird die charakterisierte Fragestellung (‚Erklärung der abhängigen Variablen’ durch eine Gerade) nicht
für die Anteile, sondern auf die Logits der Anteile (oder ähnliche Transformationen der Anteile) angewandt.
Werden die Logits durch eine lineare Funktion (Gerade) dargestellt, spricht man von logistischer Regression.
Beispiel (s. oben):
Behandlungserfolg
in Abhängigkeit
von der
Gruppenzugehörigkeit. Der
Zusammenhang
wurde mit Hilfe
eine logistischen
Regression
geschätzt.
1
1.0
0.8
0.6
0.4
0.2
0
-10
0
10
20
30
x
40
Zusätzlich zu den Gruppenanteilen lassen
sich auch die einzelnen Wertepaare in das
Diagramm eintragen. Der X-Wert wird
dabei beibehalten, als Y-Wert wird eine
Zufallszahl zwischen 0 und 1 gewählt. Dabei
sind Wertepaare, die im Erfolgsanteil
enthalten sind in zufälliger Y-Position
unterhalb der Funktion, Wertepaare, die
nicht im Erfolgsanteil enthalten sind,
oberhalb der Funktion aufgetragen.
Die Funktion steht für die Wahrscheinlichkeit der Gruppenzugehörigkeit (Prädikant) in Abhängigkeit von der
Merkmalsausprägung (Prädiktor). Sie hat die Form π (x) =
eα βx
1  eα βx
. Bei der Herleitung der Formel spielen
Verhältnisangaben und Logits eine Rolle.
Verhältnisangaben (engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen
Beispiel: Bei Sex unter den ersten 16 ist der männlich-Anteil =14/16, der
Als Darstellung interessiert
das Verhältnis der Anteile oddsj(pi ) := pi : pj = weiblich-Anteil=2/16. Als Verhältnis 14:2 bzw. 7:1 mit weiblich als
Referenzkategorie. Bzw. (1/7):1 mit männlich als Referenzkategorie.
(Häufigkeiten) zueinander pi/pj,
bzw. zu einer ‚Referenz‘Beispiel: Nach MENDEL sollten 4 Erbsensorten bei einem
Ausprägung.
mit j als ‚Referenz‘- Kreuzungsexperiment im Verhältnis 9:3:3:1 stehen. Die Häufigkeiten
beim MENDEL’schen Versuch waren: 315, 108, 101, 32. Mit der 4.
Index
Ausprägung als Referenzkategorie als Odds dargestellt: 9.8 : 3.375 :
3.156 : 1
Als Logit wird der natürliche Logarithmus der Odds bezeichnet
Beispiel: logit für den männlichen Anteil logit (14/16)= ln(7)= 1.96.
Die Verhältnisse
logit für den weiblichen Anteil logit (14/16)= ln(1/7)= -1.96.
werden logarithmiert, logitj (pi) := ln(pi/pj) =
damit die
ln(oddsj(pi ))
Dadurch erhält man bei zwei Ausprägungen den gleichen Wert (einmal
‚multiplikativen‘
positiv, einmal negativ). Die Wahl der Referenzausprägung ist folglich
Verhältnisangaben
mit j als ‚Referenz‘nicht mehr so wichtig. Bei den Odds versucht man oft die
‚additiv‘ werden.
Index
Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte
größer als 1 resultieren (Bei Odds für Teilgruppen schwer realisierbar).
Herleitung: Bei der logarithmischen Regression wird der Zusammenhang zwischen den Logits der Anteile und
dem X-Merkmal durch eine Gerade beschrieben. Dies führt zur Formel der Funktion:
log (π(x)) = α + βx  ln (odds(π(x)) = α + βx  ln (π(x)/ (1- π(x))) = α + βx  π(x)/ (1- π(x)) = e α + βx 
 π(x) = e α + βx - π(x) e α + βx  π(x) + π(x) e α + βx = e α + βx  π(x) (1+ e α + βx ) = e α + βx 
eα βx
 π (x) =
.
1  eα βx
Natürlich muss der Zusammenhang zwischen X und dem Logit des Anteils nicht unbedingt linear beschrieben
werden. Er kann auch in Form eines Polynoms höherer Ordnung ausgedrückt werden. Dabei bestimmt die
Skriptum Statistische Datenanalyse I WS 04/05
Seite 22
Anzahl an Parametern (π1, π2, π3, ...) die Ordnung des Polynoms, dass maximal herangezogen werden kann: Bei
n Parametern kann der Zusammenhang maximal durch ein Polynom (n-1)ten Grades beschrieben werden. Die
daraus sich ergebende logistische Funktion geht durch alle πs. Die Anwendung dieser Funktion auf die Daten
entspricht dem Full-Model.
Außerdem lässt sich ein direkter Zusammenhang zwischen der Steigung der Geraden α + βx und dem Verlauf
von π (x) herstellen. Da sowohl Logit als auch Odds Ordnung erhaltende Transformationen darstellen (d. h. eine
Transformation einer fallenden bzw. steigenden Funktion durch sie nicht dazu führt, dass die daraus
entstehenden Funktion nun fällt statt steigt oder umgekehrt) kann man sagen, dass bei fallendem β auch π (x)
fällt (analog bei positiver Steigung).
4.3.3 Das PRU-Maß und die Entropie
Bei der Beschreibung von Zusammenhängen zwischen den Logits von Anteilen und der dazugehörigen XMerkmalsausprägung können Polynome verschiedenen Grades herangezogen werden. Desto höher das Polynom,
desto genauer ist die Passung der Funktion auf die Anteilswerte. Daraus lässt sich ein PRU-Maß konstruieren.
Dieses kann als PRE-Index konzipiert werden. Das U steht für Unsicherheit (engl. uncertainty). Die Unsicherheit
wird durch die mittlere Entropie gemessen.
PRE =
F(ohne)  F(mit) Loglik (Reduced) - -Loglik (Full) 

= R2 (U)
F(ohne)
- Loglik (Reduced)
67,3  45,3
 0,3270
67,3
R2 (U) ist eine andere Schreibweise für PRU und ist nicht zu verwechseln mit dem Determinationskoeffizienten
2. Art R2. Andere Bezeichnungen sind Unsicherheitskoeffizient oder Pseudo-R2. Die mittlere Entropie berechnet
Angewendet auf obiges Beispiel (s. 4.3.1): R2 (U) 
I
sich: h(x) =

-pi ln (pi). Die -Loglik (Reduced) kann durch die mittlere Entropie interpretiert werden: -Loglik
i 1
(Reduced) = n  Entropie in nits (n ist die Stichprobengröße). Das PRU-Maß ist deshalb interpretierbar als
Reduktion der mittleren Entropie.
Angewendet in obigem Beispiel:
h (x) = 0,67301167 = 1/100  (-Loglik (Reduced))
Einschub: Entropie h(X), wird auch als mittlere Entropie bezeichnet
Zur Entwicklung optimaler Codes im Sinne der
(Potentiell minimale)
Entropie (in bits):=
Informationstheorie siehe unten.
I
durchschnittliche
h
(
X
)


p
ld
(
p
)
=
 i i
b
Länge einer
Für Familienstand:
i 1
Information in Bits,
1
h (X) b 
(p ln(p 1 )  p 2 ln(p 2 )  p 3 ln(p 3 )) 
{ld ist der Logarithmus dualis (Log. zur
ln(2) 1
wobei jede Information Basis 2). Es gilt: ld(x)=log(x)/log(2)}
11 11
4
4
1
1
(eine der möglichen
 1.44( ln( ) 
ln( ) 
ln( ))  1.1216 .
1 I
16
16
16
16
16
16
Ausprägungen des

 p i log(p i )
log(2) i 1
Hier wurde als Logarithmus der natürliche Logarithmus ln
Merkmals) jeweils
log sei Logarithmus mit beliebiger Basis (log. naturalis; das ist der Logarithmus zur Basis der
optimal codiert ist.
natürlichen Zahl e=2.718281828...) verwendet.
Der natürliche Logarithmus wird anstelle des dualen Log.
I
Entropie kann auch in
verwendet. Die Entropie in nits unterscheidet sich von jener
h
(
X
)


p
ln(
p
)
 i i
nits berechnet werden
i 1

h (X) b liegt zwischen 0 und ld(I).
h (X) b wird maximal bei Gleichverteilung der Werte
in bits nur um den konstanten Faktor 1/ln(2).
Beispiel: Seien 3 Ausprägungen gegeben. Alle pi sind bei
Gleichverteilung 1/3. Daher h ( X ) b = -(3*(1/3)*ld(1/3)) =
- ld(1/3) = ld(3) ., aufgrund der Regel: log(a)= -log(1/a).
Skriptum Statistische Datenanalyse I WS 04/05
Seite 23
Überlegungen zur Entwicklung optimaler Codes mit binären Zeichen

Die Entwicklung optimaler
Binärcodes entspricht dem
Finden einer optimalen
Fragestrategie bei
Unsicherheit, wobei jede
Antwort nur binär (etwa:
nein/ja; bzw. 0/1) sein darf.
Beispiel: Anne und Bert spielen folgendes Ratespiel. Bert denkt sich ein
bestimmtes Feld auf einem Schachbrett. Anne soll erraten, welches Bert
sich gedacht hat. Bert antwortet auf Annes Fragen jeweils mit nein bzw.
ja oder 0 bzw. 1. Bei der nächsten Runde muss Bert raten usw. (Gewinner ist, wer am wenigsten Fragen benötigt).
Bei m Ausprägungen sind
bei Gleichverteilung ld(m)
Fragen erforderlich.
Es gilt: ld(m)= -ld(1/m)
Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig
identifiziert werden. Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche
Antworten haben. Daher gibt es insgesamt 26=64 mögliche Antwortsequenzen. Der Logarithmus
von 64 zur Basis 2 löst die Aufgabe: 2 hoch x =64. D.h. 6=ld(64). Umgeformt: 6= - ld(1/64).
Würde ein Spieler eine Tendenz zur Bevorzugung bestimmter Felder ausmachen können, wäre eine
andere Strategie angebracht, z. B. wenn der andere Spieler etwa die Tendenz für A1 hat.
Bei ungleichen Anteilen
wird die Strategie auf Grund
der Anteile entwickelt. Nach
Ausprägungen mit großem
Anteil wird zuerst gefragt.
Bei passenden Anteilen gilt:
Fragenanzahl = -ld(1/pi).
Durchschnittlich benötigte
Anzahl ‚optimaler‘ Fragen:
I

4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass Bert A in
½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie
wählen?
Vorschlag: Zuerst nach A fragen, weil der Anteil mit ½ am größten ist. (Die Chance, nach der
ersten Frage fertig zu sein ist groß.) Falls nein, nach B fragen (wegen ¼ Chance). Falls nein, nach
C fragen. Auf Grund der Anteile wurde die Strategie entwickelt.
Strategie in der Form eines Flussdiagramms:
Für das Erraten von A B C D
0
C? 0 D
A?
B? 0
Anzahl benötigter Fragen 1 2 3 3
Anteil ½ ¼ 1/8 1/8
1
1
1
-ld(1/Anteil) 1 2 3 3
A
B
C
h (X) b   p i ld (p i )
Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die
durchschnittlich benötigte Fragenanzahl berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3.
Als gewichtetes arithmetische Mittel: ½ * 1 + ¼ *2 + 1/8 *3 + 1/8 *3
bzw. anders ausgedrückt: - (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8)).
Übersetzen des Fragens in
die Übermittlung von
Mitteilungen.
Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives ‚Spiel‘. Dabei soll
der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64
Schachfelder, die 4 Ausprägungen A B C D) optimal aufgebaut werden, damit zu einer
Übertragung einer Nachricht (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen
notwendig sind.
i 1

Welches ist die optimale Fragestrategie?
Z.B. Feld oberhalb der Mitte? 1. Feld links der Mitte? 0. Liegt es in Zeile A oder B? 0. Liegt es in Spalte 5 oder 6? 0. Liegt es in der Zeile C? 1.
Ist es in Spalte 7? 0. Antwortfolge: 100010. Daher muss es Feld C8 sein.
1 2 3 4 5 6 7 8
A
B
C
D
E
D
F
G
H
Länge des Binärcodes für
eine Ausprägung entspricht
der Fragenanzahl.
Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B.
100010 für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A, 01 für B, 001 für
C und 000 für D).
Längenmaßeinheit in bits.
1 Bit: Maßeinheit für den Informationsgehalts eines binären Zeichens.
Wenn auf Grund der Anteile der Ausprägungen absehbar ist, dass in einer Nachricht oft mehrere
Übertragen mehrerer
gleiche Ausprägungen nacheinander übertragen werden müssen, kann in die Konstruktion des
Ausprägungen zusammen in Binärcodes des Alphabets ein Wiederholungsmodus (eine zahlenmäßige Information etwa derart,
dass z.B. hundert gleiche Zeichen einer bestimmten Art folgen usw.) eingebaut werden. So kann
einer Nachricht.
die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 24
4.3.4 Maximum-Likelihood und Entropie
Im Folgenden soll die Maximum-Likelihood Schätzmethode vorgestellt werden und ihr Zusammenhang zur
Entropie erläutert werden.
4.3.4.1 Maximum-Likelihood-Schätzmethode
Die Maximum-Likelihood-Schätzmethode ist eine Vorgehensweise um Schätzer für Parameter zu konstruieren,
die der Forderung entsprechen: Wähle den Schätzwert so, dass ein vorliegendes Ergebnis möglichst plausibel
erscheint.
Das Ergebnis sei
Die Stichprobe x1, x2, Beispiel: Peter Schummel hat zwei Würfel für seine Würfelspiele
präpariert und zwar so, dass der eine Würfel die ‚6’ mit der
realisiert. Für die
..., xn sei realisiert.
Wahrscheinlichkeit 0.50 bringt und der andere mit der Wahrscheinlichkeit
möglichen
Der Parameter  habe 0.75. Der Populationsanteil der ‚6’ für den einen Würfels ist daher 0.50,
Parameterwerte können
für den anderen 0.75. Zudem hat er einen dritten regulären Würfel. An
einen bestimmten,
einem Spielabend nimmt er einen der Würfel mit. Problem: Leider hat er
im nachhinein die
aber noch
aber vergessen, welcher von den drei Würfel derjenige ist, den er
Wahrscheinlichkeiten
unbekannten Wert
mitgenommen hat.
dieser Realisation
(einen von mehreren
berechnet werden.
Alternativen bzw. aus Um das Problem zu lösen, verfährt er folgendermaßen. Er wirft zweimal
den Würfel; zweimal kommt die 6. n=2. Das Ergebnis x1 und x2 ist daher
einem Bereich). Die
bekannt. Der Parameter  sei
Der Parameterwert, der
Wahrscheinlichkeit
Parameter 
hier der Populationsanteil, der
die größte
P (X1=x1, ..., Xn=xn) einen von drei Werten
1/6
0.5
0.75
Wahrscheinlichkeit der
ist aber eine Funktion annehmen kann. Er berechnet P(X1=6, X2=6) 1/36 0.25 0.5625
Realisation liefert, kann des Parameters .
die Wahrscheinlichkeit P(X1=6, X2=6) für die drei Parameter.
als der plausibelste
Das Ergebnis (6, 6) ist am plausibelsten (max. Wahrscheinlichkeit), wenn
gelten.
der Würfel der 0.75-Würfel ist. Daher entscheidet er sich: Der
Parameterwert des Würfels ist 0.75.
4.3.4.2 Die Likelihoodfunktion
Die Berechnung der Plausibilität kann (besonders bei stetigen Verteilungen) durch Einführung des LikelihoodKonzepts vereinfacht werden, das auf der Dichtefunktion der Verteilung der Stichprobenvariablen aufbaut.
Die Likelihoodfunktion
von n Zufallsvariablen
stellt die Dichte für die
Realisation der
Zufallsvariablen als
Funktion des Parameters
 dar.
Weil bei diskreten
Variablen die Dichte
gleich dem Anteil bzw.
der Wahrscheinlichkeit
ist, kann auch der
Likelihoodfunktionswert
als Wahrscheinlichkeit
interpretiert werden.
Die
Likelihoodfunktion
der Zufallsvariablen
X1, X2,..., Xn zur
Realisation x1,x2,..., xn
stellt die gemeinsame
Dichte f(x1,x2,..., xn;
)
als Funktion der Werte dar. Sie wird
mit L(;x1, x2, ..., xn)
bezeichnet.
Da die
Stichprobenvariablen
bei Zufallsstichproben
unabhängig sind, kann
Die gemeinsame Dichte die gemeinsame
der Stichprobenvariablen Dichte als Produkt der
bei einfachen
Dichten aller
Zufallsstichproben ist
einzelnen
immer als Produkt der
Stichprobenvariablen
Einzeldichten darstellbar. dargestellt werden:
L(;x1, x2, ..., xn) =
f(x1;) f(x2;)...f(xn;)
Beispiel: In der Population wird ein dichotomes Merkmal (z. B. Erfolgreiche (mit
Code=1) bzw. nicht erfolgreiche Absolventen, (mit Code=0)) erhoben. Der
Anteil der Erfolgreichen (=) ist der
Parameter , der die Populationsverteilung beschreibt. Die Dichten der xVerteilung sind:
f(0; )=(1-) und f(1; )=.
Population,
Dichtefunktion f(x, )
0.6
0.4
0.2
1-
0

1
x
In einer Stichprobe der Größe n=5 seien die Realisationen der 5
Stichprobenvariablen (X1, X2, X3, X4, X5) gleich (0, 1, 0, 0, 0; k sei
Anzahl der Erfolge). Die Dichtefunktion ist hier zugleich die
Wahrscheinlichkeit des Ergebnisses,
L(; 0, 1, 0, 0, 0)
da die Zufallsvariablen diskret sind.
Die Stichprobe wurde als einfache
Zufallsstichprobe gezogen, daher ist
die gemeinsame Dichte
f(0, 1, 0, 0, 0; ) =
f(0; ) f(1; ) f(0; ) f(0; ) f(0; )=
(1-)(1-)(1-)(1-) = 1(1-)4
(bzw. mit  geschrieben: 1(1-)4,
allg. = πk (1-π)n-k).

Die Likelihoodfunktion
L(; 0, 1, 0, 0, 0) = f(0, 1, 0, 0, 0; )
= 1 (1-)4 stellt nun die Dichte für genau diese Sequenz von Nullen bzw.
Einsen dar als Funktion des Parameters .
Übrigens: Das Ergebnis (0, 1, 0, 0, 0) ist am plausibelsten (max.
Likelihood), wenn der Anteil der Erfolgreichen in der Population = 0.20
ist. Das ist zugleich der Anteil der Erfolgreichen in der Stichprobe.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 25
Beispiel (Likelihood für eine stetige Variable): In einer Studentenpopulation wird der IQ (=x) untersucht. Es werde unterstellt, dass die
Standardabweichung wie in der Gesamtpopulation (=15) sei. Zudem wird angenommen, dass die IQ-Werte
IQ
in der studentischen Population ebenfalls normalverteilt sei. Das arithmetische Mittel (= ) für die
Studentenpopulationsdich
Studenten wird aber nicht dem der Gesamtpopulation entsprechen. Daher enthält die Dichtefunktion den
te f(x;). =15
unbekannten Parameter =: f(x; ) =
1
15 2
e
 x  
 1 

2  15 
2
0.02
0.01
.
In einer Stichprobe der Größe n=3 sind die Realisationen von (X1, X2, X3) genau (95, 110, 125), allgemein:
(x1, x2, x3). Die Dichtefunktion für die gemeinsame Verteilung der drei Stichprobenvariablen
kann wiederum wegen ihrer Unabhängigkeit als Produkt der Einzeldichten geschrieben
L(; 95, 110, 125)
werden:
f(x1, x2, x3; ) = f(x1; ) f(x2; ) f(x3; )


= 1 
 15 2 
3
e

25 x
-25
-25 0 +25
1  x 2  x 2  x 2  2( x  x  x )  3 2 
 1

1
2
3
2
3

215 2 
.
Die Likelihoodfunktion L(; 95, 110, 125) = f(95, 110, 125; ) stellt die Dichte für genau
diese drei beobachteten IQ-Werte dar, und zwar als Funktion des Parameters, der allgemein
als  bezeichnet wird, hier aber  ist.

Übrigens: Das Ergebnis (95, 110, 125) ist am plausibelsten (max. Likelihood), wenn das arithmetische Mittel in der Population =110 ist.
Das entspricht dem arithmetischen Mittel der Stichprobe: (95+ 110+125)/3 = 110 = x .
4.3.4.3 Der ML-Schätzer
Der Maximum-Likeli- Der ML-Schätzwert θ̂
hood-Schätzwert (kurz:
ist jenes  aus dem
ML-Schätzwert) θ̂ des Bereich der möglichen
Parameters  ist jener - Parameterwerte
Wert, bei dem die
(Parameterraum ),
Likelihoodfunktion in
für den gilt:
einer bestimmten
sup L(;x1, x2, ..., xn) .
Stichprobe maximal ist. 
Beispiele für ML-Schätzer werte:
Der ML-Schätzwert θ̂
ist meist als Formel
darstellbar, in die die
realisierten
Stichprobenvariablen x1,
x2, ..., xn eingesetzt
werden.
Der ML-Schätzwert
variiert von Stichprobe
zu Stichprobe. Der MLSchätzer ̂ ist die
Zufallsvariable, die alle
Ergebnisse beschreibt.
Beispiele für ML-Schätzformeln für konkrete Stichproben:
1). Beim Schummelbeispiel ist keine Formel nötig.
2). Hier ist der ML-Schätzwert ̂ =1 Erfolgreicher / 5; allgemein übrigens
̂ =(x1 + x2 + ...+ xn)/n für die (0,1)-Dummy-Variablen. (= k/n)
3). Der ML-Schätzwert für , den Populationsmittelwert, ist das
arithmetische Mittel der Stichprobenwerte ̂ = (x1 + x2 + x3)/3 bei n=3;
Der ML-Schätzwert θ̂
kann i. a. als Funktion
der Realisierungen der
Stichprobenvariablen
θ̂ =g(x1, x2, ..., xn)
dargestellt werden.
Der ML-Schätzer ist
als Funktion der
Stichprobenvariablen
̂ =g(X1, X2, ..., Xn),
selbst eine
Zufallsvariable.
1). Beim Schummelbeispiel war der ML-Schätzwert θ̂ = 0.75.
2). Beim Beispiel für die Schätzung des Populationsanteils  der Erfolgreichen wurde das Maximum der Likelihoodfunktion bei  (bzw. ) =
0.20 gefunden ( bezeichnet hier das Intervall von 0 bis 1). Daher ist der
ML-Schätzwert ̂ (bzw. θ̂ ) gleich 0.20.
3). Bei der Schätzung des Studentenpopulations- wurde das Maximum
der Likelihood bei einem -Wert von 110 aufgespürt( sind die reellen
Zahlen). Daher ist der ML- Schätzwert ̂ (bzw. θ̂ ) gleich 110 .
allgemein übrigens ̂ = (x1 + x2 + ...+ xn)/n.
Der Schätzer ̂ für den Populationsmittelwert  ist die Zufallsvariable
X = (X1 + X2 + ...+ Xn)/n.
Für diesen Schätzer wird allerdings kein großes ̂ eingeführt, das den
Schätzer vom Schätzwert unterscheiden könnte (bei den meisten
Anwendungen wird von den Symbolen her nicht klar unterschieden
zwischen dem ML-Schätzer und ML-Schätzwert).
4.3.4.4 Der Zusammenhang zur Entropie
Bezogen auf das Beispiel zwei lässt sich sagen: Die Wahrscheinlichkeit für ein bestimmtes Ereignis (E) mit k
Erfolgen bei n Versuchen ist: P(E) = πk (1-π)n-k = Likelihood (π). Die Maximum-Likelihood Schätzung ergibt
den Schätzer k/n für π. Den Schätzer in die Likelihoodfunktion eingesetzt ergibt:
max Lik (π) = (k/n)k ([n-k]/n)n-k
π
Zieht man daraus den natürlichen Logarithmus:
ln (max Lik (π)) (= Loglik (π)) = k ln(k/n) + (n-k) ln([n-k]/n) = k ln(p1) + (n-k) ln (p2) =
π
= n p1 ln(p1) + n p2 ln (p2) = - n h(X) (= Entropie in nits)
Skriptum Statistische Datenanalyse I WS 04/05
Seite 26
4.4 Lineare Regression
Mit Hilfe der linearen Regression wird versucht, ein Zusammenhang zwischen einem X-Merkmal als Prädiktor
und einem Y-Merkmale als Prädikand zu konstruieren, der die Form einer Geraden hat (es können auch mehr als
ein Merkmal als Prädiktor oder als Prädikand betrachtet werden, in diesem Fall spricht man von multipler bzw.
multivariater Regression). Die hier betrachtete Regression ist einfach und univariat.
Natürlich passen die gezogenen Srichprobenwertepaare xi und yi nicht genau in die Geradengleichung. Deshalb
behilft man sich mit einem Modell, dass Abweichungen miteinbezieht. Für die i. Stichprobe gilt demnach:
Yi = α + βxi + εi
Die Parameter α und β sind Populationsparameter, werden sie geschätzt spricht man von a (oder ̂ als Schätzer)
bzw. von b (oder ̂ ). εi wird als Störgröße bezeichnet, von der angenommen wird, dass sie aus einer
Normalverteilung mit μ = 0 und σ = σe stammt. Sowohl ̂ als auch ̂ haben eine Verteilung: ̂ hat den
Erwartungswert E( ̂ ) = α, ist deshalb ein erwartungstreuer Schätzer, ̂ ist ebenfalls erwartungstreu und dazu
noch konsistent, d. h. der Schätzer nähert sich mit zunehmender Stichprobengröße mit zunehmender
Wahrscheinlichkeit dem Populationsparameter an.
Auch bei der linearen Regressionsanalyse ist es möglich, ein PRE-Maß zu konstruieren: Der Anteil an
Fehlerreduktion, der durch die Annahme eines linearen Zusammenhangs erreicht werden kann, bezeichnet man
als Determinationskoeffizienten 2. Art oder R2 .
Näheres zur linearen Regressionsananlyse s. Skript von Herrn Nagl: Einführung in die Statistik, S. 114ff.
4.4.1 Unterschied zwischen Residuen und Störgrößen
Der Begriff Störgröße bezeichnet die Differenz zwischen der
echten Geraden und den Stichprobenwertepaare in y-Ausrichtung,
y
geschätzte Gerade
während der Begriff Residuum nur für die Differenz zwischen der
geschätzten Geraden und den Stichprobenwertepaaren steht. Da
für Störgrößen die Normalverteilungsannahme gilt, müssen sie in
der Summe nicht Null ergeben. Die geschätzte Gerade wird mit
echte Gerade
der kleinste Quadrate-Schätzung ermittelt, daraus folgt, dass die
Residuen in der Summe Null ergeben müssen (s. Streudiagramm
rechts: die Wertepaare können zufällig alle oberhalb der echten
Gerade liegen, während die Residuen immer in der Summe Null
x
ergeben).
Eine optimale Anpassung von n Wertepaaren ist durch ein Polynom (n-1)ten Grades möglich. Diese Funktion
verläuft durch alle Punkte im Streudiagramm.
4.4.2 Vorgehen im konkreten Fall
Will man in einem konkreten Satz an Datenpaaren aus einer Stichprobe eine linearen Zusammenhang feststellen
reicht es nicht, einfach die Geradenschätzer zu berechnen. Vielmehr muss man sein Vorgehen hinterfragen,
dabei sind mehrere Schritte notwendig:
1. Man muss prüfen, ob eine lineare Funktion den Zusammenhang am besten beschreibt.
2. Man muss die zugrundeliegenden Annahmen überprüfen:
2.1 Normalverteilungsannahme der Residuen (Goodness of fit durch den Shapiro-Wilkoxon-Test)
2.2Gleichheit der Varianz der Residuen (Levene-Test)
3. Man muss den Schätzer für die Steigung testen, um überhaupt von einem Zusammenhang sprechen zu können.
4.4.3 Erweiterung der Regressionsanalyse
In vielen Fragestellungen soll nicht nur ein einziger Prädiktor, sondern zugleich mehrere Prädiktoren
berücksichtigt werden (Multiple Regression). Dabei wird der Prädiktions-Effekt jedes Prädiktors unter
Berücksichtigung der andern (‚unter Konstanthaltung der andern‘) untersucht.
Die multiple Regression soll hier nun am Beispiel der Regression mit zwei X-Variablen kurz erläutert werden:
Skriptum Statistische Datenanalyse I WS 04/05
Seite 27
Die Modellgleichung sieht in diesem Fall folgendermaßen aus:
y = α + β1x1 + β2x2 + ε
Diese Gleichung lässt sich als Ebenengleichung interpretieren, wobei jeweils y = α + β1x1 die Schnittgerade
dieser Ebene mit der x1y-Ebene und y = α + β2x2 die Schnittgerade der Ebene mit der x2y-Ebene darstellt. ε steht
für die Störgröße.
Das Pfaddiagramm des Modells mit zwei
unabhängigen Variablen enthält implizit diese
Modellgleichung. Eckige Kästchen stellen
manifeste Variablen dar, also Variablen, die man
erhoben hat, während runde Kästchen für
Variablen stehen, die latent, d. h. hypothetisch
vorhanden aber nicht erfassbar, sind. Auch wenn
beide Variablen unabhängig sind, dürfen sie doch
miteinander korrelieren.
α
x1
β1
y2
r12
ε
β1
x2
4.5 Varianzanalyse
Die Varianzanalyse beruht auf Prädiktionsregeln, den Mittelwertsregeln, auf deren Basis ein Test konstruiert
wird, die sogn. ANOVA (ANalysis Of VAriance). Auf Basis der Mittelwertregeln lässt sich ein PRE-Maß
konstruieren, welches angibt, wie viel Varianzanteil durch die Anwendung des Gruppenmittelwerts reduzierbar
ist. Dieses Maß bezeichnet man als Determinationskoeffizient 1. Art oder η2 (auch R2). Als alternatives
Fehlermaß kann auch das adjustierte η2 verwendet werden.
4.5.1 Die Hypothese, dass alle Mittelwerte gleich sind
Die globale Null-Hypothese, dass alle Mittelwerte gleich sind ( 1   2     I ) enthält implizit mehrere
Einzelhypothesen. Wenn alle Paare betrachtet werden, sind das I*(I-1)/2 (bei 10 Gruppen 45 Einzelhypothesen).
Bei möglichst sparsamer Aufzählung genügen allerdings (I-1) Einzelhypothesen (z.B. (1   I )  ( 2   I ) 
  ( I1   I ) ). Daher sind mindestens (I-1) Einzelhypothesen in dieser Globalhypothese enthalten (Beachte:
I sei die Anzahl der Gruppen).
Wenn alle Gruppen-Mittelwerte gleich sind, muss zudem gelten: Alle Gruppenmittelwerte sind gleich dem
Gesamtmittelwert ( 1   2     I   ) bzw. die Differenzen zum Gesamtmittelwert sind null
( 1     2    ... =  I   =0).
Die Alternativhypothese ist die Verneinung der globalen Nullhypothese. Ihre Ablehnung besagt, dass zumindest
eine Einzel-Nullhypothese nicht erfüllt ist (es können auch mehrere Einzel-Nullhypothesen verletzt sein).
4.5.2 Testen: Konfidenzintervalle und das Bonferoni-Verfahren
Es gibt mehrere Möglichkeiten, anhand derer man entscheiden kann, welche Gruppenmittelwerte signifikant
abweichen. Für eine grobe Einschätzung können die 95%-Konfidenzintervalle der einzelnen Gruppenmittelwerte
herangezogen werden. Dazu trage man die einzelnen Mittelwerte mitsamt ihren Konfidenzintervallen in einem
Streudiagramm auf. Überlappen sich die Konfidenzintervalle einzelner Gruppen überhaupt nicht, sind die
Mittelwerte signifikant unterschiedlich, bei Überlappung können die Mittelwerte unterschiedlich sein, müssen es
aber nicht sein. Eine eindeutige Entscheidung ist daher nicht immer möglich.
Eine andere Möglichkeit ist, die einzelnen Mittelwerte paarweise gegeneinander zu testen. Hier offenbart sich
allerdings ein anderes Problem. Testet man die einzelnen Hypothese auf einem Signifikanzniveau von 5%, ist
also die Wahrscheinlichkeit, die Nullhypothese abzulehnen 5%, dann steigt die Wahrscheinlichkeit, die globale
Nullhypothese abzulehnen, obwohl sie richtig ist, bei mehr als einer zu testenden Einzelhypothese über das
Signifikanzniveau: Der Fehler 1. wird zu groß. Dies soll im folgenden verdeutlicht werden, wobei der
Einfachheit von zwei Einzelhypothesenpaaren ausgegangen wird:
Skriptum Statistische Datenanalyse I WS 04/05
Seite 28
Dabei sei: E1 das Ereignis „1. Hypothesenpaar signifikant unterschiedlich“, E2 das Ereignis „2. Hypothesenpaar
signifikant unterschiedlich“, αE das Signifikanzniveau der einzelnen Tests (sollen als gleich angenommen
werden), αA das Signifikanzniveau der gesamten Testbatterie.
αA = P(E1  E2) = P(E1) + P(E2) – P(E1  E2)  P(E1) + P(E2) = 2 αE
αA liegt also irgendwo zwischen αE und 2αE . Verallgemeinernd lässt sich sagen: αA  n αE (wobei n die Anzahl
I
an Einzeltests darstellt: n =   )
 2
Bei zwei Einzeltests:
Allgemein:
Um zu verhindern, dass der Fehler 1. Art nicht über 5% ansteigt,
αA  2 αE
αA  n αE
müssen die Einzelsignifikanzniveaus adjustiert, das heißt hier
0,05  2 αE
0,05  n αE
verschärft werden. Die Festlegung der Einzeltestsignifikanzniveaus αE 0,025  αE
0,05/n  αE
auf αA /n bezeichnet man als Bonferoni-Korrektur.
Allerdings birgt auch dieses Vorgehen ein Problem: bei vielen Gruppen
werden die Einzelsignifikanzniveaus schnell sehr klein. Das führt dazu,
dass Unterschiede vielleicht vorhanden sind, allerdings schwer zu
entdecken sind: Der Fehler 2. Art steigt an, deshalb verringert sich die
Macht des Tests.
Bsp: 10 Gruppen, 45 Einzeltests
αA  45 αE
0,05  45 αE
0,05/45  αE
0,0011  αE
αE = 0,0011
Lösungen für dieses Problem wären:
- Aufteilung der Gesamtfragestellung in einzelne Fragestellungen, die getrennt getestet werden. Dies führt dazu,
dass jede Testbatterie aus weniger Einzeltests besteht und die Adjustierung weniger scharf erfolgt.
- Tests gegen die Besten: Man testet alle Gruppenmittelwerte nur gegen den höchsten Gruppenmittelwert, dies
führt ebenfalls zu weniger Einzeltests.
- Test gegen eine Kontrollgruppe: Man testet alle Mittelwerte gegen eine Kontrollgruppe, die keine Behandlung
erfährt. Dies reduziert ebenfalls die Anzahl nötiger Einzeltests.
- Holm-Modifikation der Bonferoni-Korrektur.
4.5.3 Holm-Modifikation
Das Verfahren von Holm stellt eine Weiterentwicklung
des Bonferoni-Verfahrens dar. Zuerst bestimmt man
die P-Werte der m Einzeltest und ordnet diese der
Größe nach an. Dann vergleicht man die P-Werte mit
dem Wert, den das Bonferoni-Verfahren ergeben hat.
Die Tests mit P-Werte, die kleiner sind, werden als
signifikant angesehen. Danach zählt man die Tests, die
noch nicht signifikant geworden sind. Aus dieser neuen
Anzahl m* (= m – Anzahl signifikanter Tests) erstellt
man ein neues Signifikanzniveau für die übrigen Test
α*E (= α/m*), vergleicht die übrigen P-Werte damit,
prüft, ob welche kleiner und damit signifikant sind, und
wiederholt das Verfahren wieder, bis kein P-Wert mehr
signifikant wird. Holm hat gezeigt, dass ein solches
Verfahren Sinn macht.
Bsp. mit 10 Einzelhypothesen und hypothetischen P-Werter (αE =
0,005, α*E = 0,0083, α`E = 0,01)
m=10
m*=6
m`= 5
Test
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
P-Wert
0,0002
0,0004
0,0010
0,0012
0,006
0,05
0,10
0,3
0,63
0,85
Sign. niveau
0,005
0,005
0,005
0,005
0,0083
0,01
signifk.?
ÓK
OK
OK
OK
OK
NEIN
ENDE
Ab dem 6. Test erhält man auch mit einer erneuten Modifikation des
Signifikanzniveaus keinen weiteren signifikanten P-Wert.
4.5.4 Vorrausetzungen für die Varianzanalyse
Die Anwendung der Varianzanalyse ist nur dann möglich, wenn in den einzelnen Gruppen die Abweichungen
vom Gruppenmittelwert normalverteilt sind und die Varianzen in den einzelnen Gruppen gleich sind. Diese
Vorrausetzungen gilt es zu testen. Treffen sie nicht zu, können nonparametrische Verfahren einen Ausweg
bieten.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 29
4.6 Zusammenfassung: Modellkonzeptionen der bisherigen
bivariaten Verfahren
Als bivariate Verfahren haben wir bisher die Regressionsanalyse, die Varianzanalyse und die logistische
Regression kennengelernt. Genau betrachtet beruhen diese Verfahren auf Modellkonzeptionen, also
Vorstellungen, wie die Daten theoretisch entstanden sind. Diese Modelle treffen dabei zum Teil Annahmen, die
zuerst überprüft werden müssen, will man die dazugehörigen statistischen Verfahren anwenden. Diese
Vorrausetzungen sollen kurz aufgeführt werden.
4.6.1 Varianzanalyse
Die Modellgleichung in der Varianzanalyse lautet: y = μi + ε (i steht für die Gruppe). Für jede einzelne Gruppe
gibt es einen festen Wert, dargestellt durch den gruppenspezifischen Mittelwert, wobei Abweichungen durch
eine Störgröße beschrieben wird, die normalverteilt ist und für alle Gruppen die gleiche Varianz hat: ε ~ NV(0,
 e2 ).
Einschub: Effektdarstellung
Beispiel: Sei µ1=170, µ2=174, µ3=µ4=180.
Darstellung der Gruppenun- Hier wird die sogenannte
1, Vs
1
terschiede mit Hilfe
symmetrische Effektdarstellung
µ1
symmetrischer Effekte:
gewählt.
2, hS
2
Zerlegung des systematischen
µ
2
Teils in eine Summe aus einer  i  k   i ,
3, Abi
3
Konstanten (‘allgemeines
dabei werden die  i so gewählt, dass
µ3
Niveau’) und spezifischen
4, Uni
die
Summe
der
gleich
0
ist:


4
i
Gruppeneffekten. Je nach
y 185
165
170
175
180
1   2  ...   I  0
Wahl des allgemeinen
µ4
Niveaus können unterschied- Daraus folgt, dass k der ungewichtete
µ
liche Arten von Effektdarstel- Mittelwert der einzelnen µ‘s ist:
Dann ist µ=176 (=(170+174+180+180)/4).
lungen eingeführt werden.
Die Effekte sind: 1= -6, 2=-2, 3=4=4. So
   2  ...   I
sieht man die Unterschiede der einzelnen
k 1
=:µ
I
Gruppen etwas besser. Gruppe 1 liegt um 6,
Die Effekte stellen die für die
Gruppe 2 um 2 unter dem allgemeinen
Die Effekte stellen hier die Differenz
Gruppe spezifische AbweiNiveau; die Gruppen 3 und 4 liegen um 4 cm
zum
ungewichteten
Mittelwert
dar:
chung dar.
darüber.
i  i  
4.6.2 Logistische Regression
Der Anteil der erfolgreichen Ereignisse E (wie auch immer man diese definiert) in Abhängigkeit von einem XMerkmal wird durch eine logistische Funktion dargestellt: P(E|x) =
eα βx
1  eα βx
Annahmen. Deshalb ist in diese Richtung auch keine Prüfung erforderlich.
. Das logistische Modell trifft keine
4.6.2 Regressionsanalyse
Bei der Regressionsanalyse unterscheidet man zwischen zwei Varianten, der klassischen und der stochastischen
Regression. Beide Modelle unterscheiden sich in ihren Annahmen leicht.
Klassische Regressionsmodell: Dieses Modell stellt einen Zusammenhang zwischen zwei Variablen her, der
folgende Form hat: y = α + βx + ε. Die Störgröße ist dabei eine Variable, die normalverteilt ist: NV(0,  e2 ). Bei
der Anwendung dieses Modells sind die Annahmen der Normalverteilung und der Gleichheit der Varianz aller
Störgrößen zu prüfen. Das Modell ist univariat: Nur die Y-Variable ist normalverteilt, man spricht hier auch von
einer Theorie der Regression.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 30
X-Stochastisches Regressionsmodell: Das stochastische Modell trifft zusätzlich noch eine Annahme, indem es
davon ausgeht, dass die X-Variable normalverteilt ist. Das Modell ist bivariat, man spricht hier von einer
Theorie der Korrelation. Die Darstellung der Dichtefunktion zweier Merkmale (=bivariate Dichtefunktion):
Bei großen Stichproben ist die
Gefahr sehr groß, dass bei
Streudiagrammen mehr als ein
Datenpunkt an einem Koordinatenpunkt vorhanden ist.
Mehrfachbesetzungen können mit
Hilfe der dritten Dimension
(Dichte) berücksichtigt werden
(wie bei der Darstellung der
eindimensionalen Verteilung). Bei
diskreten Merkmalen könnten
Stäbe eingezeichnet werden.
Bei stetigen Merkmalen (bzw. bei
Klasseneinteilungen) können
dreidimensionale Quader
verwendet werden (bivariates
Histogramm).
Beispiel: Gewicht und Körpergröße für 54 Personen der Studentenuntersuchung (von den
55 Personen fehlt eine Größenangabe). Schon bei nur 54 Personen haben mehrere Personen
gleiche x-y-Wertepaare.
Klasseneinteilung beider Merkmale (Werte an der Klassengrenze wurden aus inhaltlichen
Gründen jeweils der nächstfolgenden Klasse zugeordnet) führt zu einem bivariaten
Histogramm.
Bivariates
Histogramm
195
y
185
Dichte
f(x, y)
175
165
195
185
155
45
145
35
55
x:Gewicht
45
55
65
75
85 x 95
65
165
75
85 95
155
175
y:Größe
Beispiel: Die bivariate Normalverteilung dient häufig als Beschreibung der Verteilung
zweier Merkmale in der Population.
Für die Darstellung einer
Bivariate Standard-Normalverteilung (x=0, x=0, x=1, y=1),  ist hier =0.60.
bivariaten, stetigen Population
Kontur-Darstellung
wird ebenfalls die
f(x,y)
Dichtefunktion
Dichtefunktionsdarstellung verwendet, bei der für jeden (x,y) Wert
die Dichte f(x,y) berechnet wird.
Die Darstellung der Höhenschichtlinien (Isohypsen) des ‘DichteBerges’ wird auch als KonturDiagramm bezeichnet.
Beispiele von Kontur-Diagrammen für unterschiedliche Populationskorrelationskoeffizienten . Die Funktion der bivariaten StandardNormalverteilung hängt nur vom Parameter  ab:
f ( x , y) 
1
2  1
2
exp( 
x 2  2 xy  y 2
2(1 2 )
) . Die Kontur-Diagramme zeigen, wo und
wie die Messwertpaare liegen müssten, falls die beiden Merkmale bivariat normalverteilt sind mit einem bestimmten .
=-0.99
=-0.40
=0
Bei der Regressionsanalyse wird ein Zusammenhang zwischen zwei Merkmalen hergestellt, der die Form einer
Geraden hat: Dabei ist die Gerade umso steiler, je höher beide Merkmale korrelieren. Bei Nullkorrelation ist die
Steigung der Gerade Null.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 31
4.7 Konstanthaltung von Variablen: Kovarianzanalyse
Allerdings sei bekannt, dass sich die Gruppen
in einer (für y vermutlich relevanten)
quantitativen x-Variablen unterscheiden.
Dieser Unterschied in der x-Variablen sollte
den Gruppenvergleich nicht beeinträchtigen.
Beispiel: Der Gewichtsunterschied zwischen Männern und Frauen (Sex als
qualitativer Faktor)soll festgestellt werden. Nun sind aber Männer meist auch
größer (Körpergröße als quantitatives x-Merkmal). Soll der Größenunterschied
berücksichtigt werden, könnten eventuell nur die Personen im schmalen
Überlappungsbereich untersucht werden, in dem sowohl Frauen als auch
Männer zu finden sind.
Gewicht in kg
Wie in der Varianzanalyse soll der
Unterschied bezüglich y zwischen Gruppen
festgestellt werden.
95
Überlappun
gsbereich
85
75
Eine Möglichkeit bestünde darin, nur UEen
im Überlappungsbereich des quantitativen xMerkmals für den Gruppenvergleich
heranzuziehen; dann müsste aber die
Stichprobe eventuell stark verkleinert werden.
Zudem ist es sehr schwierig, einen
angemessenen Überlappungsbereich zu
definieren.
55
45
35
150
160
170
180
190
Größe in cm
Es wird unterstellt, dass die beiden Regressionsgeraden (innerhalb beider
Gruppen) die gleiche Steigung haben.
Gewicht in kg
Die Kovarianzanalyse wählt einen anderen
Weg:
 Es wird unterstellt, dass zwischen x und
y ein linearer Zusammenhang besteht;
 und zwar soll die Steigung in beiden
Gruppen gleich sein (Parallelität). Dies
muss getestet werden.
 Dann kann der Unterschied zwischen
den Gruppen an jeder beliebigen Stelle
des quantitativen Merkmals als
Höhenunterschied zwischen den
Geraden abgelesen werden.
Auf diese Art kann der Unterschied zwischen
den Gruppen unter Berücksichtigung des
Einflusses des x-Merkmals (d.h. unter
Konstanthaltung von x) festgestellt werden.
65
95
85
75
Gruppenunterschied
65
55
45
35
150
160
170
180
190
Größe in cm
Die Konstanthaltung von x kann insofern von Bedeutung sein, als dass durch sie Gruppenunterschiede besser
bewertet werden können, als wenn man nur die Gruppenmittelwerte betrachtet. Wie Herr Nagl mit seinem
Zahnarztbeispiel gezeigt hat, können sich Gruppendifferenzen durch Konstanthaltung von x sogar umkehren.
Ist die Steigung beider Regressionsgeraden nicht gleich, sind die Niveauunterschiede zwischen den Gruppen je
nach x-Position unterschiedlich.
Bei gleicher Geradensteigung lässt sich das Regressionsmodell erweitern:
y = α + βx + γ * (Dummy)
γ ist der Unterschied in y-Ausrichtung zwischen den beiden Regressionsgeraden, dieser wird mit einer
Dummyvariablen multipliziert, die für eine Gruppe 1 (obiges Beispiel: Männer) für die andere Gruppe 0 (obiges
Beispiel: Frauen) annehmen kann.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 32
5. Prädiktion mit mehreren Prädiktoren
In diesem Kapitel soll für die Prädiktion eines Merkmals mehr als eine Variable betrachtet werden. Diese
Prädiktionsart wird auch multiple Prädiktion (von mehrfach) genannt. Im allgemeinen kann durch die
Hinzunahme zusätzlicher Merkmale als Prädiktoren die Prädiktion verbessert werden.
Zu dieser ‚multiplen’ Fragestellung (um wie viel besser ist die Prädiktion insgesamt?) tritt die spezielle auf
einzelne Merkmale bezogene ‚partielle’ Fragestellung auf (um wie viel besser ist die Prädiktion durch
Erweiterung der bereits vorhandenen Prädiktoren um etwa ein einziges zusätzliches Merkmal?).
5.1 Strukturdiagramme
Anhand eines Einführungsbeispiels und der Einführung von sogenannten Pfadregeln sollen der Umgang mit
Strukturdiagrammen aufgezeigt werden.
5.1.1 Einführungsbeispiel Erfolgsmodell
Die Variable Erfolg hängt von einem Netz weiterer Variablen ab, die hier in Form eines Pfaddiagramms
dargestellt sind, man spricht hier also von multipler Prädiktion. Zu beachten ist, dass das Modell mit multipler
Prädiktion nur eine Erweiterung des Regressionsmodells mit zwei Prädiktorvariablen darstellt. Die formalen
Regeln des Pfaddiagramms gelten auch für die multiple Fragestellung.
(E)
10
(K)
15
Erfolg
Kreativ
(A)
GemKreativ
-0.5
0.5
Iz
10
(EM)
Sex
10
0
ArbMotiv
(AM)
10
0
10
10
(AM)
ZukOrient
10
0;1
(D)
0.25
10
(Iz)
Angst
4
(ZO)
15
0.5
10
Depr
-1
ArbMotiv
ErfMotiv
(SE)
10
SchulErf
Dieses Modell stellt letztenendlich nichts anderes als ein Netz von Gleichungen dar (Bsp: Erfolg = 0,5
Schulerfolg + Kreativität + 10 ε(E); Jeder „Knoten“, also jede Variable auf die Pfeile zulaufen, kann dabei durch
die Variablen ausgedrückt werden, von denen die Pfeile kommen. Die Verknüpfung der einzelnen Variablen
erfolgt additiv, die Koeffizienten der Pfeile werden dabei multiplikativ mit den dazugehörigen Variablen
kombiniert). Man spricht hier deshalb von einzelnen Strukturgleichungen, in Bezug auf das Modell von einem
Strukturgleichungsmodell. Die Koeffizienten bezeichnet man als Strukturkoeffizienten oder auch
Regressionskoeffizienten. Bei ungewichteten Pfeilen haben die Koeffizienten den Wert 1.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 33
Stichprobe
Mittelwert
-0.45
0.51
0.28
-0.17
5.69
6.68
11.77
1.01
3.33
15.47
8.23
Iz
sex
Kreativ
gemKreativ
ZukOrient
ArbMotiv
ErfMotiv
Angst
Depr
Schulerf
Erfolg
Varianz
204.49
0.25
236.54
444.37
186.87
253.76
274.56
112.36
1965.15
2760.45
1024.00
Theoretischer
Standardabw.
14.3
0.5
15.38
21.08
13.67
15.93
16.57
10.6
44.33
52.54
32
Formel
15*eps
Uniform(0;1)
15*eps
Kreativ+Iz
10*sex+0.5*Iz+10*eps
ZukOrient+10*eps
10*sex+ZukOrient+10*eps
0.25*zukOrient-0.5*Iz+10*eps
4*Angst+10*eps
ArbMotiv+ErfMotiv-Depr+10*eps
0.5*Schulerf+Kreativ+10*eps
Bemerkungen
eps ist jeweils
Standard-NV,
jeder Wert "unabhängig"
von jedem anderen
gezogen aus Standard-NV
100 Fälle wurden erzeugt
= Stichprobe (n=100)
Theretische
Population
Mittelwert
0
0.5
0
0
5
5
10
1.25
5
10
5
Iz
sex
Kreativ
gemKreativ
ZukOrient
ArbMotiv
ErfMotiv
Angst
Depr
Schulerf
Erfolg
Varianz
225.00
0.25
225.00
450.00
181.25
281.25
356.25
139.45
2331.25
3606.3
1226.6
Standardabw.
15
0.5
15
21.21
13.46
16.77
17.64
11.81
48.28
55.78
33.21
Formel
15*eps
Uniform(0;1)
15*eps
Kreativ+Iz
10*sex+0.5*Iz+10*eps
ZukOrient+10*eps
10*sex+ZukOrient+10*eps
0.25*zukOrient-0.5*Iz+10*eps
4*Angst+10*eps
ArbMotiv+ErfMotiv-Depr+10*eps
0.5*Schulerf+Kreativ+10*eps
Matrix der Varianzen und Kovarianzen (theoretisch)
IZ
IZ
SEX
KREATIV
GEMKREA
ZUKORI
ARBMOT
ERFMOT
ANGST
DEPR
SCHULE
ERFOLG
225
0
0
225
112.5
112.5
112.5
-84.38
-337.5
562.5
281.25
SEX
0
0.25
0
0
2.5
2.5
5
0.63
2.5
5
2.5
Kreativ
0
0
225
225
0
0
0
0
0
0
225
GemKrea ZUKORI
225
112.5
0
2.5
225
0
450
112.5
112.5
181.25
112.5
181.25
112.5
206.25
-84.38
-10.94
-337.5
-43.75
562.5
431.25
506.25
215.63
ARBMOT ERFMOT ANGST DEPR
SCHULE
112.5
112.5
-84.38
-337.5
562.5
2.5
5
0.63
2.5
5
0
0
0
0
0
112.5
112.5
-84.38
-337.5
562.5
181.25
206.25
-10.94
-43.75
431.25
281.25
206.25
-10.94
-43.75
531.25
206.25
356.25
-4.69
-18.75
581.25
-10.94
-4.69
139.45 557.81
-573.4
-43.75
-18.75
557.81 2331.3
-2394
531.25
581.25
-573.4
-2394
3606.3
265.63
290.63
-286.7
-1197
1803.1
ERFOLG
281.25
2.5
225
506.25
215.63
265.63
290.63
-286.7
-1197
1803.1
1226.6
Standardisierung: Die im Modell vorkommenden Variablen lassen sich standardisieren, dementsprechend
ändern sich auch die Koeffizienten. Nach der Standardisierung sind alle Mittelwerte aller Variablen gleich 0 und
ihre Varianzen gleich 1. Dies hat zur Folge, dass die Kovarianz zwischen zwei Variablen gleich ihrer Korrelation
wird, man sagt dann, die Koeffizienten sind standardisiert. Dies allerdings ist nicht ganz korrekt, denn
eigentlich sind ja die Variablen standardisiert worden.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 34
(E)
0.29
(K)
1
0.43
Kreativ
0.71
(A)
GemKreativ
-0.64
Angst
0.98
0.29
0.74
(Iz)
1
0.56
Iz
0.80
1
0.71
(EM)
Sex
0.53
0
(AM)
0.26
0
10
(D)
0.21
(AM)
ZukOrient
0.37
0;1
0.86
0.85
0.71
(ZO)
Erfolg
Depr
0.60
ArbMotiv
-0.8
0.28
ArbMotiv
ErfMotiv
(SE)
0.17
0.29
SchulErf
Populations (‘theoretische’) Korrelationen
Iz
Iz
Sex
Kreativ
GemKreativ
ZukOrient
ArbMotiv
ErfMotiv
Angst
Depr
SchErf
Erfolg
1
0
0
0.71
0.56
0.45
0.4
-0.48
-0.47
0.62
0.54
Sex
0
1
0
0
0.37
0.3
0.53
0.11
0.1
0.17
0.14
Kreativ GemKrea ZukOrient ArbMotiv
0
0.71
0.56
0.45
0
0
0.37
0.3
1
0.71
0
0
0.71
1
0.39
0.32
0
0.39
1
0.8
0
0.32
0.8
1
0
0.28
0.81
0.65
0
-0.34
-0.07
-0.06
0
-0.33
-0.07
-0.05
0
0.44
0.53
0.53
0.43
0.68
0.46
0.45
ErfMotiv
0.4
0.53
0
0.28
0.81
0.65
1
-0.02
-0.02
0.51
0.44
Angst
-0.48
0.11
0
-0.34
-0.07
-0.06
-0.02
1
0.98
-0.81
-0.69
Depr
-0.47
0.1
0
-0.33
-0.07
-0.05
-0.02
0.98
1
-0.83
-0.71
SchErf
0.62
0.17
0
0.44
0.53
0.53
0.51
-0.81
-0.83
1
0.86
Erfolg
0.54
0.14
0.43
0.68
0.46
0.45
0.44
-0.69
-0.71
0.86
1
5.1.2 Pfaddiagrammregeln
Mit Hilfe der „Pfaddiagrammregeln“ lassen sich die Kovarianzen zwischen einzelnen Variablen ermitteln. Die
Kovarianz zwischen zwei Variablen X und Y kann folgendermaßen berechnet werden:
1. Beginne einen Pfad in X (bzw. Y) entgegen der Pfeilrichtung. Der Pfad wird weiterverfolgt, bis die
„Zielvariable“ X (bzw. Y) erreicht ist. Dabei ist höchstens eine Richtungsänderung zulässig. Das
Pfadstück mit der Richtungsänderung sei die „Traverse“. Falls keine Richtungsänderung eintritt ist die
„Zielvariable“ die Traverse.
2. Multipliziere alle Koeffizienten (=Konstanten der Linearkombinationen) entlang eines Pfades. Bei der
Traverse multipliziere die Covarianz zwischen den Variablen (bei Doppelpfeil-Traversen), sonst die
Varianz.
3. Addiere die Produkte aller verschiedenen Pfade (Zwei Pfade sind verschieden, wenn nur ein einzelnes
Teilstück verschieden ist).
Sind die Variablen standardisiert(d.h. sie haben den Mittelwert Null und die Standardabweichung 1), sind die
Kovarianzen zwischen Variablenpaaren gleich deren Korrelationen.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 35
5.1.3 Ergänzungen
Beispiel 1: Scheinkorrelation und Mediatoren
εy
y
a
z
b
Korrelation (Annahme: x, y, z standartisiert):
y = a z + εy
Cor (x,y) = a b
x = b z+ εx
Dies ist eine Scheinkorrelation: x und y haben
keinen direkten Einfluss aufeinander, korrelieren aber
trotzdem.
Variablen, die einen Einfluss „vermitteln“,
bezeichnet man als Mediatoren. Hier ist z ein
Mediator. Die durch z entstandene Scheinkorrelation
zwischen y und x läßt sich durch Konstanthaltung
beheben, indem man die partielle Korrelation
zwischen x und y unter Konstanthaltung von z
verwendet:
Gleichungen:
b
x
εx
x
Gleichungen:
a
z
y
y = a z + εy
εy
x = b z + εz
εy
rxy.z = r(x.z) (y.z) =
rxy  rxz  ryz
2
2
(1 - ryz
)(1  rxz
)
Beispiel 2:
εx
x
b
c
εy
y
Gleichungen:
Korrelationen (Annahme: x, y, z standartisiert):
y = b x + a z + εy
Cor (x,y) = b + a c
Unter Umständen kann eine solche Korrelation Null
sein (hypothetisches Beispiel):
Cor (x,y) = 24 + (-6)* 4 = 0
Dennoch besteht zwischen den Variablen ein
Einfluss, der sich allerdings rechnerisch aufhebt.
Cor (x, z) = c
x = c z + εx
a
z
Beispiel 3: Doppelpfeile
x
b
Cov (x,z)
y
a
z
Doppelpfeile spezifizieren einen nicht näher bestimmten Zusammenhang. Sie
bedeuten aber nicht, dass der kausale Einfluss wechselseitig ist. Doppelpfeile
sind u. a. nützlich, um ganze Variablennetze zu vereinfachen: Man läßt die
Variablen weg, die einen nicht interessieren, die aber einen Einfluss haben, und
ersetzt sie durch den Doppelpfeil. Dabei nimmt man einfach eine Kovarianz
an. Bei der Berechnung der Kovarianz zwischen zwei Variablen steht ein
Doppelpfeil immer für eine Richtungsänderung.
Beispiel 4: Faktorenanalyse
f1
a4
a1
a2
a3
x1
u1
x2
u2
x3
u3
x4
u4
b1
f2
b2
b3
b4
Bei der Faktorenanalyse wird versucht, von gemessenen
Variablen auf diesen zugrundeliegende, latente Faktoren zu
schließen. Korrelieren diese Faktoren nicht miteinander, spricht
man von einer orthogonalen Faktorenanalyse, korrelieren sie,
spricht man von einer schiefwinkeligen Faktorenanalyse. Die
Regressionskoeffizienten bezeichnet man als Ladungen und
die Störgrößen werden mit u abgekürzt.
Cor(x1, x2) = a1 a2 + b1 b2
Cor(f1,x1) = a1
Alle Variablen sind standartisiert.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 36
5.1.4 Umrechnung der Pfadkoeffizienten
Es ist möglich, die Koeffizienten in einem Pfaddiagramm mit nichtstandartisierten Variablen direkt in
standartisierte Pfadkoeffizienten umzurechnen:
bi = βi Std(y)/Std(xi); βi = bi Std(xi)/Std(y)
bi steht für den nichstandartisiertem Pfadkoeffizienten, βi für den entsprechenden standartisierten
Pfadkoeffizienten.
Denn:
y = b1 x1 + b2 x2 + ... + bi xi + … + bn-1 xn-1 + bn xn + ε
(n unabhängige Variablen)
y* = β1 x*1 + β2 x*2 + … + βi x*i + …+ βn-1 x*n-1 + βn x*n + ε (entsprechende standartisierte Variablen)
Eingestetzt in die 2. Gleichung: y* = y/Std(y)
x*i = xi/Std(xi)
y/ Std(y) = β1 x1/Std(x1) + β2 x2/Std(x2) + … + βi xi/Std(xi) + …+ βn-1 xn-1/Std(xn-1) + βn xn/Std(xn) + ε
y = β1 x1 (Std(y)/Std(x1)) + β2 x2 (Std(y)/Std(x2)) + … + βi xi (Std(y)/Std(xi)) + …+ βn-1 xn-1 (Std(y)/Std(xn-1)) +
+ βn xn (Std(y)/Std(xn)) + ε Std(y) verglichen mit der 1. Gleichung kommt man auf obige Formel.
5.1.5 Pfaddiagramm und Regressionsgleichung
x1
b
y
x2
ε
Pfaddiagramme sind in erster Linie visualisierte
Regressionsgleichungen (hier: y = a x1 + b x2 +ε). Die Bezeichnung
Kausaldiagramm für Pfaddiagramm ist problematisch, weil Regression
kausal sein kann, aber nicht sein muss.
a
5.1.6 Kovarianzregeln
Die Kovarianz ist
symmetrisch.
Der Verschiebungssatz
zur Berechnung der
Kovarianz für ‚krumme’
Erwartungswerte.
Die Varianz einer
Variablen ist gleich der
Kovarianz der
Variablen mit sich
selbst.
Die Kovarianz einer
Variablen mit einer
Konstanten ist gleich 0.
Cov(X,Y)
= Cov(Y,X)
Cov(X,Y)
= E(XY) – E(X)E(Y)
Var(X) = Cov(X, X)
Cov(X, k) = 0, wenn k eine
Konstante ist.
Denn: Nach Definition gilt Cov(X,Y)=E (X – E(X)) (Y-E(Y)) =
Wegen Multiplikationskommutativität = E (Y – E(Y)) (X-E(X)) =
Cov(Y,X) nach Definition. Wzzw.
Denn: Nach Definition gilt Cov(X,Y)=
E (X – E(X)) (Y-E(Y)) = Ausmultiplizieren der Klammern
=E(XY- XE(Y) - E(X)Y +E(X)E(Y)) = nach E-Summenregel
=E(XY) – E(X)E(Y) - E(X)E(Y) +E(X)E(Y) = E(XY)E(X)E(Y). Wzzw. Dabei wurde die Summenregel für die
Erwartungswerte, die Konstanten-Produktregel und die Tatsache
angewandt, dass E(X) und E(Y) selbst Konstanten sind.
Denn: Nach Definition gilt Cov(X, X)=E (X – E(X)) (X-E(X)) =
E (X – E(X))2 = Var(X) nach Definition der Varianz. Wzzw.
Denn: Nach Definition gilt Cov(X, k)=E (X – E(X)) (k-E(k)) =
E (X – E(X)) (k- k ) = 0; Denn der Erwartungswert einer
Konstanten ist gleich der Konstanten (k = E(k)). Wzzw.
Da in diesem Abschnitt immer wieder Linearkombinationen verwendet werden, werden zwei Linearkombinationen vorangestellt:
Skriptum Statistische Datenanalyse I WS 04/05
Die hier betrachteten
Linearkombinationen
sind gewichtete
Summen von
Zufallsvariablen; die
Gewichte sind fest
(konstant).
Lx=a0+a1X1+a2X2+…+amXm
Ly=b0+b1Y1+b2Y2+…+bnYn
wobei alle ai und bj
Konstanten, alle Xi und Yj
Zufallsvariablen sind.
Seite 37
Beispiel: Die Differenz zweier Zufallsvariablen X1 – X2 ist als
Linearkombination darstellbar durch die Wahl von a0 als 0, a1 als
1 und a2 als -1.
Beispiel: Im Rahmen linearer Modelle kann eine
Regressionsgleichung als Linearkombination interpretiert werden:
Y= a0+a1X + U, mit Y als Prädikand und X als Prädiktor; U sei
die Störgröße (X sei ein stochastischer Prädiktor). Die
Koeffizienten sind konstante Größen.
Regel für die Kovarianz zweier Linearkombinationen
Die Kovarianz zweier
Linearkombinationen ist Cov(a +a X +a X +…+a X , b +b Y +b Y +…+b Y ) =
0
1 1
2 2
m m
0
1 1
2 2
n n
die Summe aller produkta1b1Cov(X1,Y1)+ a1b2Cov(X1,Y2)+ ... + a1bnCov(X1,Yn)+
gewichteten Kovarianzen
der Variablenpaare.
+a2b1Cov(X2,Y1)+ a2b2Cov(X2,Y2)+ ... + a2bnCov(X2,Yn)+
…
…
.… …
+amb1Cov(Xm,Y1)+ amb2Cov(Xm,Y2)+ ... + ambnCov(Xm,Yn)
b1Y1
b2Y2
…
bnYn
a1
a2
…
am
X1
X2
…
X3
Spezialfälle
Die Kovarianz einer Variablen mit einer
Cov(X , b0+b1Y1+b2Y2+..+bnYn ) = b1Cov(X ,Y1)+b2Cov(X ,Y2)+..+bnCov(X ,Yn )
Linearkombination.
Die Kovarianz einer VariCov(X , Y1+Y2+…+Yn ) = Cov(X ,Y1)+ Cov(X ,Y2)+…+ Cov(X ,Yn )
ablen mit einer Summe.
Wie schon erwähnt ist die Varianz einer Variablen gleich der Kovarianz dieser Variablen mit sich selbst.
Dies gilt auch für Linearkombinationen:
Die Kovarianz zweier
gleicher
Linearkombinationen
Var(X1-X2)=Cov(X1-X2 , X1-X2 )
=
Cov(X1,X1)Cov(X1,X2)X1
-Cov(X2,X1)+
Cov(X2,X2)
-X2
X1
-X2
= Cov(X1,X1) + Cov(X2,X2) - 2Cov(X1,X2) = Var(X1) + Var(X2) - 2Cov(X1,X2) =
= Var(X1) + Var(X2) wenn X1 und X2 nicht kovariieren.
Var(X1+X2) = Cov(X1+X2, X1+X2) = Var(X1) + Var(X2) + 2Cov(X1,X2)
Die Kovarianz ist Null, wenn beide Variablen nicht korrelieren. In diesem Fall ist
die Varianz einer Summe zweier Variablen gleich deren Differenz.
Varianz einer
Regressionsgleichung mit
zwei Prädiktoren
Var(Y) = Var(a0+a1X1+a2X2+ε) = Cov(a0+a1X1+a2X2+ε, a0+a1X1+a2X2+ε )
a1 2 Cov(X1,X1)+ a1a2Cov(X1,X2)+
+a1a2Cov(X2,X1)+ a22 Cov(X2,X2)+
+a1Cov(Xm,ε)+
a2Cov(ε,Y2)+
a1X1
a2X2
a1Cov(X1,ε)+
a2Cov(X2,ε)+
Cov(ε,ε)
ε
=
a 1 X1
a 2 X2
ε
= a1 2 Var(X1) + a22 Var(X2) + 2a1a2 Cov(X1,X2) + Var(ε)
Die Kovarianzen einer Prädiktorvariablen mit einer Störgröße sind gleich Null, weil
sie nicht korrelieren.
Dieses Ergebnis erhält man auch unter Anwendung der Pfadregeln in einem
Pfaddiagramm:
Skriptum Statistische Datenanalyse I WS 04/05
a1
X1
Seite 38
a1
Cov(X1,X2)
ε
a2
X2
Var(Y) = Cov (Y, Y`) =
= a1 2 Var(X1) + a22 Var(X2) +
+ 2a1a2 Cov(X1,X2) + Var(ε)
Y
a2
Y`
5.2 Partielle, semipartielle und multiple Korelationskoeffizienten
Hat man mehrere Prädiktoren, kann man verschiedene Erklärungsmodelle einführen. Davon abhängig ist es
möglich verschieden PRE-Maße zu konstruieren: Partielle, semipartielle und multiple Korrelationskoeffizienten.
5.2.1 Spezialfall: Modell mit zwei Prädiktoren
F(-)
y
FR(x2)
FR( x1)
F(x1)
y=a(y)
x2
x1
F(x2)
y = a + b2x2
y = a + b1x1
FR(x1, x2)
FR(x2|x1)
y = a + b1x1 + b2x2
FR(x1|x2)
x1,x2
F(x1,x2)
Die Prädiktion von y kann durch mehrere
Erklärungsmodelle erfolgen: durch eine
Konstante (dem Mittelwert von y), durch
jeweils eine Prädiktorvariable getrennt,
oder durch beide Prädiktoren gemeinsam.
Jedes Modell kann allerdings nicht
vollständig die Variabilität von y erklären,
es verbleibt ein Fehler (F). Allerdings kann
dieser Fehler reduziert werden, wobei die
Größe der Fehlerreduktion (FR) vom
verwendeten Modell abhängt. Die
Fehlerreduktion ist die Differenz zwischen
dem Fehler ohne Berücksichtigung von x
und dem Fehler des jeweiligen
Erlärugsmodell.
Die Fehlerreduktion durch eine Variable unter Bedingung der zweiten drückt die zusätzliche Verbesserung in der
Prädiktion aus, die erreicht werden kann, wenn man zusätzlich zu einer Prädiktorvariable eine weitere zur
Prädiktion ins Spiel bringt.
Darauf aufbauend lassen sich verschiedene Korrelationskoeffizienten konstruieren:
Determinationskoeffizient 2. Art: FR(x1)/F(-) bzw. FR(x2)/F(-)
Semipartielle Korelationskoeffizient: FR(x2|x1)/F(-) bzw. FR(x1|x2)/F(-)
Partielle Korrelationskoeffizient: FR(x2|x1)/F(x1) bzw. FR(x1|x2)/F(x2)
Multiple Korrelationskoeffizient: FR(x1, x2)/F(-)
5.2.2 Ballantines
Von J. Cohen entwickelt bieten die sogn. Ballantines eine Möglichkeit, die obigen Korrelationskoeffizienten
durch Venn-Diagramme auszudrücken. Dies soll exemplarisch mit zwei Prädiktoren X 1 und X1 für Y vorgeführt
werden (Notation s. unten):
Skriptum Statistische Datenanalyse I WS 04/05
r2y x1 = a + c
r2y x2 = b + c
Y
e
mr2yx1, x2 = a + b + c
sr2y(x1.x2) = a
sr2y(x2.x1) = b
b
a
Seite 39
c
X1
pr2y(x1.x2) = a/(a+e)
pr2y(x1.x2) = b/(b+e)
X2
Partieller und semipartieller Korrelation bei zwei Prädiktoren x und z für y kann aus den Korrelationen zwischen
diesen drei Variablen errechnet werden:
sry(x.z) =
r yx  r yz rxz
; pry(x.z) =
2
1  rxz
ryx  ryz rxz
2
2
(1  ryz
)(1  rxz
)
5.2.3 Verallgemeinerung
Bis jetzt wurden Determinationskoeffizient 2. Art, der semi- und der partielle, sowie der multiple
Korelationskoeffizient nur anhand von zwei Prädiktoren erläutert. Prinzipiell können diese Koeffizienten aber in
einem Modell mit beliebig vielen Prädiktoren errechnet werden. Deshalb sollen ihrer Formeln verallgemeinert
werden:
Gegeben: m Prädiktoren für einen Prädikant, Fehler ohne Berücksichtigung von X Fy(-), Fehler bei Prädiktion
mit einem Prädiktor xi Fy(xi), Fehler bei der Prädiktion durch m-1 Prädiktoren Fy(x1, x2, ..., xm-1), Fehler bei der
Prädiktion durch m Prädiktoren Fy(x1, x2, ..., xm-1, xm)
Determinationskoeffizient 1. Art:
r2yxi =
Fy ()  Fy ( xi)
FY ()
= 1
Fy ( xi)
FY ()
Partieller Korrelationskoeffizient:
pr2y(xm.x1,x2,…,xm-1) =
Fy ( x1, x2 ,..., xm1)  Fy ( x1, x2 ,..., xm1, xm )
FY ( x1, x2 ,..., xm1)
= 1
Fy ( x1, x2 ,..., xm1, xm )
FY ( x1, x2 ,..., xm1)
Semipartieller Korrelationskoeffizient:
sr2y(xm.x1,x2,…,xm-1) =
Fy ( x1, x2 ,..., xm1)  Fy ( x1, x2 ,..., xm1, xm )
FY ()
Multiper Korrelationskoeffizient :
mr2yx1,x2,…,xm =
Fy ()  Fy ( x1, x2 ,..., xm1, xm )
FY ()
= 1
Fy ( x1, x2 ,..., xm1, xm )
FY ()
Additive und multiplikative Verknüpfung (am Beispiel von vier Prädiktorvariablen s, x, w, z für y):
mr2ys,x,w,z =
Fy ()  Fy ( s, x, w, z )
FY ()
=
Fy ()  Fy (s)
FY ()
+
Fy (s)  Fy (s, x)
FY ()
+
Fy (s, x)  Fy (s, x, w)
FY ()
+
Fy (s, x, w)  Fy (s, x, w, z )
FY ()
= r2ys +
+ sr2y(x.s) + sr2y(w.sx) + sr2y(z.sxw)
1- mr2ys,x,w,z =
Fy ( s, x, w, z )
FY ()
=
Fy ( s) Fy ( s, x) Fy ( s, x, w) Fy ( s, x, w, z )
Fy () Fy ( s) Fy ( s, x) Fy ( s, x, w)
= (1- r2ys) (1- pr2y(x.s)) (1- pr2y(w.sx)) (1- pr2y(z.sxw))
Skriptum Statistische Datenanalyse I WS 04/05
Seite 40
5.2.4 Behandlung von Drittvariablen
Gegeben seien zwei Variablen x, y und eine Drittvariable z (Annahme: alle Variablen standartisiert):
Mediation durch z:
a
x
b
z
Hier ist z Mediator. Ist c gleich Null spricht man von z als strikten
Mediator. Ob dies der Fall ist, kann man auf mehre Arten herausfinden.
Eine Möglicheit besteht darin, die partielle Korrelation zwischen x und y
unter Konstanthaltung von z zu errechnen. Diese wird Null, wenn c Null
y
c
ist: pry(x.z) =
rxy  ryz rxz
=
2
2
(1  ryz
)(1  rxz
)
(c  b  a)  a  (b  c  a)
..........
= 0 wenn c = 0
Intervenierende Variablen:
z
Lazersfeld bezeichnet Mediatoren als sogenannte intervenierende
Variablen, in Abgrenzung zu antezedierenden (zeitlich vorgelagerte)
Variablen. Hier ist z antezedierend.
y
x
Scheinkorrelation:
Obwohl x und y keinen direkten Einfluss aufeinander haben, korrelieren sie trotzdem.
Man spricht hier von einer Scheinkorrelation, die durch z vermittelt wird. Eine
Scheinkorrelation ist nachzuweisen, wenn die partielle Korrelation zwischen x und
y unter Konstanthaltung von z Null wird. Das muss sie, weil
y
a
z
b
x
pry(x.z) =
rxy  ryz rxz
2
2
(1  ryz
)(1  rxz
)
=
(b  a)  a  b
..........
=0
Moderatoreffekt:
α0
a
α1
x
Wenn z in der Lage ist, den Einfluss von x auf z zu beeinflussen, dann ist z
ein Moderator dieser Beziehung.
y
b
γ
Die dazugehörigen Gleichungen sind:
y = a + bx; b = β + γz; a = α0 + α1z
β
z
eingesetzt in y:
y = α0 + α1z + βx + γxz
In diesem Modell ist eine Produktvariable (γxz) enthalten, dadurch ist es
nicht mehr linear.
5.3 Spezifikationsanalyse
Wenn man aus einem Regressionsmodell Variblen weglässt, muss man die neuen Regressionskoeffizienten
anpassen, indem man sie aus den alten mittels der Pfadregeln errrechnet. Dies soll an einem theoretischen
Beispiel vorgeführt werden, ein Modell mit fünf Prädiktoren wird auf ein Modell mit zwei Prädiktoren reduziert:
β1
x1
γ14
y
β2
γ13
x2
γ15
γ23
γ24
γ25
δ1
x1
y
δ2
β3
x3
x2
β4
x4
β5
δ1 = β1 + β3 γ13 + β4 γ14 + β5 γ15
δ2 = β2 + β3 γ23 + β4 γ24 + β5 γ25
x5
Die neuen Pfadkoeffizienten sind gleich den alten, wenn es keinen direkten Einflusszwischen den x-Variablen
gibt (γ’s = 0) oder die weggelassenen X-Variablen keinen direkten Einfluss auf y haben (β3,4,5 = 0).
Skriptum Statistische Datenanalyse I WS 04/05
Seite 41
Die Regressionsgleichungen von der verbleibenden Variablen als Regressoren (im Beispiel x1 und x2 ) auf die
Regressanden (im Beispiel x3, x4 und x5) heißen Hilfsregressionen:
x3= γ03+ x1 γ13 + x2 γ23 + v3.
x4= γ04+ x1 γ14 + x2 γ24 + v4.
x5= γ05+ x1 γ15 + x2 γ25 + v5.
5.4 Robustheitsanalyse
Die Robustheitsanalyse untersucht, was passiert, wenn man nicht Variablen (wie in der Spezifikationsanalyse)
sondern Messwerte weglässt. Bei einer Regressionsanalyse kann ein starker Ausreißer nämlich einen starken
Einfluss auf eine Schätzgerade haben. Im schlimmsten Fall hängen die Parameter der geschätzte Gerade nur von
ihm ab. Zu bemerken ist noch, dass bei einem beliebigen Wertepaar im Streudiagramm nur eine Änderung in yAusrichtung die geschätzte Gerade verändert, eine Veränderung in x-Ausrichtung nicht. Dementsprechend
betrachtet man nur die y-Ausrichtung von Ausreißern.
Eine Möglichkeit den Einfluss eines Wertes allgemein auf die Parameter einer Regressionsgerade abzuschätzen
bilden die sogenannten Hats. Sie beschreiben bei einem Wertepaar im Streudiagramm die Auswirkung einer
Änderung von y auf den durch die Gerade geschätzten Wert von y: hi(y)  pij =
yˆ i
yi
. Die Grenzen von hi(y)
liegen zwischen eingeschlossen 0 und 1, hat die Gerade einen Intercept unterschiedlich von Null, liegen die
Grenzen zwischen eingeschlossen 1/n und 1.  hi = Anzahl der Variablen (=k) –1.
Eine andere Möglichkeit den Einfluss eines Wertes auf eine Schätzgeraden zu bestimmen, ist Cook`s Di. Dieses
Maß beschreibt, wie einflussreich ein Punkt im Streudiagramm auf alle prädizierten Werte (bzw. die
Schätzgerade) ist.
Als Richtwert für den Einfluss eines Wertes lässt sich sagen: Ist D i > 1 oder hi >
2(k  1)
n
, dann schätzt man ihn
als gefährlichen Ausreißer ein.
5.5 Zweifaktorielle Varianzanalyse
Bei der einfaktoriellen Varianzanalyse wurden die Mittelwerte der Gruppen verglichen, wobei die Gruppen
durch die Ausprägungen eines Merkmals entstehen. Im Rahmen der Varianzanalyse wird ein qualitatives
Merkmal als Faktor bezeichnet, die Ausprägungen werden Stufen des Faktors genannt. In diesem Kapitel werden
zuerst unverbundene, dann verbundene Gruppen betrachtet.
5.5.1 Zweifaktorielle Varianzanalyse mit unverbundenen Gruppen
Die Modellkonzeption der zweifaktorielle Varianzanalyse mit unverbundenen Gruppen soll hier anhand eines
Einführungsbeispiels erläutert werden. Als Beispiel wird das Einkommen gewählt, in Abhängigkeit von
Geschlecht (Faktor a; 1= m, 2 = w) und Wohnsituation (Faktor b; 1 = daheim, 2 = WG, 3 = privat).
Haupteffekte:
Gesucht ist eine additive
Ausgangslage seien
Populationsmittelwerte:
Darstellung der
Mittelwerte aus
Summanden, die den
b
tatsächlichen Mittelwerten in
1
2
3
der Population möglichst
a
1  11  12  13
nahe kommt. (Nur Effekte
2  21  22  23
der Stufen der Faktoren
1
2
3
sollen addiert werden, nicht
Kombinationselemente!)
Als Ausgangslage seien
Stichprobenmittelwerte des
Einkommensbeispiels gewählt:
b
 1
 2

a
1
2
1
2
3
6
6
7
9
8
9
7
8
6
8
8.5
7.5
Skriptum Statistische Datenanalyse I WS 04/05
Seite 42
Eine mögliche Wahl für die
Als 1 kann ( 1-) , als 2 kann ( 2Konstante  ist die Wahl des ) gewählt werden; als 1 kann (1 -)
Gesamtmittelwerts; zur
gewählt werden usw.
Konstanten  können von
b
beiden Rändern her ’s (vom
1
2
3
Zeilenrand) und ’s (vom
a 1  + 1+ 1  + 1+ 2  + 1+ 3 1
Spaltenrand) addiert werden.
2  + 2+ 1  + 2+ 2  + 2+ 3 2
So entsteht die rein additive

1
2
3
Darstellung
(Rekonstruktion) der
Mittelwerte.
Es gelten hier die symmetrischen
Restriktionen:
1+ 2=0 und 1+ 2+ 3 =0.
Auf Grund der additiven
Rekonstruktion von den
Rändern her müssen die
Linien, die diese
rekonstruierten Mittelwerte
im Streudiagramm
verbinden, parallele Linien
sein.
Da zu jedem  + j einerseits
konstant für jede Ausprägung von a
eine bestimmte Größe (i) addiert
wird, entstehen parallele Linien für
jede a-Ausprägung.
Daher im Beispiel: 1=7 – 7.5= -0.5.
2=8 – 7.5= 0.5. 1 = 6 – 7.5 = -1.5
usw.
b
a
1
2
1
2
3
5.5
6.5
7.5
8.5
8
9
-0.5
0.5
-1.5
0.5
1
7.5
-0.5+ 0.5=0 und -1.5 + 0.5 + 1 =0
10
9
8
7
6
5
Daheim
WG
Privat
Die Effekte, die pro Stufe eines Faktors definiert werden, heißen Haupteffekte. Die ’s und ’s werden auch als
Effektgrößen bezeichnet. Sie sind als Parameter der Population gedacht, die in einer Stichprobe zu schätzen sind.
Interaktionseffekte
Da die Summe der Haupteffekte (plus Konstante) meist die Zellmittelwerte nicht vollständig rekonstruieren
können, werden zusätzlich so genannte Interaktionseffekte definiert.
Die Interaktionseffekte
sind die Differenz der
Zellmittelwerte zum rein
additiven Modell (Summe
von Haupteffekten und
Konstante).
b
1
a
2
b
3
Summe
 11- ( +  12- ( +  13 - ( +
1
1+ 1)
1+ 2)
1+ 3)
0
 21- ( +  12 - ( +  13 - ( +
2+ 1)
2+ 2)
2+ 3)
0
2
Summe
0
0
1
2
3
Summe
1
11
12
13
0
2
21
22
23
0
0
0
0
Summe
2
3
1 6 -5.5 7-7.5
2 8 -6.5 9-8.5
8-8
9-9
b
b
a
a
0
Zeilenrandsummen und
Spaltenrandsummen sind hier gleich
null.
Bezeichnung der Interaktionseffekte: Damit nicht
zusätzliche neue Symbole
eingeführt werden müssen,
werden sie meist durch die
Kombination der
Haupteffektbuchstaben
bezeichnet.
1
1
=
2
a 1 0.5 -0.5
2 1,5 0.5
3
0
0
Beachte ABER: αβij stellt nicht ein
Produkt aus  und  dar, sondern ist
nur ein kombiniertes Symbol!
Die ()’s werden auch als Effektgrößen bezeichnet. Wie die Haupteffektgrößen sind auch sie als Parameter der
Population gedacht, die in der Stichprobe zu schätzen sind.
Modellgleichung des linearen Modells
Das lineare Modell zur Darstellung der Zellmittelwerte kann nun als Summe von Effekten geschrieben werden:
μij = μ + αi + βj + (αβ)ij
Der konkrete Wert für die υ-te Person in der Zelle ij denkt man sich in seiner Entstehung folgendermaßen:
Skriptum Statistische Datenanalyse I WS 04/05
Seite 43
yijυ = μij + εijυ
Obige Gleichung eingesetzt ergibt die Modellgleichung für den Messwert einer Person:
yijυ = μ + αi + βj + (αβ)ij + εijυ
5.5.2 Zweifaktorielle Varianzanalyse mit Messwiederholung (repeated measurement)
Bis jetzt wurde nur der Fall betrachtet, dass für jede Faktorausprägung unverbundene Stichproben gewählt
wurden. Allerdings ist es auch möglich, innerhalb eines Faktors verbundene Stichproben zu erheben (diesen
Faktor bezeichnet man als repeated factor), d. h. konkret: man teilt die Versuchspersonen in mehrere Gruppen
(deshalb Gruppenfaktor) auf und erhebt in jeder Gruppe mehrmals die abhängige Variable. Verbundene
Stichproben haben den Vorteil, dass Unterschiede in der abhängigen Variable nicht auf Unterschiede in den
Stichproben zurückgeführt werden können: die Personen bleiben ja dieselben in den verschiedenen Gruppen.
Möglicher Nachteil können z. B. Lerneffekte sein.
Die Entstehung eines Messwertes bei einer Person unter einer bestimmten Bedingung (1) konzipiert man in
diesem Modell so:
yi1 = α1x1 + α2x2 + … + εi1
Viele individuelle Variablen und eine Störgröße zusammen erzeugen den Messwert.
Führt man nun ein experimentelles treatment C (Bedingung 2) durch, entsteht in der Modellvorstellung der
Messwert so:
yi2 = α1x1 + α2x2 + … + εi2 + C
Der Term α1x1 + α2x2 + … bezeichnet die „Individualität“ der Person und wird mit πi abgekürzt. Dieser Faktor
bleibt über alle Messwiederholungen gleich. Er ist zufällig, er hat eine Verteilung, und man bezeichnet ihn
deshalb auch als Zufallsfaktor oder random factor.
Von Messung zu Messung unterscheidet sich die Enstehung des Messwertes also nur aufgrund des
experimentellen treatments und der Störgröße ε:
yi1 - yi2 = C + ε
Modellgleichung des linearen Modells mit einem Wiederholungsfaktor:
Das lineare Modell mit einem Gruppenfaktor und einem repeated Faktor bezieht den Personenfaktor mit ein. Der
Messwert für die υ-te Person in der i-ten Gruppe unter der j-ten Bedingung lautet:
yijυ(i) = μ + αi + πυ(i) + βj + (αβ)ij + (πβ)υ(i)j + εijυ(i)
Der Ausdruck υ(i) bedeutet, dass die Personen nach Gruppen ge-„nested“ sind, d. h. innerhalb einer Gruppe
bleiben die Personen über die Messwiederholungen gleich. Man spricht hier auch von Verschachtelung nach
Gruppen. Die Interaktion (πβ)υ(i)j ist problematisch: Da pro Zeitpunkt in einer Gruppe für eine Person nur ein
Messwert erhoben werden kann, ist diese Größe vom Fehler εijυ(i) nicht zu unterscheiden. Man zieht beide
Größen deshalb zusammen.
Erweiterung des Modells auf zwei repeated Faktoren:
Die Modellgleichung für zwei repeated Faktoren lautet:
yijυ = μ + πυ + αi + (πα)υi + βj + (πβ)υj + (αβ)ij + (παβ)υij + εijυ
Problematisch ist wiederum die Interaktion (παβ)υij, sie ist nicht fassbar, weil von εijυ nicht zu trennen.
Praktisch bedeutet dieses Design, dass die Versuchspersonen in jeder Gruppe und unter jeder Messbedingung
dieselben sind.
Ergänzung: Eine Varianzanalyse mit mehreren abhängigen Variablen bezeichnet man als MANOVA.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 44
5.6 Haupteffekt und Interaktion
5.5.1 Unterschied zwischen Haupteffekt und Interaktion
Anhand eines theoretischen Beispiels mit zwei Faktoren, welche jeweils zwei Ausprägungen haben, soll der
Unterschied zwischen Haupteffekt und Interaktion aufgezeigt werden. Die Abhängige Variable ist y. Die
aufgetragenen Messwerte muss man sich als Gruppenmittelwerte vorstellen:
Ein Haupteffekt ist dadurch gekennzeichnet, die Verbindungslinien
zwischen den Mittelwerten im Diagramm parallel verlaufen. Dies ist der
Fall, wenn die Differenzen zwischen den Mittelwerten gleich sind.
y
Dies ist der klassische Fall für eine Interaktion. Sie ist dadurch
charakterisiert, dass die Linien nicht mehr parallel verlaufen.
y
Auch wenn bereits eine Interaktion besteht, ist es gut möglich, dass
zusätzlich noch ein Haupteffekt für jeden Faktor vorliegt. Diesen kann
man bestimmen, indem man den anderen Faktor nicht berücksichtigt, und
die Gesamtmittelwerte in den einzelnen Ausprägungen des anderen
Faktors bildet.
y
5.6.2 Interaktionsmuster
Nicht immer ist es bei einer Interaktion möglich, noch zusätzlich einen Haupteffekt interpretieren zu können.
Dies soll an einem Beispiel mit zwei Faktoren erläutert werden, wobei der eine Faktor (a) zwei Ausprägungen,
der andere (b) drei besitzt:
y
 a1
 a2
Obwohl hier die Faktoren interagieren, kann man noch einen Haupteffekt
erkennen: der Mittelwert der Faktorausprägung a1 ist größer als der der
Faktorausprägung a2. Eine solche Interaktion bezeichnet man als hybrid.
b
y
Dieser Haupteffekt im Faktor a ist nicht mehr sinnvoll interpretierbar, weil
er zu klein ist.
Die Analysestrategie in mehrfaktoriellen Designs besteht darin, dass man zuerst nach Interaktionseffekten sucht,
die man interpretieren kann. Findet man keine, geht man dazu über nach Haupteffekten zu suchen, die man
deuten könnte.
Skriptum Statistische Datenanalyse I WS 04/05
Seite 45
5.7 Prinzipien der Faktorenanalyse
Modell:
f1
a4
a1
a2
a3
x1
u1
x2
u2
x3
u3
x4
u4
b1
f2
b2
b3
b4
Bei der Faktorenanalyse wird versucht, von gemessenen
Variablen auf diesen zugrundeliegende, latente Faktoren zu
schließen. Korrelieren diese Faktoren nicht miteinander, spricht
man von einer orthogonalen Faktorenanalyse, korrelieren sie,
spricht man von einer schiefwinkligen Faktorenanalyse. Die
Korrelationen zwischen den Faktoren und den Variablen
bezeichnet man als Ladungen, sie entsprechen den
Regressionskoeffizienten. Deren Quadrate entsprechen dem
Anteil an Varianz von x, der durch den Faktor erklärt wird. Die
Störgrößen werden mit u abgekürzt.
Cor(x1, x2) = a1 a2 + b1 b2
Cor(f1,x1) = a1
Alle Variablen sind standartisiert.
Als Kommunalität bezeichnet man den Anteil an Theoretisches Beispiel: Tabelle mit den Faktoren, Variablen
Varianz einer Variable, der durch die
und den Ladungen aus dem obigen Modell:
gemeinsamen Faktoren erklärt wird.
Als Spezifität einer manifesten Variable
f1
f2
Kommunalität
bezeichnet man deren Anteil an Varianz, der nicht
x1
a1
b1
a12 + b12
durch die gemeinsamen Faktoren erklärt wird. Die
x2
a2
b2
a22 + b22
Spezfität einer Variable ist 1 minus deren
x3
a3
b3
a32 + b32
Kommunalität.
x4
a4
b4
a42 + b42
2
2
2
2
Als Eigenwert bezeichnet man die Varianz, die
Eigenwert a1 + a2 + b1 + b2 +
ein Faktor insgesamt in allen Variablen erklärt.
+ a32 + a42 + b32 + b42
Das eigentlich Interessante an der Faktorenanalyse sind die latenten Faktoren. Theoretisch kann man soviel
Faktoren haben wie es manifeste Variablen gibt. Doch will man diese Zahl, wenn möglich, reduzieren. Dazu
werden folgende Möglichkeiten vorgeschlagen:
Ein sehr einfaches Kriterium zur
Hypothetisches Beispiel:
Bestimmung der Faktorenzahl ist das
sogenannte KAISER-Kriterium. Es besagt,
f1
f2
dass man keinen Faktor miteinbeziehen
Eigenwert
2,37
1,76
soll, dessen Eigenwert kleiner als eins ist.
Eine andere Möglichkeit stellt der
Scree-Plot
sogenannte Scree (= Geröll) –Test dar.
2,5
Der Scree sind jene Punkte, die von k
2
(=Anzahl an Faktoren) ausgehend nach
vorne auf einer Geraden liegen. Diese
1,5
Faktoren sollen dann nicht in die Analyse
1
mit einbezogen werden.
f3
0,44
0,5
f4
0,31
f4
0,12
Scree
0
1
2
3
4
5
Eine Interpretation der Faktoren nimmt man vor, indem man untersucht, auf welchen Variablen die Faktoren
besonders hoch laden. Dementsprechend nimmt man dann eine Benennung der einzelnen Faktoren vor.
Bei der Faktorenanalyse sollten echt quantitative Variablen vorhanden sein (mindestens Intervallskalenniveau).
Daneben bietet die Korrespondenzanalyse die Möglichkeit auch qualitative Variablen faktoranalytisch zu
analysieren.
Herunterladen