Stochastik 1 - Fachbereich Mathematik und Statistik

Werbung
————————————————————–
Stochastik 1
——————
Sommersemester 2010
————————————————————–
Dr. rer. nat. Volker Bürkel
private Mitschrift von Johannes Meller
mit einigen Anpassungen für das Sommesemester 2011
Version: 4. Juli 2011
Hinweise:
1. Dieser Text ist eine leicht ¸berarbeitete Mitschrift aus dem Jahr 2010, es ist kein Skript.
2. An einigen Stellen werden sich daher Bezeichnungen und Inhalte von der Vorlesung Sommersemester 2011 unterscheiden. Insbesondere die Nummerierung kann Unterschiede
aufweisen.
3. Der Text enthält noch etliche Tippfehler. Hinweise hierauf sind willkommen.
Besten Dank an Herrn Meller für die aufwändige Arbeit bei der Anfertigung der Mitschrift!
2
Einleitung
0.1 Begriffsdefinition:
0.1.1 Stochastik:
– Teilgebiet der Mathematik
– zielt auf Modellierung und Untersuchung zufälliger Vorgänge
0.1.2 zufällige Vorgänge:
– Geschlecht eines Kindes
stimmbar
Ñ Geschlecht: durch weitere Information vor der Geburt be-
– Schadenssumme einer KFZ-Versicherung Ñ Schadenssumme nicht bestimmbar
– Ergebnis einer Lotterie-Ziehung
praktisch nicht
Ñ theoretisch vorhersagbar per Newtonscher Mechanik,
0.1.3 Wahrscheinlichkeit:
– intuitiv: relative Häufigkeit
– ’Wkt. für Geburt eines Mädchen: 50%’ Ñ rel. Häufigkeit für Mädchengeburt bei
1
2
– ’Wkt., dass Schadenssumme eines KFZ-Versicherungsnehmers =0 ist, liegt bei 90%
Häufigkeit einer Schadenssumme 0 in den vergangenen Jahren lag bei 0,9
Ñ rel.
– die Wkt., dass bei einer Lotterie eine bestimmte Zahl gezogen wird, ist für alle Zahlen gleich
Ñ rel. Häufigkeit ist bei einer Anzahl von Ziehungen für alle Zahlen gleich
0.2 Bestandteile der axiomatischen Wahrscheinlichkeitsmodelle
(mit Heuristik, siehe Jacod / Protter: Probability Essentials)
0.2.1 Ausgangspunkt:
– wir möchten ein ’Zufallsexperiment’ modellieren
a) Stichprobenraum:
Menge, die die möglichen Ergebnisse des Exp. umfasst
übliche Bezeichung: Ω
Bsp.:
- Münzwurf: Ω tK, Z u
- zwei Münzwürfe: Ω tKK, KZ, ZK, ZZ u
- zwei Würfelwürfe: Ω tpn, sq, n, s P N, 1 ¤ n, s ¤ 6u
- Schadensumme eines Versicherungsnehmers: R¥0
- Lotterie 6 aus 49: Ω tpi1 , ..., i6 q, ij
P t1, ..., 49u, j P t1, ..., 6u, ij ik für j ku
3
b) Ereignisse:
Teilmenge des Stichprobenraums
Beispiele:
- Würfel: es wird eine 6 gewürfelt: A t6u „ Ω
- gerade Zahl wird gewürfelt: A t2, 4, 6u, pAC
t1, 3, 5uq
sind A und B Ereignisse, so existziert folgende Interpretation:
- AC ist das Ereignis, dass A nicht eintritt
- A Y B: A oder B tritt ein
- A X B: A und B tritt ein
- Ω: als sicheres Ereignis bezeichnet
-
H : ein unmögliches Ereignis
Familie der beobachtbaren Ereignisse wird mit A bezeichnet (z. B. A P otpΩq, wobei
mit P ot die Potentzmenge bezeichnet wird; diese Gleichheit gilt aber im Allgemeinen
nicht)
Elemente ω
P Ω nennt man Elementarereignisse
um Zufallsexp. geeignet abbilden zu können, sollte A stabil bzgl. der obigen Mengennotationen sein
c) Wahrscheinlichkeit
ist ein Wert aus r0, 1s, den man einem beobachtbaren Ereignis A P A zuordnet
formal: P : A Ñ r0, 1s
wünschenswert:
- sei hn pAq absolute Häufigkeit
- für wiederholtes Exp. sollte gelten:
p q
hn A
n
Ñ P pAq für n Ñ 8
analog gilt für relative Häufigkeit:
- 0 ¤ P p Aq ¤ 1
- P p Ωq 1
- P pA Y B q P pAq
P pB q, falls A X B
H
d) Zufallsvariablen (ZVA):
sind keine Vars, sondern Abbildungen X : Ω Ñ R (oder Rn )
X wäre dann X pi, j q i
Bsp.: Betrachtung der Summe bei zweimaligem Würfelwurf (Ω
6u, A P otpΩq, P pAq #A
36 )
tpi, j q
: 1
¤
i, j
¤
j
mit Hilfe einer ZVA kann eine Wahrscheinlichkeitsstruktur auf den Bildraum von X transportiert werden
X : Ω Ñ R, E
„
R, A X 1 pE q, E
t2u, A t1, 1u, E t3u, A tp1, 2q, p2, 1qu
wir erklären eine Wahrscheinlichkeit auf R durch P
pX 1 pE qq
X pE q : P
loomoon
loooooomoooooon
auf R
PX heißt die Verteilung von X
sei X wie oben (Summe 2x Würfelwurf): PX pt2uq 4
1
36 ,
auf Ω
PX pt3uq 2
36
1 Statistik
Literatur:
– Heiler /Michels: Deskriptive und explorative Datenanalyse
– Hogg /Craig: Introduction to Mathematical Statistics (theoretisch)
– Fahrmeir / Künstler et. al.: Statistik (praktisch)
1.1 Deskriptive und induktive Statistik
1.2 Grundbegriffe, Datentypen und Aufarbeitung
1.2.1 Grundbegriffe, Datentypen:
– Ausgangspunkt ist stets die Untersuchung von verschiedenen Objekten, Personen oder
Phänomenen, über die man Aussagen treffen möchte
– man bezeichnet diese als Untersuchungseinheiten
– die Grundgesamtheit ist die Gesamtheit aller Untersuchungseinheiten
– die Untersuchungseinheiten müssen klar abgegrenzt sein: räumlich, zeitlich und sachlich
– bei Grundgesamtheiten unterscheidet man zwischen Bestandsmassen und Bewegungsmassen
Bestandsmasse: werden zu einem festen Zeitpunkt erfasst (gezählt, gemessen)
Bewegungsmasse: werden stets auf Zeiträume bezogen angegeben
– an den Untersuchungseinheiten (auch statistische Einheiten) interessieren uns bestimmte
Eigenschaften, so genannte Merkmale oder Variablen
– die Menge aller möglichen Merkmalsausprägungen und deren Kombinationen nennen
wir Merkmalsraum
– findet die Erhebung nur für einen Teil der Grundgesamtheit, so spricht man von einer Stichprobe
– erfasst man die Merkmale der Grundgesamtheit, so nennt man dies eine Totalerhebung
(z.B. Volkszählung)
– die Erhebung kann erfolgen durch Befragung, Beobachtung und Experimente
– grundsätzlich unterteilt man die qualitative (artmäßige) und quantitative (zahlenmäßige)
Ausprägung von Merkmalen
– die Menge in der eine Merkmalsausprägung liegen kann, nennt man Skala
Nominalskala: Ausprägungen nicht vegleichbar, z.B. Geschlecht, Haarfarbe
Ordinal- oder Rangskala: Ausprägungen lassen sich sinnvoll in eine Reihenfolge bringen bzw. nach Rängen ordnen, die Differenz von Ausprägungen lässt sich nicht sinnvoll interpretieren, z.B. höchster Bildungsabschluss, Platzierungen bei Wettkämpfen,
Schulnoten
5
metrische Skala: zusätzlich zur Ordinalskala können Abstände gemessen und untersucht werden
- Intervallskala: nur Abstände interpretierbar, keine Verhältnisse, z.B. Temperatur in
°C, Körpergröße
- Verhältnisskala: zur Intervallskala kommt ein natürlicher Nullpunkt hinzu, z.B. Nettomiete, Einkommenshöhe
- Absolutskala: zur Verhältnisskala kommt eine natürliche Einheit hinzu, z.B. Stärke
einer Gruppe, wobei Einheit 1 Person wäre und Nullpunkt ist beschrieben durch
keine Mitglieder
– nominale und ordinale sind qualitativ, metrische sind quantitativ
– quantitative Skalen unterscheidet man in:
stetige Skalen: überabzählbar viele Ausprägungen möglich
diskrete Skalen: diskrete Menge an Ausprägungen
quasistetige Skalen: z.B. rationale als Ausprägungen oder Euro-Beträge
– je nach Anzahl der erworbenen Merkmale unterscheidet man zwischen:
univariaten Daten: ein Merkmal wird erhoben
bivariaten Daten: zwei Merkmale werden erhoben
multivariaten Daten: zwei oder mehr Merkmale werden erhoben
Beispiel: Einkommensverteilung in Frankreich und Deutschland
– Grundgesamtheit ist die Menge aller Einwohner Deutschlands und Frankreichs
– Merkmal: Jahreseinkommen 2009
– je nachdem welche Fragestellung beantwortet werden soll (z.B. Zusammenhang GeschlechtEinkommen) müssen weitere Merkmale erhoben werden
– Viele praktische Probleme (abgesehen von der Erhebung), z. B.:
berücksichtigt man Kleinkinder, illegale Einwanderer?
zählen geldwerte Vorteile?
———————————————
neue Vorlesung
———————————————
1.2.2 Aufbereitung von Daten:
– sei eine Erhebung vom Umfang n gegeben
– für die Untersuchungseinheit i P t1, . . . , nu seien die Ausprägungen der p verschiedenen
Merkmale X1 , ..., Xp gegeben durch xi1 , ..., xip
– diese Daten liegen zunächst in Form von Fragebögen, Experiment-Messreichen, etc vor
und werden Urmaterial genannt
x11 , ..., x1p
..
– sind die Daten als Liste bzw. Matrix
aufgearbeitet, so nennt man dies die Urliste
.
xn1 , ..., xnp
oder Roh- bzw. Pimärdaten
– für stetige Merkmale ist es hierbei immer erforderlich, zu klassierten bzw. zu gruppierten/geschichteten
Daten überzugehen, z.B. durch Gruppierung in Intervalle pc0 , c1 s, pc1 , c2 s, ...
6
– statt der eigentlichen Daten wird dann die Klasse angegeben
– beim Rechnen mit gruppierten Daten wird für eine Gruppe dann ein Vetreter verwendet,
z.B. die Klassenmitte
1.3 Verteilung univariater Daten
1.3.1 Defintion:
– sei eine Urliste einer Erhebung gegeben durch x1 , ..., xn
– die möglichen Ausprägungen des Merkmals seien a1 , ..., ak
: hj : #ti : xi aj u ° 1ta u pxi q als die absolute Häufigkeit der
i 1
h
Ausprägung aj mit f paj q : fj : n als relativer Häufigkeit der Ausprägung aj
– wir bezeichnen hpaj q
n
j
j
Graphische Darstellungen:
– Stabdiagramme, Säulen- und Balkendiagramme, Tortendiagramme (Kreisdiagramme)
1.3.2 Stamm-Blatt-Diagramme (Stem-Leaf-Display)
– Vorgehen:
1) teile Datenbereich ein in Intervalle gleicher Breite d 0, 5x oder d 1x (x - Zehnerpotenz (1, 10, 100)) ein
trage die ersten Ziffern der Werte in jeweilige Intervalle links einer senkrechten Linie ein
(der Größe nach geordnet)
dies ergibt den Stamm
2) runde die betrachteten Werte auf die Stelle nach den Ziffern des Stamms
falls die ersten Ziffern + gerundeter Wert in die nächste Klasse kämen, schneide diese
ab, bzw. belasse die Zahl, z.B. Klasse r250, 300q, Wert 299 wird zu 2|9, nicht zu 3|0
trage diese Ziffern aufsteigend in den entsprechnenden Zeilen rechts des Stammes
ein
das ergibt die Blätter
3) gebe die Einheit in Form eines Beispiels an
Beispiel: (s. Fahrmeir et al.)
– sei n 26 mit folgenden Daten:
77
181
261
359
104 132 158 163 166 170
183 200 210 227 243 255
263 269 276 281 311 343
361 362 400 533
mit min : 77, max : 533
– d 50
7
– erste Ziffer: 100-ter Stelle 249 Ñ 2|4
0
1
1
2
2
3
3
4
4
5
|8
|03
|667788
|0134
|666788
|14
|666
|0
|3
Klassen 200, 250 , 250, 300 , dann ergibt sich z.B.
r
qp
– Einheit: 4|0 400
– Wahl der Klassenbreite: verschiedene Regeln z.B. Anzahl Zeilen
26, log10 26 1, 4
s
10 log10 pnq bzw. n
– wähle Zeilenanzahl von 10: paßt in der Größenordnung zu 1.4 10.
1.3.3 Histogramm:
– gruppiere Ausprägungen in Klassen rc0 , c1 q, ..., rck1 , ck q
– zeichne über rcj 1 , cj q ein Rechteck der Breite dj
cj cj1 und Höhe hd
j
j
oder
fj
dj
– schematisch:
d2
d1
c0
f2/d2
c1
c2
– wählt man als Höhe
c3
fj
dj ,
c4
so ist das Histogramm der Graph der Funktion fnH pxq 1
ndj
n
¸
1rcj1 ,cj q pxl q
l1
loooooooomoooooooon
hj
für x P rcj 1 , cj q
– als Fläche unter dem Histogramm ergibt sich dann:
8³
8
fnH pxqdx k
°
j 1
fj
dj dj
k
°
j 1
fj
1
– das Histogramm wird durch eine Wahl der Klassenzahl und der Klassenbreiten erheblich
beeinflusst
– wenn möglich: bevorzuge gleiche Klassenbreiten (nicht, wenn dann viele dünn-besetzte
Klassen entstehen)
– Faustregeln für die Klassenzahl:
r?ns
?
k 2r ns
k r10 log10 ns
z.B. k
– beachte: im Allgemeinen spielt auch der subjektive Eindruck des Histogramms eine Rolle
8
1.3.4 Defintion:
– Fn pxq :
n
¸
1
n
1p8,xs pxi q i1
loooooooomoooooooon
hpxi ¤xq
– F̃n pxq :
x
³
8
fnH py qdy :
°
¤
fi heißt empirische Verteilungsfunktion
i:xi x
$
'
0
'
'
&j°
1
fl
'
' l1
'
%
fj
x cj 1
dj
1
falls x c0
falls x P rcj 1 , cj q nennt man Summenpolygon
falls x ¥ ck
1.4 Maßzahlen und weitere Darstellungen univariater Daten
1.4.1 Lagemaße:
– beschreiben das Zentrum bzw. den Schwerpunkt einer Verteilung
1) Modus x̄M
häufigster Wert: x̄M
aj , falls hj maxth1 , ..., hk u
bei klassierten Daten: Klasse mit der höchsten Häufigkeitsdichte
repräsentiert durch Klassenmitte: x̄M
c
j
cj 1
2
für
fj
dl
maxt df
l
j
hj
dj
oder
fj
dj
: l 1, ..., k u
der Modus ist nicht notwendig eindeutig
bei Eindeutigkeit spricht man von einer unimodalen Verteilung
2) arithmetisches Mittel x̄
x̄ n1 ° xi bzw. x̄ ° aj fj (klassierte Daten)
i1
j 1
bei geschichteten Daten (k Gruppen, l te Beobachtung in Gruppe j
h
°
xjl
Schicht sei hj die Anzahl der Beobachtungen und x̄j h1
n
k
sei xjl ) pro
j
j
dann ist x̄ k
°
l 1
fj x̄j
j 1
Eigenschaften
brauchen metrische Daten
die Abweichungen der Daten von x̄ summieren sich zu 0, somit gilt
n
°
pxi x̄q 0
i 1
bzw.
n
°
i 1
xi
nx̄
x̄ argmincPR t ° pxi cq2 u
i1
x̄ ist translationsäquivariant, d.h. für yi axi b mit a, b P R, so ist ȳ ax̄
x̄ ist ausreißeranfällig: 1, 2, 3, 4, 10 Ñ x̄ 4 bzw. 1, 2, 3, 4, 100 Ñ x̄ 22
n
b
———————————————
neue Vorlesung
———————————————
9
3) Geometrisches Mittel x̄g
– sei x1 , ..., xn metrisch skaliert und ¡ 0
p ± xi q
n
– x̄g
1
n
p ± ahj q
k
bzw. x̄g
i 1
j
1
n
für klassierte Daten, z.B. Wachstumsraten
j 1
4) Harmonisches Mittel x̄h
– seien die xi wie in 3)
– x̄h
n
bzw. x̄h
n
°
1
xi
i1
k
°k hj für klassierte Daten
a
j 1 j
– Beispiel: Durchschnittsgeschwindigkeit (100km/h Hinweg, 80 Rück –> 88,8 im Schnitt)
5) Median x̃:
– Rang: ordnet man die Urliste eines mindestens ordinal ausgeprägten Merkmals in aufsteigender Reihenfolge, so erhält man die geordnete Urliste xp1q ¤ xp2q ¤ ... ¤ xpnq wobei xp1q
die kleinste und xpnq die größte Ausprägung ist
– Man nennt xpiq die i-te Ordnungsstatistik
– Der Rang Rpxj q einer Beobachtung ist definiert durch Rpxj q i, falls xj
xpiq
– treten gleiche Merkmalsausprägungen, sog. Bindungen, so ist der Rang nicht eindeutig
definiert
– die Tiefe dpj q einer Beobachtung xj ist der minimale Abstand (in Rängen) zu den Extremwerten xp1q und xpnq , also der Abstand vom Rand bei einer geordneten Liste
xpiq , dann ist dpxj q dpxpiq q minti, n i
Beispiel: x1 3, x2 1, x3 5 Ñ xp1q 1, xp2q 3, xp3q 5
1u
– genauer: wenn xj
–
– der Median ist erklärt als x̃ #
xp n
1
2
p xp
2
1
q
q
n
2
xp n2
1q q
falls n ungerade
falls n gerade
– Eigenschaften:
für ungerades n hat x̃ die maximale Tiefe, für gerades n ist x̃ das arithmetische Mittel
der Ausprägungen mit maximaler Tiefe
x̃ ist translationsäquivariant, d.h. yi
axi
b Ñ ỹ
ax̃
b für a, b P R und a 0
H pxi q Ñ ỹ H px̃q
x̃ ist resistent gegenüber Ausreißern (robust), d.h. für n ¡ 2 gilt: x̃ bleibt konstant für
xn Ñ 8
n
°
|xi c|u
x̃ löst das Minimierungsproblem min
t
cPR i1
mindestens 50% der Beobachtungen sind ¤ x̃, mindestens 50% sind ¥ x̃
klassierte Daten: siehe Quantile
allgemeiner: falls H monoton und n ungerade, so gilt: yi
10
6) Quantile:
– sei α P p0, 1q, dann ist ein empirisches α-Quantil von x1 , ..., xn jede Zahl x̃α , sodass mindestens α 100% der Daten ¤ x̃α sind und p1 αq 100% der Daten ¥ x̃α sind
– für nα P N ist jede Zahl aus rxpnαq , xpnα
q s ein empirisches α-Quantil
1
– für praktische
Berechnungen legt man sich wie folgt fest:
#
x
falls nα nicht ganzzahlig
x̃α : 1 prnαs 1q
p
x
x
q
falls
nα ganzzahlig
pnαq
pnα 1q
2
–
rs-Gaußklammern, Zahlen werden auf ganze Werte abgerundet
– der Median ist somit also das 0, 5-Quantil
– für klassierte Daten:
wähle x̃α so, dass x̃α minimal ist unter den ξ mit der Eigenschaft F̃n pξ q
menpolygon)
ist α gegeben, bestimme j, sodass
für x P rcj 1 , cj q ist dann F̃n pxq F̃n pcj 1 q
j°1
fl
l 1
α¤
fj
j
°
α (F̃n - Sum-
fl
l 1
x cj 1
dj
! α führt auf x̃
α
cj1
dj
αF̃ fpc q
n
j
1
j
7) 5-Punkte-Zusammenfassung:
– man nennt x̃0,25 das untere Quartil, x̃0,75 das obere Quartil
– die Differenz dQ : x̃0,75 x̃0,25 nennt man den Interquantilsabstand, die Größe Sp : xpnq xp1q nennt man Spannweite
8) Schiefe:
Y Axis
linkssteil
rechtsschief
X Axis
Indikation für Rechtsschiefe: x̄M
x̃ x̄
11
rechtssteil
Y Axis
linksschief
X Axis
Indikation für Linksschiefe: x̄M
¡ x̃ ¡ x̄
9) Box-Plot:
– definiere zunächst zu : x̃0,25 1, 5dQ (unterer Zaun) und zo : x̃0,75
1, 5dQ (oberer Zaun)
Whiskers
Beob. außerhalb
der Zäune
kleinste Beob. ≥ zu
größte Beob. ≤ zo
Y Axis
Beob. außerhalb
der Zäune
zu
\tilde{x}0,25
\tilde{x} \tilde{x}0,75
X Axis
zo
– Vorgehen:
1) zeichne eine Box, die bei x̃0,25 beginnt und bei x̃0,75 endet und trage dann den Median als Linie ein
2) ziehe eine Linie vom linken Rand der Box zur kleinsten Beobachtung ¥ zu und vom
rechten Rand zur größten Beobachtung ¤ zo (diese Linien nennt man Whiskers)
3) Werte außerhalb der Zäune werden individuell durch Punkte abgetragen
aüßere Zäune: x̃0,75 3dQ , x̃0,75
3dQ
Werte außerhalb der äußeren Zäune (Fernpunkte) werden zum Teil nicht abgetragen
1.5 Steumaße
1.5.1 Empirische Varianz
– es ist σ 2
n1
n
°
i 1
pxi x̄q2 bzw. σ2 n1
k
°
j 1
hj paj
12
x̄q2 für klassierte Daten
– die empirische Standardabweichung σ ist gegeben durch σ
– Stichprobenvarianz s2 : s2
– offensichtlich: s2
n
°
pxi x̄q2 , s2 n1 1
i 1
k
°
j 1
hj paj
?
σ2
x̄q2
nn 1 σ2
– Eigenschaften:
n1 1
für a, b P R und yi
axi
b gilt:
a2 σx2 , σy |a|σx
s2y a2 s2x , sy |a|sx
σy2
x2i x̄2 , bzw. σ 2
σ2
entsprechend: s2
n1
n
°
i 1
n
°
beachte:
n1 1
pxi cq2 i 1
n1
n
°
i 1
n
°
k
°
j 1
x2i x̄2
a2j hj
n
2
n 1 x̄
pxi x̄q2
npx̄ cq2 , setze c 0
i 1
für geschichtete Daten:
- xjl : l-te Beobachtung in Schicht j
- nj : Anzahl der Werte in Schicht j
- x̄j :
l=2
1
nj
nj
°
l 1
xjl , fj :
nj
2
n , σj
n1
j
nj
°
pxjl x̄j q2
l 1
l=4
x
l=1
j=1
j=2
j=3
...
j=n
wir haben dann folgende Streuungszerlegung:
σ2
l=3
n1
n
°
k
¸
pxi x̄q2 k
¸
fj σj2
x̄q2
j 1
looomooon
jloooooooomoooooooon
1
Streuung innerhalb der Schichten
Streuung zwischen den Schichten
i 1
fj px̄j
Varianz und SD werden von Ausreißern stark beeinflusst
für standard-normal-verteilte Daten hat man für große n
rx̄ σ, x̄ σs - beinhaltet 68% aller Daten
rx̄ 2σ, x̄ 2σs - beinhaltet 95% aller Daten
rx̄ 3σ, x̄ 3σs - beinhaltet 99% aller Daten
———————————————
neue Vorlesung
———————————————
1.5.2 Mittlere Absolute Abweichung
– dx̃ :
1
n
n
°
i 1
|xi x̃| bzw. dx̃ n1
k
°
j 1
hj |aj
x̃| für klassierte Daten
13
1.5.3 Absolute Abweichung vom Median ( „MAD“):
– MAD : Mediant|xi x̃| : i 1, ..., nu
– Bsp.:
Beobachtungen: 1, 9, 17, 33, 50, 61
x̃ 17 2 33 25
i |xi x̃| Rang|xi x̃|
1
24
p4q
2
16
p3q
3
8
p1q
4
8
p2q
5
25
p5q
6
36
p6q
somit MAD p3q 2 p4q 24 2 16 20
– prinzipieller Ablauf:
Berechnung des normalen Medians
Berechnung von |xi x̃|
Bestimmung der Ränge der Ergebnisse
Medianbildung dieser Werte
1.5.4 Quantilsabstände:
– für α P p0, 12 q ist der zugehörige Quantilsabstand erklärt durch x̃1α x̃α
1.5.5 Varationskoeffizient:
– ν :
σ
x̄
für x̄ ¡ 0 und nicht-negative Ausprägungen xi
1.5.6 Quartilsdispersitionskoeffizient:
x̃
x̃
– QDK: 0,75 0,25
x̃0,75 x̃0,25
1.6 Kennzahlen für Schiefe und Wölbung:
– ’Schiefe’: liegen die Daten symmetrisch zum Schwerpunkt?
– ’Wölbung’: Wie verteilen sich die Anteile an der Gesamtmasse auf Zentrum und Ränder?
14
1.6.1 Schiefe:
A
B
\tilde{x}_{\alpha}
\tilde{x}
\tilde{x}_{1-\alpha}
Quantilskoeffizient der Schiefe:
x̃qpx̃x̃α q
mit α P p0, 12 q (
– QSα : px̃1αx̃
1α x̃α
A B
A B,
s. Abbildung)
0 - bei symmetrischer Verteilung
QSα 0 - bei rechtssteiler/linksschiefer Verteilung
QSα ¡ 0 - bei linkssteiler/rechtsschiefer Verteilung
es ist QSα P r1, 1s, somit QSα 1 ô x̃ x̃α sowie QSα 1 ô x̃ x̃1α
– QSα
–
–
–
Quartilskoeffizient der Schiefe:
– QS0,25
Momentenkoeffizient der Schiefe:
– γ1 :
m3
σ3 ,
wobei für r
¡ 1 nun mr : n1
Daten
n
°
pxi x̄qr bzw. mr : n1
i 1
– man spricht vom mr auch als r-ten empirischen Moment
10
9
\bar{x}
8
7
Y Axis
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
X Axis
0 - symmetrische Verteilung
γ1 ¡ 0 - rechtsschiefe Verteilung
γ1 0 - linksschiefe Verteilung
– γ1
–
–
15
8
9
10
k
°
j 1
hj paj
x̄qr für klassierte
Pearsonscher Schiefekoeffizient:
– SK1 :
x̄ x̄M
σ
x̃
bzw. SK2 : 3 x̄
σ werden als erster und zweiter PSK bezeichnet
Symmetrie-Diagramm:
– trage in einem Diagramm waagerecht die Differenzen x̃ xpiq ab und senkrecht die Differenzen xpn 1iq x̃
– häufig auch: waagerecht x̃ x̃α , senkrecht x̃1α x̃
10
9
8
7
\tilde{x}_{\alpha}
Y Axis
6
5
4
\tilde{x}
3
\tilde{x}_{1-\alpha}
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X Axis
1.6.2 Wölbung:
flachgipfelig, ϒ2<0
spitzgipfelig, ϒ2>0
Wölbungsmaß von Fisher:
– γ2 :
m4
σ4
3
– für standard-normalverteilte Daten: γ2
0
– man sagt für:
γ2 ¡ 0 liegt eine leptokurtische Verteilung vor (spitzer und an den Enden stärker besetzt)
0 liegt eine mesokurtische Verteilung vor
γ2 0 liegt eine platykurtische Vertielung vor (abgeflachte Verteilung)
γ2
16
1.7 Konzentrationsmaße
n
°
– wie verteilt sich die Merkmalssumme
xi auf die Untersuchungseinheiten?
Y Axis
i 1
x(1)
x(n)
x(i)
X Axis
– Beispiel: Wieviel verdienen die reichsten 10% der Franzosen/Deutschen?
1.7.1 Empirische Lorenz-Kurve:
– an den Stellen ui
sowie xi
i
n, i
0, ..., n ist Ln pui q :
¥0
°i
x
1 plq für i
n
°
xplq
l1
l
1, ..., n und Ln pui q 0 für i 0
– zwischen den Werten an den Stellen ui wird linear interpoliert
– bei gruppierten Daten setze ui
für i 0
i
°
l 1
fl und Ln pui q
1
n
°i
aj hj
1
für i
x̄
j
– Eigenschaften:
Ln p0q 0, Ln p1q 1, Ln ist konvex auf r0, 1s (s. Übung)
Ln pxq ¤ x für x P r0, 1s
Ln pxq x für ein x P p0, 1q ñ xp1q
... xpnq
L(μ)
1
Ln
Trapez
Y Axis
A = 1/2
1
1/n
X Axis
17
μ
1, ..., k und Ln pui q 0
1.7.2 Gini-Koeffizient:
– G 2 Fläche zwischen der Winkelhalbierenden f pxq x und der Lorenz-Kurve
»1
– G 2 p0, 5 Ln pxqdx
q
0
looooomooooon
1
n
n L p i1 q
°
n
n
2
i1
– für gruppierte Daten:
°k
puj 1 uj qapjq hj
j 1
G
°k
hj apj q
j 1
° p 2in1 qxpiq 1
n
1
n
°
xpj q
j 1
i 1
p q
Ln i
n
1
Y Axis
für alle xi gleich
1-1/n
X Axis
normierter Gini-Koeffizient: G
1
n 1 G
n
1.7.3 Anmerkungen:
– beim zeitlichen Vergleich der Konzentrationsmaße beachte ausscheidende Unteruchungseinheiten
– Beispiel Marktkonzentration
Ñ
xi - Umsatz des Unternehmens i
t1 : zwei große und 98 sehr kleine Anbieter
t2 : die großen Anbieter haben die 98 kleinen aufgekauft und sind annähernd gleichgroß
führe ausgeschiedene Merkmale mit Ausprägungen 0 weiter
– sehr unterschiedliche Situationen können zum gleichen Gini-Koeffizienten führen:
Y Axis
1
X Axis
1
18
1.8 Bivariate Daten
Beobachtungen: px1 , y1 q, ..., pxn , yn q
1.8.1 Streudiagramm (Scatter-Plot)
– trage die Paare pxi , yi q ab
Y Axis
yi
xi
X Axis
– Kennzahl für den Zusammenhang ’x groß Ñ y groß’
– betrachte Daten xi x̄, yi ȳ sowie die Produkte P
P<0
P>0
P>0
P<0
pxi x̄q pyi ȳq
_
ȳ
ẋ_
wobei P das Produkt ist
gehe über zu standardisierten Daten x1i
xσx̄ und yi1 yσȳ
i
i
x
y
———————————————
neue Vorlesung
———————————————
1.8.2 Korrelationskoeffizent von Bravais-Pearson:
– ρxy :
1
n
n
°
i 1
x1i yi1
n1
n
°
i 1
pxi x̄qpyi ȳq
σx σy
zenten nach Bravais-Pearson
n
°
xi yi nx̄ȳ
i1
°
1 nennt man Korrelationskoeffin
n
p x2i nx̄2 qp ° yi2 nȳ2 q 2
i1
i1
19
– σxy :
– ist σxy
1
n
n
°
pxi x̄qpyi ȳq nennt man die empirische Kovarianz, σxy i 1
0, so sagt man, x und y seien unkorreliert
n
°
i 1
xi yi x̄ȳ
– Eigenschaften von ρxy :
1) ρxy misst die Stärke des linearen Zusammenhangs zwischen x und y (vergleiche lineare
Regression)
2) es ist ρxy
P r1, 1s (CS-Ungleichung)
3) ρxy ¡ 0 weißt auf einen gleichsinnigen Zusammenhang hin (x groß
umgekehrt
Ñ
y groß) bzw.
Richtwerte sind:
- |ρxy | 0, 5 - schwache Korrelation
- |ρxy | P r0, 5, 0, 8q - mittlere Korrelation
- |ρxy | ¥ 0, 8 - starke Korrelation
4) Verhalten bei Transformation:
- sei ui : a
bxi , vi
dyi
| | signpbdqρxy
liegen alle pxi , yi q auf einer Geraden, so ist |ρxy | 1 (und umgekehrt)
- dann ist ρuv
5)
c
bdσxy
bd σx σy
– seien x1 , ..., xn und y1 , ..., yn nun ordinal skalierte Daten
– seien Rx und Ry die Ränge in x und y, d.h. Rx pxj q i, falls xj
x p iq
– bei Bindungen/Ties (Auftreten gleicher Ausprägungen) ordnen wir einer mehrfach auftretenden Ausprägung den Mittelwert ihrer möglichen Ränge zu
xi
1
Rang 1
8 8 8 17 17
24 56
– Rx p1q 1, Rx p8q 2 3 4
3
22
7
37 37
89
3, Rx p17q 5 2 6 5, 5
1.8.3 Rangkorrelationskoeffzient von Spearman:
– Ausgangslage wie eben beschrieben
– Rxy : ρRpxqRpyq
n
°
pRx pxi qR̄x qpRy pyi qR̄y q
1
d
n
n
p ° pRx pxi qR̄x q2 qp ° pRy pyi qR̄y q2 q
i1
i1
i
° d2i
– treten keine Bindungen auf, so ist Rxy 1 pni211qn mit di Rx pxi q Ry pyi q
°
°
– liegen keine Bindungen vor, so ist Rpx q 1 npn 1q, Rpx q2 npn 1qp2n 1q
n
6
i
2
i
6
– Rxy ist ein Maß für den monotonen Zusammenhang zwischen x und y
xj ñ yi yj - monoton steigend und analog mit x : , y :¡
Rxy 1 bedeutet, dass der Zusammenhang zwischen X und Y monoton steigend/fallend
– xi
–
ist
20
1.8.4 Auf Paarvergleichen beruhende Korrelationsmaße
– wir vereinbaren folgende Bezeichnungen (x, y - ordinale Merkmalsausprägungen)
ein Paar pxi , yi q, pxj , yj q heißt
konkordant
diskordant
hat eine Bindung in x
hat eine Bindung in y
hat eine Bindung in x und y
falls (Beschriebung)
xi
xi
{ ¡ xj und yi { ¡ yj
{ ¡ xj und yi ¡ { yj
xi xj und yi yj
xi xj und yi yj
xi xj und yi yj
– Kendalls τ ist dann gegeben durch τxy
wobei 1 signpxi xj q1
$
'
&1
'0
%
1
und analog für yi yj
– wegen NC
ND
¤
n
2
ist τxy
falls xi
falls xi
falls xi
¡ xj
xj
xj
N pqN C
D
n
2
n
2
Anzahl der Fälle
NC
ND
Tx
Ty
Txy
n °
n
1 °
i 1j i
signpxi
xj qsignpyi yj q
P r1, 1s
– τxy misst den monotonen Zusammenhang und ist ausreißerresistent
1 kann nur auftreten, wenn keine Bindungen auftreten
wenn keine Bindungen auftreten, dann ist n2 NC ND und τxy np4N
n1q 1
– τxy
–
C
– berücksichtigt man keine Bindungen in den Daten bei der Bezugsgröße, so gelangt man
C ND
zu Goodmans und Kruskals γ: γxy : N
NC ND
– Frage: Wie lassen sich NC und ND bestimmen?
Kontingenztafel:
– sei Stichprobe pxi , yi q, i 1, ..., n gegeben
... ak
habe die Ausprägungen b1 , ..., bm mit b1 ... bm
– X habe die Ausprägungen a1 , ..., ak mit a1
– Y
– in der Kontingenztafel werden in Zeile r und in Spalte s die absoluten Häufigkeiten für
pxi , yi q par , bs q angegeben (: hrs )
a1
..
.
b1
h11
..
.
...
...
bs
h1s
..
.
...
...
bm
h1m
..
.
ar
..
.
hr1
..
.
...
hrs
..
.
...
hrm
..
.
ak
hk1
...
hks
...
hkm
– Spaltensumme: hs :
–
k
°
b1
...
bs
..
.
..
.
...
ar
..
.
...
...
...
ak
...
drs
...
hrs
..
.
a1
..
.
hks
r 1
crs
...
hrs , Zeilensumme: hr
bm
..
.
..
.
..
.
..
.
hkm
21
m
°
s 1
hrs
mit crs
° °
¡ ¡
hij und drs
i rj s
– es gilt dann NC
k °
m
°
° °
¡ hij
i rj s
hij cij , ND
i 1j 1
k °
m
°
hij dij
i 1j 1
1.9 Regressionsanalyse
Unterstellt man zwischen den Werten x und y einen funktionalen Zusammenhang y g pxq, so
kann man versuchen, den ’Parameter’ g zu schätzen (sehr schwierig). Hierbei ist y die zu erklärende bzw. abhängige Variable und x die erklärende oder unabhängige Variable.
Wir betrachten lineare Zusammenhänge y
term/Rauschterm, Messfehler usw. ist.
Dies führt zum Modell yi
b
axi
b
ax bzw. y
b
ax
R wobei R- Fehler-
ri , i 1, ..., n
Es stellt sich die Frage, wie a und b am besten gewählt werden sollten.
Die Antwort hängt davon ab, welches Kriterium man zur Bewertung der Güte der Approximation verwendet:
Setze für gegebene a, b: ŷ : b ax (Schätzung/Prognose/Approximation für y). Der Fehler, den
man hierbei begeht, ist r̂i yi ŷi , das so genannte Residuum.
Ein sehr gebräuchlicher Ansatz zur Bewertung der Approximationsgüte ist das so genannte
Kleinste-Quadrate-Kriterium (KQ) bzw. Least-Square-Criterion (LS):
Wähle a und b so, dass
Q Qpa, bq n
°
i 1
n
°
prˆi q2 minimal wird. Dies wird unser Ansatz sein und wir betrachten
i 1
pyi b axi q2
———————————————
neue Vorlesung
———————————————
Zusammenhänge zwischen xi , yi :
– y
gpxq
Rest ñ lineares Modell: y
b
ax
R
– Frage, wie für gegebenes pxi , yi q dann a und b zu wählen sind?
– KQ-Ansatz:
sei Qpa, bq n
°
i 1
pyi b axi q2
wähle a, b so, dass Q minimal wird (pxi , yi q sind gegebene Daten).
Minimierung durch Ableiten:
n
¸
Bb Q 2 pyi b axi q ! 0
i 1
n
¸
Ba Q 2 pyi b axi qxi ! 0
i 1
22
Bb Q 0 ñ b̂ ȳ âx̄, wobei â, b̂ optimale Werte sind (beachte, dass
Ba Q 0 ñ
ñ â n
°
i 1
yi xi bnx̄ a
n
°
xi yi nx̄ȳ
1
n
° 2
xi nx̄2
i1
i
i 1
x2i
n
°
i 1
yi xi nx̄ȳ
ax̄2 a
n
°
i 1
xi
i 1
nx̄)
x2i
σσ
xy
2
x
zweite Ableitung:
0
n
°
n
°
Bb2 Q Ba Bb Q Bb Ba Q Ba2 Q
setze nun ŷi : b̂ âxi , r̂i : yi
(auch gefittete Werte)
2
°
2n
°
2 ° xi
2 x2i
xi
ŷi , yi ŷi
mit detpq 4n2 σx2
¡ 0 für σx2 r̂i . Man nennt die ŷi angepassten Werte
– Eigenschaften:
a)
n
°
i 1
r̂i
0, also r̂¯i 0, da ° r̂i n
n
°
i 1
i 1
pyi ŷi q n
°
pyi b̂ âxi q i 1
n
°
i 1
pyi ȳ
âx̄ âxi q 0
b) die Residuen sind weder mit der unabhängigen Variablen x noch mit den angepassten Werten ŷ korreliert:
- sei σr̂x die Kovarianz der r̂i und xi
- dann gilt:
σr̂x
n1
¸
xi r̂i loox̄mo
r̂¯on
0
¸
¸
n1 xi pyi ȳq â xi px̄ xi q
¸
¸
n1 pxi yi xi ȳq â pxi x̄ x2i q
¸
¸
n1 p xi yi q nx̄ȳ âpnx̄2 x2i q
σxy σσxy2 pσx2 q
x
0
- da ŷi
b̂
âxi ist, folgt also σr̂ŷ
0, da σr̂x 0
c) Streuungszerlegung:
- es gilt σy2 σŷ2 σr̂2 , d.h. die Streuuung der y lässt sich additiv zerlegen in die erklärte
Streuung der ŷi und die Residual- oder Reststreuung der r̂i : yi ŷi r̂i , also folgt
mit ŷ¯ 0, dass ȳ ŷ¯ und pyi ȳ q2 ppŷi ȳ q r̂i q2 pŷi ŷ¯q2 2pŷi ŷ¯qr̂i r̂i2
- nun aufsummieren und beachten, dass ŷ und r̂ unkorelliert sind, ergibt die Behauptung
d) Bestimmtheitsmaß ρ2xy
- das Bestimmtheitsmaß gibt an, wie viel Streuung von y durch die Streuung von ŷ
erklärt wird
- ρ2xy
σσ P r0, 1s (nach c))
2
ŷ
2
y
xy
2 2
2
- da σŷ2 â2 σx2 p σxy
2 q σx σ 2 , also ρxy
x
x
koeffizienten von Bravais-Pearson
σ
σ2
σσ σ
2
xy
2 2
x y
, also das Quadrat des Korrelations-
- beachte: ρ2xy beschreibt nur die Stärke des linearen Zusammenhangs
23
y
x
- hier besteht ein Zshg. zwischen x und y, jedoch kein linearer
e) ρ2xy
1 σσ
2
r̂
2
y
wegen der Streuungszerlegung
1.10 Multivariable Verteilungen:
pX1 , ..., Xp q zu beobachten
die einzelnen Beobachtungen sind gegeben durch pxi , ..., xi q für i 1, ..., n
– wir gehen davon aus, einen Merkmalsvektor X
–
1
p
– für geringe Anzahlen von Merkmalen kann man auch einen Index sparen und z.B. die
Merkmale mit U, V, W, X, Y, Z bezeichnen
1.10.1 Graphische Darstellungen:
paarweises Streudiagramm (Scatterplot):
– erstelle einen Scatterplot für alle Merkmalspaare Xr , Xs mit r, s P t1, ..., pu
Sternen-Plot (Star-Symbol-Plot):
– für jede Beobachtung pxi1 , ..., xip q wird ein Stern mit p Strahlen erstellt.
– die erste Variable wird durch einen Strahl in Westrichtung dargestellt, die weiteren folgen
gegen den Uhrzeigersinn
– der Winkel zwischen den Strahlen ist
2π
p
– der kürzeste Strahl einer Beobachtung orientiert sich am kleinsten beobachteten Wert
– es empfiehlt sich, standardisierte Daten
zu verwenden
xir x̄i
σr
1.11 Hauptkomponentenanalyse
Für große Anzahlen von Merkmalen ergibt sich das Erfordernis, für die Aufarbeitung der Daten eine Reduktion der zu betrachteten Größen zu erreichen. Eine Möglichkeit besteht darin,
Linearkombinationen
n
°
zi Xi zu suchen, die ’längs der Achsen mit der größten Streuung liegen’
i 1
24
zur kompakten Handhabung der Daten benötigen wir die Datenmatrix
X
x11
..
.
...
x1p
xi1
.
..
...
xip
xn1
...
xnp
rX1 , ..., Xp s
d.h. Xj sei die j-te Spalte der Datenmatrix.
x̄1
. Sei x̄ .. , wobei x̄j der Mittelwert des j-ten Merkmals darstellt.
x̄p
x̄ 1
. 1
1 1, 1 X
.. P Rn
n
1
x11 x¯1
..
Sei X̃ .
...
x1j
x¯j
...
x¯j
0
x1n x¯n
..
X
.
..
.
xn1 x¯1
...
xnj
xnp x¯p
1x̄1 die zentrierte Datenmatrix.
Um die Streuung
der p-dimensionalen Beobachtungen zu erfassen, betrachten wir die Kova°
rianzmatrix .
°
Für r, s P t1, ..., pu gilt r
Wir suchen nun ein z
srs n1
n
°
pxir x̄r qpxis x̄s q, bzw. ° n1 X̃ 1 X̃ n1 pX 1 x̄11 qpX 1x̄1 q
i 1
z1
. .. , sodass var pXz q maximal wird unter einer geeigneten Normiezp
rungsbedingungen für z.
Es ist varpXz q
varp ° zr Xr q p
p °
p
°
r 1s 1
zr zs cov pXr , Xs q
schränkungen für z, z.B. unter der Bdg. |z | 1.
r 1
z1 ° z Ñ
max. unter geeigneten Ein-
———————————————
neue Vorlesung
———————————————
Es gilt varpXz q z 1
Wäre
°
Λ
°
z, wobei
λ1
°
0
..
.
0
die Kovarianzmatrix von X ist.
eine Diagonalmatrix, so wäre z 1 Λz
maximial unter |z| 1
λp
leicht lösbar.
1
. Für λ1 ¥ ... ¥ λp wähle z .. e1 .
0
Entsprechend ist unser weiteres Vorgehen:
– wir setzen
–
°
as invertierbar voraus
°
ist symmetrisch,
° also lässt sie sich diagonalisieren, d.h. es gibt eine Orthonormalbasis
u1 , ..., up , sodass ur λr ur für r 1, ..., p
25
– setze U : ru1 , ..., up s, dann ist U 1
– seien λ1
U 1
¥ ... ¥ λp die Eigenwerte von ° in absteigender Reihenfolge (oBdA)
– es ist Λ λ1
..
°
, dann ist U
.
U Λ, U 1 ° U Λ und °1 U Λ1 U 1
λp
– wir setzen Y : pX
1x̄1 qU Λ
1
2
1
. mit 1 .. P Rn
1
– die Spalten von Y nennt man die Hauptkomponenten
Behauptung:
– die Spalten von Y sind zentriert (d.h. Mittelwert =0), orthogonal (also unkorrelliert) und
haben die Varianz 1.
Beweis:
y1j
. zentriert: sei yj .. die j-te Spalte von Y
ynj
– wir müssen zeigen, dass ȳj
– sei ȳ
ȳ1
. .. , dann ist ȳ 1
ȳp
unkorreliert: es ist ȳ
0
1
11 X 11 1 x̄1 q U Λ
n1 11 Y n1 11 pX 1x̄1 qU Λ plon1omo
n
on loomoon
1
2
1PR
x̄1
looooooooooomooooooooooon
0
0, also
ΣY Y
n1 Y 1 Y n1 Λ U 1 pX 1 x̄11 qpX 1x̄1 qU Λ
¸
Λ U 1 U Λ
Λ ΛΛ
Idp
1
2
1
2
– Wir notieren die Spalten von Y als Y
1
2
ry1 , ..., yp s
– X̃ lässt sich aus Y zurückgewinnen: X̃
°
1
2
1
2
1
2
– wegen
YΛ
1
2
U1
p a
°
j 1
λj yj u1j
U ΛU 1 und der Spur-Invarianz von Ähnlichkeitsabbildungen ist
– der Vektor
1
2
a
λj yj liefert einen Anteil von λj an der Gesamtvarianz
p
°
i 1
σi2
p
°
i 1
σi2
p
°
p
°
λi
i 1
λi
i 1
– Man kann nun die Originaldaten ’reduzieren’ auf eine ’Merkmalanzahl’ q indem man X
durch die ersten q Spalten der Matrix Y ersetzt.
26
1.12 Abstand und Tiefe in multivariablen Datensätzen:
Frage: Wie kann man bei Daten X einen geeigneten Abstand zwischen X̃ und einem Merkmalsvektor xi rxi1 , ..., xip s erklären?
°1
Mahalanobis-Distanz: M D2 pxi , x̄q pxi x̄q1
pxi x̄q
Mahalanobis-Tiefe: M T pxi , x̄q : p1 M Dpxi , x̄qq1 .
Man kann hiermit ’Ränge’ durch aufsteigende Tiefen erklären. xp1q
dass xp1q die kleinste und xpnq die größte Tiefe hat.
¤
...
¤
xpnq meint dann,
1.13 Multiple lineare Regression
Wir möchten eine abhängige Variable y erklären durch mehrere Regressoren X2 , ..., Xp mit Hilfe
eines linearen Ansatzes:
Y
p
°
b1 1
bj xij
j 1
b2 X2
bp Xp ( R - Fehlerterm/Rauschterm), d.h. wir setzen das Modell yi
...
ri für i 1, ..., n, wobei wir xi1
1 setzen.
In Matrixschreibweise:
y1
y ... , r
yn
Modell y
r1
... , b Xb
rn
b1
.. , X
. 1
...
x12
..
.
...
x1p
.. . 1
xn2
...
xnp
bp
r (gegebene Daten: y, X, gesucht ist b).
Wir wählen b nach dem KQ-Kriterium:
Qpbq n
¸
pyi i 1
p
¸
bj xij q2
i 1
py Xbq1 py Xbq
yy1 b1 X 1 Xb 2b1 Xy
Qpbq soll minimal werden:
dQ
db
dQ
db
p2X 1 Xb 2X 1 yq1 .
0 ô X 1 Xb X 1 y, d.h. falls die Spalten von X linear unabhängig sind: b pX 1 X q1 X 1 y.
Falls die Spalten von X nicht linear unabhängig sind, so ist mind. 1 Merkmal redundant (d.h.
linear durch die verbleibenden Merkmale darstellbar).
Beachte: Evtl. ist ein größeres n erforderlich. Falls es ein optimales b̂ gibt, so setze ŷ
Wir haben dann folgende Eigenschaften:
X b̂, r̂ : yŷ.
1
. 1
a) r̂ 1 0, 1 .. P Rn
1
b) ŷ 1 r̂ 0, X 1 r̂ 0, ŷ 1 1 y 1 1 (r̂ unkorreliert zu den erklärenden Variablen und den angepassetn Werten, Mittel der angepassten Werte ist das Mittel der abhängigen Variablen)
c) y 1 y
ŷ1 ŷ
r̂1 r̂ (Streuungszerlegung)
27
– wir setzen p2
1 yr̂11 yr̂ (Bestimmtheitsmaß)
1.14 Logistische Regression
Frage:
– Wie kann man Zusammenhänge zwischen x und y erfassen, wenn y nur Werte von 0 und 1
annimmt?
Beispiel:
yi
1
yi
1
Unternehmen i geht innerhalb von 2 Jahren insolvent (erklärende Variabeln: Umsatz, Bilanzsumme, Verschuldungsgrad, etc.)
Haushalt i besitzt einen Fernseher (yi
seinkommen, ’Lifestyle’, etc.
– ŷi
P t0, 1u wird nicht funktionieren
– ŷi
1 P pyi 1q1 : Problem:
p
°
j 1
0 - kein Fernseher), erklärende Variable: Haushalt-
bj xij im allgemeinen R r0, 1s
1.14.1 Logistisches Regressionsmodell:
exppb b x
... bp xip q
– wir setzen π pxi , bq : 1 expp1b1 2b2i2
xi2 ... bp xip q P r0, 1s
pz q
1
– sei hpz q 1 exp
exppz q , also π px, bq hpb xq
– für gegebene xi , yi setze pi pxi , yi , bq π pxi , bqyi p1 π pxi , bqq1yi
– wähle b so, dass die Likelihood-Funktion Lpx, bq :
n
±
pi pxi , yi , bq
für die gegebenen Daten pxi , yi qmaximal wird. Beachte yi
i 1
P t0, 1u.
———————————————
neue Vorlesung
———————————————
Bisher behandelt:
– lineare Regression
– logistische Regression
Weitere Modelle:
1) verschiedene weitere nicht-lineare Regressionsmodelle
– Beispiel: yi : θ0
θ1 exppθ2 xi q
Ri
28
2) nichtparametrische Modelle:
– yi : g pxi q
Ri mit einer unbekannten Funktion g
– yi seien Realisierungen en der ZVA Y
– xi seien Realisierungen der ZVA X
– E rY |X s ist der beste Schätzer im L2 -Sinne unter allen ZVA, die sich als g pX q darstellen lassen
(g messbar, g pX q quadratintegrierbar)
Setze g pxq
E rY |X xs ³
R
p|q
fX |Y x y
loooomoooon
y
p q
pq
f x,y
fY y
dy falls pX, Y q die gemeinsame Dichte f
p q¡0
falls fY y
besitzt
– dann führt dies zu E rY |X s g pX q
– falls man f px, y q mit Hilfe eines sog. Kerndichteschätzers schätzt, so nennt man ĝ
xs einen Kernschätzer von g
29
E rY |X 
Herunterladen