I.
Skalenniveaus
Nominalskala:
Gleichheit / Ungleichheit (ja/nein)
Ordinalskala:
Gleichheit / Ungleichheit; größer / kleiner
Reihenfolge wichtig, d.h. nur streng monotone Transformation
Rangreihe:
Kleinster Messwert:1 usw.
Gleiche Messwerte: Durchschnitte der Plätze, die sie belegen würden
Intervallskala:
Unterschied zweier Messwerte
nur positiv lineare Transformationen
ordered metric:
>, <, = (z.B. Klausurpunkte)
Rational-/ Verhältnisskala:
Ursprung = Nullpunkt (z.B. Länge)
nur positiv lineare Transformationen
Absolutskala:
Keine Transformationen möglich (z.B. Kinderzahl)
Man unterscheidet stetige (kontinuierliche) und diskrete (diskontinuierliche) Skalenniveaus.
II.
Darstellen
1. Häufigkeitsverteilung
- Kategorienzahl k:
k 1 ln n
-
Intervallbreite d:
Streubreite sb:
sb x max x min
sb
d
k
-
Intervallmitten: ganzzahlige Vielfachen von d (manchmal auch variabel)
Auszählen der Häufigkeiten
n < 9: jeder Messwert = eigene Kategorie
2. Abgeleitete Verteilungen
- relative Häufigkeit:
1
rf j p j
-
Prozentwertverteilung
Prozentwert:
f%
-
fj
n
100 rf
j
f % j 100 rf j
j
Summenverteilung
(Wie viele x haben einen Messwert der Obergrenze des Intervalls?)
j
cf j f l
l 1
-
Summenprozentwert
cf %
j
100 rcf
j
cf % j 100 rcf j
rcf j
cf j
n
(Welcher Prozentsatz der Messwerte ist der Obergrenze des Intervalls?)
Verteilung von rcf: empirische Verteilungsfunktion F(x)
3. Graphische Darstellung
- Histogramm:
Intervall = Balken mit Fläche = rel. Häufigkeit; Breite = Intervallbreite;
Höhe y:
y
rf j
dj
gleiche Intervallbreite: y-Achse beschreibt Häufigkeiten
nominalskaliert: Balken gleichbreit, Lücken zwischen den Balken
-
Kreisdiagramm
-
Häufigkeitspolygon:
beschreibt Stetigkeiten; Anfang = Ende = 0
Intervallmitten bzgl. Relative Häufigkeit / Intervallbreiten
gleiche Intervallbreite: y-Achse beschreibt Häufigkeiten
Sonderform: ausgegelichenes Häufigkeitspolygon (schwächt Ausreißer):
y neu
j
y j 1 y j y j 1
3
-
Summenprozentkurve:
Auftragen von cf%(j) an den Intervallenden beginnend bei 0
-
Maßfunktion:
diskrete Merkmale
senkrechte Linie mit Länge = rf(j)
2
Treppenfunktion:
diskrete Merkmale
waagrechte Linie, bis zum Beginn des nächsten Merkmals, mit Höhe = cf%(j)
-
4. Prozentränge und Fraktilpunkte
- Prozentrang:
P
cf %(u ) [cf %( o) cf %(u )] P
x (o) x(u )
x( P)
x( P) x(u ) [ x(o) x(u )]
x(u ) [ x (o) x (u )]
P cf %(u )
cf %( o) cf %(u )
P cf %(u )
cf %(o) cf %(u )
Besonderheiten:
Median: x(50%) = md
Quartilpunkte: x(25%) = q1
Dezilpunkte: x(10%) = d1
x(50%) = q2
x(20%) = d2
....
x(75%) = q3
x(90%) = d9
-
Bei wenigen Beobachtungen (n<9):
Intervallgrenzen = Mitte zweier Messwerte
Untergrenze des ersten Intervalls genausoweit wie Obergrenze des ersten;
Obergrenze des letzten Intervalls genau umgekehrt
Anwendung der Formeln
-
Daten als Rangreihen:
pr (rg )
III.
x( P) x(u )
x(o) x(u )
Fraktilpunkt:
-
-
x ( P ) x(u )
P cf %(u ) [cf %(o) cf %(u )]
100%
(rg 0,5)
n
Beschreiben
1. Maße der Lage
a) arithmetisches Mittel (m):
Rohdaten:
m
1 n
xi
n i 1
Häufigkeiten:
1 k
m f j xi
n j 1
Empfindlichkeit gegen Ausreißerwerte; Gegenmaßnahmen:
a) Trimmen: Weglassen einer festen Zahl der kleinsten und größten Werte
b) Winsorisieren: man erstezt den/die weggelassenen Wert(e) durch den/die
verbliebenen kleinsten/größten
3
b) Median (md):
Md = x(50%)
Rangreihe: md = mittlerer Wert bzw. Durchschnitt der beiden mittleren Werte
c) Modus (mo):
diskret: mo = häufigster Wert
stetig: mo = Wert mit der größten Häufigkeitsdichte y
mo x(u ) [ x(o) x(u )]
y j y j 1
2 y j y j 1 y j 1
Vergleich von m, md, mo:
Informationsausnutzung: m>md>mo
Einfluss von Ausreißern: mo,md>m
mo: nominal; mo, md: ordinal; mo, md, m: ab intervall
d) mid-range (mr):
Mitte zwischen x(min) und x(max)
e) geometrisches Mittel (g):
bei multiplikativen Größen:
Rohdaten:
1
n
g ( xi ) n
i 1
Häufigkeiten:
1
k
g ( x j j ) n
f
j 1
f)
harmonisches Mittel (hm):
Mittelung von Größen (nur Rationalskalen)
Rohdaten:
hm
n
n
1
x
i 1
i
Häufigkeiten:
hm
n
k
f
j 1
j
1
xj
2. Maße der Variabilität (Dispersion)
a) Varianz s2:
s2 beschreibt die Abweichung von m, d.h. Unterschiedlichkeit der Messwerte; sie ist
unabhängig von der Anzahl der Messwerte
4
Rohwerte:
1 n
s 2 ( xi2 ) m 2
n i 1
Häufigkeiten:
1 k
s 2 ( f j x 2j ) m 2
n j 1
b) Varianzschätzer ^2:
Varianz der Grundgesamtheit, aus der die Stichprobe stammt
s2
n
1
( x i m) 2
n 1 i 1
c) Standardabweichung s:
statistische Maßeinheit für die Beurteilung von Unterschieden
sx s 2
d) Standardwerte:
Abweichung eines Messwerts vom Mittelwert, ausgedrückt in Vielfachen von s
zi
xi m x
sx
mz 0;
sz 1
Verschiedene Verteilungen werden vergleichbar
meist weitere Umwandlung in Skalenwerte (z.B. T-Norm)
e) Variationskoeffizient:
Wie aussagekräftig ist m?
relativiert s am Mittelwert
macht verschiedene Variabilitäten vergleichbar
v
f)
s
m
Durchschnittsabweichung (selten):
Rohdaten:
ad
1 n
| xi md |
n i 1
Häufigkeiten:
ad
1 k
f j | x j md |
n j 1
g) Variabilität (Diversität) bei nominalskalierten Merkmalen:
„Informationsmaß h“: h beschreibt die durchschnittliche Fragenzahl, die benötigt wird,
um Kategorie zu raten
1 k
h
p j ln p j
ln 2 j 1
5
3. Maße der Schiefe (ab intervallskaliert)
Stärke der Abweichung von der Symmetrie = Schiefe
a) Quartilsschiefekoeffizient (grobes Maß):
sq 25%
(q3 md ) (md q1)
q3 q1
b) Momentenkoeffizient:
Rohdaten:
g1
1 n 3
zi
n i 1
Häufigkeiten:
1 k
g1 f j z 3j
n j 1
4. Maße für den Exzess
Abweichung von Normalverteilung mit s als Maßeinheit
Momentenkoeffizient
Rohdaten:
g2
1 n 4
zi 3
n i 1
Häufigkeiten:
g2
1 k
f j z 4j 3
n j 1
g > 0: Verteilung spitzer als Normalverteilung
g = 0: Normalverteilung
g < 0: Verteilung flacher als Normalverteilung
5. Momente einer Verteilung:
a) Momente:
m1`'
1 n 1
xi
n i 1
m2'
1 n 2
xi
n i 1
usw...
b) Zentrale Momente:
6
m1
1 n
1
xi m
n i 1
m2
1 n
2
xi m
n i 1
usw...
g1
g2
m3
m2
3
m4
3
m22
Verteilungen, die in all ihren Momenten übereinstimmen, sind gleich!
6. Graphische Darstellung von Maßzahlen
Box-Plots / Box-and-Whiskers-Darstellung
Ausreißer
X(95%)
q3
m
q2
q1
X(5%)
Ausreißer
Ausreißer
<x(1%) bzw. > x(99%)
IV.
Zusammenhang
uV:Prädiktor, aV: Kriterium
7
1.
Bivariate Häufigkeitsverteilung
Kontingenztafel
Reihen r werden mit i bezeichnet
Spalten c werden mit j bezeichnet
Häufigkeit in Zeile i, Spalte j: n(ij)
Randsumme/ Zeile: n(i.)
Randsumme/ Spalte: n(.j)
Gesamtsumme: n(..) = n
graphische Darstellung als Säulendiagramm
2.
Zusammenhang und Vorhersage bei intervallskalierter aV
zu jedem x soll ein ^y geschätzt werden, der das wahre y möglichst gut repräsentiert
Durchschnitt der Schätzwerte = Durchschnitt der wahren y-Werte
a) Zerlegung der Abweichungsquadratsumme:
n
SS total ( y i m y ) 2
i 1
n
SS Fehler ( y i yˆ i ) 2
i 1
n
SS aufgeklärt ( yˆ i m y ) 2
i 1
SS total SS Fehler SS aufgeklärt
b) Determinationskoeffizient:
0 SS aufgeklärt SS total
2
Y .X
r
SS aufgeklärt
SS total
s y2ˆ
s y2
Der Determinationskoeffizient beschreibt den Anteil an aufgeklärter Variation (Was
kann durch X erklärt werden?); d.h. den Anteil der durch die Schätzwerte erklärten
Varianz
Fehleranteil:
1 rY2. X
Unaufgeklärte Varianz:
sY2| X s y2 (1 rY2. X )
sY | X s y *
y* y yˆ
8
Standardschätzfehler:
sY | X sY2| X
Gibt es keine Einzelwerte, schätzt man nach Mittelwerten
c) Das ²-Verhältnis (uV: nominalskaliert)
man schätzt mit dem Kategorienmittelwert m(j)
n(j): Anzahl der aV in Kategorie x(j)
² entspricht r²
n m
k
Y2. X
j 1
j
my
2
j
n s y2
Bei intervallskalierter uV muss diese erst in Kategorien eingeteilt werden; so sind
sowohl ²(Y.X) als auch ²(X.Y) zu berechnen.
3.
Lineare Regression und Korrelation
X, Y sind mindestens intervallskaliert
Regressionsgleichung = lineare Gleichung zur Schätzung von y aus x
a) Herleitung und Berechnung:
yˆ i a o a1 x
a1 r
sx
sy
a 0 m y a1 m x
r
s xy
sx s y
r rY2. X
s xy
1 n
( xi y i ) m x m y
n i 1
r heißt linearer Korrelationskoeffizient
s(xy) = Kovarianz; Wie gut ist y aus x schätzbar? Sie beschreibt die Richtung der
Steigung
s xx s x2
Bei Standardwerten:
zˆ yi r z xi
9
b) Eigenschaften und Interpretation des linearen Korrelationskoeffizienten
- invariant gegenüber pos. Iin. Transformationen
- Rohwert- und Standardwert-Korrelationen sind gleich
rxy ryˆy
-
-
r bzw. r² als Gütemaß der linearen Schätzgleichung
r liegt zwischen (-1) und (1)
-
r < 0,3
0,3 < r < 0,5
0,5 < r < 0,7
o,7 < r
unwesentlich
niedrige Korrelation
mittlere Korrelation
hohe Korrelation
Bei linearer Korrelation gilt:
rxy ryx
c) Die beiden Regresionsgeraden
Schätzung von x aus y
xˆ i b0 b1 y1
b1 r
sx
sy
b0 m x b1 m y
a1 b1 r ²
Schnittpunkt ist [m(x) / m(y)]
je höher die Korrelation, desto kleiner ist der Winkel zwischen den Geraden:
r =1 = 0°
r = 0 = 90°
d) Regression und Korrelation bei Standardwerten
zˆ yi r z xi
zˆ xi r z yi
Schnittpunkt der Geraden im Nullpunkt
Steigung: jeweils r
geschätzte Werte sind stets kleiner als ihre Ausgangswerte, d.h. sie liegen näher an
ihrem Mittelpunkt als diese an ihrem (Regression auf den Mittelwert).
e) Sonderfälle
- Punkt-biseriale Korrelation:
X: kann nur zwei Werte annehmen; Y: intervallskaliert
r heißt hier r(pbi); er bezeichnet die Richtung des Zusammenhang
2
rpbi
Y2: X
yˆ i mo (m1 m0 ) xi
10
-
Punkt-Vierfelder-Korrelation
X, Y: können je nur zwei Werte annehmen
r heißt hier r()
Y
X
0
1
0 1
r
a b
c d
ad bc
(a b) (c d ) (a c) (b d )
r() wird maximal, wenn a*d maximal und b*c minimal
r() wird minimal, wenn a*d minimal und b*c maximal
r() = 1, wenn a+b = a+c
r() = (-1), wenn a+b = b+d
nur wenn alle Randsummen gleich sind, kann r() sowohl (-1) als auch (1)
einnehmen
a kann nicht größer werden als die kleinere der beiden Randsummen a+b oder
a+c
d kann nicht ... Randsummen c+d oder b+d
um verschiedene Vierfeldertafeln zu vergleichen, berechnet man den
Assoziationskoeffizienten:
C XY
C XY
f)
r
, wenn r 0
rmax
r
rmn
, wenn r 0
-
Spearmansche Rangkorrelationskoeffizienten
X,Y als Rangreihen
r heißt hier r(s)
-
Autokorrelation
zur Untersuchung von zeitlichen Verläufen, Perioden (Zeitreihenanalyse)
Man schreibt die Messreihen zeitversetzt nebeneinander; in der ersten Reihe fällt
die letzte Beobachtung weg, in der 2. Fehlt die erste
Berechnung von r zwischen den beiden (künstlichen) Messreihen
wegen Verschiebung um einen Wert: lag(1)
Summen und Differenzen
- 2 Merkmale X(1), X(2)
Mittelwerte:
m1 2 m1 m2
m1 2 m1 m2
11
Varianzen:
s12 2 s12 s 22 2 s12
s122 s12 s 22 2 s12
je größer r(12), desto größer s²(1+2), desto kleiner s²(1-2)
Bei Standardwerten:
m1 2 m12 0
s12 2 2 (1 r12 )
s122 2 (1 r12 )
s12 s1 s 2 r12
-
4 Merkmale X(1), X(2), X(3), X(4)
Kovarianzen und Korrelationen
Y1 X 1 X 2
Y2 X 3 X 4
Varianz :
s y21 s12 s 22 2 s12
s y22 s32 s 42 2 s34
Ko var ianz :
sY1Y2 s13 s14 s 23 s 24
Korrelatio nskoeffizient :
sY1Y2
rY1Y2
sY21 sY22
S tan dardwerte :
rY1Y2
r13 r14 r23 r24
2 (1 r12 ) (1 r34 )
Kovarianzen lassen sich wie Klammern auflösen
g) Testtheorie
Test mit X(1)bisX(p) Fragen, je 1/0 wählbar
-
Testwert (wie oft „1“ als Antwort):
p
y i xij
j 1
12
-
Eigenschaften von Testaufgaben
Schwierigkeit: Wie viele Personen haben die Aufgabe lösen können?
( Aufgabenmittelwert)
mj
1 n
xij
n i 1
Trennschärfe: Wie gut trennt die Aufgabe Leute mit hohem y von denen mit
niedrigem?
( Korrelationskoeffizient zwischen Aufgabenbeantwortung und
Gesamtwert)
rit ( X j ) rX jY
Da aber die untersuchte Aufgabe im Gesamttestwert ebenfalls mit
einberechnet ist, errechnet man die part-whole-korrigierte
Trennschärfe:
ri ,t i ( X j ) rX j ,Y X j
-
( rit )
Eigenschaften des Gesamttestwerts:
Reliabilität (=Zuverlässigkeit): Wie präzise misst der Test?
(1) Retest-Reliabilität: Korrelation zwei verschiedener Testdurchgänge zu
unterschiedlichen Zeitpunkten
rtt rY1Y2
(2) Innere Konsistenz: Man bildet zwei Testhälften (meist gerade-ungerade
Fragennummer)
r12 rH1H 2
rtt
2 r12
( Spearman)
1 r12
Sind die Standardabweichungen der Testhälften sehr unterschiedlich,
verwendet man diese Formel:
rtt
4 s1 s 2 r12
( Flanagan)
s s 22 2s1 s 2 r12
2
1
Validität (= Gültigkeit): Wie gut misst der Test die Eigenschaft, die er messen
soll?
Korrelation zwischen eigenem und Experten-Ranking
13
4.
Erweiterung des linearen Ansatzes
a) Partielle Korrelation
- 3 Merkmale: X(1) und X(2)
X(3) beeinflusst deren Korrelation
X(1) lässt sich aus X(3) schätzen, X(2) lässt sich aus X(3) schätzen
Anteil von X(1), der sich nicht durch X(3) schätzen lässt:
xi*1 xi1 xˆ i1
x*(1) und x*(2) sind nun von X(3) „bereinigt“
Berechnung des von X3 breinigten Zusammenhangs zwischen X1 und X2:
rX * X * r12.3
1
2
r12 r13 r23
(1 r132 ) (1 r232 )
r12max r13 r23 (1 r132 ) (1 r232 )
r12min r13 r23 (1 r132 ) (1 r232 )
Bei Standardwerten: z*(1) und z*(2) sind keine Standardwerte mehr!
-
4 Merkmale: X(1) und X(2)
X(3), X(4) beeinflussen deren Korrelation
Auspartialisieren von X(4) Berechnung von r(12.4), r(13.4), r(23.4)
Auspartialisieren von X(3)
r12.34
-
r12.4 r13.4 r23.4
(1 r132 .4 ) (1 r232 .4 )
Semipartialkorrelationen: X(3) wird nur aus X(2), nicht aber aus X(1) auspartialisiert
r1( 2.3)
r12 r13 r23
1 r232
b) Multiple Regression und Korrelation
Aus den Prädiktoren X(1), X(2), ..., X(p) soll Y geschätzt werden
multipler linearer Ansatz:
yˆ i a 0 ai xi1 a 2 xi 2 ... a p xip
(i bezeichnet die Vp-Nummer)
-
Regressionskoeffizient
Standardwert-Regressionsgleichung:
zˆYi b1 z i1 b2 z i 2 ... b p z ip
Rohwert-Regressionskoeffizienten:
a j bj
sy
sj
a 0 mY (a1 m1 a 2 m2 ... a p m p )
14
Berechnung von b(j) für p>2 benötigt technische Hilfe
p2
-
b1
r1Y r12 r2Y
1 r122
b2
r2Y r12 r1Y
1 r122
Multiple Bestimmtheit und multiple Korrelation
Güte der multiplen Schätzgleichung (= Anteil aufgeklärter Varianz)
2
Y .12... p
R
s y2ˆ
s y2
p
b j r jY rYˆ2Y
j 1
Multiple Korrelation:
RY2.12... p RY2.12... p
-
Interpretation der multiplen Bestimmtheit und der multiplen Regressionskoeffizienten
RY2.12... p riymax
wenn keine Korrelation der Prädiktoren vorliegt, dann sind alle b(j) gleich r(jy); hier ist
R²(Y.12...p) interpretierbar
Kollinearität bzw. Multikollinearität: Prädiktoren korrelieren sehr hoch miteinander
Suppressionseffekt: X(1) korreliert niedrig mit Y, mit dem X(2) nicht korreliert; X(2)
korreliert hoch mit X(1)
Dennoch wird X(2) in die Regressionsgleichung einbezogen, da
es den Teil von X(1) auspartialisiert, auf den es Einfluss hat
-
Spezielle Anwendung multipler Regression
Nichtlineale/ Polynomiale Regression
yˆ i a 0 a1 xi a 2 xi2 ... a m xim
Umwandlung in multiple lineare Gleichung:
xi xi1
xi2 x12
Allgemein lineares Modell
(1) Ein 3-kategoriales Merkmal Y kann durch zwei 2-kategoriale Merkmale D(1), D(2),
D(3) ausgedrückt werden.
(2) D(1): Gehört x zu Kategorie 1 (D(1) = 1) oder nicht (D(1) = 0)?
D(2): Gehört x zu Kategorie 2 oder nicht?
D(3): D(1) = 0, D(2) = 0
sog. Dummy-Kodierung
(3) Um y aus D(1) und D(2) zu schätzen, kann statt ² auch R² berechnet werden (²
= R²)
(4) Es gilt:
a0 mD3
a1 mD1 mD2
a 2 mD2 mD3
15
rYX2 max RY2.12... p Y2. X
-
Faktorenanalyse:
nicht beobachtbare Faktoren sollen eine Reihe von beobachteten Variablen erklären;
Ziel ist, dass möglichst wenig Faktoren möglichst viel Varianz aufklären und die
beobachteten Korrelationen möglichst gut reproduzieren
für jede Variable wird eine multiple Regressionsgleichung aufgestellt (uV: unbekannte
Prädiktoren, aV: beobachtete Variable)
n Vpn mit Nr.i
m Variablen mit Nr. j
p Faktoren mit Nr. l
Standardwerte sollen durch unbekannte Prädiktoren verhergesagt werden:
zˆij a j1 f i1 a j 2 f i 2 ... a jl f il ... a jp f ip
f ip : Pr ädiktor
a jl : Faktorenladung Korrelatio n zwischen Faktoren und Variablen
wichtig: Prädiktoren müssen voneinander unabhängig sein, weil nur dann ihr
Regressionskoeffizient gleich der Korrelation zwischen Prädiktor und Kriterium ist
Die multiplen Korrelationen zwischen den Faktoren und den beobachtbaren Variablen
lassen sich ausrechnen, wenn a bekannt ist:
RZ2 j .1, 2,.., p a 2j1 a 2j 2 ... a 2jp
RZ2 j .1, 2,.., p h 2j ( Kommunalität )
h² beschreibt den Anteil der Variable Nr.j, der durch die Faktoren aufgeklärt wird
Varianz, die durch den Faktor l aufgeklärt wird:
2
sl2 a12l a 22l ... a ml
sl2
Varianzant eil :
m
(Bei Standardwerten sind Varianzanteile und Varianzen gleich)
Die erklärte Kovarianz der Variablen j und k ist die Kovarianz zwischen den
geschätzten Werten dieser Variablen
s Zˆ Zˆ a j1 ak1 a j 2 ak 2 ... a jp akp
j
5.
k
Zusammenhang bei ordinalskalierten Merkmalen
Beschreibung des monotonen Zusammenhangs durch den Kendall`schen
Rangkorrelationskoeffizienten r(T). Er verwendet nur Anordnungseigenschaften (>, <) der
Daten und entspricht dem Goodman-Kruskal-Maß r().
a)
-
Herleitung
Messwertpaare werden nach aufsteigendem x geordnet (Ankerreihe)
Die zugeordneten y-Werte bilden eine Vergleichsreihe
Vergleich jedes y mit den anderen: wie gut sind sie geordnet?
(r) = aufsteigend geordnet = Proversion (P)
16
-
(f) = absteigend geordnet = Inversion (I)
getrennte Auszählung von P und I
insgesamt P+I Vergleiche
P>I: pos. Zusammenhang
P<I: neg. Zusammenhang
S = P-I (Kendall-Summe) > 0, wenn P>I, < 0, wenn P<I
S wird an P+I relativiert:
r
-
PI
(Goodman Kruskal Koeffizient )
PI
r() beschreibt nur ein relatives Überwiegen von entweder Pro- oder Inversionen;
invariant gegen pos. lin. Transformationen
Es geht auch anders:
n(n 1)
2
2( P I )
rT
n(n 1)
PI
r(T) und r() sind gleich, wenn keine Bindungen vorhanden sind
r(T), r() sind symmetrisch, d.h. r(YX) = r(XY)
b) Berechnung bei Rangbindungen
- bei einem Merkmal
Ordnen nach der Variablen ohne Bindung
Auszählen von P und I, wobei Gleichheitsbeziehungen weggelassen werden
jetzt ist P+1 nicht mehr durch ½ n (n-1) ersetzbar, da ein bindungskorrigierter Wert
verwendet werden muss
rT r
-
bei beiden Merkmalen
Ordnen nach einer Variablen (1)
Innerhalb von gleicher Werte von (1) werden keine Vergleiche vollzogen
Es gilt:
(1) gleiche Y-Werte können nicht miteinander verglichen werden
(2) Y-Werte, die zum gleichen X-Wert gehören, können nicht miteinander verglichen
werden
c) Berechnung aus einer geordneten Kontingenztafel
- Anordnen in 2-dimensionaler Häufigkeitstabelle
- Zu jedem Messwertpaar sucht man
die Summe s der Häufigkeiten bei größerem X und größerem Y
Häufigkeit Messwertpaar * S = Proversionen
die Summe T der Häufigkiten bei kleinerem Y, aber größerem X
Häufigkeit Messwertpaar * T = Inversionen
- Summieren aller Pro- und Inversionen
17
d) Spezialfall: geordnete 4-Felder-Tafel
Y
X
1
2
1
2
n11
n 21
n12
n22
r
n11 n22 n12 n21
n11 n22 n12 n21
Yule ' scher Q Koeffizient
Entspricht nicht r() wegen dessen Stichprobenabhängigkeit
6.
Zusammenhang bei nominalskalierten Merkmalen
a) Transinformationsquotienten
gemeinsame Info von X und Y
hY . X
Informationsmaß für Y
Häufigkeitstabelle mit relativen Häufigkeiten p:
r
hx pi. ldp i.
i 1
r
h y p. j ldp . j
i 1
hY . X
h y hx hxy
hy
h entspricht dem Determinationskoeffizienten
b) Der symmetrische Transinformationsquotient
lineare Abhängigkeit: r(Y.X) = r(X.Y)
bei quadratischen Tafeln: h(Y.X) = h(X.Y) = h(XY)
durchschnittlich aufklärbarer Informationsanteil:
h( XY )
2 (hx h y hxy )
hx h y
IV. Ereignisse
1. Ereignisräume
: Ereignisraum: Menge aller möglichen Ausgänge eines Experiments
(=Elementarereignisse); man unterscheidet abzählbare und nicht abzählbare (=stetige)
18
2. Ereignisse als Mengen
Ereignisse bestehen aus mehreren Elementarereignissen (z.B. König beim Kartenspiel
()) oder sind selbst Elementarereignis (z.B. -König)
= sicheres Ereignis
= unmögliches Ereignis
3. Rechnen mit Ereignisse
- Ereignisse: Großbuchstaben, Elementarereignisse: Kleinbuchstaben
- Unterscheidung: Ereignis a Ereignis {a} a {a}
- Zahl der Ereignisse eine Ereignisraums: Potenzmenge P() bzw. Ereignisfamilien in
einem Ereignis A
a) Operationen mit einem Ereignis
Komplement von
EE
ABB A
AA
b) Operationen mit zwei Ereignissen
- Durchschnitt: AB („sowohl A als auch B“)
disjunktes Ereignis: AB=
AA = A
A= A
A=
A A
-
Vereinigung: AB („entweder A oder B oder beide“)
AA = A
A=
A= A
A A
-
Nachsichziehen: AB
Ist AB= A, so „zieht A B nach sich“: AB
Gibt es mdst. ein Elementarereignis in B, das nicht zu A gehört, gilt AB
-
Partition/ Zerlegung von
Es gilt:
E(i) E(j) =; ij
19
E(1) E(2) ... E(k) =
c) Verallgemeinerung auf mehr als zwei Ereignisse
- Durchschnitt: „alle Elemente seien gleichzeitig eingetroffen“
k
D E1 E 2 ... E k E j
j 1
-
Vereinigung: „mindestens eines der Ereignisse sei eingetroffen“
k
V E1 E 2 ... E k E j
j 1
d) Ereignisalgebra
= {A, B, C}
-
Identitätsgesetze:
A= A
A=
A=
A= A
-
Komplement-Gesetze:
A A
A A
AA
-
Idempotenz-Gesetze:
AA=A
AA=A
-
Kommutativ-Gesetze:
AB = BA
AB=BA
-
Assoziativ-Gesetze:
(AB)C = A(BC)
(AB)C = A(BC)
-
Distributiv-Gesetze:
A(BC) = (AB)(AC)
A(BC) = (AB)(AC)
-
De Morgan’s Gesetze:
A B A B
( A B) A B
20
4. Definition der Wahrscheinlichkeit
a) Laplace-Wahrscheinlichkeit
jedes Elementarereignis hat dieselbe Wahrscheinlichkeit W(E)
W (E)
n( E )
n()
b) axiomatische Definition (Kolmogroff)
(1) W(A) O
(2) W() = 1
(3) W(A1A2...) = W(A1) + W(A2)+...
[A(i)A(j) = ]
5. Kombinatorik
a) Grundregel
Zwei unabhängige Ereignisse E1 und E2 können auf n1 bzw. n2 Möglichkeiten zustande
kommen es gibt n1*n2 Ereigniskombinationen
b) Variationsproblem
Ziehen mit Zurücklegen, mit Anordnung
V nk
n k
c) Permutationsproblem
Ziehen ohne Zurücklegen, mit Anordnung
n
Pk
n!
(n k )!
d) Kombinationsproblem I
Ziehen ohne Zurücklegen, ohne Anordnung
n
n
C k ( Binomialko effizient )
k
(weil Reihenfolge egal, ist (1/2) = (2/1))
mehrere Zerlegungen von n
n n1 n2 ... n p 1
n n n1
...
np
n1 n2
Multinomia lkoeffizient :
n
n!
n1!n2 !... n p ! n1 , n2 ,..., n p
e) Kombinationsproblem II
Ziehen mit Zurücklegen, ohne Anordnung
n k 1 (n k 1)!
Wk
k
k!(n k )!
n
21
VI. Wahrscheinlichkeit
1. Einfache Sätze über Wahrscheinlichkeiten
a) Der Satz vom Komplement
W ( A ) 1 W ( A)
W () 0
b) Der Additionssatz
W ( A B) W ( A) W ( B) W ( A B)
W ( A B C ) W ( A) W ( B) W (C ) W ( A B) W ( A C ) W ( B C ) W ( A B C )
c) Der Partitionssatz
Bilden k Ereignisse eine Partition von , ist die Summe ihrer Wahrscheinlichkeiten 1.
k
W ( E1 ) W ( E2 ) ... W ( Ek ) W ( E j ) 1
j 1
2. Bedingte Wahrscheinlichkeit
Wahrscheinlichkeit für A, wenn B bereits eingetroffen ist oder sicher eintreffen wird
[=W(A|B)]
W ( A B)
W ( B)
W ( A | B) W ( B | A), außer : W ( A) W ( B)
W ( A B C)
W ( A | B C)
W (B C)
W ( A | B)
Es gelten alle Regeln, z.B. Additionssatz:
W ( A B | C) W ( A | C) W (B | C) W ( A B | C)
3. Der Multiplikationssatz
W ( A B) W ( B) W ( A | B)
W ( A B) W ( A) W ( B | A)
W ( A B C ) W ( A) W ( B | A) W (C | A B)
verdeutlicht im Baum-Diagramm
4. Totale Wahrscheinlichkeit
A setzt sich aus den fünf Ereignissen aus zusammen:
W ( A) W ( E1 A) W ( E 2 A) ... W ( E5 A)
k
k
j 1
j 1
W ( A) W ( E j A) W ( E j ) W ( A | E j )
22
-Maß von Goodman&Kruskal
-
Häufigkeitstafel: Zu welcher Y-Kategorie gehört eine Beobachtung, wobei man nicht
weiß, welche X-Kategorie (X,Y: nominalskaliert)
Man nimmt die y-Kategorie mit höchstem p
Wahrscheinlichkeit für Fehler: 1-p(.j)max = WFU(x)
Ist die x-Kategorie bekannt, wählt man in dieser die Kategorie j von Y, für die p(ij) in
Zeile i am größten ist: p(ij)max
Richtigwahrscheinlichkeit (für Raten von y bei bekanntem x):
pijmax
pi .
-
pijmax( j )
r
W (Yrichtig | Xgegeben) pi.
pi.
i 1
r
pijmax( j )
i 1
r
Fehlerwahrscheinlich keit : 1 pijmax( j ) WFK ( x)
i 1
r
Y . X
WFU ( x) WFK ( x)
WFU ( x)
p
i 1
max( j )
.j
j)
1 p.max(
j
c
X .Y
-
WFU ( y ) WFK ( y )
WFU ( y )
j)
p.max(
j
p
i 1
max( i )
ij
i)
pimax(
.
i)
1 pimax(
.
ist gerichteter Determinationskoeffizient
aus Häufigkeiten:
r
Y . X
n
i 1
max( j )
ij
j)
n n.max(
j
c
X .Y
j)
n.max(
j
n
j 1
max( i )
ij
i)
nimax(
.
i)
n nímax(
.
5. Satz von Bayes
W (D S )
W (S )
W ( D S ) W ( S | D) W ( D)
W (D | S )
W ( S ) W ( D S ) W ( D S ) W ( D) W ( S | D) W ( D ) W ( S | D )
W ( D) W ( S | D)
W (D | S )
( Satz)
W ( D) W ( S | D) W ( D ) W ( S | D )
23
D=Diagnose, S=Bauchschmerzen
W ( S | D) Sensitivität
W ( S | D ) Spezifität
W ( D) Pr ävalenz
mehr Diagnosen:
W (D j | S )
W ( D j ) W (S | D j )
k
W ( D ) W ( S | D )
i 1
i
i
Prävalenzen heißen a-priori-Wahrscheinlichkeiten
aufgrund eines Befunds berechnete p heißen a-posteri-Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten für Auftreten eines Symptoms unter bestimmten
Bedingungen heißen Likelihoods
6. Unabhängigkeit von Ereignissen
Abhängigkeit bedeutet keine Kausalität!
W ( B | A) W ( B ), W ( A | B ) W ( A)
W ( A B) W ( A) W ( B )
W ( A B) W ( A) W ( B ) W ( A) W ( B )
paarweise Unabhängigkeit:
W ( E1 E 2 ) W ( E1 ) W ( E 2 )
W ( E 2 E3 ) W ( E 2 ) W ( E3 )
W ( E1 E3 ) W ( E1 ) W ( E3 )
aber : W ( E1 E 2 E3 ) W ( E1 ) W ( E 2 ) W ( E3 )
VII. Verteilungen
1. Zufallsvariable
Jedem Elementarereignis aus wird eine reelle Zahl zugeordnet; dieses X heißt
Zufallsvariable oder stochastische Variable
2. Wahrscheinlichkeitsverteilungen
= Menge der den Elementarereignissen aus zugeordneten Wahrscheinlichkeiten
24
3. Diskrete Zufallsvariable
Die Zufallsvariable X kann nur eine endliche oder abzählbar unendliche Anzahl von Werten
annehmen.
W ( X xi ) 0
k
W ( X x ) 1
i
i 1
W ( a X b)
W ( X x)
a X b
W ( X a)
W ( X x)
X a
W ( X a ) W ( X x)
xa
Grafische Darstellung durch Maßfunktion
Formelschreibweise
1
für x 1,2,..., k
W ( X x) k
0 sonst .
4. Stetige Zufallsvariable
- Der Ereignisraum kann jede reelle Zahl annehmen; es gilt:
W ( X u) W ( X v), wenn W (u X v) 0
-
X kann nicht genau einen Wert annehmen, sondern man betrachtet Intervalle: W(a<X<b)
so sucht man für die Wahrscheinlichkeit nicht einen bestimmten Wert, sondern betrachtet
die Wahrscheinlichkeitsdichte f(x) von X an der Stelle x
-
Wahrscheinlichkeiten für Intervalle werden durch die Fläche unter der Kurve der
Wahrscheinlichkeitsdichtefunktion zwischen den Intervallgrenzen a und b repräsentiert:
Zerlegung dieser Fläche in Breitstreifen der Länge dx
Fläche eines Balkens = f(x)*dx
Summe all dieser Flächen zwischen a und b ist W(a < X < b)
b
W (a X b) f ( x) dx
a
es ist egal, ob Intervalle offen oder geschlossen sind
-
Es gilt:
f ( x) 0 für alle x
f ( x) dx 1
25
5. Verteilungsfunktionen
Für beide gilt die kumulative Verteilungsfunktion (^= rel. Summenhäufigkeitsverteilung):
F(x) = W(X<x)
a) Es gilt:
0 F ( x) 1
Ist a b, ist F (a ) F (b)
F () 1, F () 0
b) X diskret:
F ( x0 ) W ( X x0 )
W ( X x) Treppenfunktion
x x0
c) X stetig:
F ( x0 ) W ( X x0 )
x0
f ( x) dx stetigeVerteilungsfunktion
F ( x) f ( x)
Dichtefunktion als Steigung von F(x)
d) Sonstiges:
W (a X b) F (b) F (a)
Median x50% F ( ) 0,5
xp
Fraktilpunkte( stetig ) :
f ( x) dx p
6. Erwartunsgwerte
Theoretischer Mittelwert
a) Definition
- diskrete ZV:
E ( X ) x i W ( X xi )
xi
-
stetige ZV:
E( X )
x f ( x) dx
b) Erweiterte Definition
g(X) bezeichnet eine Funktion, z.B. (X-)²
- diskrete ZV:
E[ g ( X )] g ( xi ) W ( X xi )
xi
-
stetige ZV:
E[ g ( X )]
g ( x) f ( x) dx
26
c) Rechenregeln
a bezeichnet eine Konstante
(1) E(a)=a
(2) E(a*X)= a*E(X)
(3) E(a+X)=a+E(X)
(4) E(a0+a1X)=a0+a1*E(X)
(5) E(X+Y)=E(X)+E(Y)
n
n
j 1
i 1
E ( X 1 X 2 ... X n ) E ( X j ) E ( X i )
Y a 0 a1 X 1 a 2 X 2 ... a n X n
E (Y ) a 0 a1 E ( X 1 ) a 2 E ( X 2 ) ... a n E ( X n )
d) Varianz einer Zufallsvariablen
- Varianz: E[(X-)²]=²
2 E ( X ²) ²
Y a 0 a1 X y2 a12 x2
-
Standardabweichung:
²
-
Standardwerte:
Z
x
E (Z ) 0
z2 1
-
Verteilung mit endlicher Erwartung und endlicher Varianz: Chebyshev-Ungleichung
b : pos.Kons tan te W (| X | b)
2
b²
| X |
1
S tan dardwerte W
k
k²
Ungleichung zeigt, dass große Abweichungen vom Durchschnitt immer
unwahrscheinlich sind
-
Momente:
E(X²): 2. Moment
E(X-)²: 2. Zentrales Moment
3. Zentrales Moment: Schiefe
4. Zentrales Moment: Exzess
27
7. Mehrdimensionale Wahrscheinlichkeitsverteilungen
a) diskrete ZV:
- Bivariate Wahrscheinlichkeitsverteilung von X und Y
W(X=x, Y=y): X nimmt einen bestimmten Wert an und gleichzeitig nimmt Y einen
bestimmten Wert ein
- Bivariate Verteilungsfunktion
Wahrscheinlichkeit, dass X<x und gleichzeitig Y<y:
W ( X x0 , Y y0 ) Fxy ( x0 , y0 )
-
W ( X x, Y y)
x x0 y y0
Rand- oder Marginalwahrscheinlichkeiten
c
W ( X xi ) W ( X xi , Y y j )
j 1
r
W (Y y j ) W ( X xi , Y y j )
i 1
-
Bedingte Wahrscheinlichkeiten
W ( X x, Y y )
W (Y y )
W ( X x, Y y )
W (Y y | X x)
W ( X x)
W ( X x | Y y)
b) stetige ZV:
- Statt W(X=x, Y=y) werden bivariate Dichtefunktionen f(x,y) untersucht; f(x,y) stellt eine
Fläche im 3-dimensionalen Raum dar.
Untersuchung verbundener Intervalle:
d b
W (a X b; c Y d ) f ( x, y) dx dy
c a
-
Bivariate Verteilungsfunktion:
W ( X x0 , Y y 0 ) FXY ( x0 , y 0 )
x0 y0
f ( x, y) dx dy
W (a X b, c X d ) FXY (b, d ) FXY (a, c)
-
Randdichten:
f ( x)
f ( x, y ) d ( y )
f ( y)
f ( x, y ) d ( x )
-
Unabhängige Zufallsvariable:
f(x,y) = f(x)*f(y)
28
c) Verallgemeinerung auf mehr als zwei Variablen
- diskrete ZV:
Wahrscheinlichkeitsfunktion: Man muss für ein beliebiges Variablenpaar aus X1,
X2, ..., Xp W(X1=x1, X2=x2, ..., Xp=xp) über die verbleibenden p-2 Variablen
aufsummieren
Verteilungsfunktion:
... W ( X
x1 x01 x2 x02
-
x p x0 p
1
x1 , X 2 x2 ,..., X p x p )
stetige ZV:
Randdichte für eine der p Zufallsvariablen erhält man durch Integrieren der
gemeinsamen Dichte über die verbleibenden p-1 Zufallsvariablen
Verteilungsfunktion:
x01x02
x0 p
... f ( x , x ,..., x
1
2
p
) dx1 dx2 ... dx p
8. Unabhängigkeit von Zufallsvariablen
diskret : W ( X x, Y y ) W ( X x) W (Y y )
stetig : f ( x, y ) f ( x) f ( y )
W [( a X b), c Y d )] W (a X b) W (c Y d )
auf mehrere Variablen erweiterbar
Funktionen von X und Y sind unabhängig, wenn X und Y unabhängig sind
Die Verteilung von X ist dann unabhängig davon, an welcher Stelle in der Reihe die
Beobachtung steht.
9. Erwartungswerte bei bedingten und gemeinsamen Verteilungen
a) bedingte Erwartung
diskret : E ( X | Y ) x W ( x | y )
x
stetig : E ( X | Y )
x f ( x | y) dx
b) verbundene Variablen
diskret : E[ g ( X , Y )] g ( x, y ) W ( x, y )
x
y
stetig : E[ g ( X , Y )]
g ( x, y) f ( x, y) dx dy
c) Erwartungswerte von zweidimensionalen Momenten
- Unabhängigkeit:
E(X*Y)=E(X)*E(X) auch erweiterbar
29
-
Maß für die lineare Beziehung: Kovarianz
XY E[( X x ) (Y y )]
XY E ( X Y ) E ( X ) E (Y )
lin .Unabhängigkeit : XY 0
-
linearer Korrelationskoeffizient:
-
XY
X y
Summen und Differenzen
X2 Y X2 Y2 2 XY
X2 Y X2 Y2 2 XY
x2 x ... x 12 22 ... k2
1
2
k
30