Wahrscheinlichkeitstheorie
Literatur
• Hans Irtel
Entscheidungs- und testtheoretische Grundlagen
der Psychologischen Diagnostik
Frankfurt am Main: Verlag Peter Lang, 1996
(ISBN 3-631-49374-6)
im Web als PDF
Gliederung
•
•
•
•
•
•
Mengenlehre
Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeiten
Zufallsvariablen
Kombinatorik
Wahrscheinlichkeitsverteilungen
Warum brauchen wir die
Wahrscheinlichkeitstheorie?
• Psychologische Daten unterliegen vielen
Einflußgrößen, viele davon sind nicht
kontrollierbar.
• Eine Wiederholung einer Erhebung liefert
nicht mit Sicherheit das gleiche Ergebnis.
• Bei einem guten Test reproduzibel:
Statistische Daten (Mittelwerte, Streuungen)
Warum brauchen wir die
Mengenlehre?
• Wahrscheinlichkeitsberechnungen beruhen
auf dem Vergleich der Mächtigkeit von
Mengen.
Mengenlehre I
• Naive Mengenlehre (Cantor)
– Eine Menge ist eine Zusammenfassung von bestimmten
wohl unterschiedenen Objekten (Elementen)
– Schreibweisen: M = {a,b,c...}, M={xN|x>7},
– Teilmenge: AB (xAxB), BA
– Vereinigungsmenge:
AB = {x|xAxB}
– Schnittmenge:
AB = {x|xAxB}
– Komplement, Differenz:
A = \ A {x|xxA}
– Kommutativität, Assoziativität, Distributivität
– De Morgan: AB = AB, AB = AB
– A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA}
– Menge aller Mengen
– Menge aller Mengen die sich nicht selbst enthalten (Russell)
– Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel.
A
Mengenlehre II
• kartesisches Produkt: AB = {(a,b)|aAbB}
• ABC, AAA = A3
• binäre Relation: RAB. Statt (a,b)R schreibe aRb.
Beispiel: K = {(a,b)|(a,b)NNa<b}
–
–
–
–
–
reflexiv
a: aRa
symmetrisch a,b: (aRb bRa)
transitiv
a,b,c: (aRb bRc aRc)
äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b
Äquivalenzklasse: KA, K,
aKbK a~b,
aKa~b bK
Schreibweise: {xA|x~a} = [a]
K=[a], K'=[b] K=K' KK'=
AB
B
Mengenlehre III
• Zerlegung: Sei A eine Menge,
und ~ eine Äquivalenzrelation auf A.
Dann heißt die
Menge A/~ aller Äquivalenzklassen von A bzgl. ~
die von ~ induzierte Zerlegung.
–
–
–
–
K,LA/~ KL KL=
Vereinigungsmenge aller Elemente von A/~
Definition von ~ über eine Zerlegung
Zerlegung eines Hypothesenraums
für die Hypothesenprüfung nach Bayes
Mengelehre IV
• Eine binäre Relation f auf AB heißt eine Abbildung,
wenn gilt
–
–
–
–
–
–
–
–
–
–
–
f ist linkstotal: aA bB sodaß (a,b)f.
f ist rechtseindeutig: (a,b)f (a,c)f b=c
A: Definitionsbereich, B: Wertebereich von f.
alternativer Name: Funktion.
Schreibweisen: (a,b)f, afb, b=f(a), f: AB,
MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“
surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal.
injektiv: (a,c)f (b,c)f a=b. linkseindeutig. eineindeutig.
bijektiv: surjektiv und injektiv.
Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv.
endlich, unendlich; abzählbar, überabzählbar
Mengenlehre und Logik
• Verwandtschaft von Mengenlehre und Logik
– A
– A
– Hausaufgaben (unter anderem):
• überprüfen, welche Gesetze der Mengelehre
genauso in der Logik gelten.
• vertraut machen mit Wahrheitstafeln!
, , , ,
Zufallsexperimente
• Ergebnis nicht mit Sicherheit vorhersagbar,
Menge aller möglichen Ergebnisse bekannt.
„Ergebnisraum“ = {1, 2, 3, ...}
– Beispiel: Detektionsexperiment
• Ergebnisraum: = {+,}
– Beispiel: Stellung von Ehepaaren zu
Geschwindigkeitsbegrenzung auf Autobahnen
• Ergebnisraum: = {0,1,2} (Zahl der Ja-Antworten)
• Ergebnisraum: = {(J,J),(J,N),(N,J),(N,N)}
– Ergebnisraum hängt
• von der Struktur des Experimentes
• und von der Fragestellung ab
Ereignisse
• Teilmenge A des Ergebnisraums ist ein „Ereignis“.
– Ergebnis i (direkt) beobachtbar: Ausgang des Experiments
– Ereignis = wahrscheinlichkeitstheoretisches Konzept:
„Ereignis tritt ein / wird (indirekt) beobachtet “
= Ergebnis Ereignis
– Beispiel: E = „Ehepaar antwortet gleich“
• = {0,1,2}: E = {0,2}
• = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)}
– Elementarereignis: Ereignis mit nur einem Element, {i}
– Ergebnisraum und leere Menge sind Ereignisse
– Operationen auf Ereignissen:
Vereinigung, Schnittmenge, Komplement
Wahrscheinlichkeiten von Ereignissen
für endliche oder abzählbare
(„diskrete“) Ergebnisräume:
• Wahrscheinlichkeit:
P: Potenzmenge() R so daß
–
–
–
–
P({i}) 0,
P({1}) + P({2}) + P({3}) + .... = 1.
P(A) = AP({})
keine weitere Annahmen über P({i}),
insbesondere nicht gleichwahrscheinlich
• Problem bei überabzählbaren Mengen
-Algebra
• Axiomatische Definition nach Kolmogorov:
Sei ein Ergebnisraum,
und S eine Menge von Teilmengen von ,
dann heißt S eine -Algebra in , wenn gilt
– S
– A S A S
– A1, A2, A3... S A1 A2 A3... S
• S ist abgeschlossen bzgl. Komplement, ,
• S kann abzählbar sein,
auch wenn überabzählbar ist.
Wahrscheinlichkeitsraum
• Sei ein Ergebnisraum
und S eine -Algebra in .
Dann ist die Abbildung P: S R
eine Wahrscheinlichkeit, wenn gilt:
– P(A) 0 für alle AS,
– P() = 1,
– -Additivität: A1, A2, A3... S , paarweise disjunkt
P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +...
• Übungen: , P(A), AB
Bedingte Wahrscheinlichkeit
• Seien A und B Ereignisse, mit P(B)>0.
Dann wird die bedingte Wahrscheinlichkeit,
daß A eintritt „gegeben B“, definiert als:
P(A|B) P(AB)/P(B)
• Beispiel: ein Säckchen enthalte weiße und schwarze
Spielsteine aus Holz und aus Plastik:
40 weiße aus Holz,
30 schwarze aus Holz,
10 weiße aus Plastik,
20 schwarze aus Plastik.
Ich ziehe einen Stein.
Wie groß ist P(w|H), p(H|w), p(H), p(w), ...
• P(AB) = P(A|B) P(B) = P(B|A) P(A)
Stochastische Unabhängigkeit
• A und B sind stochastisch unabhängig, wenn gilt:
P(A|B) = P(A)
• Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ?
• Beispiel: A tritt nach B ein. A ist unabhängig von B,
wenn das erste „Teilergebnis“ (aus B oder aus B)
keinen Einfluß auf die Wahrscheinlichkeit für das
Auftreten von A hat.
• Zwei Ereignisse seien disjunkt.
Beide haben eine Wahrscheinlichkeit größer Null.
Können sie unabhängig sein?
Unabhängige Familien
• Sei C eine Menge von Ereignissen.
C heißt Familie unabhängiger Ereignisse,
wenn für alle endlichen Teilmengen von C gilt:
P(A1A2A3...) = P(A1) P(A2) P(A3) ...
• Reicht paarweise Unabhängigkeit aller Elemente
für die Unabhängigkeit der Familie?
Bayes
• Sei {B1, B2, ...} eine Zerlegung von .
(paarweise disjunkt, Vereinigung aller Bi = ).
Dann gilt:
P( B j | A)
P( A | B j ) P( B j )
P( A)
P( A | B j ) P( B j )
N
P( A | B ) P( B )
i 1
• Beispiel: Bi (unbeobachtbare) Hypothesen,
A (beobachtbare) Versuchsergebnisse,
P(A|Bi) bekannt („Voraussagen“),
P(Bi) a priori Wahrscheinlichkeiten für Hypothesen,
P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen.
i
i
Beispiel: Entscheidungstheorie
• Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen
eindimensionalen Parameter e beschreiben läßt.
• e ist Gauß-verteilt , mit = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal).
• Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k.
d ' ( e)
P ( S ) P (e | S )
P ( S | e)
P ( S ) P ( e | S ) P ( R ) P (e | R ) d ' ( e) 0 ( e)
0
Rauschen
Signal
d‘
„Nein“ „Ja“
1
p(Ja|S)
• P (S | e) ist eine monotone Funktion von e:
Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e).
0
0
0
k
2
p(Ja|R)
e
1
Bedingte Unabhängigkeit
• Sei ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S, und C ein Ereignis.
Dann ist auch PC: S R mit PC(A) = P(A|C)
eine Wahrscheinlichkeit auf S.
• Zwei Ereignisse A und B heißen
„bedingt unabhängig bezüglich C“,
wenn sie bezüglich PC unabhängig sind:
PC(A|B) = PC(A).
PC(AB) = PC(A) PC(B)
P(AB|C) = P(A|C) P(B|C)
Zufallsvariablen
• Warum brauchen wir Zufallsvariablen?
– Mit Mengen kann man nicht „rechnen“ (+,,...).
– Abbildung von auf R bzw. R = R {,}
• reelle Zufallsvariablen
– Abbildung von auf abzählbare Menge bzw. N
• diskrete Zufallsvariablen
Reelle Zufallsvariablen
• Sei ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S.
X: (R bzw.) R heißt (reelle) Zufallsvariable
genau dann wenn xR: {|X()x} S
• S = {,}, X ?
• Das Urbild jedes Intervalls (,x] ist ein Ereignis.
(S-Meßbarkeit von X).
– Dies ermöglicht die Übertragung der Wahrscheinlichkeit P
von der -Algebra S auf den Wertebereich von X.
Verteilungsfunktion
• Definition der Verteilungsfunktion
F(x) = P({|X()x}) = P(Xx)
– monoton steigend (warum?)
– F(), F(+)
• Gibt es für die reelle Zufallsvariable X: R
eine nichtnegative Funktion f: R R
x
mit F(x) = f(y) dy,
dann ist f die Wahrscheinlichkeitsdichte von X.
b
a f(y)
– P(axb) =
dy
– f(y) dy = ???
Diskrete Zufallsvariablen
• Sei ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S.
X: E (E abzählbar) heißt diskretes Zufallselement.
Zusätzlich ER: X ist diskrete Zufallsvariable.
• Definition der Wahrscheinlichkeitsfunktion
p(x) = P({|X()=x}) = P(X=x)
• BE: P(B) = xBp(x).
• Zufallsvariable X:
Verteilungsfunktion F(x) = P(Xx) = yxp(y).
• AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst.
Unabhängige Zufallsvariablen
• Reelle Zufallsvariablen X1, X2, ... sind
stochastisch unabhängig,
wenn für alle x1, x2, ... R gilt:
P(X1x1, X2x2, ...) = P(X1x1) P(X2x2) ...
• Wenn alle Xi Dichten besitzen, gilt
F(x1,x2,...)
=
=
x1
x2
f1(y1) dy1 f2(y2) dy2
x1
x2
... f1(y1) f2(y2) dy1 dy2
Wahrscheinlichkeitsdichte
f(x1,x2,...) = f1(x1) f2(x2) ...
...
...
Zufallsstichprobe
• Folge von Zufallsexperimenten in einer Population
– Jedes Element der Population hat die gleiche
Wahrscheinlichkeit, beobachtet zu werden.
– einzelne Beobachtung: Ergebnis und X() registrieren.
– Die einzelnen Beobachtungen müssen stochastisch
unabhängig sein.
• Folge Xi stochastisch unabhängiger und
identisch verteilter (P(Xix)=F(x)) Zufallsvariablen.
Modus, Median, Quantile
• Sei X eine reelle Zufallsvariable mit
Verteilungsfunktion F(x)
und Wahrscheinlichkeitsdichte f(x).
– Modus: f(xm) hat ein (lokales?) Maximum
– -Quantil: F(x) =
– Median: 0,5-Quantil
• Sei X eine diskrete Zufallsvariable mit
Wahrscheinlichkeitsfunktion p(x)
und Verteilungsfunktion F(x).
– Modus: p(xm) ist maximal
– -Quantil: P(Xx) P(Xx) 1–
Erwartungswert, Varianz
• Sei X eine reelle Zufallsvariable mit
Wahrscheinlichkeitsdichte f(x).
– Erwartungswert: E (X) = xf(x) dx
– Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E
(X)²
– Standardabweichung (X) (positive Wurzel von V(X))
• Sei X eine diskrete Zufallsvariable mit
Wahrscheinlichkeitsfunktion p(x).
– Erwartungswert: E (X) = xX() xp(x)
– Varianz und Standardabweichung wie oben
Rechenregeln mit E und V
•
•
•
•
•
Zufallsvariable „a“ sei konstant: E (a) = a.
E ist linear: E (aX + bY) = a E (X) + b E (Y)
Zufallsvariable „a“ sei konstant: V(a) = 0.
V(X+a) = V(X)
V(aX) = a²V(X)
Vorhersage
• Seien X und Y zwei Zufallsvariablen.
• Wie genau erlaubt die Kenntnis von X,
den Wert von Y vorherzusagen,
und welcher Wert wäre das?
Vorhergesagter Wert Y' = F (X)
• Vereinfachung:
Existiert ein linearer Zusammenhang?
Y' = a + b X
Y' = a + b X + e
Linearität
• Fast jeder Zusammenhang ist
– lokal linear
– global nichtlinear
Das lineare Modell
•
•
•
•
•
•
•
Y' = a + b X
Y' = a + b X + e
e = Y – Y'
Y
E (e) = 0
Ziel: E (e²) minimieren
E (Y) = a + b E (X)
Achsabschnitt
a = E (Y) – b E (X)
• Steigung b = ???
ei
X
Varianz und Kovarianz
V(X) = VXX = E ( (X–E (X))² )
V(Y) = VYY = E ( (Y–E (Y))² )
V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) )
VYX = VXY = E (X·Y) – E (X) E (Y)
Vxy ist positiv, wenn positive Abweichungen in X
mit positiven Abweichungen in Y einhergehen,
und negative mit negativen.
• Vxy ist negativ, wenn...
• Vxy ist Null, wenn...
•
•
•
•
•
z-transformierte Zufallsvariablen
• Y=a+bX+e
• E (Y) = a + b E (X)
• Wenn X und Y z-transformiert sind,
wenn also gilt: E (X) = E (Y) = 0
und VXX = VYY = 1,
dann gilt für die Regressionsgerade:
Achsabschnitt a = 0
und Steigung b = VXY = E (X·Y)
Vertauschung von X und Y
• Wenn man bei z-transformierten Zufallsvariablen
X und Y vertauscht, bleibt die Steigung der
Regressionsgerade gleich...
X
Y
ei
Koordinatenursprung
X
ei
Y
Korrelationskoeffizient und Steigung
•
•
•
•
•
•
•
Steigung bY·X = VXY / VXX
Steigung bX·Y = VXY / VYY 1 / bY·X = VXX / VXY
rXY = VXY / (VXX VYY)
bY·X = rXY (VYY/VXX) = rXY SY/SX
bX·Y = rXY (VXX/VYY) = rXY SX/SY
rXY² = VXY² / (VXX VYY)
E (e²) = VYY ( 1 – rXY² )
= ( 1 – rXY² ) für z-transformierte Daten
Rechenregeln mit Kovarianz
•
•
•
•
V(aX + bY) = a²VXX + b²VYY + 2abVXY
V(i=1...nXi) = i=1...n j=1...n VXiXj
VX+Y,Z = VXZ + VYZ
Sind X und Y stochastisch unabhängig, dann gilt
–
–
–
–
E (X·Y) = E (X) E (Y)
VXY = 0
Z=X+Y: VZZ = VX + VY
Z=X–Y: VZZ =