Powerpoint

Werbung
Wahrscheinlichkeitstheorie
Literatur
• Hans Irtel
Entscheidungs- und testtheoretische Grundlagen
der Psychologischen Diagnostik
Frankfurt am Main: Verlag Peter Lang, 1996
(ISBN 3-631-49374-6)
im Web als PDF
Gliederung
•
•
•
•
•
•
Mengenlehre
Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeiten
Zufallsvariablen
Kombinatorik
Wahrscheinlichkeitsverteilungen
Warum brauchen wir die
Wahrscheinlichkeitstheorie?
• Psychologische Daten unterliegen vielen
Einflußgrößen, viele davon sind nicht
kontrollierbar.
• Eine Wiederholung einer Erhebung liefert
nicht mit Sicherheit das gleiche Ergebnis.
• Bei einem guten Test reproduzibel:
Statistische Daten (Mittelwerte, Streuungen)
Warum brauchen wir die
Mengenlehre?
• Wahrscheinlichkeitsberechnungen beruhen
auf dem Vergleich der Mächtigkeit von
Mengen.
Mengenlehre I
• Naive Mengenlehre (Cantor)
– Eine Menge ist eine Zusammenfassung von bestimmten
wohl unterschiedenen Objekten (Elementen)
– Schreibweisen: M = {a,b,c...}, M={xN|x>7}, 
– Teilmenge: AB  (xAxB), BA
– Vereinigungsmenge:
AB = {x|xAxB}
– Schnittmenge:
AB = {x|xAxB}
– Komplement, Differenz:
A =  \ A {x|xxA}
– Kommutativität, Assoziativität, Distributivität
– De Morgan: AB = AB, AB = AB
– A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA}
– Menge aller Mengen
– Menge aller Mengen die sich nicht selbst enthalten (Russell)
– Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel.
A
Mengenlehre II
• kartesisches Produkt: AB = {(a,b)|aAbB}
• ABC, AAA = A3
• binäre Relation: RAB. Statt (a,b)R schreibe aRb.
Beispiel: K = {(a,b)|(a,b)NNa<b}
–
–
–
–
–
reflexiv
 a: aRa
symmetrisch  a,b: (aRb  bRa)
transitiv
 a,b,c: (aRb  bRc  aRc)
äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b
Äquivalenzklasse: KA, K,
aKbK  a~b,
aKa~b  bK
Schreibweise: {xA|x~a} = [a]
K=[a], K'=[b]  K=K'  KK'= 
AB
B
Mengenlehre III
• Zerlegung: Sei A eine Menge,
und ~ eine Äquivalenzrelation auf A.
Dann heißt die
Menge A/~ aller Äquivalenzklassen von A bzgl. ~
die von ~ induzierte Zerlegung.
–
–
–
–
K,LA/~ KL  KL=
Vereinigungsmenge aller Elemente von A/~
Definition von ~ über eine Zerlegung
Zerlegung eines Hypothesenraums
für die Hypothesenprüfung nach Bayes
Mengelehre IV
• Eine binäre Relation f auf AB heißt eine Abbildung,
wenn gilt
–
–
–
–
–
–
–
–
–
–
–
f ist linkstotal: aA bB sodaß (a,b)f.
f ist rechtseindeutig: (a,b)f  (a,c)f  b=c
A: Definitionsbereich, B: Wertebereich von f.
alternativer Name: Funktion.
Schreibweisen: (a,b)f, afb, b=f(a), f: AB,
MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“
surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal.
injektiv: (a,c)f  (b,c)f  a=b. linkseindeutig. eineindeutig.
bijektiv: surjektiv und injektiv.
Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv.
endlich, unendlich; abzählbar, überabzählbar
Mengenlehre und Logik
• Verwandtschaft von Mengenlehre und Logik
–   A
–   A
– Hausaufgaben (unter anderem):
• überprüfen, welche Gesetze der Mengelehre
genauso in der Logik gelten.
• vertraut machen mit Wahrheitstafeln!
, , , , 
Zufallsexperimente
• Ergebnis nicht mit Sicherheit vorhersagbar,
Menge aller möglichen Ergebnisse bekannt.
„Ergebnisraum“  = {1, 2, 3, ...}
– Beispiel: Detektionsexperiment
• Ergebnisraum:  = {+,}
– Beispiel: Stellung von Ehepaaren zu
Geschwindigkeitsbegrenzung auf Autobahnen
• Ergebnisraum:  = {0,1,2} (Zahl der Ja-Antworten)
• Ergebnisraum:  = {(J,J),(J,N),(N,J),(N,N)}
– Ergebnisraum hängt
• von der Struktur des Experimentes
• und von der Fragestellung ab
Ereignisse
• Teilmenge A des Ergebnisraums  ist ein „Ereignis“.
– Ergebnis i (direkt) beobachtbar: Ausgang des Experiments
– Ereignis = wahrscheinlichkeitstheoretisches Konzept:
„Ereignis tritt ein / wird (indirekt) beobachtet “
= Ergebnis  Ereignis
– Beispiel: E = „Ehepaar antwortet gleich“
•  = {0,1,2}: E = {0,2}
•  = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)}
– Elementarereignis: Ereignis mit nur einem Element, {i}
– Ergebnisraum und leere Menge sind Ereignisse
– Operationen auf Ereignissen:
Vereinigung, Schnittmenge, Komplement
Wahrscheinlichkeiten von Ereignissen
für endliche oder abzählbare
(„diskrete“) Ergebnisräume:
• Wahrscheinlichkeit:
P: Potenzmenge()  R so daß
–
–
–
–
P({i})  0,
P({1}) + P({2}) + P({3}) + .... = 1.
P(A) = AP({})
keine weitere Annahmen über P({i}),
insbesondere nicht gleichwahrscheinlich
• Problem bei überabzählbaren Mengen
-Algebra
• Axiomatische Definition nach Kolmogorov:
Sei  ein Ergebnisraum,
und S eine Menge von Teilmengen von ,
dann heißt S eine -Algebra in , wenn gilt
– S
– A  S  A  S
– A1, A2, A3...  S  A1  A2  A3...  S
• S ist abgeschlossen bzgl. Komplement, , 
• S kann abzählbar sein,
auch wenn  überabzählbar ist.
Wahrscheinlichkeitsraum
• Sei  ein Ergebnisraum
und S eine -Algebra in .
Dann ist die Abbildung P: S  R
eine Wahrscheinlichkeit, wenn gilt:
– P(A)  0 für alle AS,
– P() = 1,
– -Additivität: A1, A2, A3...  S , paarweise disjunkt
P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +...
• Übungen: , P(A), AB
Bedingte Wahrscheinlichkeit
• Seien A und B Ereignisse, mit P(B)>0.
Dann wird die bedingte Wahrscheinlichkeit,
daß A eintritt „gegeben B“, definiert als:
P(A|B)  P(AB)/P(B)
• Beispiel: ein Säckchen enthalte weiße und schwarze
Spielsteine aus Holz und aus Plastik:
40 weiße aus Holz,
30 schwarze aus Holz,
10 weiße aus Plastik,
20 schwarze aus Plastik.
Ich ziehe einen Stein.
Wie groß ist P(w|H), p(H|w), p(H), p(w), ...
• P(AB) = P(A|B)  P(B) = P(B|A)  P(A)
Stochastische Unabhängigkeit
• A und B sind stochastisch unabhängig, wenn gilt:
P(A|B) = P(A)
• Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ?
• Beispiel: A tritt nach B ein. A ist unabhängig von B,
wenn das erste „Teilergebnis“ (aus B oder aus B)
keinen Einfluß auf die Wahrscheinlichkeit für das
Auftreten von A hat.
• Zwei Ereignisse seien disjunkt.
Beide haben eine Wahrscheinlichkeit größer Null.
Können sie unabhängig sein?
Unabhängige Familien
• Sei C eine Menge von Ereignissen.
C heißt Familie unabhängiger Ereignisse,
wenn für alle endlichen Teilmengen von C gilt:
P(A1A2A3...) = P(A1)  P(A2)  P(A3) ...
• Reicht paarweise Unabhängigkeit aller Elemente
für die Unabhängigkeit der Familie?
Bayes
• Sei {B1, B2, ...} eine Zerlegung von .
(paarweise disjunkt, Vereinigung aller Bi = ).
Dann gilt:
P( B j | A) 
P( A | B j )  P( B j )
P( A)

P( A | B j )  P( B j )
N
 P( A | B )  P( B )
i 1
• Beispiel: Bi (unbeobachtbare) Hypothesen,
A (beobachtbare) Versuchsergebnisse,
P(A|Bi) bekannt („Voraussagen“),
P(Bi) a priori Wahrscheinlichkeiten für Hypothesen,
P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen.
i
i
Beispiel: Entscheidungstheorie
• Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen
eindimensionalen Parameter e beschreiben läßt.
• e ist Gauß-verteilt , mit  = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal).
• Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k.
 d ' ( e)
P ( S )  P (e | S )
P ( S | e) 

P ( S )  P ( e | S )  P ( R )  P (e | R )  d ' ( e)   0 ( e)
0
Rauschen
Signal
d‘
„Nein“ „Ja“
1
p(Ja|S)
• P (S | e) ist eine monotone Funktion von e: 
Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e).
0
0
0
k
2
p(Ja|R)
e
1
Bedingte Unabhängigkeit
• Sei  ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S, und C ein Ereignis.
Dann ist auch PC: S  R mit PC(A) = P(A|C)
eine Wahrscheinlichkeit auf S.
• Zwei Ereignisse A und B heißen
„bedingt unabhängig bezüglich C“,
wenn sie bezüglich PC unabhängig sind:
PC(A|B) = PC(A).
PC(AB) = PC(A)  PC(B)
P(AB|C) = P(A|C)  P(B|C)
Zufallsvariablen
• Warum brauchen wir Zufallsvariablen?
– Mit Mengen kann man nicht „rechnen“ (+,,...).
– Abbildung von  auf R bzw. R = R  {,}
• reelle Zufallsvariablen
– Abbildung von  auf abzählbare Menge bzw. N
• diskrete Zufallsvariablen
Reelle Zufallsvariablen
• Sei  ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S.
X:   (R bzw.) R heißt (reelle) Zufallsvariable
genau dann wenn xR: {|X()x}  S
• S = {,}, X ?
• Das Urbild jedes Intervalls (,x] ist ein Ereignis.
(S-Meßbarkeit von X).
– Dies ermöglicht die Übertragung der Wahrscheinlichkeit P
von der -Algebra S auf den Wertebereich von X.
Verteilungsfunktion
• Definition der Verteilungsfunktion
F(x) = P({|X()x}) = P(Xx)
– monoton steigend (warum?)
– F(), F(+)
• Gibt es für die reelle Zufallsvariable X:   R
eine nichtnegative Funktion f: R  R
x
mit F(x) =  f(y) dy,
dann ist f die Wahrscheinlichkeitsdichte von X.
b
a f(y)
– P(axb) =
dy

–  f(y) dy = ???
Diskrete Zufallsvariablen
• Sei  ein Ergebnisraum, S eine -Algebra in ,
P eine Wahrscheinlichkeit auf S.
X:   E (E abzählbar) heißt diskretes Zufallselement.
Zusätzlich ER: X ist diskrete Zufallsvariable.
• Definition der Wahrscheinlichkeitsfunktion
p(x) = P({|X()=x}) = P(X=x)
• BE: P(B) = xBp(x).
• Zufallsvariable X:
Verteilungsfunktion F(x) = P(Xx) = yxp(y).
• AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst.
Unabhängige Zufallsvariablen
• Reelle Zufallsvariablen X1, X2, ... sind
stochastisch unabhängig,
wenn für alle x1, x2, ... R gilt:
P(X1x1, X2x2, ...) = P(X1x1)  P(X2x2)  ...
• Wenn alle Xi Dichten besitzen, gilt
F(x1,x2,...)
=
=
x1
x2
 f1(y1) dy1   f2(y2) dy2 
x1
x2
  ... f1(y1) f2(y2) dy1 dy2
 Wahrscheinlichkeitsdichte
f(x1,x2,...) = f1(x1)  f2(x2)  ...
...
...
Zufallsstichprobe
• Folge von Zufallsexperimenten in einer Population
– Jedes Element der Population hat die gleiche
Wahrscheinlichkeit, beobachtet zu werden.
– einzelne Beobachtung: Ergebnis  und X() registrieren.
– Die einzelnen Beobachtungen müssen stochastisch
unabhängig sein.
• Folge Xi stochastisch unabhängiger und
identisch verteilter (P(Xix)=F(x)) Zufallsvariablen.
Modus, Median, Quantile
• Sei X eine reelle Zufallsvariable mit
Verteilungsfunktion F(x)
und Wahrscheinlichkeitsdichte f(x).
– Modus: f(xm) hat ein (lokales?) Maximum
– -Quantil: F(x) = 
– Median: 0,5-Quantil
• Sei X eine diskrete Zufallsvariable mit
Wahrscheinlichkeitsfunktion p(x)
und Verteilungsfunktion F(x).
– Modus: p(xm) ist maximal
– -Quantil: P(Xx)    P(Xx)  1–
Erwartungswert, Varianz
• Sei X eine reelle Zufallsvariable mit
Wahrscheinlichkeitsdichte f(x).

– Erwartungswert: E (X) =  xf(x) dx
– Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E
(X)²
– Standardabweichung (X) (positive Wurzel von V(X))
• Sei X eine diskrete Zufallsvariable mit
Wahrscheinlichkeitsfunktion p(x).
– Erwartungswert: E (X) = xX() xp(x)
– Varianz und Standardabweichung wie oben
Rechenregeln mit E und V
•
•
•
•
•
Zufallsvariable „a“ sei konstant: E (a) = a.
E ist linear: E (aX + bY) = a E (X) + b E (Y)
Zufallsvariable „a“ sei konstant: V(a) = 0.
V(X+a) = V(X)
V(aX) = a²V(X)
Vorhersage
• Seien X und Y zwei Zufallsvariablen.
• Wie genau erlaubt die Kenntnis von X,
den Wert von Y vorherzusagen,
und welcher Wert wäre das?
Vorhergesagter Wert Y' = F (X)
• Vereinfachung:
Existiert ein linearer Zusammenhang?
Y' = a + b X
Y' = a + b X + e
Linearität
• Fast jeder Zusammenhang ist
– lokal linear
– global nichtlinear
Das lineare Modell
•
•
•
•
•
•
•
Y' = a + b X
Y' = a + b X + e
e = Y – Y'
Y
E (e) = 0
Ziel: E (e²) minimieren
E (Y) = a + b E (X)
Achsabschnitt
a = E (Y) – b E (X)
• Steigung b = ???
ei
X
Varianz und Kovarianz
V(X) = VXX = E ( (X–E (X))² )
V(Y) = VYY = E ( (Y–E (Y))² )
V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) )
VYX = VXY = E (X·Y) – E (X) E (Y)
Vxy ist positiv, wenn positive Abweichungen in X
mit positiven Abweichungen in Y einhergehen,
und negative mit negativen.
• Vxy ist negativ, wenn...
• Vxy ist Null, wenn...
•
•
•
•
•
z-transformierte Zufallsvariablen
• Y=a+bX+e
• E (Y) = a + b E (X)
• Wenn X und Y z-transformiert sind,
wenn also gilt: E (X) = E (Y) = 0
und VXX = VYY = 1,
dann gilt für die Regressionsgerade:
Achsabschnitt a = 0
und Steigung b = VXY = E (X·Y)
Vertauschung von X und Y
• Wenn man bei z-transformierten Zufallsvariablen
X und Y vertauscht, bleibt die Steigung der
Regressionsgerade gleich...
X
Y
ei
Koordinatenursprung
X
ei
Y
Korrelationskoeffizient und Steigung
•
•
•
•
•
•
•
Steigung bY·X = VXY / VXX
Steigung bX·Y = VXY / VYY  1 / bY·X = VXX / VXY
rXY = VXY / (VXX  VYY)
bY·X = rXY   (VYY/VXX) = rXY  SY/SX
bX·Y = rXY   (VXX/VYY) = rXY  SX/SY
rXY² = VXY² / (VXX  VYY)
E (e²) = VYY  ( 1 – rXY² )
= ( 1 – rXY² ) für z-transformierte Daten
Rechenregeln mit Kovarianz
•
•
•
•
V(aX + bY) = a²VXX + b²VYY + 2abVXY
V(i=1...nXi) = i=1...n j=1...n VXiXj
VX+Y,Z = VXZ + VYZ
Sind X und Y stochastisch unabhängig, dann gilt
–
–
–
–
E (X·Y) = E (X) E (Y)
VXY = 0
Z=X+Y: VZZ = VX + VY
Z=X–Y: VZZ =
Herunterladen