Wahrscheinlichkeitstheorie Literatur • Hans Irtel Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik Frankfurt am Main: Verlag Peter Lang, 1996 (ISBN 3-631-49374-6) im Web als PDF Gliederung • • • • • • Mengenlehre Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeiten Zufallsvariablen Kombinatorik Wahrscheinlichkeitsverteilungen Warum brauchen wir die Wahrscheinlichkeitstheorie? • Psychologische Daten unterliegen vielen Einflußgrößen, viele davon sind nicht kontrollierbar. • Eine Wiederholung einer Erhebung liefert nicht mit Sicherheit das gleiche Ergebnis. • Bei einem guten Test reproduzibel: Statistische Daten (Mittelwerte, Streuungen) Warum brauchen wir die Mengenlehre? • Wahrscheinlichkeitsberechnungen beruhen auf dem Vergleich der Mächtigkeit von Mengen. Mengenlehre I • Naive Mengenlehre (Cantor) – Eine Menge ist eine Zusammenfassung von bestimmten wohl unterschiedenen Objekten (Elementen) – Schreibweisen: M = {a,b,c...}, M={xN|x>7}, – Teilmenge: AB (xAxB), BA – Vereinigungsmenge: AB = {x|xAxB} – Schnittmenge: AB = {x|xAxB} – Komplement, Differenz: A = \ A {x|xxA} – Kommutativität, Assoziativität, Distributivität – De Morgan: AB = AB, AB = AB – A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA} – Menge aller Mengen – Menge aller Mengen die sich nicht selbst enthalten (Russell) – Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel. A Mengenlehre II • kartesisches Produkt: AB = {(a,b)|aAbB} • ABC, AAA = A3 • binäre Relation: RAB. Statt (a,b)R schreibe aRb. Beispiel: K = {(a,b)|(a,b)NNa<b} – – – – – reflexiv a: aRa symmetrisch a,b: (aRb bRa) transitiv a,b,c: (aRb bRc aRc) äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b Äquivalenzklasse: KA, K, aKbK a~b, aKa~b bK Schreibweise: {xA|x~a} = [a] K=[a], K'=[b] K=K' KK'= AB B Mengenlehre III • Zerlegung: Sei A eine Menge, und ~ eine Äquivalenzrelation auf A. Dann heißt die Menge A/~ aller Äquivalenzklassen von A bzgl. ~ die von ~ induzierte Zerlegung. – – – – K,LA/~ KL KL= Vereinigungsmenge aller Elemente von A/~ Definition von ~ über eine Zerlegung Zerlegung eines Hypothesenraums für die Hypothesenprüfung nach Bayes Mengelehre IV • Eine binäre Relation f auf AB heißt eine Abbildung, wenn gilt – – – – – – – – – – – f ist linkstotal: aA bB sodaß (a,b)f. f ist rechtseindeutig: (a,b)f (a,c)f b=c A: Definitionsbereich, B: Wertebereich von f. alternativer Name: Funktion. Schreibweisen: (a,b)f, afb, b=f(a), f: AB, MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“ surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal. injektiv: (a,c)f (b,c)f a=b. linkseindeutig. eineindeutig. bijektiv: surjektiv und injektiv. Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv. endlich, unendlich; abzählbar, überabzählbar Mengenlehre und Logik • Verwandtschaft von Mengenlehre und Logik – A – A – Hausaufgaben (unter anderem): • überprüfen, welche Gesetze der Mengelehre genauso in der Logik gelten. • vertraut machen mit Wahrheitstafeln! , , , , Zufallsexperimente • Ergebnis nicht mit Sicherheit vorhersagbar, Menge aller möglichen Ergebnisse bekannt. „Ergebnisraum“ = {1, 2, 3, ...} – Beispiel: Detektionsexperiment • Ergebnisraum: = {+,} – Beispiel: Stellung von Ehepaaren zu Geschwindigkeitsbegrenzung auf Autobahnen • Ergebnisraum: = {0,1,2} (Zahl der Ja-Antworten) • Ergebnisraum: = {(J,J),(J,N),(N,J),(N,N)} – Ergebnisraum hängt • von der Struktur des Experimentes • und von der Fragestellung ab Ereignisse • Teilmenge A des Ergebnisraums ist ein „Ereignis“. – Ergebnis i (direkt) beobachtbar: Ausgang des Experiments – Ereignis = wahrscheinlichkeitstheoretisches Konzept: „Ereignis tritt ein / wird (indirekt) beobachtet “ = Ergebnis Ereignis – Beispiel: E = „Ehepaar antwortet gleich“ • = {0,1,2}: E = {0,2} • = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)} – Elementarereignis: Ereignis mit nur einem Element, {i} – Ergebnisraum und leere Menge sind Ereignisse – Operationen auf Ereignissen: Vereinigung, Schnittmenge, Komplement Wahrscheinlichkeiten von Ereignissen für endliche oder abzählbare („diskrete“) Ergebnisräume: • Wahrscheinlichkeit: P: Potenzmenge() R so daß – – – – P({i}) 0, P({1}) + P({2}) + P({3}) + .... = 1. P(A) = AP({}) keine weitere Annahmen über P({i}), insbesondere nicht gleichwahrscheinlich • Problem bei überabzählbaren Mengen -Algebra • Axiomatische Definition nach Kolmogorov: Sei ein Ergebnisraum, und S eine Menge von Teilmengen von , dann heißt S eine -Algebra in , wenn gilt – S – A S A S – A1, A2, A3... S A1 A2 A3... S • S ist abgeschlossen bzgl. Komplement, , • S kann abzählbar sein, auch wenn überabzählbar ist. Wahrscheinlichkeitsraum • Sei ein Ergebnisraum und S eine -Algebra in . Dann ist die Abbildung P: S R eine Wahrscheinlichkeit, wenn gilt: – P(A) 0 für alle AS, – P() = 1, – -Additivität: A1, A2, A3... S , paarweise disjunkt P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +... • Übungen: , P(A), AB Bedingte Wahrscheinlichkeit • Seien A und B Ereignisse, mit P(B)>0. Dann wird die bedingte Wahrscheinlichkeit, daß A eintritt „gegeben B“, definiert als: P(A|B) P(AB)/P(B) • Beispiel: ein Säckchen enthalte weiße und schwarze Spielsteine aus Holz und aus Plastik: 40 weiße aus Holz, 30 schwarze aus Holz, 10 weiße aus Plastik, 20 schwarze aus Plastik. Ich ziehe einen Stein. Wie groß ist P(w|H), p(H|w), p(H), p(w), ... • P(AB) = P(A|B) P(B) = P(B|A) P(A) Stochastische Unabhängigkeit • A und B sind stochastisch unabhängig, wenn gilt: P(A|B) = P(A) • Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ? • Beispiel: A tritt nach B ein. A ist unabhängig von B, wenn das erste „Teilergebnis“ (aus B oder aus B) keinen Einfluß auf die Wahrscheinlichkeit für das Auftreten von A hat. • Zwei Ereignisse seien disjunkt. Beide haben eine Wahrscheinlichkeit größer Null. Können sie unabhängig sein? Unabhängige Familien • Sei C eine Menge von Ereignissen. C heißt Familie unabhängiger Ereignisse, wenn für alle endlichen Teilmengen von C gilt: P(A1A2A3...) = P(A1) P(A2) P(A3) ... • Reicht paarweise Unabhängigkeit aller Elemente für die Unabhängigkeit der Familie? Bayes • Sei {B1, B2, ...} eine Zerlegung von . (paarweise disjunkt, Vereinigung aller Bi = ). Dann gilt: P( B j | A) P( A | B j ) P( B j ) P( A) P( A | B j ) P( B j ) N P( A | B ) P( B ) i 1 • Beispiel: Bi (unbeobachtbare) Hypothesen, A (beobachtbare) Versuchsergebnisse, P(A|Bi) bekannt („Voraussagen“), P(Bi) a priori Wahrscheinlichkeiten für Hypothesen, P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen. i i Beispiel: Entscheidungstheorie • Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen eindimensionalen Parameter e beschreiben läßt. • e ist Gauß-verteilt , mit = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal). • Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k. d ' ( e) P ( S ) P (e | S ) P ( S | e) P ( S ) P ( e | S ) P ( R ) P (e | R ) d ' ( e) 0 ( e) 0 Rauschen Signal d‘ „Nein“ „Ja“ 1 p(Ja|S) • P (S | e) ist eine monotone Funktion von e: Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e). 0 0 0 k 2 p(Ja|R) e 1 Bedingte Unabhängigkeit • Sei ein Ergebnisraum, S eine -Algebra in , P eine Wahrscheinlichkeit auf S, und C ein Ereignis. Dann ist auch PC: S R mit PC(A) = P(A|C) eine Wahrscheinlichkeit auf S. • Zwei Ereignisse A und B heißen „bedingt unabhängig bezüglich C“, wenn sie bezüglich PC unabhängig sind: PC(A|B) = PC(A). PC(AB) = PC(A) PC(B) P(AB|C) = P(A|C) P(B|C) Zufallsvariablen • Warum brauchen wir Zufallsvariablen? – Mit Mengen kann man nicht „rechnen“ (+,,...). – Abbildung von auf R bzw. R = R {,} • reelle Zufallsvariablen – Abbildung von auf abzählbare Menge bzw. N • diskrete Zufallsvariablen Reelle Zufallsvariablen • Sei ein Ergebnisraum, S eine -Algebra in , P eine Wahrscheinlichkeit auf S. X: (R bzw.) R heißt (reelle) Zufallsvariable genau dann wenn xR: {|X()x} S • S = {,}, X ? • Das Urbild jedes Intervalls (,x] ist ein Ereignis. (S-Meßbarkeit von X). – Dies ermöglicht die Übertragung der Wahrscheinlichkeit P von der -Algebra S auf den Wertebereich von X. Verteilungsfunktion • Definition der Verteilungsfunktion F(x) = P({|X()x}) = P(Xx) – monoton steigend (warum?) – F(), F(+) • Gibt es für die reelle Zufallsvariable X: R eine nichtnegative Funktion f: R R x mit F(x) = f(y) dy, dann ist f die Wahrscheinlichkeitsdichte von X. b a f(y) – P(axb) = dy – f(y) dy = ??? Diskrete Zufallsvariablen • Sei ein Ergebnisraum, S eine -Algebra in , P eine Wahrscheinlichkeit auf S. X: E (E abzählbar) heißt diskretes Zufallselement. Zusätzlich ER: X ist diskrete Zufallsvariable. • Definition der Wahrscheinlichkeitsfunktion p(x) = P({|X()=x}) = P(X=x) • BE: P(B) = xBp(x). • Zufallsvariable X: Verteilungsfunktion F(x) = P(Xx) = yxp(y). • AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst. Unabhängige Zufallsvariablen • Reelle Zufallsvariablen X1, X2, ... sind stochastisch unabhängig, wenn für alle x1, x2, ... R gilt: P(X1x1, X2x2, ...) = P(X1x1) P(X2x2) ... • Wenn alle Xi Dichten besitzen, gilt F(x1,x2,...) = = x1 x2 f1(y1) dy1 f2(y2) dy2 x1 x2 ... f1(y1) f2(y2) dy1 dy2 Wahrscheinlichkeitsdichte f(x1,x2,...) = f1(x1) f2(x2) ... ... ... Zufallsstichprobe • Folge von Zufallsexperimenten in einer Population – Jedes Element der Population hat die gleiche Wahrscheinlichkeit, beobachtet zu werden. – einzelne Beobachtung: Ergebnis und X() registrieren. – Die einzelnen Beobachtungen müssen stochastisch unabhängig sein. • Folge Xi stochastisch unabhängiger und identisch verteilter (P(Xix)=F(x)) Zufallsvariablen. Modus, Median, Quantile • Sei X eine reelle Zufallsvariable mit Verteilungsfunktion F(x) und Wahrscheinlichkeitsdichte f(x). – Modus: f(xm) hat ein (lokales?) Maximum – -Quantil: F(x) = – Median: 0,5-Quantil • Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x) und Verteilungsfunktion F(x). – Modus: p(xm) ist maximal – -Quantil: P(Xx) P(Xx) 1– Erwartungswert, Varianz • Sei X eine reelle Zufallsvariable mit Wahrscheinlichkeitsdichte f(x). – Erwartungswert: E (X) = xf(x) dx – Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E (X)² – Standardabweichung (X) (positive Wurzel von V(X)) • Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x). – Erwartungswert: E (X) = xX() xp(x) – Varianz und Standardabweichung wie oben Rechenregeln mit E und V • • • • • Zufallsvariable „a“ sei konstant: E (a) = a. E ist linear: E (aX + bY) = a E (X) + b E (Y) Zufallsvariable „a“ sei konstant: V(a) = 0. V(X+a) = V(X) V(aX) = a²V(X) Vorhersage • Seien X und Y zwei Zufallsvariablen. • Wie genau erlaubt die Kenntnis von X, den Wert von Y vorherzusagen, und welcher Wert wäre das? Vorhergesagter Wert Y' = F (X) • Vereinfachung: Existiert ein linearer Zusammenhang? Y' = a + b X Y' = a + b X + e Linearität • Fast jeder Zusammenhang ist – lokal linear – global nichtlinear Das lineare Modell • • • • • • • Y' = a + b X Y' = a + b X + e e = Y – Y' Y E (e) = 0 Ziel: E (e²) minimieren E (Y) = a + b E (X) Achsabschnitt a = E (Y) – b E (X) • Steigung b = ??? ei X Varianz und Kovarianz V(X) = VXX = E ( (X–E (X))² ) V(Y) = VYY = E ( (Y–E (Y))² ) V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) ) VYX = VXY = E (X·Y) – E (X) E (Y) Vxy ist positiv, wenn positive Abweichungen in X mit positiven Abweichungen in Y einhergehen, und negative mit negativen. • Vxy ist negativ, wenn... • Vxy ist Null, wenn... • • • • • z-transformierte Zufallsvariablen • Y=a+bX+e • E (Y) = a + b E (X) • Wenn X und Y z-transformiert sind, wenn also gilt: E (X) = E (Y) = 0 und VXX = VYY = 1, dann gilt für die Regressionsgerade: Achsabschnitt a = 0 und Steigung b = VXY = E (X·Y) Vertauschung von X und Y • Wenn man bei z-transformierten Zufallsvariablen X und Y vertauscht, bleibt die Steigung der Regressionsgerade gleich... X Y ei Koordinatenursprung X ei Y Korrelationskoeffizient und Steigung • • • • • • • Steigung bY·X = VXY / VXX Steigung bX·Y = VXY / VYY 1 / bY·X = VXX / VXY rXY = VXY / (VXX VYY) bY·X = rXY (VYY/VXX) = rXY SY/SX bX·Y = rXY (VXX/VYY) = rXY SX/SY rXY² = VXY² / (VXX VYY) E (e²) = VYY ( 1 – rXY² ) = ( 1 – rXY² ) für z-transformierte Daten Rechenregeln mit Kovarianz • • • • V(aX + bY) = a²VXX + b²VYY + 2abVXY V(i=1...nXi) = i=1...n j=1...n VXiXj VX+Y,Z = VXZ + VYZ Sind X und Y stochastisch unabhängig, dann gilt – – – – E (X·Y) = E (X) E (Y) VXY = 0 Z=X+Y: VZZ = VX + VY Z=X–Y: VZZ =