Statistik & Methodenlehre e ode e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 ((Raum 06-206)) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. g Mathematische und statistische Methoden II Dr. Malte Persike } [email protected] http://psymet03.sowi.uni-mainz.de/methods/ SS 2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz Statistik & Methodenlehre e ode e e Zusammenfassung g Erwartungswert g Transformation der Zufallsvariablen Allgemeiner Fall: Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X mit beliebig p g g sei bekannt. vielen Ausprägungen ⎧ x1 ⎪x ⎪ 2 X =⎨ ⎪ ⎪⎩ xk ⎧ p1 ⎪p ⎪ 2 p( X ) = ⎨ ⎪ ⎪⎩ pk k μ X = ∑ pi ⋅ xi i =1 k σ = ∑ pi ⋅ ( xi − μ X ) 2 X 2 i =1 Oder μx und σ σ² sind direkt berechenbar (z.B. bei der Binomialverteilung) Statistik & Methodenlehre e ode e e Zusammenfassung g Erwartungswert g Transformation der Zufallsvariablen Variante 1: Die neue Zufallsvariable X‘ ist eine einfache mathematische Transformation der alten Zufallsvariablen X. X ' = a⋅ X +b Dann gilt μX ' = a + b ⋅ μX σ X2 ' = a 2 ⋅ σ X2 Statistik & Methodenlehre e ode e e Zusammenfassung g Erwartungswert g Transformation der Zufallsvariablen Variante 2: Die neue Zufallsvariable X‘ ist eine beliebige Transformation der alten Zufallsvariablen X. ⎧ x '1 ⎪x ' ⎪ X '=⎨ 2 ⎪ ⎪⎩ x 'k ⎧ p1 ⎪p ⎪ p ( X ') = ⎨ 2 ⎪ ⎪⎩ pk k μ X ' = ∑ pi ⋅ x 'i Dann gilt i =1 k σ X2 ' = ∑ pi ⋅ ( x 'i − μ X ' ) i =1 2 Statistik & Methodenlehre e ode e e Zusammenfassung g Erwartungswert g Transformation der Zufallsvariablen Spezieller Fall: Die Zufallsvariable X sei dichotom, 0/1-kodiert und ihre Wahrscheinlichkeitsverteilung bekannt. k ⎧0 X =⎨ ⎩1 ⎧ p0 p( X ) = ⎨ ⎩ p1 μ X = ∑ pi ⋅ xi i =1 k σ = ∑ pi ⋅ ( xi − μ X ) 2 X 2 i =1 Oder μx und σ σ² sind direkt berechenbar (z.B. bei der Binomialverteilung) Statistik & Methodenlehre e ode e e Zusammenfassung g Erwartungswert g Transformation der Zufallsvariablen Die neue Zufallsvariable X‘ ist eine beliebige Transformation der alten Zufallsvariablen X. ⎧ x '0 X '=⎨ ⎩ x '1 ⎧ p0 p( X ) = ⎨ ⎩ p1 Daraus erhält man für eine dichotome ZV a = x '2 − x '1 b = x '1 und damit wieder μX ' = a + b ⋅ μX σ X2 ' = a 2 ⋅ σ X2 Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Definition Kennwerte & Darstellung Normalverteilung Falls eine Zufallsvariable X jeden Wert in einem Intervall annehmen kann, wird sie stetige Zufallsvariable genannt Die Wahrscheinlichkeitsfunktion f(x) einer stetigen Zufallsvariable wird zumeist als mathematische Funktion definie t Sie wird definiert. i d bei stetigen ZV auch a ch als Dichtefunktion bezeichnet. Die Verteilungsfunktion einer stetigen Zufallsvariablen ist dann F ( x) = ∫ +∞ −∞ f ( x)dx d Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Definition Kennwerte & Darstellung Normalverteilung Eine Funktion f(x) ist gemäß der Kolmogoroff Axiome genau dann eine Dichtefunktion, wenn gilt f ( x) ≥ 0 und F ( x) = ∫ +∞ −∞ f ( x)dx = 1 Dabei reicht der Wertebereich von f(x) nicht für jede Zufallsvariable von -∞ bis +∞ (z.B. Reaktionszeit). Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Definition Kennwerte & Darstellung Normalverteilung Für eine stetige Zufallsvariable ist die Punktwahrscheinlichkeit f(X = x) immer 0. Die Wahrscheinlichkeitsdichte Di W h h i li hk it di ht f(x) f( ) liefert li f t also l nicht i ht unmittelbar die Wahrscheinlichkeiten für Ereignisse, die Wahrscheinlichkeiten ergeben sich aus der Fläche unter de Dichtef der Dichtefunktion nktion Es sind nur Wahrscheinlichkeiten für Intervalle von Realisationen zu berechnen, berechnen also F(a ≤ x ≤ b). b) Diese wird dann berechnet als b F (a ≤ x ≤ b) = ∫ f ( x)dx = F (b) − F (a ) a Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Kennwerte Kennwerte & Darstellung Der Erwartungswert einer stetigen Zufallsvariablen ist ähnlich definiert wie im diskreten Fall μ=∫ Normalverteilung +∞ −∞ f ( x) ⋅ x dx Auch Varianz und Standardabweichung werden analog berechnet σ =∫ 2 +∞ −∞ f ( x) ⋅ ( x − μ ) dx 2 ⇒σ = σ2 Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Kennwerte Kennwerte & Darstellung Normalverteilung Die Regeln zur Bestimmung von Modus, Median und Quantilen stimmen mit dem diskreten Fall exakt überein. Zur Berechnung von Median und Quantilen wird dabei die inverse Verteilungsfunktion benötigt, damit zu einem gewünschten Quantilszahl p der entsprechende Wert x berechnet werden kann x = F −1 ( x ) Die inverse Verteilungsfunktion ist einfach die Umformung der Verteilungsfunktion nach x. Statistik & Methodenlehre e ode e e Diskrete Verteilungen Stetige Verteilungen Stetige g Zufallsvariablen Definition Darstellung Kennwerte & Darstellung Die Darstellung der Wahrscheinlichkeitsverteilung und Verteilungsfunktion einer stetigen Zufallsvariablen findet zumeist über kontinuierliche Graphen statt. Normalverteilung Standardnormalverteilung 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 F(z,μ,σ) f(z,μ,σ) Standardnormalverteilung ‐3 ‐2 ‐1 0 zz‐Wert Wert 1 2 3 1 0.9 0.8 0.7 0.6 0.5 0.4 03 0.3 0.2 0.1 0 ‐3 ‐2 ‐1 0 zz‐Wert Wert 1 2 3 Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g Definition Kennwerte & Darstellung Normalverteilung Im psychologischen Kontext ist die Normalverteilung die wohl prominenteste Wahrscheinlichkeitsverteilung. Sie ist theoretischer Natur, da sie (anders als z.B. die Binomialverteilung) nicht direkt aus dem Bedingungskomplex Ξ abgeleitet werden kann. Die Normalverteilung ist durch zwei Parameter, μ und σ definiert. definiert 1 f ( x, μ , σ ) = e 2πσ 1 ⎛ x−μ ⎞ − ⎜ ⎟ 2⎝ σ ⎠ 2 Ist eine Zufallsvariable X normalverteilt, wird dies häufig geschrieben als X ∼ N(μ, σ) Statistik & Methodenlehre e ode e e Diskrete Verteilungen Stetige Verteilungen Normalverteilung g Kennwerte Der Parameter μ ist direkt der Erwartungswert der Normalverteilung μ ist aufgrund der Symmetrie gleichzeitig auch Modus und Median σ² ist direkt die Varianz der Normalverteilung Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g Warum die Normalverteilung - Zentraler Grenzwertsatz Kennwerte & Darstellung Der Zentrale Grenzwertsatz (Central Limit Theorem): Die Summe einer großen Zahl unabhängiger, identisch verteilter Zufallsvariablen ist approximativ normalverteilt. normalverteilt Normalverteilung Dies veranlasste Sir Francis Galton (1889) zu der enthusiasmierten Lobpreisung „Ich kenne kaum etwas, das unsere Imaginationskraft so bewegen kann wie die wundervolle Form kosmischer Ordnung, die sich im ‚Gesetz der Verteilung von Fehlern‘ ausdrückt. ausdrückt Hätten die Griechen es gekannt gekannt, sie hätten es personifiziert und als Gottheit angebetet. Es herrscht mit bescheidener Gelassenheit in der wildesten Konfusion. Je gewaltiger die Horde, je ärger die augenscheinliche Anarchie, um so souveräner ist seine Herrschaft Wann immer eine Menge chaotischer Elemente nach ihrer Größe Herrschaft. angeordnet wird, tritt es hinter dem Schleier des Chaos als unverhoffte und wunderschöne Form der Regelmäßigkeit hervor.“ Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g Warum die Normalverteilung Kennwerte & Darstellung 1 Sie ergibt sich 1. sich, wenn viele Zufallsprozesse bei der Realisierung einer Zufallsvariablen additiv zusammenwirken. Normalverteilung 2. Sie ist die Verteilung des Mittelwerts aller Realisierungen bei sehr häufiger Wiederholung eine Zufallsexperiment ( Zentraler Grenzwertsatz“) („Zentraler Grenzwertsatz ). 3. Sie ist die Verteilung von Zufallsvariablen, wenn diese eine messfehlerbehaftete Erfassung eines Merkmals darstellen. 4. Sie ist mathematisch relativ leicht zu behandeln. Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g Eigenschaften Kennwerte & Darstellung Normalverteilung Ist symmetrisch, unimodal und glockenförmig Verschiedene Normalverteilungen unterscheiden sich bezüglich Erwartungswert (µ) und/oder St d d b i h Standardabweichung (σ) ( ) Der Wertebereich reicht von –∞ bis +∞ Die Kurve berührt oder schneidet nie die x-Achse Jedes Intervall mit einer Länge größer Null hat eine Wahrscheinlichkeit größer Null Der Typ (i.e. (i e die Form) der Verteilung ändert sich für lineare Transformationen der Zufallsvariable nicht (siehe Transformationsregelen für Erwartungswert und Varianz). Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Standardisierung z-Transformation Kennwerte & Darstellung Ziel: Angabe der relativen Lage von Werten in einer Verteilung. 1. Quantile: wie bereits gesehen Normalverteilung 2. Angabe einer normierten Differenz eines Messwertes zum Erwartungswert Berechnungsvorschrift: Jede Differenz eines Messwertes wird durch die Standardabweichung g aller Messwerte geteilt. g Die erhaltenen Werte werden als z-Werte bezeichnet. z= x−μ σx Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Standardnormalverteilung g z-Transformation Kennwerte & Darstellung z-transformiert man eine normalverteilte Zufallsvariable erhält man die Standardnormalverteilung. Für die Standardnormalverteilung gilt: μ = 0, σ = 1 Normalverteilung Die Formel der Normalverteilung reduziert sich damit auf 1 − 1 z2 f ( z) = e 2 2π Der Werte der Dichte- und Verteilungsfunktion hängen also nur von z ab Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Standardnormalverteilung g Quantile Kennwerte & Darstellung Normalverteilung Stetige Verteilungen Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Standardnormalverteilung g Die 68-95-99 Regel Kennwerte & Darstellung Normalverteilung Stetige Verteilungen Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Standardnormalverteilung g Verteilungsfunktion Kennwerte & Darstellung Normalverteilung Stetige Verteilungen Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Standardnormalverteilung g Verteilungsfunktion Kennwerte & Darstellung Normalverteilung Die Verteilungsfunktion l f k der d Normalverteilung l l wird d auch h als Φ(x) (Phi) geschrieben. Häufig Hä fi iistt es wichtig, i hti die di Inverse I d der Verteilungsfunktion der Normalverteilung zu berechnen, z.B. für die Bestimmung von Quantilen. Die Inverse der Verteilungsfunktion einer normalverteilten Zufallsvariablen wird dann geschrieben als Φ-1(x) Sowohl Φ(x) als auch Φ-1(x) sind mathematisch nicht als einfacher Formelausdruck zu beschreiben (anders als die Dichtefunktion). Dichtefunktion) Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g z-Test Kennwerte & Darstellung Normalverteilung Ein Gesundheitspsychologe p y g beschäftigt g sich mit dem BurnoutSyndrom. Er möchte das Maslach Burnout Inventory (Maslach & Jackson, 1981) verwenden, um Personen zu identifizieren, die an Burnout leiden. Der Psychologe hat herausgefunden, dass Normalpersonen im MBI einen Erwartungswert von 11.4 Punkten erzielen. Die Varianz beträgt 5.76. Zudem nimmt der Psychologe auf Basis theoretischer Erwägungen an, dass der MBI Punktwert normalverteilt ist. Ein Patient hat einen MBI Punktwert von 16.3. Stammt er aus der Verteilung der Normalpersonen? Welchen Wert müsste ein Patient erreichen, erreichen damit er unter der gegebenen Verteilungsannahme statistisch signifikant wird? Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilung g z-Test Kennwerte & Darstellung Beobachtung im Experiment: X=x Frage: Kann x aus einer Normalverteilung N(μ, σ) stammen? Geht die Höhe des Wertes x auf einen Stichprobenfehler zurück? Normalverteilung (1) Bestimmung der Verteilung der Zufallsvariablen X ((2)) Festlegung g g eines Signifikanzniveaus g α (3) Berechnung der Wahrscheinlichkeit für dieses oder ein extremeres x: z. B. p(X≥x) (4) Vergleich von p mit α und Treffen der Signifikanzaussage Aber: Bei dieser Aussage irrt man sich mit einer Wahrscheinlichkeit von α·100% Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilungsapproximation g pp der Binomialverteilung Kennwerte & Darstellung Bei sehr kleinem p kann die Binomialverteilung g durch die Poissonverteilung approximiert werden (wie gesehen) Bei großem Produkt n·p wird die Binomialverteilung sehr gut durch die Normalverteilung approximiert. approximiert Normalverteilung Daumenregel: Eine gute Approximation ergibt sich bereits für n·p·q > 9 (also σ² > 9). [Eine alternative Faustregel besagt, dass für eine hinreichend gute Approximation n·p ≥ 10 und n·q ≥ 10 sein sollen.] Als Parameter μ ist dann n·pp einzusetzen,, der Parameter σ ist n·p·q. Eine binomialverteilte ZV X kann approximiert werden als X ∼ N (np, npq ) Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilungsapproximation g pp der Binomialverteilung Kennwerte & Darstellung Normalverteilung Sind die Faustregeln g für eine gute g Approximation pp erfüllt,, können sowohl die Punktwahrscheinlichkeit als auch die Intervallwahrscheinlichkeit für die Binomialverteilung aus der Normalverteilung approximiert werden. Punktwahrscheinlichkeit: Für ein beliebiges Ereignis X = xi einer binomialverteilten ZV ist die NV-approximierte Punktwahrscheinlichkeit definiert als F(xi-0.5 ≤ xi ≤ xi+0.5) = Φ(xi+0.5) - Φ(xi-0.5) Intervallwahrscheinlichkeit: Die Intervallwahrscheinlichkeit u ≤ xi ≤ o ist analog definiert als P(u-0.5 ≤ xi ≤ o+0.5) = Φ(o+0.5) - Φ(u-0.5) Statistik & Methodenlehre e ode e e Definition Diskrete Verteilungen Stetige Verteilungen Normalverteilungsapproximation g pp der Binomialverteilung - Stetigkeitskorrektur Kennwerte & Darstellung Normalverteilung Die Subtraktion b k bzw. b Addition dd von 0.5 wird d auch h als l Stetigkeitskorrektur bezeichnet. g bringt g besonders bei hohem n Die Stetigkeitskorrektur (also dem Grund für die Verwendung der NVApproximation) nur wenig mehr Rechengenauigkeit bei der Berechnung g von Intervallwahrscheinlichkeiten. Sie ist aber prinzipiell notwendig, da eine beliebige Kategorie xi (z.B. 4) in der Binomialverteilung theoretisch von xi-0.5 0 5 bis xi+0.5 +0 5 (z.B. (z B 3 3.5 5 bis 4 4.5) 5) reichen muss. muss Bei fehlender Stetigkeitskorrektur entstehen „Lücken“ in der NV-Approximation. Die Wahrscheinlichkeiten F(X ≤ xi) und d F(X > xi) addieren ddi sich i h dann d nicht i h mehr h zu 1, 1 da d der d Bereich von xi bis xi+1 fehlt.