X - Methodenlehre - Johannes Gutenberg

Werbung
Statistik &
Methodenlehre
e ode e e
Prof. Dr. G. Meinhardt
6. Stock, Wallstr. 3
((Raum 06-206))
Sprechstunde jederzeit
nach Vereinbarung und
nach der Vorlesung.
g
Mathematische und
statistische Methoden II
Dr. Malte Persike
} [email protected]
http://psymet03.sowi.uni-mainz.de/methods/
SS 2010
Fachbereich Sozialwissenschaften
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Statistik &
Methodenlehre
e ode e e
Zusammenfassung
g Erwartungswert
g
Transformation der Zufallsvariablen
Allgemeiner Fall: Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X mit beliebig
p g g sei bekannt.
vielen Ausprägungen
⎧ x1
⎪x
⎪ 2
X =⎨
⎪
⎪⎩ xk
⎧ p1
⎪p
⎪ 2
p( X ) = ⎨
⎪
⎪⎩ pk
k
μ X = ∑ pi ⋅ xi
i =1
k
σ = ∑ pi ⋅ ( xi − μ X )
2
X
2
i =1
Oder μx und σ
σ² sind direkt
berechenbar (z.B. bei der
Binomialverteilung)
Statistik &
Methodenlehre
e ode e e
Zusammenfassung
g Erwartungswert
g
Transformation der Zufallsvariablen
Variante 1: Die neue Zufallsvariable X‘ ist eine
einfache mathematische Transformation der alten
Zufallsvariablen X.
X ' = a⋅ X +b
Dann gilt
μX ' = a + b ⋅ μX
σ X2 ' = a 2 ⋅ σ X2
Statistik &
Methodenlehre
e ode e e
Zusammenfassung
g Erwartungswert
g
Transformation der Zufallsvariablen
Variante 2: Die neue Zufallsvariable X‘ ist eine
beliebige Transformation der alten Zufallsvariablen X.
⎧ x '1
⎪x '
⎪
X '=⎨ 2
⎪
⎪⎩ x 'k
⎧ p1
⎪p
⎪
p ( X ') = ⎨ 2
⎪
⎪⎩ pk
k
μ X ' = ∑ pi ⋅ x 'i
Dann gilt
i =1
k
σ X2 ' = ∑ pi ⋅ ( x 'i − μ X ' )
i =1
2
Statistik &
Methodenlehre
e ode e e
Zusammenfassung
g Erwartungswert
g
Transformation der Zufallsvariablen
Spezieller Fall: Die Zufallsvariable X sei dichotom,
0/1-kodiert und ihre Wahrscheinlichkeitsverteilung
bekannt.
k
⎧0
X =⎨
⎩1
⎧ p0
p( X ) = ⎨
⎩ p1
μ X = ∑ pi ⋅ xi
i =1
k
σ = ∑ pi ⋅ ( xi − μ X )
2
X
2
i =1
Oder μx und σ
σ² sind direkt
berechenbar (z.B. bei der
Binomialverteilung)
Statistik &
Methodenlehre
e ode e e
Zusammenfassung
g Erwartungswert
g
Transformation der Zufallsvariablen
Die neue Zufallsvariable X‘ ist eine beliebige
Transformation der alten Zufallsvariablen X.
⎧ x '0
X '=⎨
⎩ x '1
⎧ p0
p( X ) = ⎨
⎩ p1
Daraus erhält man für eine dichotome ZV
a = x '2 − x '1
b = x '1
und damit wieder
μX ' = a + b ⋅ μX
σ X2 ' = a 2 ⋅ σ X2
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Definition
Kennwerte &
Darstellung
Normalverteilung
Falls eine Zufallsvariable X jeden Wert in einem Intervall
annehmen kann, wird sie stetige Zufallsvariable
genannt
Die Wahrscheinlichkeitsfunktion f(x) einer stetigen
Zufallsvariable wird zumeist als mathematische Funktion
definie t Sie wird
definiert.
i d bei stetigen ZV auch
a ch als
Dichtefunktion bezeichnet.
Die Verteilungsfunktion einer stetigen Zufallsvariablen
ist dann
F ( x) = ∫
+∞
−∞
f ( x)dx
d
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Definition
Kennwerte &
Darstellung
Normalverteilung
Eine Funktion f(x) ist gemäß der Kolmogoroff Axiome
genau dann eine Dichtefunktion, wenn gilt
f ( x) ≥ 0
und
F ( x) = ∫
+∞
−∞
f ( x)dx = 1
Dabei reicht der Wertebereich von f(x) nicht für jede
Zufallsvariable von -∞ bis +∞ (z.B. Reaktionszeit).
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Definition
Kennwerte &
Darstellung
Normalverteilung
Für eine stetige Zufallsvariable ist die
Punktwahrscheinlichkeit f(X = x) immer 0.
Die Wahrscheinlichkeitsdichte
Di
W h h i li hk it di ht f(x)
f( ) liefert
li f t also
l nicht
i ht
unmittelbar die Wahrscheinlichkeiten für Ereignisse, die
Wahrscheinlichkeiten ergeben sich aus der Fläche unter
de Dichtef
der
Dichtefunktion
nktion
Es sind nur Wahrscheinlichkeiten für Intervalle von
Realisationen zu berechnen,
berechnen also F(a ≤ x ≤ b).
b) Diese wird
dann berechnet als
b
F (a ≤ x ≤ b) = ∫ f ( x)dx = F (b) − F (a )
a
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Kennwerte
Kennwerte &
Darstellung
Der Erwartungswert einer stetigen Zufallsvariablen ist
ähnlich definiert wie im diskreten Fall
μ=∫
Normalverteilung
+∞
−∞
f ( x) ⋅ x dx
Auch Varianz und Standardabweichung werden
analog berechnet
σ =∫
2
+∞
−∞
f ( x) ⋅ ( x − μ ) dx
2
⇒σ = σ2
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Kennwerte
Kennwerte &
Darstellung
Normalverteilung
Die Regeln zur Bestimmung von Modus, Median und
Quantilen stimmen mit dem diskreten Fall exakt
überein.
Zur Berechnung von Median und Quantilen wird dabei die
inverse Verteilungsfunktion benötigt, damit zu einem
gewünschten Quantilszahl p der entsprechende Wert x
berechnet werden kann
x = F −1 ( x )
Die inverse Verteilungsfunktion ist einfach die Umformung
der Verteilungsfunktion nach x.
Statistik &
Methodenlehre
e ode e e
Diskrete Verteilungen
Stetige Verteilungen
Stetige
g Zufallsvariablen
Definition
Darstellung
Kennwerte &
Darstellung
Die Darstellung der Wahrscheinlichkeitsverteilung und
Verteilungsfunktion einer stetigen Zufallsvariablen findet
zumeist über kontinuierliche Graphen statt.
Normalverteilung
Standardnormalverteilung
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
F(z,μ,σ)
f(z,μ,σ)
Standardnormalverteilung
‐3
‐2
‐1
0
zz‐Wert
Wert
1
2
3
1
0.9
0.8
0.7
0.6
0.5
0.4
03
0.3
0.2
0.1
0
‐3
‐2
‐1
0
zz‐Wert
Wert
1
2
3
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
Definition
Kennwerte &
Darstellung
Normalverteilung
Im psychologischen Kontext ist die Normalverteilung die
wohl prominenteste Wahrscheinlichkeitsverteilung.
Sie ist theoretischer Natur, da sie (anders als z.B. die
Binomialverteilung) nicht direkt aus dem
Bedingungskomplex Ξ abgeleitet werden kann.
Die Normalverteilung ist durch zwei Parameter, μ und
σ definiert.
definiert
1
f ( x, μ , σ ) =
e
2πσ
1 ⎛ x−μ ⎞
− ⎜
⎟
2⎝ σ ⎠
2
Ist eine Zufallsvariable X normalverteilt, wird dies häufig
geschrieben als X ∼ N(μ, σ)
Statistik &
Methodenlehre
e ode e e
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
Kennwerte
Der Parameter μ ist direkt der Erwartungswert der Normalverteilung
μ ist aufgrund der Symmetrie gleichzeitig auch Modus und Median
σ² ist direkt die Varianz der Normalverteilung
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
Warum die Normalverteilung - Zentraler Grenzwertsatz
Kennwerte &
Darstellung
Der Zentrale Grenzwertsatz (Central Limit Theorem):
Die Summe einer großen Zahl unabhängiger, identisch
verteilter Zufallsvariablen ist approximativ normalverteilt.
normalverteilt
Normalverteilung
Dies veranlasste Sir Francis Galton (1889) zu der
enthusiasmierten Lobpreisung
„Ich kenne kaum etwas, das unsere Imaginationskraft so bewegen kann wie
die wundervolle Form kosmischer Ordnung, die sich im ‚Gesetz der
Verteilung von Fehlern‘ ausdrückt.
ausdrückt Hätten die Griechen es gekannt
gekannt, sie
hätten es personifiziert und als Gottheit angebetet. Es herrscht mit
bescheidener Gelassenheit in der wildesten Konfusion. Je gewaltiger die
Horde, je ärger die augenscheinliche Anarchie, um so souveräner ist seine
Herrschaft Wann immer eine Menge chaotischer Elemente nach ihrer Größe
Herrschaft.
angeordnet wird, tritt es hinter dem Schleier des Chaos als unverhoffte und
wunderschöne Form der Regelmäßigkeit hervor.“
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
Warum die Normalverteilung
Kennwerte &
Darstellung
1 Sie ergibt sich
1.
sich, wenn viele Zufallsprozesse bei der
Realisierung einer Zufallsvariablen additiv
zusammenwirken.
Normalverteilung
2. Sie ist die Verteilung des Mittelwerts aller Realisierungen
bei sehr häufiger Wiederholung eine Zufallsexperiment
( Zentraler Grenzwertsatz“)
(„Zentraler
Grenzwertsatz ).
3. Sie ist die Verteilung von Zufallsvariablen, wenn diese
eine messfehlerbehaftete Erfassung eines Merkmals
darstellen.
4. Sie ist mathematisch relativ leicht zu behandeln.
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
Eigenschaften
Kennwerte &
Darstellung
Normalverteilung
Ist symmetrisch, unimodal und glockenförmig
Verschiedene Normalverteilungen unterscheiden sich
bezüglich Erwartungswert (µ) und/oder
St d d b i h
Standardabweichung
(σ)
( )
Der Wertebereich reicht von –∞ bis +∞
Die Kurve berührt oder schneidet nie die x-Achse
Jedes Intervall mit einer Länge größer Null hat eine
Wahrscheinlichkeit größer Null
Der Typ (i.e.
(i e die Form) der Verteilung ändert sich für
lineare Transformationen der Zufallsvariable nicht (siehe
Transformationsregelen für Erwartungswert und Varianz).
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Standardisierung
z-Transformation
Kennwerte &
Darstellung
Ziel: Angabe der relativen Lage von Werten in einer
Verteilung.
1. Quantile: wie bereits gesehen
Normalverteilung
2. Angabe einer normierten Differenz eines Messwertes
zum Erwartungswert
Berechnungsvorschrift: Jede Differenz eines Messwertes
wird durch die Standardabweichung
g aller Messwerte geteilt.
g
Die erhaltenen Werte werden als z-Werte bezeichnet.
z=
x−μ
σx
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Standardnormalverteilung
g
z-Transformation
Kennwerte &
Darstellung
z-transformiert man eine normalverteilte Zufallsvariable
erhält man die Standardnormalverteilung.
Für die Standardnormalverteilung gilt: μ = 0, σ = 1
Normalverteilung
Die Formel der Normalverteilung reduziert sich damit auf
1 − 1 z2
f ( z) =
e 2
2π
Der Werte der Dichte- und Verteilungsfunktion hängen
also nur von z ab
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Standardnormalverteilung
g
Quantile
Kennwerte &
Darstellung
Normalverteilung
Stetige Verteilungen
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Standardnormalverteilung
g
Die 68-95-99 Regel
Kennwerte &
Darstellung
Normalverteilung
Stetige Verteilungen
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Standardnormalverteilung
g
Verteilungsfunktion
Kennwerte &
Darstellung
Normalverteilung
Stetige Verteilungen
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Standardnormalverteilung
g
Verteilungsfunktion
Kennwerte &
Darstellung
Normalverteilung
Die Verteilungsfunktion
l
f k
der
d Normalverteilung
l
l
wird
d auch
h
als Φ(x) (Phi) geschrieben.
Häufig
Hä
fi iistt es wichtig,
i hti die
di Inverse
I
d
der
Verteilungsfunktion der Normalverteilung zu
berechnen, z.B. für die Bestimmung von Quantilen.
Die Inverse der Verteilungsfunktion einer normalverteilten
Zufallsvariablen wird dann geschrieben als Φ-1(x)
Sowohl Φ(x) als auch Φ-1(x) sind mathematisch nicht als
einfacher Formelausdruck zu beschreiben (anders als die
Dichtefunktion).
Dichtefunktion)
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
z-Test
Kennwerte &
Darstellung
Normalverteilung
Ein Gesundheitspsychologe
p y
g beschäftigt
g sich mit dem BurnoutSyndrom. Er möchte das Maslach Burnout Inventory (Maslach
& Jackson, 1981) verwenden, um Personen zu identifizieren,
die an Burnout leiden.
Der Psychologe hat herausgefunden, dass Normalpersonen
im MBI einen Erwartungswert von 11.4 Punkten erzielen. Die
Varianz beträgt 5.76. Zudem nimmt der Psychologe auf Basis
theoretischer Erwägungen an, dass der MBI Punktwert
normalverteilt ist.
Ein Patient hat einen MBI Punktwert von 16.3. Stammt er aus
der Verteilung der Normalpersonen? Welchen Wert müsste
ein Patient erreichen,
erreichen damit er unter der gegebenen
Verteilungsannahme statistisch signifikant wird?
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilung
g
z-Test
Kennwerte &
Darstellung
Beobachtung im Experiment: X=x
Frage: Kann x aus einer Normalverteilung N(μ, σ) stammen?
Geht die Höhe des Wertes x auf einen Stichprobenfehler zurück?
Normalverteilung
(1) Bestimmung der Verteilung der Zufallsvariablen X
((2)) Festlegung
g g eines Signifikanzniveaus
g
α
(3) Berechnung der Wahrscheinlichkeit für dieses oder ein
extremeres x: z. B. p(X≥x)
(4) Vergleich von p mit α und
Treffen der Signifikanzaussage
Aber: Bei dieser
Aussage irrt man
sich mit einer
Wahrscheinlichkeit
von α·100%
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilungsapproximation
g pp
der Binomialverteilung
Kennwerte &
Darstellung
Bei sehr kleinem p kann die Binomialverteilung
g durch die
Poissonverteilung approximiert werden (wie gesehen)
Bei großem Produkt n·p wird die Binomialverteilung sehr
gut durch die Normalverteilung approximiert.
approximiert
Normalverteilung
Daumenregel: Eine gute Approximation ergibt sich bereits
für n·p·q > 9 (also σ² > 9).
[Eine alternative Faustregel besagt, dass für eine hinreichend
gute Approximation n·p ≥ 10 und n·q ≥ 10 sein sollen.]
Als Parameter μ ist dann n·pp einzusetzen,, der Parameter σ
ist n·p·q.
Eine binomialverteilte ZV X kann approximiert werden als
X ∼ N (np, npq )
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilungsapproximation
g pp
der Binomialverteilung
Kennwerte &
Darstellung
Normalverteilung
Sind die Faustregeln
g
für eine gute
g
Approximation
pp
erfüllt,,
können sowohl die Punktwahrscheinlichkeit als auch die
Intervallwahrscheinlichkeit für die Binomialverteilung
aus der Normalverteilung approximiert werden.
Punktwahrscheinlichkeit: Für ein beliebiges Ereignis
X = xi einer binomialverteilten ZV ist die NV-approximierte
Punktwahrscheinlichkeit definiert als
F(xi-0.5 ≤ xi ≤ xi+0.5) = Φ(xi+0.5) - Φ(xi-0.5)
Intervallwahrscheinlichkeit: Die Intervallwahrscheinlichkeit u ≤ xi ≤ o ist analog definiert als
P(u-0.5 ≤ xi ≤ o+0.5) = Φ(o+0.5) - Φ(u-0.5)
Statistik &
Methodenlehre
e ode e e
Definition
Diskrete Verteilungen
Stetige Verteilungen
Normalverteilungsapproximation
g pp
der Binomialverteilung - Stetigkeitskorrektur
Kennwerte &
Darstellung
Normalverteilung
Die Subtraktion
b k
bzw.
b
Addition
dd
von 0.5 wird
d auch
h als
l
Stetigkeitskorrektur bezeichnet.
g
bringt
g besonders bei hohem n
Die Stetigkeitskorrektur
(also dem Grund für die Verwendung der NVApproximation) nur wenig mehr Rechengenauigkeit bei
der Berechnung
g von Intervallwahrscheinlichkeiten.
Sie ist aber prinzipiell notwendig, da eine beliebige
Kategorie xi (z.B. 4) in der Binomialverteilung theoretisch
von xi-0.5
0 5 bis xi+0.5
+0 5 (z.B.
(z B 3
3.5
5 bis 4
4.5)
5) reichen muss.
muss
Bei fehlender Stetigkeitskorrektur entstehen „Lücken“ in
der NV-Approximation. Die Wahrscheinlichkeiten F(X ≤ xi)
und
d F(X > xi) addieren
ddi
sich
i h dann
d
nicht
i h mehr
h zu 1,
1 da
d der
d
Bereich von xi bis xi+1 fehlt.
Herunterladen