n - Methodenlehre - Johannes Gutenberg

Werbung
Statistik &
Methodenlehre
Sprechstunde
jederzeit nach
Vereinbarung und
nach der Vorlesung
Mathematische und
statistische Methoden II
Wallstr. 3, 6. Stock,
Raum 06-206
Dr. Malte Persike
[email protected]
lordsofthebortz.de
lordsofthebortz.de/g+
facebook.com/methodenlehre
twitter.com/methodenlehre
youtube.com/methodenlehre
SoSe 2012
Folie 1
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Statistik &
Methodenlehre
Stetige Verteilungen
Inferenzstatistik
Inhalte
dieser Sitzung
 Kennwerte in Theorie und Empirie
 Das Schätzproblem: von der Stichprobe zur
Population
 Der 1-Stichproben t-Test
Folie 2
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Kennwerte in Theorie & Empirie
Numerische Beschreibung: relative Häufigkeit
Schätzen

Die Wahrscheinlichkeit für die Realisation i einer
Zufallsvariablen X ist
p  xi 
Theorie

Das Äquivalent bei n empirisch an einer Stichprobe
erhobenen Realisationen einer Zufallsvariablen X ist die
relative Häufigkeit, berechnet als
h  xi 
f  xi  
n
Empirie
Folie 3
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Kennwerte in Theorie & Empirie
Numerische Beschreibung: Mittelwert
Schätzen

Der Erwartungswert einer Zufallsvariablen X ist
k
E ( X )     pi xi
i 1
Theorie (diskreter Fall)

Das Äquivalent für empirisch an einer Stichprobe
erhobene Daten einer Zufallsvariablen X ist der
Mittelwert, berechnet als
1 n
x    xi
n i 1
Empirie
Folie 4
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Kennwerte in Theorie & Empirie
Numerische Beschreibung: Mittelwert
Schätzen

Ausgeschrieben lautet die Formel für den Mittelwert bei
n Beobachtungen x1 … xn
1
1 n
x   ( x1  x2   xN )    xi
n
n i 1

Der Mittelwert ist durch „extreme“ Werte beeinflussbar
(ausreißerempfindlich)

Er ist der Schwerpunkt der Beobachtungen, d.h.
n
x  x   0
i 1
Folie 5
i
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Intervalldaten
Numerische Beschreibung: Mittelwert
Schätzen

Der Mittelwert stimmt häufig mit keiner beobachteten
Realisation überein

Der Mittelwert ist wie der Erwartungswert äquivariant
gegenüber gewissen (z.B. linearen) Transformationen

Insbesondere
1. Addition einer Konstanten a zu allen n
Beobachtungen x1 … xn
xa  x a
2. Multiplikation aller n Beobachtungen x1 … xn mit
einer Konstanten c
Folie 6
ax  ax
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Intervalldaten
Numerische Beschreibung: Varianz
Schätzen

Die Varianz einer Zufallsvariablen X ist definiert als
E  X  E  X   
2
k
2
 X    pi   xi   
2
i 1
Theorie (diskreter Fall)

Das Äquivalent für empirisch an einer Stichprobe
erhobene Daten einer Zufallsvariablen X heißt ebenfalls
Varianz und wird berechnet als
n
1
2
2
s  x      xi  x 
n i 1
Empirie
Folie 7
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Intervalldaten
Numerische Beschreibung: Varianz
Schätzen
 Die Varianz ist das mittlere Abweichungsquadrat aller
n Beobachtungen x1 … xn vom Mittelwert.
n
1
2
2
s  x      xi  x 
n i 1
 Erfasst die mittlere Streuung um den Mittelwert
 Nur falls keine Streuung besteht, ist s² = 0, d.h. alle
beobachteten Werte sind gleich. Sonst: s² > 0
 Je größer die Streuung um den Mittelwert, desto
größer ist die Varianz
 Ist anfällig gegenüber Ausreißern
Folie 8
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Intervalldaten
Numerische Beschreibung: Standardabweichung
Schätzen
 Problem: Auch die empirische Varianz ist nicht
äquivariant zu erlaubten Skalentransformationen
s 2 (a  x)  a 2  s 2 ( x)
(mit a = const.)
 Wie bei der theoretischen Varianz erhält man durch
Wurzelziehen die Standardabweichung (SD,
standard deviation)
n
1
2
2
s  x  s  x 
   xi  x 
n i 1
 Die Standardabweichung ist äquivariant zu den
erlaubten Skalentransformationen
Folie 9
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population
Schätzen
 Problem: Beim inferenzstatistischen Test ist immer der
Schluss von den Daten einer Stichprobe auf einen
Sachverhalt in der Population gefragt.
 Beispiel: Beim Binomialtest wird anhand von empirisch
in einer Stichprobe erhobenen relativen Häufigkeiten auf
die Gleichheit oder Ungleichheit von theoretischen
Wahrscheinlichkeiten in der Population geschlossen
 Dies ist der inferenzstatistische Schluss
 Der inferenzstatistische Schluss steht und fällt mit der
Annahme, dass die Verwendung gemessener Kennwerte
(z.B. relative Häufigkeit) als Schätzung für den
theoretischen Populationskennwert gerechtfertigt ist
Folie 10
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population
Schätzen
 Dieses so genannte Schätzproblem lässt sich in einer
einzigen Frage zusammenfassen
Wann ist eine Schätzung eine gute Schätzung?
 Das wesentliche statistische Merkmal einer guten
Schätzung ist die Erwartungstreue
Eine Schätzung ist dann erwartungstreu, wenn
bei unendlichen vielen Wiederholungen des
Zufallsexperimentes der dabei gemessene
Stichprobenkennwert im Mittel gleich dem
theoretischen Populationskennwert ist
Folie 11
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population: p
Schätzen
 Es zeigt sich, dass die relative Häufigkeit eine
erwartungstreue Schätzung für die Wahrscheinlichkeit in der Population ist
sprich: „dach“
 Es gilt also
f  xi 
Stichprobenkennwert
(bekannt)

pˆ  xi 
Schätzung
(bekannt)

p  xi 
Populationskennwert
(unbekannt)
 Dieser Zusammenhang wurde bereits im Gesetz der
Großen Zahl (law of large numbers) formuliert
Folie 12
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population: 
Schätzen
 Es zeigt sich, dass der Mittelwert eine
erwartungstreue Schätzung für den Erwartungswert
in der Population ist
 Es gilt also
x
Stichprobenkennwert
(bekannt)

ˆ
Schätzung
(bekannt)


Populationskennwert
(unbekannt)
 Dieser Zusammenhang berechtigt Wissenschaftler, aus
Stichprobendaten einen Erwartungswert für eine
Zufallsvariable zu behaupten (z.B. mittlerer IQ = 100)
Folie 13
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population: ²
Schätzen
 Es zeigt sich, dass die Varianz der Stichprobe keine
erwartungstreue Schätzung für die Varianz in der
Population ist
 Es ist also
s2
Stichprobenkennwert
(bekannt)

ˆ 2
Schätzung
(unbekannt)

2
Populationskennwert
(unbekannt)
 Man kann also aus der anhand von Stichprobendaten
gemessenen Varianz nicht auf die Varianz der
Zufallsvariable in der Population schließen
Folie 14
Statistik &
Methodenlehre
Kennwerte
Stetige Verteilungen
Inferenzstatistik
Schätzen
Von der Stichprobe zur Population: ²
Schätzen
 Man kann aber beweisen, dass die Stichprobenvarianz
die Populationsvarianz systematisch unterschätzt, dass
sie also einen Bias (= systematischer Fehler) hat
 Für diesen Bias gibt es eine einfache Korrektur
n
 s2
n 1
Stichprobenkennwert
(bekannt)

ˆ 2
Schätzung
(berechenbar)

2
Populationskennwert
(unbekannt)
 Diese korrigierte Stichprobenvarianz ist eine erwartungstreue Schätzung der Populationsvarianz, so dass man
aus Daten behaupten kann, dass z.B.  des IQ = 10
Folie 15
Statistik &
Methodenlehre
Kennwerte
Schätzen
Stetige Verteilungen
Schätzen
Übersicht
Wahrscheinlichkeit:
Mittelwert:
Varianz:
Standardabweichung:
Folie 16
Inferenzstatistik
Empirisch
Theoretisch
f  x
p̂  x   f  x 
1 n
x    xi
n i 1
ˆ  x
n
1
2
n
2
2
s     xi  x  ˆ 
 s2
n i 1
n 1
s  s
2
2
n
ˆ 
s
n 1
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Mittelwertevergleiche
 In der empirischen Forschung ist zumeist nicht die
Prüfung eines Einzeldatums gefragt, sondern von
Mittelwerten bzw. von Unterschieden zwischen
solchen in mehreren Gruppen
 Beispiele: „Verbessert sich die Schulleistung von
Kindern durch Förderunterricht?“, „Wirkt VT bei
Schizophrenen?“, „Sind Frauen sprachbegabter als
Männer?“
 Für Ordinaldaten haben wir den U-Test sowie den
Wilcoxon Vorzeichenrangtest kennen gelernt
 Für Intervalldaten stehen bessere (i.e. teststärkere)
Tests zur Verfügung
Folie 17
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Mittelwertevergleiche
 Inferenzstatistische Tests für Mittelwerte sollen anhand
von Stichprobendaten Aussagen über die Unterschiedlichkeit von Erwartungswerten in der
Population treffen.
 Für einen solchen Test müssen mehrere Dinge bekannt
sein:
• Die Erwartungswerte selbst
• Ihre Verteilungsform bzw. die Verteilungsform
der berechneten Prüfgröße
• Die Parameter dieser Verteilung
 All diese sind zunächst unbekannt, so dass genau wie
bei den bisher behandelten Tests Schätzungen
erforderlich sind
Folie 18
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Folie 19
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Grundlagen
 Der 1-Stichproben t-Test beantwortet die Frage, ob ein aus
einer Stichprobe geschätzter Erwartungswert mit
einem bekannten Erwartungswert übereinstimmt.
 Keiner der Merkmalsträger darf mehr als einmal in der
Stichprobe vertreten sein.
 Beispiele: „Ist der IQ von Psychologiestudierenden im
Mittel 100?“, „Sind Geburtsraten in Deutschland so hoch
wie der europäische Durchschnitt?“, „Erreichen Teilnehmer
eines Assessment Centers im Mittel einen bestimmten CutOff-Wert?“
Statistik &
Methodenlehre
Stetige Verteilungen
Inferenzstatistik
Einführung
Tests für Intervalldaten
Prüfgröße
Unbekannte Population
Der 1-Stichproben t-Test – Grundlagen
Stichprobe (n)
x
Hypothesen
Voraussetzungen
Ist der Erwartungswert der
Stichprobe
gleich μ: H0
Bekannte Population
oder
verschieden: H1
 und 
Folie 20
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Grundlagen
 Grundfrage: Wie üblich kann man fragen, ob der
beobachtete Mittelwert zu extrem ist, um anzunehmen,
dass die Stichprobe noch aus einer Population mit dem
Erwartungswert μ stammt.
 Ansatz: Um diese Frage zu beantworten, müssen wir
zwei Dinge wissen:
1. Die Wahrscheinlichkeitsverteilung
dieser Mittelwerte
2. Die Parameter dieser Verteilung
Folie 21
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Grundlagen
Prüfgröße
 Problem: Die Wahrscheinlichkeitsverteilung von
Mittelwerten ist ein sehr theoretisches Konstrukt
Hypothesen
 Sie ergäbe sich, wenn ein Experiment mit immer neuen
Stichprobe aus derselben Population wieder und wieder
durchgeführt würde und bei jeder Durchführung der
Mittelwert berechnet würde
Voraussetzungen
Folie 22
 Erkenntnis: Ein Herr „Student“ (aka William Sealy
Gossett, Statistiker bei Guinnes) konnte herleiten, dass die
Wahrscheinlichkeitsverteilung von Mittelwerten
mathematisch sehr gut zu beschreiben ist
Statistik &
Methodenlehre
Einführung
Prüfgröße
Stetige Verteilungen
Tests für Intervalldaten
Der 1-Stichproben t-Test – Grundlagen
 Wenn die Zufallsvariable einen Erwartungswert von μ
der Differenzen besitzt, so hat der Mittelwert für
Stichproben dieser Zufallsvariablen den Erwartungswert
Hypothesen
Voraussetzungen
x  
 Wenn die Zufallsvariable eine Standardabweichung
von σ bzw. eine Varianz von σ² besitzt, so streuen die
Mittelwerte mit
x 
Folie 23
Inferenzstatistik

n
bzw.
 x2 
2
n
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Prüfgröße
Prüfgröße
 „Student“ musste nur noch ermitteln, welche Form die
Wahrscheinlichkeitsverteilung von Mittelwerten hat
Hypothesen
 Er definierte zunächst eine Prüfgröße
t
Voraussetzungen
x  x
x
für die ja gemäß der bisherigen Erkenntnisse gilt:
x  
Folie 24
und
x 

n
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Prüfgröße
Prüfgröße
 Die erste Vermutung, dass t wie üblich normalverteilt sei,
bestätigte sich nicht
Hypothesen
 „Student“ konnte zeigen, dass die Prüfgröße die Form
einer so genannten t-Verteilung hat
Voraussetzungen
 Die t-Verteilung hat nur einen Parameter, nämlich die so
genannten Freiheitsgrade df (degrees of freedom)
 Diese Freiheitsgrade ergeben sich direkt aus der Größe
der Stichprobe n, deren Mittelwert getestet wird
df  n  1
Folie 25
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Die t-Verteilung von Student
Prüfgröße
StandardNormalverteilung
0.4
0.3
Hypothesen
0.2
Voraussetzungen
t- Verteilung mit df = 10
0.1
-3
-2
-1
1
Kritische Werte sind bei der tVerteilung im Vergleich zur
Normalverteilung größer
Folie 26
2
3
t.99  2.76
z.99  2.33
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Die t-Verteilung von Student
Prüfgröße
 Standardnormal- und t-Verteilung sind sich also offenbar
sehr ähnlich, aber nicht identisch
Hypothesen
 Je größer n (und damit auch die Freiheitsgrade), desto
mehr gleichen sich die Wahrscheinlichkeitsverteilungen an
Voraussetzungen
 Da die Standardnormalverteilung einfacher zu tabellieren
ist – es gibt nur eine – wurde früher oft diese verwendet,
um die Größe der Prüfgröße zu berechnen.
 Da die t-Verteilung heute sehr einfach bestimmt werden
kann, ist dieses approximative Vorgehen nicht mehr
notwendig
Merke: Für t immer die t-Verteilung!
Folie 27
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Ablauf
 Der t-Test folgt nun exakt der üblichen Vorgehensweise
des Hypothesentestens
1. Voraussetzungen prüfen
2. Verteilungsannahme treffen: t-verteilt mit den
berechneten df
3. Hypothesenrichtung festlegen und statistische
Hypothesen formulieren
4. Signifikanzniveau festlegen
5. Prüfgröße t bestimmen
6. Wahrscheinlichkeit für die berechnete Prüfgröße
bestimmen und mit dem Signifkanzniveau vergleichen
Folie 28
Statistik &
Methodenlehre
Einführung
Prüfgröße
Hypothesen
Voraussetzungen
Folie 29
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Hypothesen
 Erkenntnis: Jede Stichprobe stammt aus irgendeiner
Population mit einem bestimmten, aber unbekannten
Erwartungswert μX
 Wenn der beobachtete Mittelwert zu extrem ist, dann
stammt die Stichprobe offenbar nicht aus der gegebenen
Population mit dem Erwartungswert μ
 Die Bewertung der Prüfgröße läuft also auf den Test
hinaus, ob der beobachtete Mittelwert der Stichprobe aus
einer Population mit dem bekannten μ oder dem
unbekannten μX stammt
Statistik &
Methodenlehre
Einführung
Prüfgröße
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Hypothesen
 Beim t-Test sind wie beim z-Test potentiell alle drei
möglichen Hypothesenrichtungen von Interesse.
Hypothesen

Voraussetzungen
H 0 :  x    Verwerfen der Verteilungsannahme

H1 :  x    bei zu hohem x
H 0 :  x    Verwerfen der Verteilungsannahme

H1 :  x    bei zu niedrigem x
„Einseitige“ oder „gerichtete“ Hypothese

H0 : X  
 Verwerfen der Verteilungsannahme

H1 :  X   ,  X    bei einem zu extremen Wert
„Zweiseitige“ oder „ungerichtete“ Hypothese
Folie 30
Statistik &
Methodenlehre
Einführung
Stetige Verteilungen
Inferenzstatistik
Tests für Intervalldaten
Der 1-Stichproben t-Test – Hypothesen
Prüfgröße
 Man ermittelt nun die Auftretenswahrscheinlichkeit
p(t|H0) unter der Annahme, dass die angenommene
Wahrscheinlichkeitsverteilung gilt.
Hypothesen
 Dazu berechnet man
Voraussetzungen
p T  t 
für die H 0 :  X  
Verwerfen der H0 bei einem
zu positiven Mittelwert
p T  t 
für die H 0 :  X  
Verwerfen der H0 bei einem
zu negativen Mittelwert
p  T  t 
für die H 0 :  X  
 p  T  t 
Verwerfen der H0 bei einem
zu extremen Mittelwert
und vergleicht p mit dem Signifikanzniveau 
Folie 31
 Das p(…) wird aus der Verteilungsfunktion der t-Verteilung
berechnet
Statistik &
Methodenlehre
Tests für Ordinaldaten
Intervalldaten
Tests für
Einführung
Tests für Intervalldaten
Prüfgröße
Beobachtung im Experiment: x
Der 1-Stichproben t-Test – Hypothesen
Frage: Stammt die Stichprobe aus einer Population mit ?
Geht die Größe des Mittelwertes auf einen Stichprobenfehler zurück?
Hypothesen
Voraussetzungen
(1) Festlegung von Signifikanzniveau α Achtung: Vorher
und Gerichtetheit
immer Prüfung der
Voraussetzungen!
(2) Berechnung der Prüfgröße t
(3) Berechnung der Wahrscheinlichkeit für dieses oder ein
extremeres z: z. B. p(T≥ t)
(4) Vergleich von p mit α und
Treffen der Signifikanzaussage
Folie 32
Aber: Bei dieser
Aussage irrt man
sich mit einer
Wahrscheinlichkeit
von α·100%
Statistik &
Methodenlehre
Einführung
Tests für Ordinaldaten
Intervalldaten
Tests für
Tests für Intervalldaten
Der 1-Stichproben t-Test – Voraussetzungen
Prüfgröße
 Die Zufallsvariable muss intervallskaliert sein
Hypothesen
 Bei n < 30 sollten die Daten normalverteilt sein
Voraussetzungen
Folie 33
Statistik &
Methodenlehre
Relevante Excel Funktionen
 Tests für Intervalldaten
• T.VERT()
Folie 34
Herunterladen