Statistik - Allgemeine Psychologie

Werbung
Statistik
Literatur:
Glantz, S.A. (2002). Primer of Biostatistics.
New York: McGraw-Hill.
Maxwell, S.E. & Delaney, H.D. (2000). Designing
Experiments and Analyzing Data. Mahwah, NJ: Erlbaum.
Das Grundproblem der Statistik: der Zufall.
• Jede empirische Messung kann nur mit einer bestimmten
Präzision erfolgen.
• Im allgemeinen treten von Messung zu Messung mehr oder
weniger starke Schwankungen auf, die durch „Zufall“
zustande kommen.
• Die entscheidende Frage:
Spiegelt ein interessantes Datenmuster tatsächlich die
Wirklichkeit wieder, oder könnte es durch reinen Zufall
zustande gekommen sein?
• Die Statistik dient dazu, Wahrscheinlichkeiten dafür
abzuschätzen, daß ein gemessener Effekt durch
Zufallsschwankungen zustande gekommen sein könnte.
Wozu braucht man Statistik?
• Entscheiden, wie extrem eine Beobachtung innerhalb
einer normierten Population ist.
• Zeigen, daß die beobachteten Effekte stärker sind als
die Zufallseinflüsse in der Studie.
• Qualitätssicherung: statistisch signifikante Ergebnisse
zeigen, daß die Daten mit hinreichender Präzision
gemessen wurden.
• „Statistik ist ein organisiertes Argument“ (Maxwell &
Delaney, 2000): Die statistische Analyse ist genauso
organisiert wie die logische Argumentation.
Stichprobe und Grundgesamtheit
Grundgesamtheit:
Die Menge aller möglichen Beobachtungen einer festgelegten Kategorie
die IQ-Ergebnisse aller amerikanischen Busfahrer
die BSE-Werte aller Rinder in Deutschland
Stichprobe:
eine zufällig und unabhängig gezogene Teilmenge davon
Grundlegende statistische Maße („Statistiken“)
Mittelwert (mean):
Der Durchschnitt aller Werte
Varianz (variance):
Die durchschnittliche quadrierte Abweichung aller Werte vom
Mittelwert
Standardabweichung (standard deviation, SD, Streuung):
Die Quadratwurzel aus der Varianz
Freiheitsgrade
Die Freiheitsgrade (df, degrees of freedom) sind die Zahl der Elemente einer
Stichprobe, die frei variieren können.
In einer (theoretischen) Population entspricht die Zahl der Freiheitsgrade
einfach der Zahl der Elemente: df = n.
Wenn man weiß, daß die Elemente bestimmte Randbedingungen erfüllen
müssen, gehen Freiheitsgrade verloren: ein Freiheitsgrad pro einzuhaltende
Randbedingung.
Beispiel: In der Formel für die empirische Varianz steht (n-1) statt n, weil die
Varianz ja relativ zum Mittelwert berechnet werden muß – einer der Meßwerte ist
also durch die anderen genau festgelegt, wenn alle zusammen den Mittelwert
ergeben sollen.
Viele Wahrscheinlichkeitsverteilungen hängen von der Zahl der
Freiheitsgrade ab!
Deskriptive Statistik
Busfahrer:
IQ
1
119
2
100
3
90
4
110
5
108
6
135
______________________________________
Mittelwert:
Standardabweichung:
Varianz:
Standardmeßfehler:
110.33
15.55
241.87
6.35
Der Standardmeßfehler
• Eine Stichprobe kann die Population nur unvollkommen
widerspiegeln.
• alle geschätzten Statistiken (Mittelwert, Varianz usw.)
unterscheiden sich etwas von einer Stichprobe zur anderen.
• Die Standardabweichung dieser leicht verschiedenen
Werte nennt man Standardmeßfehler.
• Je größer die Stichprobe ist, desto genauer werden die
Statistiken geschätzt, und umso kleiner ist der
Standardmeßfehler.
• z.B. Standardfehler des Mittelwertes:
Standardabweichung geteilt durch Wurzel N.
Kleine Stichproben:
geschätzte Mittelwerte
können durch
Zufallseinflüsse weit
vom „wahren“
Mittelwert entfernt
liegen
⇒ die theoretische
Verteilung der
geschätzten
Mittelwerte ist breit,
d.h. der Standardmeßfehler ist groß.
Größere Stichproben:
Zufallseinflüsse
spielen eine geringere
Rolle, die Mittelwerte
können genauer
geschätzt werden
⇒ die theoretische
Verteilung der
geschätzten
Mittelwerte ist enger,
d.h. der Standardmeßfehler ist klein.
Konfidenzintervalle
Mit Hilfe des Standardmeßfehlers kann man ein
Konfidenzintervall erzeugen:
z.B. Schätzer des Mittelwertes:
mit einer Wahrscheinlichkeit von 0.95 liegt der
Populationsmittelwert innerhalb eines Bereichs von
ca. 2 Standardfehlern um den Stichprobenmittelwert.
Mittelwert
s.e.m.
Busfahrer:
IQ
1
119
2
100
3
90
4
110
5
108
6
135
______________________________________
Mittelwert:
Standardmeßfehler:
95%-Konfidenzintervall:
110.33
6.35
97.63 - 123.03
Zufallsvariablen und
Wahrscheinlichkeitsverteilungen
Eine Zufallsvariable ist eine Größe, die mit bestimmten
Wahrscheinlichkeiten bestimmte Werte annehmen kann.
Eine Wahrscheinlichkeitsverteilung ist eine mathematische
Funktion, die angibt, welcher Wert mit welcher
Wahrscheinlichkeit vorkommen kann.
Normalverteilung: Dichtefunktion
Normalverteilung: Verteilungsfunktion
μ = 2, σ = 2
μ = 2, σ = 2
1,0
Fläche links von x unter Dichtefunktion
Wahrscheinlichkeitsdichte für x
0,219
0,165
σ
0,110
Fläche
A:
0,055
0,8
0,6
0,4
A
0,2
μ
0,000
0,0
-4
-2
0
2
x-Wert
4
6
8
-4
-2
0
2
x-Wert
4
6
8
Beispiel: Intelligenztest
Daten:
IQs von einer sehr großen Stichprobe von zufällig
ausgewählten Personen
Annahme:
Das Merkmal "Intelligenz" ist in der Population normalverteilt
Normalverteilung eines IQ-Tests: Dichtefunktion
Normalverteilung eines IQ-Tests: Verteilungsfunktion
μ = 100, σ = 15
μ = 100, σ = 15
0,029
Fläche links von x unter Dichtefunktion
1,0
Wahrscheinlichkeitsdichte
0,022
0,015
0,007
0,8
0,6
50 % der Fläche
0,4
0,2
5%
0,000
55
70
85
100 115 130 145
IQ
0,0
55
70
85
100
IQ
115
130
145
Normalverteilung eines IQ-Tests: Dichtefunktion
Normalverteilung eines IQ-Tests: Verteilungsfunktion
μ = 100, σ = 15
μ = 100, σ = 15
0,029
1,0
Wahrscheinlichkeitsdichte
0,022
0,015
Fläche
A
0,007
0,000
55
70
85
100 115 130 145
IQ
Fläche links von x unter Dichtefunktion
A
0,8
0,6
0,4
0,2
0,0
55
70
85
100
IQ
115
130
145
Wenn man weiß, wie eine Statistik verteilt ist, kann man
entscheiden, ob ein bestimmter Wert "extrem" ist oder
nicht:
• ein IQ von 130 ist hoch, weil nur wenige Personen einen
höheren IQ haben
• ein IQ von 70 weist dagegen auf ein Intelligenzdefizit hin
Testen von Hypothesen
(Achtung: das Folgende gilt zunächst nur für sog. ungerichtete Tests!)
In jedem statistischen Test gibt es eine Nullhypothese H0:
• „Es gibt keinen Unterschied zwischen Experimental- und
Kontrollgruppe.“
• „Die Korrelation zwischen zwei Variablen ist 0.“
• „Die Regressionsgerade hat eine Steigung von genau 0.5.“
H0 ist immer eine Punkthypothese!
Die Alternativhypothese H1 ist das logische Komplement der
H0:
• „Es gibt einen Unterschied zwischen Experimental- und
Kontrollgruppe.“
• „Die Korrelation zwischen zwei Variablen ist nicht 0.“
• „Die Regressionsgerade hat eine andere Steigung als 0.5.“
H1 ist immer eine Bereichshypothese!
Sind die Daten mit der Nullhypothese vereinbar?
Wenn die Daten zu stark von der H0 abweichen, wird sie
verworfen.
Vorsicht: Das heißt noch nicht, daß die Alternativhypothese
wahr ist!
Wenn die Daten nicht stark genug von der H0 abweichen,
wird sie beibehalten.
Vorsicht: Das heißt noch nicht, daß die Alternativhypothese
falsch ist!
Alle statistischen Prozeduren funktionieren auf
die gleiche Weise:
Daten
Annahmen
Annahmen
statistisches Modell der Population, auf der die Daten basieren:
z.B. Normalverteilung, gleiche Varianzen
Wie wäre die Teststatistik verteilt, wenn die Nullhypothese
gelten würde?
Entscheidung: Ist die Teststatistik extrem bezüglich der
Verteilung, die durch die Nullhypothese vorhergesagt wird?
Teststatistiken
Eine Teststatistik beschreibt die Größe des Effekts, den
man prüfen möchte, und zwar relativ zum Ausmaß der
Zufallseinflüsse.
Eine gute Teststatistik sollte dann große Werte
annehmen, wenn
•
die Daten stark von der Nullhypothese abweichen;
•
das Zufallsrauschen gering ist;
•
die Stichprobe groß ist.
Unter bestimmten Annahmen kann man ein
mathematisches Modell für die Wahrscheinlichkeitsverteilung der Teststatistik entwickeln – so kann man
abschätzen, ob ein bestimmter Wert der Teststatistik
„extrem“ ist oder nicht.
Alle statistischen Verfahren folgen derselben
Logik, aber verwenden unterschiedliche
Wahrscheinlichkeitsverteilungen:
Normalverteilung:
• z.B. psychometrische Tests mit bekannten Mittelwerten
und Streuungen
t-Verteilung:
• z.B. Differenzen zwischen Mittelwerten,
• Korrelationskoeffizienten,
• Parameter einer Regressionsgleichung
F-Verteilung:
• Verhältnis zweier Varianzen, z.B. in der Varianzanalyse
Chi-Quadrat-Verteilung:
• Abweichungen beobachteter von erwarteten
Häufigkeiten
aber:
in allen Fällen geht es darum, ob eine berechnete
Statistik einen "extremen" Platz in ihrer Verteilung
einnimmt
wichtigstes Kriterium: "Signifikanz" des Ergebnisses:
sind weniger als 5% der Werte noch extremer als der
beobachtete Wert?
Beispiel: Vergleich von zwei Mittelwerten
Auswirkung von verschiedenen Arten von Musik auf die
Leistung in einem Intelligenztest:
Gruppe A bearbeitet den Test zu Musik von Mozart
Gruppe B bearbeitet den Test zu Musik von jemand ganz
anderem!
Nullhypothese: Die beiden Gruppen sind gleich gut.
Alternativhypothese: Eine der beiden Gruppen ist besser.
Der t-Test
Zweck:
Vergleich zweier Mittelwerte
Daten:
Werte von zwei Gruppen von Vpn oder von einer Gruppe in
zwei Bedingungen
Modellannahmen:
• Werte sind in den Teilpopulationen normalverteilt und
unabhängig
• Verteilungen haben dieselbe Varianz
Teststatistik (genaue Formel hängt vom Design ab):
t-Wert, Differenz der Mittelwerte ist t-verteilt mit einer
bestimmten Zahl von Freiheitsgraden
Beispiel:
Gerichteter t-Test für unabhängige Stichproben
zwei Gruppen, je 10 Vpn, normalverteilt, gleiche Varianz
Probability Density Function
Probability Distribution Function
y=student(x;18)
p=istudent(x;18)
0,433
1,0
0,8
0,325
0,6
0,216
0,4
0,108
0,2
0,000
-2,552
-1,276
0,000
1,276
2,552
0,0
-2,552
-1,276
0,000
1,276
2,552
Lineare Regression
Y
X
Können wir eine Gerade finden, die die Daten möglichst gut
beschreibt?
Y
Regressionsgerade
Gesamtmittelwert
X
Wie gut paßt die Gerade auf die Daten?
Y
Gesamtmittelwert
X
Abstände der Daten vom Gesamtmittelwert quadrieren
und aufsummieren: SStot
"Quadratsummen-Zerlegung":
Abstände zwischen
Regression und
Gesamtmittelwert
quadrieren und
aufsummieren: SSreg
Regressionsresiduen
quadrieren und
aufsummieren: SSres
SStot = SSreg + SSres
R² = SSreg / SStot
R² ist ein Maß dafür, wie gut das Regressionsmodell die
Daten beschreibt: eine Goodness-of-Fit-Statistik
R² = Prozentsatz der "erklärten Varianz"
R² = 1: Regression erklärt die gesamte Varianz im
Datensatz, alle Residuen sind 0
R² = 0: Regression erklärt überhaupt keine Varianz
Parameter für die Steigung und den y-AchsenAbschnitt werden per t-Test gegen 0 getestet:
Y
b (Steigung)
Y = a + bX
a (y-Abschnitt)
0
X
Alle statistischen Prozeduren funktionieren auf
die gleiche Weise:
Daten
Annahmen
Annahmen
statistisches Modell der Population, auf der die Daten basieren:
z.B. Normalverteilung, gleiche Varianzen
Wie wäre die Teststatistik verteilt, wenn die Nullhypothese
gelten würde?
Entscheidung: Ist die Teststatistik deutlich genug von dem Wert
verschieden, der durch die Nullhypothese vorhergesagt wird?
Beispiel:
einseitiger t-Test für unabhängige Stichproben
zwei Gruppen, je 10 Vpn, normalverteilt, gleiche Varianz
Probability Density Function
Probability Distribution Function
y=student(x;18)
p=istudent(x;18)
0,433
1,0
0,8
0,325
0,6
0,216
0,4
0,108
0,2
0,000
-2,552
-1,276
0,000
1,276
2,552
0,0
-2,552
-1,276
0,000
1,276
2,552
Einseitige Tests und zweiseitige
Tests unterscheiden sich nur in
ihren Kriterien zur Ablehnung
der Nullhypothese, nicht in der
Form der Verteilungen!
Beispiel: 4-Felder-Chi-Quadrat-Test
Probability Density Function
Probability Distribution Function
y=chi2(x;1)
p=ichi2(x;1)
0,175
1,0
0,8
0,131
0,6
0,087
0,4
0,044
0,2
0,000
0,00
6,25
12,50
18,75
25,00
0,0
0,00
6,25
12,50
18,75
25,00
Was bedeutet der p-Wert?
• Stichprobe ist erhoben worden
• Teststatistik (z.B. t-Wert) ist berechnet worden
• die Dichtefunktion der Teststatistik (z.B. t-Verteilung)
beschreibt, wie sich die t-Werte verteilen sollten, wenn
die Nullhypothese gilt
• p-Wert gibt den Prozentsatz der möglichen t-Werte an, die
noch extremer sind als der empirisch gefundene Wert
"p" ist die Wahrscheinlichkeit, daß die Daten aus einer
Population stammen, in der die Nullhypothese gilt vorausgesetzt, das statistische Modell ist korrekt und alle
seine Bedingungen sind erfüllt!
Der kritische Wert liegt dort,
wo er die Fläche α von der
Verteilung abschneidet.
Der p-Wert ist der Wert
rechts vom tatsächlich
beobachteten Wert der
Teststatistik.
Signifikanz:
(emp. Wert ≥ krit. Wert) ?
(p ≤ α) ?
Je kleiner der p-Wert, desto
deutlicher widersprechen die
Daten der Nullhypothese!
Wann setzt man welches Verfahren ein?
Vorberg, D. & Blankenberger, S. (1999). Die Auswahl
statistischer Tests und Maße. Psychologische Rundschau,
50, 157-164.
Fehlentscheidungen beim statistischen Testen
in der Population gilt:
H0
der Test
H0 gilt
entscheidet:
H1 gilt
H1
Korrekte
Beibehaltung
Verpasser
(Beta-Fehler)
Falscher Alarm
(Alpha-Fehler)
Korrekte
Ablehnung
Statistische Power
Beta ist die Wahrscheinlichkeit, daß man einen "echten"
Effekt übersieht
(1 - Beta) ist die Wahrscheinlichkeit, daß man einen
Effekt nicht übersieht: Teststärke oder Power
Frage: Was ist schlimmer - Alpha- oder Betafehler?
Antwort: Kommt auf den Schaden an, den die beiden
Fehlerarten anrichten können!
Beispiel: Fehldiagnose einer Krankheit
Alpha-Fehler: Risiko, eine Krankheit zu behandeln, die gar
nicht da ist
Beta-Fehler: Risiko, eine Krankheit zu übersehen
Teststärke und Stichprobengröße
mangelnde Teststärke ist das Resultat unpräziser
Messungen:
•
•
zu kleine Stichproben
zu ungünstige Meßbedingungen
Das führt zu großen Problemen:
•
•
in der Population vorhandene Effekte werden nicht
signifikant
Nulleffekte können nicht interpretiert werden
Im Extremfall sind ganze Studien umsonst gewesen!
Statistische Power
Strengeres α-Niveau:
• Weniger Fehler 1. Art
• Mehr Fehler 2. Art
• Weniger Power
Statistische Power
Kleinerer Effekt:
• Mehr Fehler 1. Art
• Mehr Fehler 2. Art
• Weniger Power
Größerer Effekt:
• Weniger Fehler 1. Art
• Weniger Fehler 2. Art
• Mehr Power
Statistische Power
Größere Stichprobe
(= mehr Freiheitsgrade):
• kritischer t-Wert sinkt
• rechter Teil der H0Verteilung wird flacher
• empirischer t-Wert wird
größer
• weniger Fehler 2. Art
• mehr Power
Achtung: der Prozeß
verläuft asymptotisch!
Kritik an der klassischen Inferenzstatistik
„Die Nullhypothese ist ohnehin falsch, man kann sie gar nicht akzeptieren.“ (Murphy
& Myors, 2000)
„Signifikanz sagt nichts darüber, ob die beobachteten Effekte wichtig oder unwichtig
sind.“
„Mit ausreichend großen Stichproben bekommt man jeden Effekt signifikant.“
„Signifikanztests sagen nichts über die Wahrscheinlichkeit der Alternativhypothese.“
„Tests sind nur ein Ritual; man braucht statistisches Denken. Signifikanztests fördern
die Verwendung von ungenauen Hypothesen.“ (Gigerenzer, 1998)
„Anwender kennen nur wenige Techniken, verwenden sie inkonsistent, verstehen die
Ergebnisse nicht.“
„Anwender sind besessen vom Alpha-Fehler und ignorieren den Beta-Fehler; daher
sind die meisten Studien von niedriger Qualität“.
Sind Signifikanztests ein geeignetes Mittel der Qualitätskontrolle?
Herunterladen