n - Fakultät Elektrotechnik und Informationstechnik

Werbung
Statistische Methoden in der MMST:
Schließende Statistik
VL MMS
Wintersemester 2013/14
Professur für Prozessleittechnik
L. Urbas; J. Pfeffer
Evaluation mittels Stichprobe
Stichprobenziehung
Beschreibende
Statistik
Inferenzstatistischer
Schluss
Population
WS 2013/14
Stichprobenmitglieder
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 3
Aufgabe schließende Statistik
Theorie  Zusammenhangs/Unterschiedsvermutung
•
Es wird vermutet, dass Gestaltungsvariante A Aufgabe besser
unterstützt als Gestaltungsvariante B
Experiment  Stichprobe(n)
•
Probanden mit Variante A zeigten im Mittel weniger Fehler und
kürzere Bearbeitungszeiten als die Probanden der Gruppe mit
Variante B
Gilt Aussage auch für Population?
•
•
•
WS 2013/14
Kennwerte (Parameter) der Population unbekannt
Schätzung der Parameter für Population aus Stichprobe
Wie wahrscheinlich ist es, dass die geschätzten Parameter den
„wahren Parametern“ der Population (nicht) entsprechen?
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 4
Fehlerquellen
Stichprobenfehler
In Stichprobe können rein zufällig andere Verhältnisse als in
der Population herrschen
• Kann nicht ausgeschlossen werden, Wahrscheinlichkeit kann
aber beschränkt werden
 Vertrauensintervalle, Signifikanztests
•
Systematischer Fehler
•
•
WS 2013/14
Merkmal in Stichprobe systematisch anders verteilt als in
Population  systematisch falsche Aussage
Zufallsstichprobe, (spezifisch) repräsentative Stichprobe:
Verteilung bestimmter Merkmale ändert sich nicht durch
Auswahl!
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 5
Übersicht schließende Statistik
Verteilung von Stichprobenkennwerten
• Wahrscheinlichkeitsverteilung von
Stichprobenmittelwerten
• Zentraler Grenzwertsatz
Scoring-Verfahren
• t-Test: Eine oder zwei unabhängige Stichprobe,
unbekanntes σ
• F-Test: Zwei abhängige Stichproben aus gleicher
Population, unbekanntes σ
Nichtparametrische Verfahren
• Rangsummen
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 6
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Verteilung von Stichprobenkennwerten
Stichprobenmittelwert
N zufällige Stichproben aus gleicher Population
• Jeweils wird das arithmetisches Mittel als Schätzer
für „wahren Mittelwert“ gebildet
 Schätzungen werden sich zufällig unterscheiden!
Wie verändern sich diese Unterschiede bei
wachsendem Umfang?
• Bei wachsendem Stichprobenumfang n unterscheiden
sich die MW der Stichproben immer weniger
• Verteilung ist symmetrisch und bei großem n
unabhängig von der Verteilung der Population
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 8
Beispiel in R
b<-(-15:15)*0.1
spm<-function(x,n) {hist(replicate(150,mean(sample(x,n))),breaks=b)}
-1.0
0.0
0.5
1.0
1.5
2
y1<-c(y-3,y+3)/3;
WS 2013/14
0.0
0.5
1.0
40
20
1.5
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(x, n)))
spm(y,150)
0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(x, n)))
spm(y1,10);
40
20
Frequency
30
10 15 20
5
Frequency
1
-0.5
spm(y,50);
0
0
c(y - 3, y + 3)/3
-1.0
replicate(150, mean(sample(x, n)))
Histogram of replicate(150, mean(sample(x, n)))
Histogram of replicate(150, mean(sample(x, n))) Histogram of replicate(150, mean(sample(x, n)))
4000
2000
0
-1
0
-1.5
spm(y,10);
Histogram of c(y - 3, y + 3)/3
Frequency
-0.5
replicate(150, mean(sample(x, n)))
y<-rnorm(10000);
-2
Frequency
Frequency
0
-1.5
4
0
2
y
Frequency
0
20
-2
10
-4
10 20 30 40
10
0
5
Frequency
1500
500
0
Frequency
15
Histogram of replicate(150, mean(sample(x,
n)))
Histogram
of replicate(150, mean(sample(x, n)))Histogram of replicate(150, mean(sample(x, n)))
Histogram of y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(x, n)))
spm(y1,50);
MMST © Urbas, Pfeffer 2011-2013
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(x, n)))
spm(y1,150)
Folie Nr. 9
Zentraler Grenzwertsatz
Die Verteilung der Stichprobenmittelwerte eines Merkmals X geht
für große n in eine Normalverteilung über, deren Varianz
proportional zum Stichprobenumfang klein wird.
Verteilung von X in Population irrelevant!
Bei ausreichend großem n ist Verteilung der
Stichprobenmittelwerte bekannt  verlässliche Aussage über
wahren Mittelwert möglich
Für n > 30: Stichprobenmittelwertverteilung kann durch N(µ,
σ²/n)-Verteilung gut beschrieben werden.
•
•
WS 2013/14
Populationsmittelwert µ
Standardabweichung σ
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 10
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Exkurs Vertrauensintervalle
Grundprinzipien
Beim Schluss von Stichprobe auf Population ist immer mit
Ungenauigkeiten und Fehlern zu rechnen
(Stichprobenfehler)
•
Stichprobenfehler kann nicht ausgeschlossen werden
Größe der Fehler kann kontrolliert und unter feste
Schranke gebracht werden
•
Unsicherheit kann beschränkt werden
Vertrauensintervall
•
•
WS 2013/14
Bereich bei einer zufallsabhängigen Messung, in dem der
wahre Wert mit einer vorgegebenen und hinreichend hohen
Wahrscheinlichkeit liegt.
Üblich sind 95%, 99% Vertrauensintervalle
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 12
Vertrauensintervall des Populationsmittelwerts µ
Für Stichproben (n>30) gilt
•
Mittelwerte der Stichproben sind N (
,
) -verteilt
Eigenschaften dieser Normalverteilung:
•
•
95% der Werte liegen zwischen µ-1.96σ und µ+1.96σ
99% der Werte liegen zwischen µ-2.58σ und µ+2.58σ
Standardnormalverteilung N(0,1)
•
Z-Transformation
z
•
(x
)/
x
z
Vertrauensintervall für Messwert
95% :
(x
WS 2013/14
1 . 96
,x
1 . 96
)
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 13
Geschätzter Standardfehler
• Populationsvarianz σ meistens nicht bekannt! Aber
ˆ
2
n
1
n -1
( xi
x)
n
2
n
i 1
s
2
1
ist optimaler Schätzer für σ² mit guter Übereinstimmung
für n>30
• Standardfehler des Mittelwerts aus geschätztem
Standardfehler anstelle wahrer Streuung berechnen
bis n<100 „approximatives“ Vertrauensintervall
n
ˆx
WS 2013/14
ˆ
n
( xi
2
x)
2
s
i 1
n (n
1)
n
MMST © Urbas, Pfeffer 2011-2013
2
s
1
n
1
Folie Nr. 14
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Aufwand
Problem
100 oder auch 30 Messungen sind (viel zu)
aufwändig!
Wir haben nur Zeit und Geld für 10-20
Probanden
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 16
t-Verteilung
0.2
0.0
dnorm(x)
x<-(-40:40)*0.1
plot(x,dnorm(x),type='l'‚lwd=2)
lines(x,dt(x,1),col="red")
lines(x,dt(x,3),col="orange")
lines(x,dt(x,5),col="green")
lines(x,dt(x,20),col="blue")
-4
WS 2013/14
ˆx
0.4
2
•Zusammenhang ˆ 2
/ n gilt allg. nur für n>30
•Aber: Wenn Population normalverteilt , dann
kann Verteilung der Stichprobenmittelwerte ( x µ ) /
mit einer t-Verteilung mit n-1 Freiheitsgraden
exakt wiedergegeben werden
MMST © Urbas, Pfeffer 2011-2013
-2
0
x
2
Folie Nr. 17
4
Zum Begriff Freiheitsgrad
• Freiheitsgrad = Anzahl Werte, die in einem
statistischen Ausdruck frei variieren können
• Beispiel Stichprobenvarianz s
2
1
n
n
( xi
x)
2
i 1
Von den n Summanden können
nur n-1 beliebige Werte annehmen wg.
n
( xi
x)
0
i 1
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 18
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Statistische Hypothesen
Inhaltliche vs. statistische Hypothese
Inhaltliche Hypothese(n)
•
•
Leistung zweier Gruppen i, ii unterscheidet sich wg.
unterschiedlichen Voraussetzungen
Variante A ist leichter bedienbar als Variante B, weil
Kompatibilitätsprinzipien bei Darstellung eingehalten
Statistische Hypothese
•
Ungerichtet/Gerichtet
Die durchschnittliche Leistung zweier Gruppen unterscheidet
sich:
µL,i≠µL,ii
Die mittlere Fehlerrate von Variante A ist kleiner als die von
Variante V:
µF,A< µF,B
•
WS 2013/14
Spezifisch/Unspezifisch: Größe des Unterschieds
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 20
Alternativhypothese / Nullhypothese
Inhaltliche Hypothese:
•
Wir vermuten in einem bestimmten MMS einen
Zusammenhang von Erfahrung und Leistung
Statistische Hypothese :
•
ρE,L ≠ 0 (ungerichtet, unspezifisch)
Das was wir vermuten und finden wollen wird als
Alternativhypothese H1 bezeichnet
•
Erweiterung/Alternative zu bestehendem Wissen
Gegenteil Nullhypothese H0
•
Beispiel: ρE,L = 0
Es ist eine Entscheidung zu treffen  Signifikanztest
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 21
Idee des Signifikanztests
Ziel: Wir wollen wissen, ob bestimmte Unterschiede oder
Zusammenhänge in der Population gelten ( Hypothesen). Dazu
erheben wir Daten.
Problem: Unterschiede oder Zusammenhänge können sich
zufällig ergeben, obwohl es in der Population keine Unterschiede
oder Zusammenhänge gibt.
Lösung: Wir bestimmen, wie wahrscheinlich die gefundenen
Unterschiede/Zusammenhänge bei Gültigkeit der Nullhypothese
durch Zufall zustande kommen können.
Wenn Wahrscheinlichkeit unter einer vorher festgelegten
Schranke, dann Entscheidung für Alternativhypothese
Das Ergebnis heißt dann „statistisch signifikant“
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 22
p-Wert
Signifikanztest: Verfahren zur Entscheidung
zwischen H0 und H1 durch Berechnung der
bedingten Wahrscheinlichkeit
p = P(vorgefundenes oder extremeres Ergebnis|H0
gilt)
Voraussetzung
• Wir kennen die Kennwerteverteilung von
Mittelwerten, Mittelwertsunterschieden,
Korrelationskoeffizienten, …
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 23
Beispiel: Ist neues MMST anders als altes?
Leistung: Gemessen auf Intervallskala von 0-10.
• Leistung im alten System sei nach langjähriger
Beobachtung aller Mitarbeiter bekannt: µ0 = 6, σ = 1
• µ1 sei die „wahre“ Leistung mit neuem MMST
Statistische Hypothese: H1: µ1 ≠ µ0
Schranke für Irrtum: 5%
H0: µ1 = µ0
Leistungsmessung mit 100 Probanden ergibt x 1
Wie WS ist, dass x 1 um 0,228 oder mehr von µ0
abweicht, wenn H0 gilt?
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
5 , 772
Folie Nr. 24
0.4
Wie wahrscheinlich ist
Wenn H0 gilt, dann ist
• µ1 = µ0 = 6 und
• Standardfehler
x
0.0
0.2
dnorm(x)
Beispiel: … Fortsetzung
x1
x1
0
0 , 228
-4
-2
0
2
normalverteilt mit
x
n
1 / 10
0 ,1
Tabelliert ist N(0,1)  Z-Transformation
z
x1
0
x
Für Stichprobe: |5,772-6|/0,1=2,28  p-Wert
2*0,0113=0,0226
WS für zufällige Messung von x =5,772 oder
noch weiter weg von µ0: 2,3%
1
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 25
4
Statistische Entscheidung
Ist die Wahrscheinlichkeit der vorgefundenen Unterschiede
oder Zusammenhänge unter der Annahme der
Nullhypothese kleiner oder gleich der vorgegebenen
Schranke α, dann kann Nullhypothese verworfen
werden
p-Wert ≤ α, dann Entscheidung für H1
α : Signifikanzniveau (üblich 1%, 5%, 10%)
•
Wird α nicht überschritten, dann wird Testergebnis
„signifikant“ genannt.
Beispiel:
•
•
WS 2013/14
p-Wert=0.0226, α=0.05  H0 wird verworfen
Neues MMSTZ unterscheidet sich signifikant
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 26
Logik des Testens (1/2)
Warum wird von H0 ausgegangen?
• Irrtumswahrscheinlichkeit kann bei unspezifischen
Hypothesen nur für falsches Annehmen von H1
angegeben werden (α-Fehler)
• Forschungsethik: Lieber keine als falsche Schlüsse
Welche Schranke ist zu wählen?
• Je nach Fragestellung kann mit unterschiedlichen
Signifikanzniveaus gearbeitet werden
• Je kleiner α-Fehler, desto größer β-Fehler (!)
• Willkürliche Konventionen für psych. Forschung
α=0,05
• Siehe Wickens für kritische Diskussion für MMST
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 27
Logik des Testens (2/2)
Warum dürfen Hypothesen nicht an den gleichen
Daten abgeleitet und geprüft werden?
• Neue Hypothesen an Daten aufstellen ist legitim,
Prüfung jedoch nur an neuen Daten möglich!
• Bei Analysen im Nachhinein findet sich rein zufällig
immer irgendein Zusammenhang, wenn man nur
genügend viele Variablen betrachtet
Warum muss Schranke vorher festgelegt werden?
• p-Wert ≠ Irrtumswahrscheinlichkeit
• Irrtumswahrscheinlichkeit = α
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 28
Beliebte Irrtümer zur Irrtumswahrscheinlichkeit
Statistische Entscheidung für H0 bedeutet, dass H0 wahr ist.
•
Bei kleinen Stichproben werden Unterschiede oft nicht
entdeckt (großer β-Fehler).
Statistische Entscheidung für H1 bedeutet, dass H1 wahr ist
•
Eine Entscheidung mit α=0.05 für H1 bedeutet nicht, dass H1
mit 95%-Sicherheit richtig ist
Signifikanz eines Ergebnisses sagt nichts über Größe von
Unterschied/Zusammenhang in Population aus
•
Signifikante Unterschiede können völlige bedeutungslos sein
Auch wenn der p-Wert viel kleiner ist als α, die WS für
falsches Annehmen der H1 = α
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 29
Fehlerarten
WS 2013/14
H1 trifft zu
H0 trifft zu
Entscheidung
für H1
1-β
α = Fehler 1. Art
(falsch positiv)
Entscheidung
für H0
β = Fehler 2. Art
(falsch negativ)
1-α
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 30
Zur Verdeutlichung
Angeklagter
schuldig
Angeklagter
unschuldig
Verurteilung
1-β
α = Fehler 1. Art
(falsch positiv)
Freispruch
β = Fehler 2. Art
(falsch negativ)
1-α
Nach Diekman 2007
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 31
Unbedingt beachten
Signifikanzniveau vorher festlegen!
• Hauptkriterium: Was kostet mich ein Irrtum?
Hypothesen vorher formulieren!
• Sonst: „Genau diesen Punkt wollte ich treffen!“
Voraussetzungen des Tests müssen erfüllt sein!
• Beispiel: Merkmal muss normalverteilt, bzw.
Stichprobenumfang hinreichend groß sein, damit
Mittelwert normalverteilt ist
Lesenswertes zu den Grenzen des Signifikanztests:
• Cohen (1994) „The world is round“ (p<0.05)
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 32
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Testen von Unterschieden
Mittelwertsunterschiede:
t-Test für unabhängige Stichproben
Voraussetzungen
•
•
•
•
Merkmal mindestens intervallskaliert
Bei kleinen Stichproben (n<30) muss Merkmal in beiden
Populationen normalverteilt sein
Stichproben müssen aus Populationen mit gleicher Varianz
stammen
Stichproben müssen unabhängig sein
Prüfgröße
•
Verteilung der Differenz zweier Stichprobenmittelwerte, geteilt
durch geschätzte Streuung ist t-verteilt, df=n1+n2-2
t
WS 2013/14
x1
ˆx
x2
1
x2
ˆx
( n1
1
x2
2
1) ˆ 1
( n1
1)
MMST © Urbas, Pfeffer 2011-2013
2
(n2
1) ˆ 2
1
1
(n2
1)
n1
n2
Folie Nr. 34
Mittelwertsunterschiede:
t-Test für abhängige Stichproben
Abhängige Stichproben
Messwiederholung
Parallelisierte Stichproben
•
•
Voraussetzungen
Merkmal mindestens intervallskaliert
Bei kleinen Stichproben (n<30) muss Merkmal in beiden
Populationen normalverteilt sein
•
•
Prüfgröße
Verteilung der gemittelten Differenzen, geteilt durch
Standardfehler der gemittelten Differenzen ist t-verteilt, df=n-1
•
t
WS 2013/14
d
ˆd
d
1
n
n
di
i 1
ˆd
ˆd
n
n
;
ˆd
MMST © Urbas, Pfeffer 2011-2013
(d i
d)
2
(n
i 1
Folie Nr. 35
1)
Unterschiede von Varianzen:
F-Test, Levene-Test
Häufig zur Überprüfung von Voraussetzungen für andere
Tests (z.B. Varianzhomogenität bei t-Test)
Voraussetzungen
•
•
•
Merkmal mindestens intervallskaliert
Merkmal in beiden Populationen normalverteilt
Stichproben unabhängig
Prüfgröße
• Verhältnis der Schätzer der
Populationsvarianzen ist F-verteilt mit
dfZähler=n1-1 und dfNenner=n2-1
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 36
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Dateninterpretation und Schlussfolgerung
Ergebnissorientierte schließende Statistik
1. Theorie ->
Zusammenhangs/Unterschiedsvermutung
•
Stadium 1 - Hypothesenbildung
2. Experiment
•
Stadien 2-5
3. Schlussfolgerungen
•
Falsifikation der Nullhypothesen
•
Aussage gültig für die gewählte Population
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 39
Zusammenfassung
Grundlagen der schließenden Statistik
•
•
•
•
•
•
•
Aufgabe der schließenden Statistik
Fehlerquellen
Verteilung von Stichprobenkennwerten
Zentraler Grenzwertsatz
Vertrauensintervalle
Hypothesen
Beliebte Irrtümer
Methoden
•
•
•
t-Test für unabhängige Stichproben
t-Test für abhängige Stichproben
F-Test, Levene-Test
Dateninterpretation Schlussfolgerungen
•
WS 2013/14
Falsifikation der Nullhypothesen
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 41
Literatur
Einführung in die Inferenzstatistik
•
[1] Nachtigall, Ch.,Wirtz, M., (2006). Wahrscheinlichkeitsrechnung und Inferenzstatistik.
Juventa, Weinheim.
•
[2] Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin.
•
[3] Kühlmeyer, M. (2001). Statistische Auswertungsmethoden für Ingenieure. Springer,
Berlin
Einführung R
•
[4] Dalgaard, P. (2002). Introductory Statistics with R. Springer, Berlin.
•
[5] Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol (CA).
Weitere Literatur
•
[7] Sarris, V., & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. Pearson
Studium.
WS 2013/14
MMST © Urbas, Pfeffer 2011-2013
Folie Nr. 42
Herunterladen