Statistische Methoden in der MMST: Schließende Statistik VL MMS Wintersemester 2013/14 Professur für Prozessleittechnik L. Urbas; J. Pfeffer Evaluation mittels Stichprobe Stichprobenziehung Beschreibende Statistik Inferenzstatistischer Schluss Population WS 2013/14 Stichprobenmitglieder MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 3 Aufgabe schließende Statistik Theorie Zusammenhangs/Unterschiedsvermutung • Es wird vermutet, dass Gestaltungsvariante A Aufgabe besser unterstützt als Gestaltungsvariante B Experiment Stichprobe(n) • Probanden mit Variante A zeigten im Mittel weniger Fehler und kürzere Bearbeitungszeiten als die Probanden der Gruppe mit Variante B Gilt Aussage auch für Population? • • • WS 2013/14 Kennwerte (Parameter) der Population unbekannt Schätzung der Parameter für Population aus Stichprobe Wie wahrscheinlich ist es, dass die geschätzten Parameter den „wahren Parametern“ der Population (nicht) entsprechen? MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 4 Fehlerquellen Stichprobenfehler In Stichprobe können rein zufällig andere Verhältnisse als in der Population herrschen • Kann nicht ausgeschlossen werden, Wahrscheinlichkeit kann aber beschränkt werden Vertrauensintervalle, Signifikanztests • Systematischer Fehler • • WS 2013/14 Merkmal in Stichprobe systematisch anders verteilt als in Population systematisch falsche Aussage Zufallsstichprobe, (spezifisch) repräsentative Stichprobe: Verteilung bestimmter Merkmale ändert sich nicht durch Auswahl! MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 5 Übersicht schließende Statistik Verteilung von Stichprobenkennwerten • Wahrscheinlichkeitsverteilung von Stichprobenmittelwerten • Zentraler Grenzwertsatz Scoring-Verfahren • t-Test: Eine oder zwei unabhängige Stichprobe, unbekanntes σ • F-Test: Zwei abhängige Stichproben aus gleicher Population, unbekanntes σ Nichtparametrische Verfahren • Rangsummen WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 6 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Verteilung von Stichprobenkennwerten Stichprobenmittelwert N zufällige Stichproben aus gleicher Population • Jeweils wird das arithmetisches Mittel als Schätzer für „wahren Mittelwert“ gebildet Schätzungen werden sich zufällig unterscheiden! Wie verändern sich diese Unterschiede bei wachsendem Umfang? • Bei wachsendem Stichprobenumfang n unterscheiden sich die MW der Stichproben immer weniger • Verteilung ist symmetrisch und bei großem n unabhängig von der Verteilung der Population WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 8 Beispiel in R b<-(-15:15)*0.1 spm<-function(x,n) {hist(replicate(150,mean(sample(x,n))),breaks=b)} -1.0 0.0 0.5 1.0 1.5 2 y1<-c(y-3,y+3)/3; WS 2013/14 0.0 0.5 1.0 40 20 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample(x, n))) spm(y,150) 0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample(x, n))) spm(y1,10); 40 20 Frequency 30 10 15 20 5 Frequency 1 -0.5 spm(y,50); 0 0 c(y - 3, y + 3)/3 -1.0 replicate(150, mean(sample(x, n))) Histogram of replicate(150, mean(sample(x, n))) Histogram of replicate(150, mean(sample(x, n))) Histogram of replicate(150, mean(sample(x, n))) 4000 2000 0 -1 0 -1.5 spm(y,10); Histogram of c(y - 3, y + 3)/3 Frequency -0.5 replicate(150, mean(sample(x, n))) y<-rnorm(10000); -2 Frequency Frequency 0 -1.5 4 0 2 y Frequency 0 20 -2 10 -4 10 20 30 40 10 0 5 Frequency 1500 500 0 Frequency 15 Histogram of replicate(150, mean(sample(x, n))) Histogram of replicate(150, mean(sample(x, n)))Histogram of replicate(150, mean(sample(x, n))) Histogram of y -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample(x, n))) spm(y1,50); MMST © Urbas, Pfeffer 2011-2013 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample(x, n))) spm(y1,150) Folie Nr. 9 Zentraler Grenzwertsatz Die Verteilung der Stichprobenmittelwerte eines Merkmals X geht für große n in eine Normalverteilung über, deren Varianz proportional zum Stichprobenumfang klein wird. Verteilung von X in Population irrelevant! Bei ausreichend großem n ist Verteilung der Stichprobenmittelwerte bekannt verlässliche Aussage über wahren Mittelwert möglich Für n > 30: Stichprobenmittelwertverteilung kann durch N(µ, σ²/n)-Verteilung gut beschrieben werden. • • WS 2013/14 Populationsmittelwert µ Standardabweichung σ MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 10 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Exkurs Vertrauensintervalle Grundprinzipien Beim Schluss von Stichprobe auf Population ist immer mit Ungenauigkeiten und Fehlern zu rechnen (Stichprobenfehler) • Stichprobenfehler kann nicht ausgeschlossen werden Größe der Fehler kann kontrolliert und unter feste Schranke gebracht werden • Unsicherheit kann beschränkt werden Vertrauensintervall • • WS 2013/14 Bereich bei einer zufallsabhängigen Messung, in dem der wahre Wert mit einer vorgegebenen und hinreichend hohen Wahrscheinlichkeit liegt. Üblich sind 95%, 99% Vertrauensintervalle MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 12 Vertrauensintervall des Populationsmittelwerts µ Für Stichproben (n>30) gilt • Mittelwerte der Stichproben sind N ( , ) -verteilt Eigenschaften dieser Normalverteilung: • • 95% der Werte liegen zwischen µ-1.96σ und µ+1.96σ 99% der Werte liegen zwischen µ-2.58σ und µ+2.58σ Standardnormalverteilung N(0,1) • Z-Transformation z • (x )/ x z Vertrauensintervall für Messwert 95% : (x WS 2013/14 1 . 96 ,x 1 . 96 ) MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 13 Geschätzter Standardfehler • Populationsvarianz σ meistens nicht bekannt! Aber ˆ 2 n 1 n -1 ( xi x) n 2 n i 1 s 2 1 ist optimaler Schätzer für σ² mit guter Übereinstimmung für n>30 • Standardfehler des Mittelwerts aus geschätztem Standardfehler anstelle wahrer Streuung berechnen bis n<100 „approximatives“ Vertrauensintervall n ˆx WS 2013/14 ˆ n ( xi 2 x) 2 s i 1 n (n 1) n MMST © Urbas, Pfeffer 2011-2013 2 s 1 n 1 Folie Nr. 14 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Aufwand Problem 100 oder auch 30 Messungen sind (viel zu) aufwändig! Wir haben nur Zeit und Geld für 10-20 Probanden WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 16 t-Verteilung 0.2 0.0 dnorm(x) x<-(-40:40)*0.1 plot(x,dnorm(x),type='l'‚lwd=2) lines(x,dt(x,1),col="red") lines(x,dt(x,3),col="orange") lines(x,dt(x,5),col="green") lines(x,dt(x,20),col="blue") -4 WS 2013/14 ˆx 0.4 2 •Zusammenhang ˆ 2 / n gilt allg. nur für n>30 •Aber: Wenn Population normalverteilt , dann kann Verteilung der Stichprobenmittelwerte ( x µ ) / mit einer t-Verteilung mit n-1 Freiheitsgraden exakt wiedergegeben werden MMST © Urbas, Pfeffer 2011-2013 -2 0 x 2 Folie Nr. 17 4 Zum Begriff Freiheitsgrad • Freiheitsgrad = Anzahl Werte, die in einem statistischen Ausdruck frei variieren können • Beispiel Stichprobenvarianz s 2 1 n n ( xi x) 2 i 1 Von den n Summanden können nur n-1 beliebige Werte annehmen wg. n ( xi x) 0 i 1 WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 18 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Statistische Hypothesen Inhaltliche vs. statistische Hypothese Inhaltliche Hypothese(n) • • Leistung zweier Gruppen i, ii unterscheidet sich wg. unterschiedlichen Voraussetzungen Variante A ist leichter bedienbar als Variante B, weil Kompatibilitätsprinzipien bei Darstellung eingehalten Statistische Hypothese • Ungerichtet/Gerichtet Die durchschnittliche Leistung zweier Gruppen unterscheidet sich: µL,i≠µL,ii Die mittlere Fehlerrate von Variante A ist kleiner als die von Variante V: µF,A< µF,B • WS 2013/14 Spezifisch/Unspezifisch: Größe des Unterschieds MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 20 Alternativhypothese / Nullhypothese Inhaltliche Hypothese: • Wir vermuten in einem bestimmten MMS einen Zusammenhang von Erfahrung und Leistung Statistische Hypothese : • ρE,L ≠ 0 (ungerichtet, unspezifisch) Das was wir vermuten und finden wollen wird als Alternativhypothese H1 bezeichnet • Erweiterung/Alternative zu bestehendem Wissen Gegenteil Nullhypothese H0 • Beispiel: ρE,L = 0 Es ist eine Entscheidung zu treffen Signifikanztest WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 21 Idee des Signifikanztests Ziel: Wir wollen wissen, ob bestimmte Unterschiede oder Zusammenhänge in der Population gelten ( Hypothesen). Dazu erheben wir Daten. Problem: Unterschiede oder Zusammenhänge können sich zufällig ergeben, obwohl es in der Population keine Unterschiede oder Zusammenhänge gibt. Lösung: Wir bestimmen, wie wahrscheinlich die gefundenen Unterschiede/Zusammenhänge bei Gültigkeit der Nullhypothese durch Zufall zustande kommen können. Wenn Wahrscheinlichkeit unter einer vorher festgelegten Schranke, dann Entscheidung für Alternativhypothese Das Ergebnis heißt dann „statistisch signifikant“ WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 22 p-Wert Signifikanztest: Verfahren zur Entscheidung zwischen H0 und H1 durch Berechnung der bedingten Wahrscheinlichkeit p = P(vorgefundenes oder extremeres Ergebnis|H0 gilt) Voraussetzung • Wir kennen die Kennwerteverteilung von Mittelwerten, Mittelwertsunterschieden, Korrelationskoeffizienten, … WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 23 Beispiel: Ist neues MMST anders als altes? Leistung: Gemessen auf Intervallskala von 0-10. • Leistung im alten System sei nach langjähriger Beobachtung aller Mitarbeiter bekannt: µ0 = 6, σ = 1 • µ1 sei die „wahre“ Leistung mit neuem MMST Statistische Hypothese: H1: µ1 ≠ µ0 Schranke für Irrtum: 5% H0: µ1 = µ0 Leistungsmessung mit 100 Probanden ergibt x 1 Wie WS ist, dass x 1 um 0,228 oder mehr von µ0 abweicht, wenn H0 gilt? WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 5 , 772 Folie Nr. 24 0.4 Wie wahrscheinlich ist Wenn H0 gilt, dann ist • µ1 = µ0 = 6 und • Standardfehler x 0.0 0.2 dnorm(x) Beispiel: … Fortsetzung x1 x1 0 0 , 228 -4 -2 0 2 normalverteilt mit x n 1 / 10 0 ,1 Tabelliert ist N(0,1) Z-Transformation z x1 0 x Für Stichprobe: |5,772-6|/0,1=2,28 p-Wert 2*0,0113=0,0226 WS für zufällige Messung von x =5,772 oder noch weiter weg von µ0: 2,3% 1 WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 25 4 Statistische Entscheidung Ist die Wahrscheinlichkeit der vorgefundenen Unterschiede oder Zusammenhänge unter der Annahme der Nullhypothese kleiner oder gleich der vorgegebenen Schranke α, dann kann Nullhypothese verworfen werden p-Wert ≤ α, dann Entscheidung für H1 α : Signifikanzniveau (üblich 1%, 5%, 10%) • Wird α nicht überschritten, dann wird Testergebnis „signifikant“ genannt. Beispiel: • • WS 2013/14 p-Wert=0.0226, α=0.05 H0 wird verworfen Neues MMSTZ unterscheidet sich signifikant MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 26 Logik des Testens (1/2) Warum wird von H0 ausgegangen? • Irrtumswahrscheinlichkeit kann bei unspezifischen Hypothesen nur für falsches Annehmen von H1 angegeben werden (α-Fehler) • Forschungsethik: Lieber keine als falsche Schlüsse Welche Schranke ist zu wählen? • Je nach Fragestellung kann mit unterschiedlichen Signifikanzniveaus gearbeitet werden • Je kleiner α-Fehler, desto größer β-Fehler (!) • Willkürliche Konventionen für psych. Forschung α=0,05 • Siehe Wickens für kritische Diskussion für MMST WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 27 Logik des Testens (2/2) Warum dürfen Hypothesen nicht an den gleichen Daten abgeleitet und geprüft werden? • Neue Hypothesen an Daten aufstellen ist legitim, Prüfung jedoch nur an neuen Daten möglich! • Bei Analysen im Nachhinein findet sich rein zufällig immer irgendein Zusammenhang, wenn man nur genügend viele Variablen betrachtet Warum muss Schranke vorher festgelegt werden? • p-Wert ≠ Irrtumswahrscheinlichkeit • Irrtumswahrscheinlichkeit = α WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 28 Beliebte Irrtümer zur Irrtumswahrscheinlichkeit Statistische Entscheidung für H0 bedeutet, dass H0 wahr ist. • Bei kleinen Stichproben werden Unterschiede oft nicht entdeckt (großer β-Fehler). Statistische Entscheidung für H1 bedeutet, dass H1 wahr ist • Eine Entscheidung mit α=0.05 für H1 bedeutet nicht, dass H1 mit 95%-Sicherheit richtig ist Signifikanz eines Ergebnisses sagt nichts über Größe von Unterschied/Zusammenhang in Population aus • Signifikante Unterschiede können völlige bedeutungslos sein Auch wenn der p-Wert viel kleiner ist als α, die WS für falsches Annehmen der H1 = α WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 29 Fehlerarten WS 2013/14 H1 trifft zu H0 trifft zu Entscheidung für H1 1-β α = Fehler 1. Art (falsch positiv) Entscheidung für H0 β = Fehler 2. Art (falsch negativ) 1-α MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 30 Zur Verdeutlichung Angeklagter schuldig Angeklagter unschuldig Verurteilung 1-β α = Fehler 1. Art (falsch positiv) Freispruch β = Fehler 2. Art (falsch negativ) 1-α Nach Diekman 2007 WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 31 Unbedingt beachten Signifikanzniveau vorher festlegen! • Hauptkriterium: Was kostet mich ein Irrtum? Hypothesen vorher formulieren! • Sonst: „Genau diesen Punkt wollte ich treffen!“ Voraussetzungen des Tests müssen erfüllt sein! • Beispiel: Merkmal muss normalverteilt, bzw. Stichprobenumfang hinreichend groß sein, damit Mittelwert normalverteilt ist Lesenswertes zu den Grenzen des Signifikanztests: • Cohen (1994) „The world is round“ (p<0.05) WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 32 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Testen von Unterschieden Mittelwertsunterschiede: t-Test für unabhängige Stichproben Voraussetzungen • • • • Merkmal mindestens intervallskaliert Bei kleinen Stichproben (n<30) muss Merkmal in beiden Populationen normalverteilt sein Stichproben müssen aus Populationen mit gleicher Varianz stammen Stichproben müssen unabhängig sein Prüfgröße • Verteilung der Differenz zweier Stichprobenmittelwerte, geteilt durch geschätzte Streuung ist t-verteilt, df=n1+n2-2 t WS 2013/14 x1 ˆx x2 1 x2 ˆx ( n1 1 x2 2 1) ˆ 1 ( n1 1) MMST © Urbas, Pfeffer 2011-2013 2 (n2 1) ˆ 2 1 1 (n2 1) n1 n2 Folie Nr. 34 Mittelwertsunterschiede: t-Test für abhängige Stichproben Abhängige Stichproben Messwiederholung Parallelisierte Stichproben • • Voraussetzungen Merkmal mindestens intervallskaliert Bei kleinen Stichproben (n<30) muss Merkmal in beiden Populationen normalverteilt sein • • Prüfgröße Verteilung der gemittelten Differenzen, geteilt durch Standardfehler der gemittelten Differenzen ist t-verteilt, df=n-1 • t WS 2013/14 d ˆd d 1 n n di i 1 ˆd ˆd n n ; ˆd MMST © Urbas, Pfeffer 2011-2013 (d i d) 2 (n i 1 Folie Nr. 35 1) Unterschiede von Varianzen: F-Test, Levene-Test Häufig zur Überprüfung von Voraussetzungen für andere Tests (z.B. Varianzhomogenität bei t-Test) Voraussetzungen • • • Merkmal mindestens intervallskaliert Merkmal in beiden Populationen normalverteilt Stichproben unabhängig Prüfgröße • Verhältnis der Schätzer der Populationsvarianzen ist F-verteilt mit dfZähler=n1-1 und dfNenner=n2-1 WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 36 Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik Dateninterpretation und Schlussfolgerung Ergebnissorientierte schließende Statistik 1. Theorie -> Zusammenhangs/Unterschiedsvermutung • Stadium 1 - Hypothesenbildung 2. Experiment • Stadien 2-5 3. Schlussfolgerungen • Falsifikation der Nullhypothesen • Aussage gültig für die gewählte Population WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 39 Zusammenfassung Grundlagen der schließenden Statistik • • • • • • • Aufgabe der schließenden Statistik Fehlerquellen Verteilung von Stichprobenkennwerten Zentraler Grenzwertsatz Vertrauensintervalle Hypothesen Beliebte Irrtümer Methoden • • • t-Test für unabhängige Stichproben t-Test für abhängige Stichproben F-Test, Levene-Test Dateninterpretation Schlussfolgerungen • WS 2013/14 Falsifikation der Nullhypothesen MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 41 Literatur Einführung in die Inferenzstatistik • [1] Nachtigall, Ch.,Wirtz, M., (2006). Wahrscheinlichkeitsrechnung und Inferenzstatistik. Juventa, Weinheim. • [2] Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin. • [3] Kühlmeyer, M. (2001). Statistische Auswertungsmethoden für Ingenieure. Springer, Berlin Einführung R • [4] Dalgaard, P. (2002). Introductory Statistics with R. Springer, Berlin. • [5] Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol (CA). Weitere Literatur • [7] Sarris, V., & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. Pearson Studium. WS 2013/14 MMST © Urbas, Pfeffer 2011-2013 Folie Nr. 42