Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik Statistische Methoden MMST-2 Inferenzstatistischer Schluss von der Stichprobe auf die Population VL MMS Wintersemester 2011 Professur für Prozessleittechnik L. Urbas, J. Ziegler Evaluation mittels Stichprobe Stichprobenziehung Beschreibende Statistik Inferenzstatistischer Schluss Population 11.01.2011 Stichprobenmitglieder MMST (c) Urbas 2010 2 Aufgabe schließende Statistik • Theorie Zusammenhangs/Unterschiedsvermutung – Es wird vermutet, dass Gestaltungsvariante A Aufgabe besser unterstützt als Gestaltungsvariante B • Experiment Stichprobe(n) – Pbn mit A zeigten im Mittel weniger Fehler und kürzere Bearbeitungszeiten als die Pbn-Gruppe mit B • Gilt Aussage auch für Population? – Kennwerte (Parameter) der Population unbekannt! – Schätzung der Parameter für Population aus Stichprobe! – Wie wahrscheinlich ist es, dass die geschätzten Parameter den „wahren Parametern“ der Population (nicht) entsprechen? 11.01.2011 MMST (c) Urbas 2010 3 Fehlerquellen • Stichprobenfehler – In Stichprobe rein zufällig andere Verhältnisse als in Population! – Kann nicht ausgeschlossen werden, Wahrscheinlichkeit kann aber beschränkt werden! Vertrauensintervalle, Signifikanztests • Systematischer Fehler – Merkmal in Stichprobe systematisch anders verteilt als in Population Systematisch falsche Aussage – Zufallsstichprobe, (spezifisch) repräsentative Stichprobe: Verteilung bestimmter Merkmale ändert sich nicht durch Auswahl! 11.01.2011 MMST (c) Urbas 2010 4 Übersicht schließende Statistik • Verteilung von Stichprobenkennwerten – Wahrscheinlichkeitsverteilung von Stichprobenmittelwerten – Zentraler Grenzwertsatz • Scoring Verfahren – u-Test : Eine Stichprobe, bekanntes σ – t-Test: Eine oder zwei unabhängige Stichprobe, unbekanntes σ – F-Test: Zwei abhängige Stichproben aus gleicher Population, unbekanntes σ • Nichtparametrische Verfahren – Rangsummen 11.01.2011 MMST (c) Urbas 2010 5 Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik Verteilung von Stichprobenkennwerten 11.01.2011 MMST (c) Urbas 2010 6 Stichprobenmittelwert • Mehrfache zufällige Stichproben N=n aus gleicher Population – Arithmetisches Mittel als Schätzer für „wahren Mittelwert“ Schätzungen werden sich zufällig unterscheiden! • Wie verändern sich diese Unterschiede bei wachsendem n? – Bei wachsendem Stichprobenumfang unterscheiden sich die MW der Stichproben immer weniger! – Verteilung ist symetrisch und bei großem n unabhängig von der Verteilung der Population! 11.01.2011 MMST (c) Urbas 2010 7 150 Stichprobenmittelwerte, n=10,50,150 b<-(-15:15)*0.1 spm<-function(x,n) {hist(replicate(150,mean(sample(x,n))),breaks=b)} Histogram of replicate( -0.5 0.0 0.5 1.0 -0.5 y1<-c(y-3,y+3)/3; 0.5 1.0 40 20 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample( spm(y1,10); -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample( spm(y,150) Frequency Histogram of replicate( Histogram of replicate( 0 0 -1.5 -1.0 replicate(150, mean(sample( 10 Frequency 10 15 20 5 2 0.0 spm(y,50); 0 1 c(y - 3, y + 3)/3 11.01.2011 -1.0 Histogram of replicate( Frequency 4000 2000 0 0 -1.5 spm(y,10); Histogram of c(y - 3, y + -1 0 1.5 replicate(150, mean(sample( y<-rnorm(10000); -2 Frequency Frequency -1.0 y Frequency 10 20 30 40 15 -1.5 4 40 2 Histogram of replicate( 20 0 30 -2 20 -4 Histogram of replicate( 0 0 0 5 10 Frequency 1500 500 Frequency Histogram of y -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample( spm(y1,50); MMST (c) Urbas 2010 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 replicate(150, mean(sample( spm(y1,150) 8 Zentraler Grenzwertsatz • Die Verteilung der Stichprobenmittelwerte eines Merkmals X geht für große n in eine Normalverteilung über, deren Varianz proportional zum Stichprobenumfang klein wird. • Verteilung von X in Population irrelevant! • Bei ausreichend großem n ist Verteilung der Stichprobenmittelwerte bekannt verlässliche Aussage über wahren Mittelwert möglich • Für n > 30: Stichprobenmittelwertverteilung kann durch N(µ, σ²/n)-Verteilung gut beschrieben werden. – Populationsmittelwert µ – Standardabweichung σ 11.01.2011 MMST (c) Urbas 2010 9 Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik Exkurs Vertrauensintervalle 11.01.2011 MMST (c) Urbas 2010 10 Grundprinzipien • Beim Schluss von Stichprobe auf Population ist immer mit Ungenauigkeiten und Fehlern zu rechnen (Stichprobenfehler) – Stichprobenfehler kann nicht ausgeschlossen werden • Größe der Fehler kann kontrolliert und unter feste Schranke gebracht werden! – Unsicherheit kann beschränkt werden • Vertrauensintervall – Bereich bei einer zufallsabhängigen Messung, in dem der wahre Wert mit einer vorgegebene und hinreichend hohen Wahrscheinlichkeit liegt. – Üblich sind 95%, 99% Vertrauensintervalle 11.01.2011 MMST (c) Urbas 2010 11 Vertrauensintervall des Populationsmittelwerts µ • Für Stichproben (n>30) gilt – Mittelwerte der Stichproben sind N( µ,σ ) -verteilt • Eigenschaften der Normalverteilung: – 95% der Werte liegen zwischen µ-1.96σ und µ+1.96σ – 99% der Werte liegen zwischen µ-2.58σ und µ+2.58σ • Standardnormalverteilung N(0,1) – Z-Transformation z = ( x − µ ) / σ – Vertrauensintervall für Messwert • 95% : 11.01.2011 ( x − 1.96σ , x + 1.96σ ) MMST (c) Urbas 2010 12 Geschätzter Standardfehler • Populationsvarianz σ meistens nicht bekannt! Aber 1 n n 2 2 ( xi − x ) = s σˆ = ∑ n −1 n - 1 i =1 2 ist optimaler Schätzer für σ² mit guter Übereinstimmung für n>30 • Standardfehler des Mittelwerts aus geschätztem Standardfehler anstelle wahrer Streuung berechnen – bis n<100 „approximatives“ Vertrauensintervall n σˆ x = 11.01.2011 σˆ 2 n = ∑(x i =1 i − x )2 n ( n − 1) = MMST (c) Urbas 2010 s2 = n −1 s n −1 13 Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik 100 oder auch 30 Messungen sind (viel zu) aufwändig! Ich habe nur Zeit und Geld für 10-20 Pbn 11.01.2011 MMST (c) Urbas 2010 14 t-Verteilung 0.2 0.0 x<-(-40:40)*0.1 plot(x,dnorm(x),type='l‚lwd=2) lines(x,dt(x,1),col="red") lines(x,dt(x,3),col="orange") lines(x,dt(x,5),col="green") lines(x,dt(x,20),col="blue") dnorm(x) 0.4 • Zusammenhang σˆ 2 = σ 2 / n gilt allg. nur für n>30 • Aber: Wenn Population normalverteilt , dann kann Verteilung der Stichprobenmittelwerte ( x − µ) / σ̂ x mit einer t-Verteilung mit n-1 Freiheitsgraden exakt wiedergegeben werden -4 11.01.2011 MMST (c) Urbas 2010 -2 0 x 2 4 15 Zum Begriff Freiheitsgrad • Freiheitsgrad = Anzahl Werte, die in einem statistischen Ausdruck frei variieren können • Beispiel Stichprobenvarianz 1 n s = ∑ ( xi − x )2 n i =1 2 – Von den n Summanden können nur n-1 beliebige Werte annehmen wg. n ∑(x − x) = 0 i =1 i • Schreibweise für geschätzte Populationsvarianz n 1 2 σˆ 2 = ( x − x ) = QSabw / df ∑ i n - 1 i =1 11.01.2011 MMST (c) Urbas 2010 16 Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik Statistische Hypothesen 11.01.2011 MMST (c) Urbas 2010 17 Inhaltliche vs. statistische Hypothese • Inhaltliche Hypothese(n) – Leistung zweier Gruppen i,ii unterscheidet sich wg. unterschiedlichem Voraussetzungen – Variante A ist leichter bedienbar als Variante B, weil Kompatibilitätsprinzipien bei Darstellung eingehalten • Statistische Hypothese – Ungerichtet/Ungerichtet • Die durchschnittliche Leistung zweier Gruppen unterscheidet sich: µL,i≠µL,ii • Die mittlere Fehlerrate von Variante A ist kleiner als die von Variante V: µF,A< µF,B – Spezifisch/Inspezifisch: Größe des Unterschieds • ! µ lediglich beliebteste „Übersetzung“, viele andere möglich: %-Satz der Pbn besser, Korrelationen, … 11.01.2011 MMST (c) Urbas 2010 18 Alternativhypothese / Nullhypothese • Inhaltliche Hypothese: – Wir vermuten in einem bestimmten MMS einen Zusammenhang von Erfahrung und Leistung • Statistische Hypothese : – ρE,L ≠ 0 (ungerichtet, unspezifisch) • Das was wir vermuten und finden wollen wird als Alternativhypothese H1 bezeichnet – Erweiterung/Alternative zu bestehendem Wissen • Gegenteil Nullhypothese H0 – Beispiel: ρE,L = 0 • Es ist eine Entscheidung zu treffen Signifikanztest 11.01.2011 MMST (c) Urbas 2010 19 Idee des Signifikanztests Ziel: Wir wollen wissen, ob bestimmte Unterschiede oder Zusammenhänge in der Population gelten ( Hypothesen). Dazu erheben wir Daten. Problem: Unterschiede oder Zusammenhänge können sich zufällig ergeben, obwohl es in der Population keine Unterschiede oder Zusammenhänge gibt. Lösung: Wir bestimmen, wie wahrscheinlich die gefundenen Unterschiede/Zusammenhänge (oder noch extremere) bei Gültigkeit der Nullhypothese durch Zufall zustande kommen können. Wenn Wahrscheinlichkeit unter einer vorher festgelegten Schranke, dann Entscheidung für Alternativhypothese Das Ergebnis heißt dann „statistisch signifikant“. 11.01.2011 MMST (c) Urbas 2010 20 p-Wert • Signifikanztest: Verfahren zur Entscheidung zwischen H0 und H1 durch Berechnung der bedingten Wahrscheinlichkeit p = P(vorgefundenes oder extremeres Ergebnis|H0 gilt) • Voraussetzung – Wir kennen die Kennwerteverteilung von Mittelwerten, Mittelwertsunterschieden, Korrelationskoeffizienten, … 11.01.2011 MMST (c) Urbas 2010 21 Beispiel: Ist neues MMST anders als altes? • Leistung: Gemessen auf Intervallskala von 0-10. – Leistung im alten System sei (langjähriger Beobachtung aller Mitarbeiter) bekannt: µ0 = 6, σ = 1 – µ1 sei die „wahre“ Leistung mit neuem MMST • Statistische Hypothese: H1: µ1 ≠ µ0 • Schranke für Irrtum: 5% H0: µ1 = µ0 • Leistungsmessung mit 100 Pbn ergibt x1 = 5.772 • Wie WS ist, dass x1 um 0.228 oder mehr von µ0 abweicht, wenn H0 gilt? 11.01.2011 MMST (c) Urbas 2010 22 0.4 0.2 0.0 dnorm(x) Beispiel: … Fortsetzung -4 -2 x µ − > 0 . 228 • Wie wahrscheinlich ist 1 0 • Wenn H0 gilt, dann ist x1 normalverteilt mit 0 2 x – µ1 = µ0 = 6 und – Standardfehler σ x = σ n = 1 / 10 = 0.1 • Tabelliert ist N(0,1) z-transformation z = ( x1 − µ0 ) σ x Für Stichprobe: |5.772-6|/0.1=2.28 p-Wert 0.0226 • WS für zufällige Messung von x1 =5.772 oder noch weiter weg von µ0: 2,3% plot(x,dnorm(x),type='l') zk<-2.28 lines(c(zk,zk),c(0,dnorm(zk))); lines(c(-zk,-zk),c(0,dnorm(-zk))) lines(c(-4,-zk),c(0,0)); lines(c(zk,4),c(0,0)) 11.01.2011 MMST (c) Urbas 2010 23 4 Statistische Entscheidung • Ist die Wahrscheinlichkeit der vorgefundenen (oder extremerer) Unterschiede oder Zusammenhänge unter der Annahme der Nullhypothese kleiner oder gleich der vorgegebenen Schranke, dann kann Nullhypothese verworfen werden • p-Wert ≤ α, dann Entscheidung für H1 • α : Signifikanzniveau (üblich 1%, 5%, 10%) – Wird α nicht überschritten, dann wird Testergebnis „signifikant“ genannt. • Beispiel: – p-Wert=0.0226, α=0.05 H0 wird verworfen – Neues MMSTZ unterscheidet sich signifikant 11.01.2011 MMST (c) Urbas 2010 24 Logik des Testens (1/2) • Warum wird von H0 ausgegangen? – Irrtumswahrscheinlichkeit kann bei unspezifischen Hypothesen nur für falsches Annehmen von H1 angegeben werden (α-Fehler) – Forschungsethik: Lieber keine als falsche Schlüsse • Welche Schranke ist zu wählen? – Je nach Fragestellung kann mit unterscheidlichen Signifikanzniveaus gearbeitet werden – Je kleiner α-Fehler, desto größer β-Fehler – Willkürliche Konventionen für psych. Forschung α=0,05 – Siehe Wickens für kritische Diskussion für MMST 11.01.2011 MMST (c) Urbas 2010 25 Logik des Testens (2/2) • Warum dürfen Hypothesen nicht an den gleichen Daten abgeleitet und geprüft werden? – Neue Hypothesen an Daten aufstellen ist legitim, Prüfung jedoch nur an neuen Daten möglich! – Bei Analysen im Nachhinein findet sich rein zufällig immer irgendein Zusammenhang, wenn man nur genügend viele Variablen betrachtet • Warum muss Schranke vorher festgelegt werden? – p-Wert ≠ Irrtumswahrscheinlichkeit – Irrtumswahrscheinlichkeit = α 11.01.2011 MMST (c) Urbas 2010 26 Beliebte Irrtümer zur Irrtumswahrscheinlichkeit • Statistische Entscheidung für H0 bedeutet nicht, dass H0 wahr ist. – Bei kleinen Stichproben werden Unterschiede oft nicht entdeckt (großer β-Fehler). • Statistische Entscheidung für H1 bedeutet nicht, dass H1 wahr ist – Eine Entscheidung mit α=0.05 für H1 bedeutet nicht, dass H1 mit 95%-Sicherheit richtig ist • Signifikanz eines Ergebnisses sagt nichts über Größe von Unterschied/Zusammenhang in Population aus – Signifikante Unterschiede können völlige bedeutungslos sein • Auch wenn der p-Wert viel kleiner ist als α, die WS für falsches Annehmen der H1 = α 11.01.2011 MMST (c) Urbas 2010 27 Unbedingt beachten • Signifikanzniveau vorher festlegen! – Was kostet mich ein Irrtum? • Hypothesen vorher formulieren! – „Genau diesen Punkt wollte ich treffen“ • Voraussetzungen des Tests müssen erfüllt sein! – Beispiel: Merkmal muss normalverteilt, bzw. Stichprobenumfang hinreichend groß, damit Mittelwert normalverteilt ist) • Lesenswertes zu den Grenzen des Signifikanztests: – Cohen (1994) „The world is round (p<0.05) 11.01.2011 MMST (c) Urbas 2010 28 Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik Testen von Unterschieden 11.01.2011 MMST (c) Urbas 2010 29 Mittelwertsunterschiede: t-Test für unabhängige Stichproben • Voraussetzungen – Merkmal mindestens intervallskaliert – Bei kleinen Stichproben (n<30) muss Merkmal in beiden Populationen normalverteilt sein – Stichproben müssen aus Populationen mit gleicher Varianz stammen – Stichproben müssen unabhängig sein • Prüfgröße – Verteilung der Differenz zweier Stichprobenmittelwerte, geteilt durch geschätzte Streuung ist t-verteilt, df=n1+n2-2 x1 − x2 t= σˆ x1 − x2 11.01.2011 σˆ x − x 1 2 (n1 − 1)σˆ12 + (n2 − 1)σˆ 22 1 1 + = ( n1 − 1) + ( n2 − 1) n1 n2 MMST (c) Urbas 2010 30 Mittelwertsunterschiede: t-Test für abhängige Stichproben • Abhängige Stichproben – Messwiederholung – Parallelisierte Stichproben • Voraussetzungen – Merkmal mindestens intervallskaliert – Bei kleinen Stichproben (n<30) muss Merkmal in beiden Populationen normalverteilt sein • Prüfgröße – Verteilung der gemittelten Differenzen, geteilt durch Standardfehler der gemittelten Differenzen ist t-verteilt, df=n-1 d t= σ̂ d 11.01.2011 σˆ d 1 n ; σˆ d = d = ∑ d i σˆ d = n n i =1 MMST (c) Urbas 2010 n 2 − d d ( ) (n − 1) ∑ i i =1 31 Unterschiede von Varianzen: F-Test, Levene-Test • Häufig zur Überprüfung von Voraussetzungen für andere Tests (z.B. Varianzhomogenität bei t-Test) • Voraussetzungen – Merkmal mindestens intervallskaliert – Merkmal in beiden Populationen normalverteilt – Stichproben unabhängig • Prüfgröße – Verhältnis der Schätzer der Populationsvarianzen ist Fverteilt mit dfZähler=n1-1 und dfNenner=n2-1 11.01.2011 MMST (c) Urbas 2010 32 Ausblick • Verfahren zum Testen von Zusammenhängen – Statistische Absicherung von r gegen 0 – Test auf Gleichheit zweier Korrelationen • Verteilungsfreie Verfahren – Ordinalskalenniveau & Voraussetzungen für verteilungsgebundenes Verfahren verletzt • MW zweier unabh. Stichproben: Wilcoxon, U-Test • MW zweier abh. Stichproben: Wilcoxon für abh. Stichp. • M2 >2 unabh. Stichproben: Kruskal-Wallis – Nominalskalenniveau • Analyse von Häufigkeiten mit χ²-Verfahren • Varianzanalyse (Überprüfung von MW-Unterschieden) – Einfaktorielle Verfahren – Mehrfaktorielle Verfahren 11.01.2011 MMST (c) Urbas 2010 33 Literaturhinweise • Einführung in die Inferenzstatistik Nachtigall, Ch., Wirtz, M., (2006). Wahrscheinlichkeitsrechnung und Inferenzstatistik. Juventa, Weinheim. Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin. Kühlmeyer, M. (2001). Statistische Auswertungsmethoden für Ingenieure. Springer, Berlin • Einführung R Dalgaard, P. (2002). Introductory Statistics with R. Springer, Berlin. Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol(CA). 11.01.2011 MMST (c) Urbas 2010 34