Statistische Methoden 2 - Fakultät Elektrotechnik und

Werbung
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Statistische Methoden MMST-2
Inferenzstatistischer Schluss
von der Stichprobe auf die
Population
VL MMS
Wintersemester 2011
Professur für Prozessleittechnik
L. Urbas, J. Ziegler
Evaluation mittels Stichprobe
Stichprobenziehung
Beschreibende
Statistik
Inferenzstatistischer
Schluss
Population
11.01.2011
Stichprobenmitglieder
MMST (c) Urbas 2010
2
Aufgabe schließende Statistik
• Theorie  Zusammenhangs/Unterschiedsvermutung
– Es wird vermutet, dass Gestaltungsvariante A Aufgabe
besser unterstützt als Gestaltungsvariante B
• Experiment  Stichprobe(n)
– Pbn mit A zeigten im Mittel weniger Fehler und kürzere
Bearbeitungszeiten als die Pbn-Gruppe mit B
• Gilt Aussage auch für Population?
– Kennwerte (Parameter) der Population unbekannt!
– Schätzung der Parameter für Population aus Stichprobe!
– Wie wahrscheinlich ist es, dass die geschätzten
Parameter den „wahren Parametern“ der Population
(nicht) entsprechen?
11.01.2011
MMST (c) Urbas 2010
3
Fehlerquellen
• Stichprobenfehler
– In Stichprobe rein zufällig andere Verhältnisse als in
Population!
– Kann nicht ausgeschlossen werden, Wahrscheinlichkeit
kann aber beschränkt werden!
 Vertrauensintervalle, Signifikanztests
• Systematischer Fehler
– Merkmal in Stichprobe systematisch anders verteilt als
in Population  Systematisch falsche Aussage
– Zufallsstichprobe, (spezifisch) repräsentative
Stichprobe: Verteilung bestimmter Merkmale ändert sich
nicht durch Auswahl!
11.01.2011
MMST (c) Urbas 2010
4
Übersicht schließende Statistik
• Verteilung von Stichprobenkennwerten
– Wahrscheinlichkeitsverteilung von
Stichprobenmittelwerten
– Zentraler Grenzwertsatz
• Scoring Verfahren
– u-Test : Eine Stichprobe, bekanntes σ
– t-Test: Eine oder zwei unabhängige Stichprobe,
unbekanntes σ
– F-Test: Zwei abhängige Stichproben aus gleicher
Population, unbekanntes σ
• Nichtparametrische Verfahren
– Rangsummen
11.01.2011
MMST (c) Urbas 2010
5
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Verteilung von
Stichprobenkennwerten
11.01.2011
MMST (c) Urbas 2010
6
Stichprobenmittelwert
• Mehrfache zufällige Stichproben N=n aus gleicher
Population
– Arithmetisches Mittel als Schätzer für „wahren
Mittelwert“  Schätzungen werden sich zufällig
unterscheiden!
• Wie verändern sich diese Unterschiede bei
wachsendem n?
– Bei wachsendem Stichprobenumfang unterscheiden sich
die MW der Stichproben immer weniger!
– Verteilung ist symetrisch und bei großem n unabhängig
von der Verteilung der Population!
11.01.2011
MMST (c) Urbas 2010
7
150 Stichprobenmittelwerte, n=10,50,150
b<-(-15:15)*0.1
spm<-function(x,n) {hist(replicate(150,mean(sample(x,n))),breaks=b)}
Histogram of replicate(
-0.5
0.0
0.5
1.0
-0.5
y1<-c(y-3,y+3)/3;
0.5
1.0
40
20
1.5
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(
spm(y1,10);
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(
spm(y,150)
Frequency
Histogram of replicate(
Histogram of replicate(
0
0
-1.5
-1.0
replicate(150, mean(sample(
10
Frequency
10 15 20
5
2
0.0
spm(y,50);
0
1
c(y - 3, y + 3)/3
11.01.2011
-1.0
Histogram of replicate(
Frequency
4000
2000
0
0
-1.5
spm(y,10);
Histogram of c(y - 3, y +
-1
0
1.5
replicate(150, mean(sample(
y<-rnorm(10000);
-2
Frequency
Frequency
-1.0
y
Frequency
10 20 30 40
15
-1.5
4
40
2
Histogram of replicate(
20
0
30
-2
20
-4
Histogram of replicate(
0
0
0
5
10
Frequency
1500
500
Frequency
Histogram of y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(
spm(y1,50);
MMST (c) Urbas 2010
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
replicate(150, mean(sample(
spm(y1,150)
8
Zentraler Grenzwertsatz
• Die Verteilung der Stichprobenmittelwerte eines
Merkmals X geht für große n in eine Normalverteilung
über, deren Varianz proportional zum
Stichprobenumfang klein wird.
• Verteilung von X in Population irrelevant!
• Bei ausreichend großem n ist Verteilung der
Stichprobenmittelwerte bekannt  verlässliche
Aussage über wahren Mittelwert möglich
• Für n > 30: Stichprobenmittelwertverteilung kann
durch N(µ, σ²/n)-Verteilung gut beschrieben werden.
– Populationsmittelwert µ
– Standardabweichung σ
11.01.2011
MMST (c) Urbas 2010
9
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Exkurs Vertrauensintervalle
11.01.2011
MMST (c) Urbas 2010
10
Grundprinzipien
• Beim Schluss von Stichprobe auf Population ist immer
mit Ungenauigkeiten und Fehlern zu rechnen
(Stichprobenfehler)
– Stichprobenfehler kann nicht ausgeschlossen werden
• Größe der Fehler kann kontrolliert und unter feste
Schranke gebracht werden!
– Unsicherheit kann beschränkt werden
• Vertrauensintervall
– Bereich bei einer zufallsabhängigen Messung, in dem
der wahre Wert mit einer vorgegebene und hinreichend
hohen Wahrscheinlichkeit liegt.
– Üblich sind 95%, 99% Vertrauensintervalle
11.01.2011
MMST (c) Urbas 2010
11
Vertrauensintervall des
Populationsmittelwerts µ
• Für Stichproben (n>30) gilt
– Mittelwerte der Stichproben sind
N( µ,σ )
-verteilt
• Eigenschaften der Normalverteilung:
– 95% der Werte liegen zwischen µ-1.96σ und µ+1.96σ
– 99% der Werte liegen zwischen µ-2.58σ und µ+2.58σ
• Standardnormalverteilung N(0,1)
– Z-Transformation z = ( x − µ ) / σ
– Vertrauensintervall für Messwert
• 95% :
11.01.2011
( x − 1.96σ , x + 1.96σ )
MMST (c) Urbas 2010
12
Geschätzter Standardfehler
• Populationsvarianz σ meistens nicht bekannt! Aber
1 n
n 2
2
( xi − x ) =
s
σˆ =
∑
n −1
n - 1 i =1
2
ist optimaler Schätzer für σ² mit guter
Übereinstimmung für n>30
• Standardfehler des Mittelwerts aus geschätztem
Standardfehler anstelle wahrer Streuung berechnen
– bis n<100 „approximatives“ Vertrauensintervall
n
σˆ x =
11.01.2011
σˆ
2
n
=
∑(x
i =1
i
− x )2
n ( n − 1)
=
MMST (c) Urbas 2010
s2
=
n −1
s
n −1
13
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
100 oder auch 30 Messungen
sind (viel zu) aufwändig!
Ich habe nur Zeit und Geld für
10-20 Pbn
11.01.2011
MMST (c) Urbas 2010
14
t-Verteilung
0.2
0.0
x<-(-40:40)*0.1
plot(x,dnorm(x),type='l‚lwd=2)
lines(x,dt(x,1),col="red")
lines(x,dt(x,3),col="orange")
lines(x,dt(x,5),col="green")
lines(x,dt(x,20),col="blue")
dnorm(x)
0.4
• Zusammenhang σˆ 2 = σ 2 / n gilt allg. nur für n>30
• Aber: Wenn Population normalverteilt , dann kann
Verteilung der Stichprobenmittelwerte ( x − µ) / σ̂ x
mit einer t-Verteilung mit n-1 Freiheitsgraden
exakt wiedergegeben werden
-4
11.01.2011
MMST (c) Urbas 2010
-2
0
x
2
4
15
Zum Begriff Freiheitsgrad
• Freiheitsgrad = Anzahl Werte, die in einem
statistischen Ausdruck frei variieren können
• Beispiel Stichprobenvarianz
1 n
s = ∑ ( xi − x )2
n i =1
2
– Von den n Summanden können
nur n-1 beliebige Werte annehmen wg.
n
∑(x − x) = 0
i =1
i
• Schreibweise für geschätzte Populationsvarianz
n
1
2
σˆ 2 =
(
x
−
x
)
= QSabw / df
∑
i
n - 1 i =1
11.01.2011
MMST (c) Urbas 2010
16
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Statistische Hypothesen
11.01.2011
MMST (c) Urbas 2010
17
Inhaltliche vs. statistische Hypothese
• Inhaltliche Hypothese(n)
– Leistung zweier Gruppen i,ii unterscheidet sich wg.
unterschiedlichem Voraussetzungen
– Variante A ist leichter bedienbar als Variante B, weil
Kompatibilitätsprinzipien bei Darstellung eingehalten
• Statistische Hypothese
– Ungerichtet/Ungerichtet
• Die durchschnittliche Leistung zweier Gruppen unterscheidet
sich:
µL,i≠µL,ii
• Die mittlere Fehlerrate von Variante A ist kleiner als die von
Variante V:
µF,A< µF,B
– Spezifisch/Inspezifisch: Größe des Unterschieds
• ! µ lediglich beliebteste „Übersetzung“, viele andere
möglich: %-Satz der Pbn besser, Korrelationen, …
11.01.2011
MMST (c) Urbas 2010
18
Alternativhypothese / Nullhypothese
• Inhaltliche Hypothese:
– Wir vermuten in einem bestimmten MMS einen Zusammenhang
von Erfahrung und Leistung
• Statistische Hypothese :
– ρE,L ≠ 0 (ungerichtet, unspezifisch)
• Das was wir vermuten und finden wollen wird als
Alternativhypothese H1 bezeichnet
– Erweiterung/Alternative zu bestehendem Wissen
• Gegenteil Nullhypothese H0
– Beispiel: ρE,L = 0
• Es ist eine Entscheidung zu treffen  Signifikanztest
11.01.2011
MMST (c) Urbas 2010
19
Idee des Signifikanztests
Ziel: Wir wollen wissen, ob bestimmte Unterschiede oder
Zusammenhänge in der Population gelten ( Hypothesen).
Dazu erheben wir Daten.
Problem: Unterschiede oder Zusammenhänge können sich
zufällig ergeben, obwohl es in der Population keine
Unterschiede oder Zusammenhänge gibt.
Lösung: Wir bestimmen, wie wahrscheinlich die gefundenen
Unterschiede/Zusammenhänge (oder noch extremere) bei
Gültigkeit der Nullhypothese durch Zufall zustande
kommen können.
Wenn Wahrscheinlichkeit unter einer vorher festgelegten
Schranke, dann Entscheidung für Alternativhypothese
Das Ergebnis heißt dann „statistisch signifikant“.
11.01.2011
MMST (c) Urbas 2010
20
p-Wert
• Signifikanztest: Verfahren zur Entscheidung zwischen
H0 und H1 durch Berechnung der bedingten
Wahrscheinlichkeit
p = P(vorgefundenes oder extremeres Ergebnis|H0 gilt)
• Voraussetzung
– Wir kennen die Kennwerteverteilung von Mittelwerten,
Mittelwertsunterschieden, Korrelationskoeffizienten, …
11.01.2011
MMST (c) Urbas 2010
21
Beispiel: Ist neues MMST anders als altes?
• Leistung: Gemessen auf Intervallskala von 0-10.
– Leistung im alten System sei (langjähriger Beobachtung
aller Mitarbeiter) bekannt: µ0 = 6, σ = 1
– µ1 sei die „wahre“ Leistung mit neuem MMST
• Statistische Hypothese: H1: µ1 ≠ µ0
• Schranke für Irrtum: 5%
H0: µ1 = µ0
• Leistungsmessung mit 100 Pbn ergibt x1 = 5.772
• Wie WS ist, dass x1 um 0.228 oder mehr von µ0
abweicht, wenn H0 gilt?
11.01.2011
MMST (c) Urbas 2010
22
0.4
0.2
0.0
dnorm(x)
Beispiel: … Fortsetzung
-4
-2
x
µ
−
>
0
.
228
• Wie wahrscheinlich ist 1
0
• Wenn H0 gilt, dann ist x1 normalverteilt mit
0
2
x
– µ1 = µ0 = 6 und
– Standardfehler σ x = σ
n = 1 / 10 = 0.1
• Tabelliert ist N(0,1)  z-transformation
z = ( x1 − µ0 ) σ x
Für Stichprobe: |5.772-6|/0.1=2.28  p-Wert 0.0226
• WS für zufällige Messung von x1 =5.772 oder noch
weiter weg von µ0: 2,3%
plot(x,dnorm(x),type='l')
zk<-2.28
lines(c(zk,zk),c(0,dnorm(zk))); lines(c(-zk,-zk),c(0,dnorm(-zk)))
lines(c(-4,-zk),c(0,0)); lines(c(zk,4),c(0,0))
11.01.2011
MMST (c) Urbas 2010
23
4
Statistische Entscheidung
• Ist die Wahrscheinlichkeit der vorgefundenen (oder
extremerer) Unterschiede oder Zusammenhänge unter
der Annahme der Nullhypothese kleiner oder gleich
der vorgegebenen Schranke, dann kann Nullhypothese
verworfen werden
• p-Wert ≤ α, dann Entscheidung für H1
• α : Signifikanzniveau (üblich 1%, 5%, 10%)
– Wird α nicht überschritten, dann wird Testergebnis
„signifikant“ genannt.
• Beispiel:
– p-Wert=0.0226, α=0.05  H0 wird verworfen
– Neues MMSTZ unterscheidet sich signifikant
11.01.2011
MMST (c) Urbas 2010
24
Logik des Testens (1/2)
• Warum wird von H0 ausgegangen?
– Irrtumswahrscheinlichkeit kann bei unspezifischen
Hypothesen nur für falsches Annehmen von H1
angegeben werden (α-Fehler)
– Forschungsethik: Lieber keine als falsche Schlüsse
• Welche Schranke ist zu wählen?
– Je nach Fragestellung kann mit unterscheidlichen
Signifikanzniveaus gearbeitet werden
– Je kleiner α-Fehler, desto größer β-Fehler
– Willkürliche Konventionen für psych. Forschung α=0,05
– Siehe Wickens für kritische Diskussion für MMST
11.01.2011
MMST (c) Urbas 2010
25
Logik des Testens (2/2)
• Warum dürfen Hypothesen nicht an den gleichen
Daten abgeleitet und geprüft werden?
– Neue Hypothesen an Daten aufstellen ist legitim,
Prüfung jedoch nur an neuen Daten möglich!
– Bei Analysen im Nachhinein findet sich rein zufällig
immer irgendein Zusammenhang, wenn man nur
genügend viele Variablen betrachtet
• Warum muss Schranke vorher festgelegt werden?
– p-Wert ≠ Irrtumswahrscheinlichkeit
– Irrtumswahrscheinlichkeit = α
11.01.2011
MMST (c) Urbas 2010
26
Beliebte Irrtümer zur
Irrtumswahrscheinlichkeit
• Statistische Entscheidung für H0 bedeutet nicht, dass H0
wahr ist.
– Bei kleinen Stichproben werden Unterschiede oft nicht entdeckt
(großer β-Fehler).
• Statistische Entscheidung für H1 bedeutet nicht, dass H1
wahr ist
– Eine Entscheidung mit α=0.05 für H1 bedeutet nicht, dass H1
mit 95%-Sicherheit richtig ist
• Signifikanz eines Ergebnisses sagt nichts über Größe von
Unterschied/Zusammenhang in Population aus
– Signifikante Unterschiede können völlige bedeutungslos sein
• Auch wenn der p-Wert viel kleiner ist als α, die WS für
falsches Annehmen der H1 = α
11.01.2011
MMST (c) Urbas 2010
27
Unbedingt beachten
• Signifikanzniveau vorher festlegen!
– Was kostet mich ein Irrtum?
• Hypothesen vorher formulieren!
– „Genau diesen Punkt wollte ich treffen“
• Voraussetzungen des Tests müssen erfüllt sein!
– Beispiel: Merkmal muss normalverteilt, bzw.
Stichprobenumfang hinreichend groß, damit Mittelwert
normalverteilt ist)
• Lesenswertes zu den Grenzen des Signifikanztests:
– Cohen (1994) „The world is round (p<0.05)
11.01.2011
MMST (c) Urbas 2010
28
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Testen von Unterschieden
11.01.2011
MMST (c) Urbas 2010
29
Mittelwertsunterschiede: t-Test für
unabhängige Stichproben
• Voraussetzungen
– Merkmal mindestens intervallskaliert
– Bei kleinen Stichproben (n<30) muss Merkmal in beiden
Populationen normalverteilt sein
– Stichproben müssen aus Populationen mit gleicher Varianz
stammen
– Stichproben müssen unabhängig sein
• Prüfgröße
– Verteilung der Differenz zweier Stichprobenmittelwerte, geteilt
durch geschätzte Streuung ist t-verteilt, df=n1+n2-2
x1 − x2
t=
σˆ x1 − x2
11.01.2011
σˆ x − x
1
2
(n1 − 1)σˆ12 + (n2 − 1)σˆ 22  1 1 
 + 
=

( n1 − 1) + ( n2 − 1)  n1 n2 
MMST (c) Urbas 2010
30
Mittelwertsunterschiede: t-Test für
abhängige Stichproben
• Abhängige Stichproben
– Messwiederholung
– Parallelisierte Stichproben
• Voraussetzungen
– Merkmal mindestens intervallskaliert
– Bei kleinen Stichproben (n<30) muss Merkmal in beiden
Populationen normalverteilt sein
• Prüfgröße
– Verteilung der gemittelten Differenzen, geteilt durch
Standardfehler der gemittelten Differenzen ist t-verteilt, df=n-1
d
t=
σ̂ d
11.01.2011
σˆ d
1 n
; σˆ d =
d = ∑ d i σˆ d =
n
n i =1
MMST (c) Urbas 2010
n
2
−
d
d
(
)
(n − 1)
∑ i
i =1
31
Unterschiede von Varianzen: F-Test,
Levene-Test
• Häufig zur Überprüfung von Voraussetzungen für andere
Tests (z.B. Varianzhomogenität bei t-Test)
• Voraussetzungen
– Merkmal mindestens intervallskaliert
– Merkmal in beiden Populationen normalverteilt
– Stichproben unabhängig
• Prüfgröße
– Verhältnis der Schätzer der Populationsvarianzen ist Fverteilt mit dfZähler=n1-1 und dfNenner=n2-1
11.01.2011
MMST (c) Urbas 2010
32
Ausblick
• Verfahren zum Testen von Zusammenhängen
– Statistische Absicherung von r gegen 0
– Test auf Gleichheit zweier Korrelationen
• Verteilungsfreie Verfahren
– Ordinalskalenniveau & Voraussetzungen für verteilungsgebundenes Verfahren verletzt
• MW zweier unabh. Stichproben: Wilcoxon, U-Test
• MW zweier abh. Stichproben: Wilcoxon für abh. Stichp.
• M2 >2 unabh. Stichproben: Kruskal-Wallis
– Nominalskalenniveau
• Analyse von Häufigkeiten mit χ²-Verfahren
• Varianzanalyse (Überprüfung von MW-Unterschieden)
– Einfaktorielle Verfahren
– Mehrfaktorielle Verfahren
11.01.2011
MMST (c) Urbas 2010
33
Literaturhinweise
• Einführung in die Inferenzstatistik
Nachtigall, Ch., Wirtz, M., (2006). Wahrscheinlichkeitsrechnung und Inferenzstatistik. Juventa, Weinheim.
Bortz, J., Döring, N. (2006). Forschungsmethoden und
Evaluation. Springer, Berlin.
Kühlmeyer, M. (2001). Statistische Auswertungsmethoden
für Ingenieure. Springer, Berlin
• Einführung R
Dalgaard, P. (2002). Introductory Statistics with R.
Springer, Berlin.
Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol(CA).
11.01.2011
MMST (c) Urbas 2010
34
Herunterladen