Statistik II für Betriebswirte Vorlesung 1

Werbung
Statistik II für Betriebswirte
Vorlesung 1
Dr. Andreas Wünsche
TU Bergakademie Freiberg
Institut für Stochastik
16. Oktober 2017
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
1
Organisatorisches
I
Vorlesung: Mo., 14:00-15:30, FOR-0270.
I
Übungen:
I
I
I
Di., 9:15-10:45, LAM-2090, Dipl.-Math. Dietz,
Di., 14:00-15:30, WER-1045, Dr. Wünsche,
Mi., 14:00-15:30, MET-2065, Dipl.-Math. Dietz.
I
Selbststudium (Laut Modulbeschreibung zusammen für beide
Semester 120 h Präsenzzeit und 150 h Selbststudium.)
I
Information: http://www.mathe.tu-freiberg.de/wiwistat
I
Prüfung: Klausur 120 Minuten, zugelassen sind Taschenrechner,
Bücher, Mitschriften; nicht zugelassen sind Laptops, Handys.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
2
Themenkomplexe und geplanter Ablauf in diesem Semester
I
Statistische Tests (ca. drei Vorlesungen)
I
Varianzanalyse (ca. zwei Vorlesungen)
I
Korrelationsanalyse (ca. zwei Vorlesungen)
I
Regressionsanalyse (ca. zwei Vorlesungen)
I
Weihnachtsvorlesung (18.12.17)
I
Regressionsanalyse (ca. drei Vorlesungen)
I
Statistische Qualitätskontrolle (ca. zwei Vorlesungen)
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
3
Klausurergebnisse Statistik 1 für Betriebswirte
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
4
4. Grundlagen des statistischen Schließens II (Tests)
4.1 Einführung in statistische Tests am Beispiel des t-Tests
Beispiel 4.1: Intelligenzquotient
I Fragestellung (1): Haben (14-jährige) Kinder aus Dresden einen
höheren Intelligenzquotienten als 100?
I Fragestellung (2): Haben (14-jährige) Kinder aus Dresden einen
niedrigeren Intelligenzquotienten als 100?
I Fragestellung (3): Ist der Intelligenzquotient von (14-jährigen)
Kindern aus Dresden von 100 verschieden?
Ist µ der (unbekannte) Erwartungswert des IQ der Gesamtpopulation
der (14-jährigen) Kinder aus Dresden, dann lassen sich die Fragestellungen (1) bis (3) wie folgt als Forschungshypothesen formulieren:
I
I
I
(1): µ > 100
(2): µ < 100
(3): µ 6= 100
Dr. Andreas Wünsche
(erwartete IQ ist höher 100)
(erwartete IQ ist niedriger 100)
(erwartete IQ ist ungleich 100)
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
5
Grundlegende Schwierigkeit
I
I
I
I
I
I
Auf Basis einer repräsentativen Stichprobe soll auf die
Grundgesamtheit geschlossen werden.
−→ Fehler, Unsicherheiten sind möglich!
Beispiel: Es werden zufällig“ 10 hochbegabte Kinder (IQ≥ 130) für
”
die Stichprobe ausgewählt. Vermutlich wird dadurch µ überschätzt!
Ziel der schließenden Statistik:
Quantifizierung der Unsicherheit,
z.B. mit welcher Wahrscheinlichkeit macht ein statistischer Test
einen Fehler.
Notwendig für die Quantifizierung:
Mathematische Modellannahmen
Im Beispiel 4.1 gehen wir von der Modellannahme aus, dass der IQ
der (14-jährigen) Kinder in Dresden normalverteilt ist.
Diese Modellannahme sollte man stets rechtfertigen (wie man das
machen kann, sehen wir später).
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
6
Fortsetzung Beispiel 4.1: Intelligenztest
I
I
I
Der Intelligenzquotient X der 14-jährigen Kinder in Dresden wird als
normalverteilt angenommen.
(math.) Sichprobe: Xi iid. mit Xi ∼ N(µ, σ 2 ), i = 1, . . . , n .
Aus allen (14-jährigen) Kindern in Dresden wurden zufällig und
unabhängig voneinander 10 Kinder ausgewählt. Diese machten einen
IQ-Test mit folgenden Ergebnis (Daten):
i
1
2
3
4
5
xi 112 108 97 100 107
i
6
7
8
9
10
xi 110 99 106 98 104
Die Punktschätzung für den unbekannten Erwartungswert µ ist
gleich:
µ̂ = x = 104.1
und damit größer als 100. Das bedeutet aber nicht, dass der
Erwartungswert µ mit Sicherheit größer als 100 ist.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
7
Nullhypothese
I
Die Nullhypothese im Beispiel 4.1 lautet:
H0 : µ = 100(= µ0 ).
µ0 = 100 ist also der hypothetische Wert.
I
Aus der Annahme, dass der IQ normalverteilt ist ergibt sich, dass die
Teststatistik
X − µ0 √
n
T =
S
t-verteilt ist mit (n − 1)-Freiheitsgraden.
I
Damit lässt sich die Wahrscheinlichkeit dafür kontrollieren, die
Nullhypothese fälschlicherweise abzulehnen.
I
Die Forschungshypothesen (1) bis (3) sind hier die möglichen
Alternativhypothesen HA .
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
8
Aufstellen der Null- und der Alternativhypothese
I
Man formuliert 2 sich ausschließende (oft sogar komplementäre)
Hypothesen, die Nullhypothese H0 und die Alternativhypothese HA
(oft auch mit H1 bezeichnet)
z.B.
oder
oder
H0 : µ = µ 0
H0 : µ = µ 0
H0 : µ = µ 0
und
und
und
HA : µ > µ0
HA : µ < µ0
HA : µ 6= µ0 .
I
Die Nullhypothese ist diejenige Hypothese, welche auf ihren
Wahrheitsgehalt hin überprüft werden soll. Die Nullhypothese wird
als Ausgangspunkt einer statistischen Untersuchung gesehen, den es
zu widerlegen gilt.
I
Die Alternativhypothese ist die eigentliche Forschungshypothese und
drückt aus, was mittels der statistischen Untersuchung gezeigt
werden soll. Die Hypothese, die statistisch abgesichert werden soll,
sollte also als Alternativhypothese formuliert werden!
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
9
Testentscheidung, Fehler erster und zweiter Art
I
2 mögliche Entscheidungen beim Testen:
1. H0 wird verworfen, also abgelehnt und HA angenommen: Es gibt in
der erhobenen Stichprobe starke Hinweise darauf, dass H0 nicht
gelten kann, also HA gelten muss. Diese Hinweise sind so stark, dass
man nicht von einem zufälligen Zustandekommen ausgehen kann.
2. H0 wird nicht verworfen, also angenommen: Man hat keine Hinweise
gefunden, die gegen H0 sprechen. Alle aufgetretenen Effekte könnten
genauso gut zufallsbedingt sein.
I
Entscheidung aufgrund der Stichprobe zugunsten
von:
Dr. Andreas Wünsche
H0
HA
in der Grundgesamtheit gilt
H0
HA
richtige
Fehler 2. Art
Entscheidung (β-Fehler)
Fehler 1. Art richtige
(α-Fehler)
Entscheidung
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
10
Fehlerwahrscheinlichkeiten
I
Formal lässt sich die Wahrscheinlichkeit für den Fehler 1. Art
(α-Fehler) als bedingte Wahrscheinlichkeit schreiben:
P(Fehler 1. Art) = P(H0 ablehnen| H0 ist wahr) = α
I
Die Wahrscheinlichkeit für den Fehler 2. Art (β-Fehler) kann auch
als bedingte Wahrscheinlichkeit geschrieben werden:
P(Fehler 2. Art) = P(H0 nicht ablehnen| HA ist wahr) = β
I
Die Wahrscheinlichkeiten für die Fehler erster und zweiter Art
verändern sich gegenläufig.
I
Bei festem Stichprobenumfang wird nur der Fehler erster Art
kontrolliert.
I
Bei fester Wahrscheinlichkeit für den Fehler 1. Art kann die
Wahrscheinlichkeit für den Fehler 2. Art durch Vergrößerung des
Stichprobenumfanges verkleinert werden.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
11
Einfache und zusammengesetzte Hypothesen
I
Wählt man mit der Null- oder Alternativhypothese nur einen Wert
aus allen möglichen Werten aus, dann nennt man eine solche
Hypothese einfach.
I
Wird dagegen eine Menge von Werten zugelassen, spricht man von
einer zusammengesetzten Hypothese.
I
So ist z.B. bei
H0 : µ = µ 0
gegen
HA : µ > µ0
H0 eine einfache und HA eine zusammengesetzte Hypothese.
I
Hingegen sind bei
H0 : µ ≤ µ 0
gegen
HA : µ > µ0
beide Hypothesen H0 und HA zusammengesetzte Hypothesen.
I
Für eine einfache Nullhypothese ist die Bestimmung für die
Wahrscheinlichkeit für den Fehler 1. Art eindeutig.
I
Für zusammengesetzte Nullhypothesen hingegen hängt die Fehlerwahrscheinlichkeit noch vom konkreten Wert der Nullhypothese,
welcher in der Grundgesamtheit angenommen wird, ab.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
12
Niveau α
I
Ein Test heißt Test zum Niveau α (Signifikanzniveau α), falls die
Wahrscheinlichkeit für den Fehler 1. Art höchstens α ist.
I
Übliche Werte für das Signifikanzniveau α sind 0.05 oder 0.01.
I
Für einfache Hypohesen kann man Tests oft so bestimmen, dass die
Wahrscheinlichkeit für den Fehler 1. Art genau α ist.
I
Bei zusammengesetzten Hypothesen sind Tests oft so konstruiert,
dass die Wahrscheinlichkeit für den Fehler 1. Art genau α für den
Wert der Nullhypothese ist, welcher am nächsten zu den Werten der
Alternativhypothese liegt. Für alle anderen Werte der Nullhypothese
ist dann die Wahrscheinlichkeit für den Fehler 1. Art kleiner als α.
I
Im letzten Kapitel von Statistik II betrachten wir die Wahrscheinlichkeiten für den Fehler 1. Art und 2. Art noch ausführlicher im
Rahmen der statistischen Qualitätskontrolle. Die Gütefunktion des
Testes wird dabei eine wichtige Rolle spielen.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
13
Kritischer Bereich
Der kritische Bereich ist der Ablehnungbereich der Nullhypothese.
Liegt die Realisierung t der Teststatistik T im kritischen Bereich, dann
wird die Nullhypothese H0 zugunsten der Alternativhypothese HA
abgelehnt.
Einstichproben t-Test
Voraussetzung: Xi iid. mit Xi ∼ N(µ, σ 2 ), i = 1, . . . , n.
Ist H0 : µ = µ0 wahr, dann gilt für die Testgröße T :
T =
X − µ0 √
n ∼ tn−1 .
S
Kritische Bereiche (je nach Alternative) beim Signifikanzniveau α:
I (1) HA : µ > µ0
K = t | t > tn−1,1−α
I (2) HA : µ < µ0
K = t | t < −tn−1,1−α
n
o
I (3) HA : µ 6= µ0
K = t | |t| > tn−1,1− α
2
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
14
Einstichproben t-Test für rechtsseitige Hypothesen
I
H 0 : µ = µ0
H 0 : µ ≤ µ0
I
Im Beispiel 4.1 ist n = 10, x = 104.1 und s 2 = 28.3222, damit
ergibt sich
104.1 − 100 √
10 = 2.44
t= √
28.3222
I
Das Signifikanzniveau wählen wir mit α = 0.05 und der Stichprobenumfang ist n = 10 und damit gilt tn−1,1−α = t9,0.95 = 1.83.
K = t | t > tn−1,1−α = {t | t > 1.83}
I
Testentscheidung: t = 2.44 > 1.83 =⇒ t ∈ K =⇒ H0 wird
abgelehnt (HA wird angenommen).
I
Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist
signifikant größer als 100, beim Signifikanzniveau von 5%.
Dr. Andreas Wünsche
gegen
gegen
HA : µ > µ0 (oder oft auch so:
HA : µ > µ0 ).
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
15
0.1
0.2
0.3
0.4
Dichtefunktion der t9−Verteilung
0.0
α=5%
t9,0.95=1.83
t=2.44
−4
Dr. Andreas Wünsche
−2
0
Statistik II für BetriebswirtexVorlesung 1
2
Version: 5. Oktober 2017
4
16
Einstichproben t-Test für linksseitige Hypothesen
I
H 0 : µ = µ0
H 0 : µ ≥ µ0
I
Im Beispiel 4.1 ist t = 2.44.
I
Als Signifikanzniveau wählen wir wieder α = 0.05 und damit wird
auch hier tn−1,1−α = t9,0.95 = 1.83 für den kritischen Bereich benötigt.
K = t | t < −tn−1,1−α = {t | t < −1.83}
I
Testentscheidung: t = 2.44 6< −1.83 =⇒ t 6∈ K =⇒ H0 wird
angenommen.
I
Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist
nicht signifikant kleiner als 100.
Dr. Andreas Wünsche
gegen
gegen
HA : µ < µ0 (oder oft auch so:
HA : µ < µ0 ).
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
17
0.1
0.2
0.3
0.4
Dichtefunktion der t9−Verteilung
0.0
α=5%
− t9,0.95=−1.83
t=2.44
−4
Dr. Andreas Wünsche
−2
0
Statistik II für BetriebswirtexVorlesung 1
2
Version: 5. Oktober 2017
4
18
Einstichproben t-Test für zweiseitige Hypothesen
gegen
HA : µ 6= µ0
I
H 0 : µ = µ0
I
Im Beispiel 4.1 ist t = 2.44.
I
Als Signifikanzniveau wählen wir wieder α = 0.05 =⇒ α2 = 0.025
=⇒ 1 − α2 = 0.975 und damit ist hier das für den kritischen Bereich
benötigte t-Quantil tn−1,1− α = t9,0.975 = 2.26.
2
n
o
K = t | |t| > tn−1,1− α = {t | |t| > 2.26}
2
I
Testentscheidung: |t| = 2.44 > 2.26 =⇒ t ∈ K =⇒ H0 wird
abgelehnt (HA wird angenommen).
I
Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist
signifikant von 100 verschieden.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
19
0.1
0.2
0.3
0.4
Dichtefunktion der t9−Verteilung
0.0
α
2.5%=
2
α
=2.5%
2
− t9,0.975=−2.26
−4
−2
t9,0.975=2.26
0
t=2.44
2
4
x
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
20
Statistik Software, p-value (p-Wert), Statgraphics
I
I
I
Die Statistik-Software berechnet den p-Wert (p-value ).
Testentscheidung mit dem p-Wert:
p≤α
=⇒
H0 wird abgelehnt.
p>α
=⇒
H0 wird angenommen.
Im Beispiel 4.1: H0 : µ = µ0
gegen
HA : µ > µ0
Statgraphics
I
p = 0.018798 < 0.05 = α
Dr. Andreas Wünsche
=⇒
H0 wird abgelehnt.
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
21
0.1
0.2
0.3
0.4
Dichtefunktion der t9−Verteilung
p=0.019
0.0
α=0.05
t9,0.95=1.83
−4
−2
0
t=2.44
2
4
x
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
22
Statgraphics, Alternative: kleiner“
”
I
Im Beispiel 4.1: H0 : µ = µ0
gegen
HA : µ < µ0
Statgraphics
I
p = 0.981202 > 0.05 = α
Dr. Andreas Wünsche
=⇒
H0 wird angenommen.
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
23
0.3
0.4
Dichtefunktion der t9−Verteilung
0.1
0.2
p=0.981
0.0
α=0.05
− t9,0.95=−1.83
−4
−2
t=2.44
0
2
4
x
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
24
Statgraphics, Alternative: ungleich“
”
I
Im Beispiel 4.1: H0 : µ = µ0
gegen
HA : µ 6= µ0
Statgraphics
I
p = 0.0375961 < 0.05 = α
Dr. Andreas Wünsche
=⇒
H0 wird abgelehnt.
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
25
Zusammenfassung
I
Beim Testen wird (erst einmal) nur die Wahrscheinlichkeit für den
Fehler 1. Art kontrolliert, d.h.
P(H0 ablehnen | H0 wahr) ≤ α .
I
Wenn also H0 tatsächlich gilt, wird man sich nur (im Mittel) in
α · 100% der Fälle für HA entscheiden.
I
Die Entscheidung für HA ist in diesem Sinn statistisch abgesichert.
I
Bei einer Entscheidung gegen H0 und damit für HA spricht man von
einem signifikanten Ergebnis.
I
Die Wahrscheinlichkeit für den Fehler 2. Art wird erst einmal nicht
kontrolliert.
⇒ Eine Entscheidung H0 beizubehalten ist nicht statistisch abgesichert.
⇒ Kann man H0 nicht verwerfen, bedeutet das daher nicht, dass man
sich aktiv“ für H0 entscheidet; es spricht nur nichts gegen H0 .
”
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
26
4.2. Tests für eine Stichprobe
Eine Stichprobe: X1 , . . . , Xn iid..
I
Test für die Lage bzw. zentrale Tendenz
I
Stichprobe ist normalverteilt
I
I
I
I
Bei der Stichprobe liegt eine stetige Verteilung vor: Vorzeichentest
Test für die Streuung (Varianz)
I
I
Varianz σ 2 ist bekannt: Einstichproben z-Test (Gauß-Test)
Varianz σ 2 ist unbekannt: Einstichproben t-Test
Stichprobe ist normalverteilt: χ2 -Test
Test für eine (unbekannte) Wahrscheinlichkeit p
I
Binomialtest
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
27
Einstichproben z-Test (Gauß-Test)
I
Annahme: Xi ∼ N(µ, σ 2 ), iid., i = 1, . . . , n,
I
Zweiseitiger Test
I
I
I
I
I
σ 2 bekannt.
Hypothesen: H0 : µ = µ0 , HA : µ 6= µ0 .
2
Unter H0 gilt: X ∼ N µ0 , σn .
X − µ0 √ H0
n ∼ N(0, 1) .
σ
Kritischer Bereich: Kα = {t ∈ R : |t| > z1−α/2 } .
Testgröße: T =
Einseitige Tests
I
Im Fall von H0 : µ ≥ µ0 ,
HA : µ < µ0 gilt
Kα = {t ∈ R : t < zα = −z1−α } .
I
Im Fall von H0 : µ ≤ µ0 ,
HA : µ > µ0 gilt
Kα = {t ∈ R : t > z1−α } .
I
Die Tests sind für große Werte n (n ≥ 30) auch ohne
Normalverteilungsvoraussetzung anwendbar.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
28
Einstichproben t−Test
I
Annahme: Xi ∼ N(µ, σ 2 ), iid., i = 1, . . . , n,
I
Zweiseitiger Test
I
I
I
I
σ 2 unbekannt.
Hypothesen: H0 : µ = µ0 , HA : µ 6= µ0 .
X − µ0 √ H0
n ∼ tn−1 (t−Verteilung mit n − 1
Testgröße: T =
S
Freiheitsgraden).
Kritischer Bereich: Kα = {t ∈ R : |t| > tn−1;1−α/2 } .
Einseitige Tests
I
Im Fall von H0 : µ ≥ µ0 ,
HA : µ < µ0 gilt
Kα = {t ∈ R : t < tn−1;α = −tn−1;1−α } .
I
Im Fall von H0 : µ ≤ µ0 ,
HA : µ > µ0 gilt
Kα = {t ∈ R : t > tn−1;1−α } .
I
Die Tests sind für große Werte n (n ≥ 30) auch ohne
Normalverteilungsvoraussetzung anwendbar.
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
29
χ2 -Test
Streuungstest
I
Annahme: Xi ∼ N(µ, σ 2 ) ,iid., i = 1, . . . , n,
I
Zweiseitiger Test
I
I
I
I
µ unbekannt.
Hypothesen: H0 : σ = σ0 , HA : σ 6= σ0 .
(n − 1)S 2 H0 2
∼ χn−1 (χ2 -Verteilung mit n − 1
Testgröße: T =
σ02
Freiheitsgraden).
Kritischer Bereich:
Kα = {t ∈ R : t < χ2n−1;α/2 } ∪ {t ∈ R : t > χ2n−1;1−α/2 }
Einseitige Tests
I
Im Fall von H0 : σ ≥ σ0 ,
HA : σ < σ0 gilt
Kα = {t ∈ R : t < χ2n−1;α } .
I
Im Fall von H0 : σ ≤ σ0 ,
HA : σ > σ0 gilt
Kα = {t ∈ R : t > χ2n−1;1−α } .
Dr. Andreas Wünsche
Statistik II für Betriebswirte Vorlesung 1
Version: 5. Oktober 2017
30
Herunterladen