statistik_15_03_05

Werbung
STATISIK
LV Nr.: 1375
SS 2005
15. März 2005
1
Konfidenzintervall
• Ausgehend von dem Ergebnis einer
Stichprobe wird ein Intervall angegeben, in
dem der zu schätzende Parameter der
Grundgesamtheit mit einer bestimmten
vorgegebenen Wahrscheinlichkeit (1-α)
liegt.
2
Konfidenzintervall
• Bsp. Arithmetisches Mittel (ist bei N-Vt.
Grundgesamtheit bzw. bei genügend
großem Stichprobenumfang N-Vt.). Der
wahre Parameter µ liegt mit der
Wahrscheinlichkeit (1-α) im Intervall
X  zσ
X
; X  zσ X 
3
Konfidenzintervall
Konfidenzintervall für den Parameter µ (bei N-Vt. des Stichprobenmittelwertes)
0,45
Konfidenzintervall
0,4
0,35
Dichte der N(0,1)
0,3
0,25
0,2
1-α = 0,95
0,15
0,1
0,05
α/2 = 0,025
0
-3
-2,5
α/2 = 0,025
-2
x-z(α/2)σ
-1,5
-1
-0,5
0
0,5
Stichprobenmittelwert
1
1,5
2
x+z(1-α/2)σ
2,5
3
4
Konfidenzintervall
• Bsp. Körpergröße:
–
–
–
–
Mittelwert = 65,7
Standardabweichung = 12,5
N = 38
2-seitiges KI zum Niveau α=0,05
Wahrscheinlichkeit, dass der wahre Parameter
im KI liegt ist 0,95. Quantile: z=1,96
KI [61,7 ≤ µ ≤ 69,7]
5
Statistische Tests
• Fragen:
– Besteht ein Zusammenhang zw. dem
Geschlecht und dem Rauchverhalten?
– Ist der Ausschussanteil kleiner als 5%?
– Ist die mittlere Länge eines Werkstücks, das
von zwei verschiedenen Maschinen hergestellt
wird, gleich?
– Soll ein neues Medikament zugelassen werden?
– Stammen Daten aus einer N-Vt
Grundgesamtheit?
–…
6
Statistische Tests
• Deskriptive Analyse der Daten
–
–
–
–
–
Lage- und Streuungsmassen
Kontingenztafeln
Korrelationsmaße
Verteilungsdiagramme
…
• Statistischer Test, um eine theoretisch
abgesicherte Entscheidung zu treffen.
7
Deskriptive Analyse: Box-Plot
• Box-Plot: grafische Darstellung einer
Beobachtungsreihe (Verteilung und Struktur)
210
110
200
100
190
90
180
80
170
70
160
60
150
50
40
140
N=
37
9
38
GROEßE
N=
38
GEWICHT
8
Deskriptive Analyse: Box-Plot
• Box-Plot
– Box: beinhaltet 50% der Daten (Grenzen: 1.
und 3. Quartil), Darstellung des Medians.
– Whiskers: maximal 1,5-mal die Länge der Box.
– Ausreißer: Werte außerhalb der Whiskers.
• Ausreißer
• Krasse Ausreißer
9
Deskriptive Analyse: Box-Plot
• Box-Plot für Vergleich von 2 Messreihen:
210
200
9
190
180
170
28
GROEßE
160
150
140
N=
SEX
20
18
w
m
10
Statistische Tests
Einführung:
• Testen von Hypothesen (Annahmen,
Behauptungen)
• Statistischer Test: Verfahren, mit dessen
Hilfe sich bestimmte Hypothesen auf ihre
Richtigkeit hin überprüfen lassen.
• Statistische Testverfahren basieren auf
Stichprobentheorie
11
Statistische Tests
Einführung:
• Ziel: Richtigkeit von Aussagen über die Verteilung
einer Zufallsvariablen überprüfen.
• Entscheidungsgrundlage: Ergebnis eines
zufälligen Vorgangs.
• Daher: Entscheidungen nicht immer richtig
• Aber: Beim Vorliegen einiger der möglichen
Verteilungen ist die Wahrscheinlichkeit falsch zu
entscheiden beschränkt.
12
Statistische Tests: Hypothesen
Hypothesen:
• Annahmen, Behauptungen, Aussagen über
unbekannte Grundgesamtheit
• 2 Arten von Hypothesen:
– Parameterhypothesen, Überprüfung durch
Parametertests
– Verteilungshypothesen, Überprüfung durch
Verteilungstests
13
Statistische Tests: Hypothesen
Formulierung von Hypothesen:
• Nullhypothese H0 (Ausgangshypothese)
• Alternativhypothese H1 (Gegenhypothese)
14
Statistische Tests: Hypothesen
Bsp.
• Anteile:
– H0: Ausschussanteil = 10%
– H1: Ausschussanteil > 10%
• Mittelwerte:
– H0: Mittlere Länge eines Werkstücks = 5cm
– H1: Mittlere Länge eines Werkstücks  5cm
• Gruppenvergleich:
– H0: Gruppe 1 und Gruppe 2 sind gleich
– H1: Gruppe 1 und Gruppe 2 sind ungleich
15
Statistische Tests
• Entscheidung für H0 oder H1 basiert auf
einer Stichprobe x1,…,xn
• Wahrscheinlichkeitsaussage ob H0 zutrifft
oder nicht.
• Frage: H0 ablehnen (verwerfen) oder H0
nicht ablehnen?
16
Statistische Tests
Mögliche Fehlentscheidungen:
• Fehler 1. Art (α-Fehler): obwohl H0 korrekt
ist wird H0 abgelehnt
• Fehler 2. Art (β-Fehler): obwohl H0 falsch
ist wird H0 nicht abgelehnt.
17
Statistische Tests
• Fehlentscheidungen
Trifft zu
Entscheidung
H0
H1
H0
Richtige
Fehler 2. Art
Entscheidung (β -Fehler)
H1
Fehler 1. Art
Richtige
(α-Fehler) Entscheidung
18
Statistische Tests
Problem bei Fehlentscheidungen:
• Falsche Entscheidung
• Man weiß nicht, ob man in einer konkreten
Situation einen Fehler macht, sondern nur
welcher Art dieser ist.
19
Statistische Tests
• Signifikanzniveau eines Tests α:
– Die Wahrscheinlichkeit eine Fehler 1. Art zu
machen ist höchstens α, daher „Test zum
Niveau α“ - egal mit welcher
Wahrscheinlichkeit ein Fehler 2. Art begangen
wird.
20
Statistische Tests
• Trifft H0 zu und entscheidet man sich für
H1, dann ist die Wahrscheinlichkeit dabei
einen Fehler zu machen ≤ α (α bekannt,
wird festgelegt).
• Trifft H1 zu und entscheidet man sich für
H0, dann ist die Wahrscheinlichkeit dabei
eine Fehler zu machen = β (β unbekannt).
21
Statistische Tests
Fehler 1. Art und Fehler 2. Art
N(0,1)
N(3,1)
0,45
0,4
0,35
0,3
f(x)
0,25
0,2
0,15
0,1
Fehler
2. Art Fehler
1. Art
0,05
0
-3
-2,5
-2
-1,5
-1
-0,5
0
µ0=0
0,5
1
1,5
x
2
2,5
3
µ1=3
3,5
4
4,5
5
5,5
22
6
Statistische Tests
• D.h. durch Festlegen des α-Niveaus ist nur
die Entscheidung für H1 abgesichert.
• Bei Entscheidung für H1:
– H1 ist richtig,
– H1 ist falsch, ich mache einen Fehler mit
Wahrscheinlichkeit ≤ α.
• Daher: Formuliere H0 so, dass sie abgelehnt
werden soll. bzw. in H0 soll diejenige
Annahme festgelegt werden, der die größere
Bedeutung zukommt.
23
Statistische Tests
• Bsp. Medikamententest
H0: Medikament ist nicht wirksam gegen
H1: Medikament wirkt.
– Fehler 1. Art: das Medikament wirkt nicht, man
glaubt aber dass es wirkt
– Fehler 2. Art: das Medikament wirkt, man
glaubt aber dass es unwirksam ist.
Wähle α=0,01 (sehr klein), da Risiko ein
nichtwirksames Medikament als wirksam
einzustufen sehr groß ist.
24
Statistische Tests
• Arten von Hypothesen:
• Einseitige Hypothesen
– H0: θ ≤ θ0 gegen H1: θ > θ0
– H0: θ ≥ θ0 gegen H1: θ < θ0
• Zweiseitige Hypothesen
– H0: θ = θ0 gegen H1: θ ≠ θ0
• Verteilungshypothesen:
– H0: bestimmten Vt. gegen H1: nicht diese Vt.
25
Statistische Tests
• Arten von Testproblemen:
– Einseitige Testprobleme
• Tests für einseitige Hypothesen
– Zweiseitige Testprobleme
• Tests für zweiseitige Hypothesen
– Anpassungstests
• Test für Verteilungshypothesen
26
Statistische Tests
• Gütefunktion oder Macht g(θ):
Wahrscheinlichkeit sich für H1 zu
entscheiden, falls θ der wahre Parameter ist.
• Test zum Niveau α:
– g(θ) ≤ α für alle θ  H0
– g(θ) ≥ α für alle θ  H1
– Ist θ  H1, ist 1-g(θ) Wahrscheinlichkeit für den
Fehler 2. Art.
– Funktion 1-g(θ) heißt Operationscharakteristik
(OC)
27
Statistische Tests
Gütefunktion (einseitiger Test)
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
g(µ)
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
499
499,5
500
500,5
µ0=500
µ
501
501,5
502
28
Statistische Tests
Operationscharaktersitik OC Kurve (einseitiger Test)
1,00
0,95
0,90
0,85
0,80
0,75
Fehler 2.Art = 1-g(µ)
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
499,5
500
µ0=500
500,5
501
µ
501,5
502
29
Statistische Tests
• Trennschärfe eines Tests:
– Steilheit der OC Kurve 1-g(θ)
– Es gilt: Je größer die Stichprobe umso besser
die Trennschärfe.
30
Statistische Tests
Operationscharaktersitik OC Kurve (einseitiger Test),
unterschiedliche Stichprobengrößen n (n=9, n=100, n=10000)
1,00
0,95
0,90
0,85
0,80
0,75
Fehler 2.Art = 1-g(µ)
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
499,5
500
µ0=500
500,5
501
µ
501,5
502
31
Herunterladen