Statistik - Universität der Bundeswehr München

Werbung
Statistik
Vorlesung und Übung
für den Studiengang Informatik
Modul „Anwendungsfach MA Modul 3“ (Modul-Nr.: 1327)
Fakultät für Informatik
Universität der Bundeswehr München
HT 2010
Dozent: Dr. Max Krüger
Vorabversion
Organisatorisches: Ort und Zeit
Termine Vorlesung und Übung:
• Ort: Geb. 33 Raum 2216
• Termin: Montags: 13:15 -15:30 Uhr
• Erster Vorlesungtermin: 04. Oktober 2010
• Letzter Vorlesungstermin: 13. Dezember 2010
• Insgesamt: 10 Termine
Beachte: Keine Veranstaltung am 01. November 2010 (Feiertag)
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
2
Organisatorisches: Allgemeines
Ablauf:
• Vorlesung (2 SWS) mit integrierten Übungen (1 SWS)
• Grundlage: Vorlesung Wahrscheinlichkeitstheorie
Unterlagen:
• Folien enthalten die wesentlichen Inhalte und werden zu Verfügung
gestellt.
• Beispielrechnungen, Lösung der Übungsaufgaben und Beweise erfolgen in
der Regel an der Tafel (und müssen ggf. mitgeschrieben werden).
Klausur:
• Schriftliche Prüfung von 45 Minuten Dauer
• Termin (voraussichtlich) in der 50. oder 51. Kalenderwoche
• Hilfsmittel: wird gesondert bekanntgegeben
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
3
Geplante Inhalte: (Schwerpunktthemen)
• Deskriptive Statistik (1 Block)
• Schätztheorie (3 Blöcke)
• Testtheorie (3 Blöcke)
• Regressionsanalyse (1 Block)
• Varianzanalyse (1 Block)
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
4
Inhaltsverzeichnis
Kapitel:
1. Deskriptive Statistik
2. Zufallsstichproben
3. Schätztheorie
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
5
Begriffseinordnung (gem. [2])
• Stochastik ist ein Teilgebiet der angewandten Mathematik, das aus
Wahrscheinlichkeitstheorie und (mathematischer) Statistik besteht und
die Beschreibung und Modellierung zufälliger Ereignisse behandelt.
• Die deskriptive Statistik (auch beschreibende Statistik) dient der
beschreibenden und grafischen Aufbereitung und Komprimierung von
Daten, insbesondere zur Präsentation von umfangreichen Datenmaterial.
• Die induktive Statistik (auch schließende bzw. inferenzielle Statistik) stellt
die Methoden bereit um statistische Schlüsse mittels stochastischer
Modelle ziehen zu können.
außerdem:
• Die explorative Statistik befasst sich mit dem Auffinden von Strukturen,
Fragestellungen und Hypothesen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
6
Inhaltsverzeichnis (1. Kapitel)
1.
Deskriptive Statistik
1.1. Grundbegriffe
2.
3.
4.
5.
6.
1.2. Tabellarische und grafische Darstellungen von Daten
1.3. Lage- und Streuungsmaße
Zufallsstichproben
Schätztheorie
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [1], [2], [3], [4].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
7
Grundgesamtheit und Stichprobe
• Als Grundgesamtheit (Population) einer statistischen Untersuchung
bezeichnet man die Menge von räumlich und zeitlich eindeutig definierten
Objekten, die hinsichtlich bestimmter – vom Ziel der Untersuchung
abhängender – Kriterien übereinstimmen.
• Die Elemente der Grundgesamtheit werden als statistische Einheiten
(auch Merkmalsträger, Untersuchungseinheiten, Messobjekte) bezeichnet.
Dies sind die Personen oder Objekte, deren Eigenschaften für die
bestimmte Untersuchung von Interesse sind.
• Ziel einer statistischen Untersuchung ist es, Aussagen über die Grundgesamtheit anhand der beobachteten Ausprägungen (Daten) der zu
untersuchenden Eigenschaften der statistischen Einheiten zu treffen.
• Eine Stichprobe ist (informell gesprochen) eine Teilmenge der
Grundgesamtheit für die diese Daten ermittelt werden. Aus verschiedenen
Gründen wird dabei selten die vollständige Grundgesamtheit betrachtet
(Kosten- und Zeitaufwand, zerstörende Prüfung, etc.)
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
8
Merkmale und Merkmalsausprägung
• Als Merkmal bezeichnet man eine spezielle Eigenschaft statistischer
Einheiten, die in Hinblick auf das Ziel der konkreten statistischen
Untersuchung von Interesse ist. Die Begriffe Merkmal und Variable
werden etwas ungenau häufig synonym verwendet.
• Die möglichen Werte, die ein Merkmal annehmen kann bezeichnet man
als Merkmalausprägungen. Die Menge aller möglichen Merkmalausprägungen heißt Wertebereich des Merkmals.
• Multivariate (mehrdimensionale) Merkmale entstehen durch Kombination
univariater (einzelner) Merkmale einer Einheit.
• Ein zweidimensionales Merkmal heißt auch bivariat.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
9
Merkmalstypen (1): Qualitative versus quantitative Merkmale
• Qualitative Merkmale sind solche Eigenschaften, die qualitativ, d.h. heißt
der Beschaffenheit nach, artmäßig variieren. Sie besitzen nur endlich viele
Ausprägungen.
Beispiele: Geschlecht, Religion, Rechtsform von Unternehmungen.
• Quantitative Merkmale sind dagegen solche Eigenschaften von
statistischen Einheiten, die quantitativ, d.h. der Größe nach oder
zahlenmäßig, variieren. Ihre Merkmalsausprägungen sind von vornherein
Zahlen, mit oder ohne Maßeinheit.
Beispiele: Alter, Kinderzahl, Einkommen, Körpergröße.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
10
Merkmalstypen (2): Diskrete versus kontinuierliche Merkmale
• Diskrete Merkmale können nur ganz bestimmte (endlich viele oder
abzählbar unendlich viele) abgestufte (Zahlen-)Werte als Merkmalsausprägung haben. Diskret sind alle Merkmale, deren Ausprägung man
durch (Auf-)Zählen erhält, auch wenn keine Obergrenze vorhanden ist.
Beispiele: Anzahl der Bauteile, Anzahl der Würfe mit einem Würfel.
• Kontinuierliche Merkmale (auch stetige Merkmale) können in ein einem
Intervall jeden reellen Wert als Ausprägung annehmen (überabzählbar
unendlich viele verschiedene mögliche Merkmalsausprägungen innerhalb
eines Intervalls). Stetig sind alle Merkmale, deren Ausprägungen
gemessen werden.
Beispiele: Zeit-, Längen- und Gewichtseinheiten.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
11
Merkmalstypen (3): Quasi-stetige Merkmale und diskrete Größenklassen
• Quasi-stetige Merkmale besitzen sehr fein abgestufte diskrete
Ausprägungen, die in der statistischen Praxis als stetig behandelt werden.
Beispiele: Geld.
• Im Prinzip werden stetige Merkmale durch den Meß- bzw. Erhebungsvorgang zu quasi-stetigen oder diskreten Merkmalen, da jede Messung
aus technischen Gründen nur mit begrenzter Genauigkeit durchgeführt
werden kann. Dadurch wird ein ursprünglich stetiges Intervall in diskrete
Größenklassen aufgeteilt.
Beispiele: Körpergröße.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
12
Skalierung von Merkmalen (1): Nominalskala, Ordinalskala, metrische Skala
• Nominalskala: Die Ausprägungen eines nominalskalierten Merkmals
können nicht geordnet werden. Der einzig mögliche Vergleich ist die
Prüfung auf Gleichheit zweier Merkmalsausprägungen.
Beispiel: Merkmal ´Geschlecht´ mit Ausprägungen ´männlich´ und
´weiblich´.
• Ordinal- bzw. Rangskala: Die Merkmalsausprägungen können gemäß ihrer
Größe, Intensität, o.ä. geordnet werden. Eine Interpretation der
Rangordnung ist möglich. Abstände zwischen den Merkmalsausprägungen
können jedoch nicht interpretiert werden.
Beispiel: Merkmal ´Schulnote´.
• Metrische Skala: Unter den Merkmalsausprägungen kann eine
Rangordnung definiert werden, zusätzlich können Abstände zwischen den
Merkmalsausprägungen gemessen und interpretiert werden.
Beispiele: Merkmale ´Temperatur´, ´Semesterzahl´.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
13
Skalierung von Merkmalen (2): Intervall-, Verhältnis- und Absolutskala
Metrische Skalen können weiter unterteilt werden in …
• Intervallskala: Es sind nur Differenzenbildungen zwischen den
Merkmalsausprägungen zulässig. Daher können nur Abstände verglichen
werden.
Beispiel: Merkmal ´Temperatur´ (kein natürlicher Nullpunkt!).
• Verhältnisskala: Erweiterung der Intervallskala, in der zusätzlich ein
natürlicher Nullpunkt existiert. Die Bildung von Quotienten ist zulässig,
Verhältnisse sind damit sinnvoll interpretierbar.
Beispiel: Merkmal ´Geschwindigkeit´.
• Absolutskala: Erweiterung der Verhältnisskala, in der auch noch zusätzlich
eine natürliche Einheit vorhanden ist.
Beispiele: Merkmal ´Semesterzahl´ .
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
14
Skalierung von Merkmalen (3): Rangordnung der Skalenarten
• Zwischen den vorgestellten Skalenarten besteht eine Rangordnung, die
sich in der Anwendbarkeit statistischer Begriffe und Verfarhren
widerspiegelt. In aufsteigender Rangfolge sind dies:
– Nominalskala,
– Ordinal- bzw. Rangskala,
– Intervallskala und
– Verhältnisskala/Absolutskala.
• Jedes Merkmal kann auch auf einer niedrigeren Skala gemessen werden,
dies ist jedoch (üblicherweise) mit einem Informationsverlust verbunden.
Beispiel:
Das Merkmal ´Temperatur´ kann auch auf einer Ordinalskala mit den Ausprägungen ´kalt´, ´normal´, ´warm´ und ´heiß´ gemessen werden. Die so
gemessenen Temperaturangaben sind aber wesentlich weniger aussagekräftig als Temperaturen, die auf der Celsius-Skala gemessen werden.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
15
Inhaltsverzeichnis (1. Kapitel)
1.
Deskriptive Statistik
1.1. Grundbegriffe
1.2. Tabellarische und grafische Darstellungen von Daten
2.
3.
4.
5.
6.
1.3. Lage- und Streuungsmaße
Zufallsstichproben
Schätztheorie
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [1], [3], [7].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
16
Absolute Häufigkeit
Definition 1.1:
Für ein Merkmal mit den möglichen Ausprägungen
liege die
Stichprobe
vom Umfang vor.
Die Zahl
gibt die Anzahl des Auftretens der Merkmalsausprägung
in
der Stichprobe an und heißt die absolute Häufigkeit der Beobachtung ,
. Bezeichnet
die Anzahl von Elementen der Menge
so gilt also
.
Eigenschaft:
Offensichtlich muss
Universität der Bundeswehr München
Fakultät für Informatik
,
gelten.
Vorlesung Statistik im
HT 2010
Vorabversion
17
Relative Häufigkeit
Definition1.2:
Die absolute Häufigkeit der Merkmalsausprägungen
Stichprobe
sei durch
gegeben,
Für
heißt der Quotient
Merkmalsausprägung .
Eigenschaft:
Offensichtlich muss
Universität der Bundeswehr München
Fakultät für Informatik
für
in der
.
die relative Häufigkeit der
und
Vorlesung Statistik im
HT 2010
Vorabversion
gelten.
18
Darstellungsarten (1): Häufigkeitstabelle
Bildquelle: [7]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
19
Darstellungsarten (2): Stabdiagramm
Bildquelle: [1]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
20
Darstellungsarten (3): Säulendiagramm
Bildquelle: [3]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
21
Darstellungsarten (4): Balkendiagramm
Bildquelle: [1]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
22
Darstellungsarten (5): Box-Plot
Bildquelle: [3]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
23
Darstellungsarten (6): Liniendiagramm
Bildquelle: [3]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
24
Darstellungsarten (7): Netzdiagramm
Bildquelle:
http://www.controllingportal.de/Fachinfo/Excel-Tipps/Das-Erstellen-von-Netzdiagrammen.html
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
25
Darstellungsarten (8): Kreisdiagramm
Quelle: [1]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
26
Darstellungsarten (9): Histogramm
Quelle: [3]
Bildquelle: [3]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
27
Darstellungsarten (10): Histogramm (Pyramide)
Quelle: [1]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
28
Experiment: Ablesen von Prozentdarstellungen
In jedem dieser sechs Schaubilder setzen Sie bitte nach Ihrem ersten Eindruck ohne
weitere Überlegung die Prozentsätze für die einzelnen Anteile ein. (Zeitansatz: 3 min)
Aufgaben- und Bildquelle: [6]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
29
Auswertung (1): Schema
A
Lösung
Ihre
Schätzung
Delta
B
Lösung
Ihre
Schätzung
Delta
C
Lösung
a
5%
a
37%
a
58 %
b
7%
b
31 %
b
32 %
c
11 %
c
10 %
c
3%
d
24 %
d
14 %
d
4%
e
53 %
e
8%
e
3%
Summe der Delta-Werte
D
Lösung
Ihre
Schätzung
Summe der Delta-Werte
Delta
E
Lösung
Ihre
Schätzung
Delta
F
Lösung
7%
a
7%
a
5%
b
6%
b
15 %
b
7%
c
17 %
c
18 %
c
11 %
d
16 %
d
28 %
d
24 %
e
54 %
e
42 %
e
53 %
Universität der Bundeswehr München
Fakultät für Informatik
Delta
Summe der Delta-Werte
a
Summe der Delta-Werte
Ihre
Schätzung
Summe der Delta-Werte
Vorlesung Statistik im
HT 2010
Vorabversion
Ihre
Schätzung
Delta
Summe der Delta-Werte
30
Auswertung (2): Beispiel
A
Lösung
Ihre
Schätzung
DeltaBetrag
B
Lösung
Ihre
Schätzung
DeltaBetrag
C
Lösung
Ihre
Schätzung
DeltaBetrag
a
5%
2%
3
a
37%
40 %
3
a
58 %
60 %
2
b
7%
6%
1
b
31 %
40 %
9
b
32 %
20 %
12
c
11 %
12 %
1
c
10 %
6%
4
c
3%
10 %
7
d
24 %
30 %
6
d
14 %
6%
8
d
4%
5%
1
e
53 %
50 %
3
e
8%
8%
0
e
3%
5%
2
14
Summe der Delta-Werte
24
Summe der Delta-Werte
Summe der Delta-Werte
D
Lösung
Ihre
Schätzung
DeltaBetrag
E
Lösung
Ihre
Schätzung
DeltaBetrag
F
Lösung
24
Ihre
Schätzung
DeltaBetrag
a
7%
12 %
5
a
7%
5%
2
a
5%
5%
0
b
6%
8%
2
b
15 %
15 %
0
b
7%
7%
0
c
17 %
20 %
3
c
18 %
20 %
2
c
11 %
12 %
1
d
16 %
20 %
4
d
28 %
25 %
3
d
24 %
21 %
3
e
54 %
40 %
14
e
42 %
35 %
7
e
53 %
55 %
2
28
Summe der Delta-Werte
14
Summe der Delta-Werte
Summe der Delta-Werte
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
6
31
Auswertung (3): Folgerung
Frage: Welche Folgerung ziehen Sie aus diesem kleinen Experiment?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
32
Inhaltsverzeichnis (1. Kapitel)
1.
Deskriptive Statistik
1.1. Grundbegriffe
1.2. Tabellarische und grafische Darstellungen von Daten
1.3. Lage- und Streuungsmaße
2.
3.
4.
5.
6.
Zufallsstichproben
Schätztheorie
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [2], [7].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
33
Prinzipielles zu Lage- und Streumaßen
Beim Vergleich von Stichproben bzw. den ihnen zugrundeliegenden
Verteilungen ergeben sich oftmals Fragen der folgenden Art:
• Wo liegt das Zentrum?
• Ist die Verteilung symmetrisch oder schief?
• Gibt es Ausreißer?
• etc. .
Maßzahlen beschreiben diese Eigenschaften der Stichproben in
komprimierter Form durch numerische Werte formal.
Lagemaße beschreiben das Zentrum einer Stichprobe. Welches Lagemaß bei
einer bestimmten Fragestellung sinnvoll ist, hängt vom Kontext, von der
Datensituation und vom Skalenrangniveau des Merkmals ab.
Streuungsmaße beschreiben die Streuung, d.h. die Abstandseigenschaften
der einzelnen Stichprobenwerte von Mittelwerten.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
34
Empirischer Mittelwert (Lagemaß)
Definition 1.3:
Sei
eine Stichprobe vom Umfang
, dann heißt
der (empirische) Mittelwert (arithmetisches Mittel) der Stichprobe
.
Eigenschaften:
Der empirische Mittelwert reagiert empfindlich auf (einzelne) extreme Werte
oder Ausreißer in den Daten.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
35
Empirischer Median (Lagemaß)
Definition 1.4:
Sei
eine Stichprobe vom Umfang . Die der Größe nach
geordneten Werte der Stichprobe bezeichnen wir mit
. Es
gilt also
. Dann heißt der durch diese geordnete
Stichprobe eindeutig bestimmte Zahlenwert
, falls
ungerade ist,
, falls
gerade ist
der (empirische) Median (Zentralwert) der Stichprobe.
Eigenschaften:
Der empirische Median ist sowohl größergleich als auch kleinergleich jeweils
der Hälfte aller Datenwerte.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
36
Modalwert (Lagemaß)
Definition 1.5:
Jeder Merkmalswert, der in einer Stichprobe am häufigsten vorkommt heißt
Modalwert (auch Modus bzw. Mode) der Stichprobe.
Bemerkung:
Der Modalwert ist nicht immer eindeutig definiert und nur für diskrete
Merkmale (ohne Weiteres) sinnvoll definiert.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
37
Geometrisches Mittel (Lagemaß)
Definition 1.6:
Sei
eine Stichprobe vom Umfang
das geometrische Mittel der Stichprobe
, dann heißt
.
Bemerkung:
Das geometrische Mittel wird in der Regel im Zusammenhang mit
Wachstums- oder Zinsfaktoren verwendet, die über mehrere Zeitperioden
beobachtet werden.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
38
Harmonisches Mittel (Lagemaß)
Definition 1.7:
Sei
eine Stichprobe vom Umfang
das harmonische Mittel der Stichprobe
Universität der Bundeswehr München
Fakultät für Informatik
, dann heißt
.
Vorlesung Statistik im
HT 2010
Vorabversion
39
Spannweite (Streuungsmaß)
Definition 1.8:
Sei
eine Stichprobe vom Umfang
. Die Differenz
heißt die Spannweite der Stichprobe.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
40
Mittlere absolute Abweichung bezüglich Mittelwert/Median (Streuungsmaße)
Definition 1.9:
Sei
eine Stichprobe vom Umfang mit dem empirischen
Mittelwert
und dem empirischen Median .
• Die mittlere absolute Abweichung bezüglich des Mittelwerts ist
definiert durch
.
• Die mittlere absolute Abweichung bezüglich des Medians
durch
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
ist definiert
41
Empirischer Varianz und Standardabweichung (Streuungsmaße)
Definition 1.10:
Sei
eine Stichprobe vom Umfang
empirischen Mittelwert , dann heißt
mit
und dem
die (empirische) Varianz der Stichprobe und die positive Quadratwurzel
der empirischen Varianz heißt die
die
(empirische) Standardabweichung der Stichprobe.
Bemerkung:
Die empirische Standardabweichung gewichtet größere Abweichungen vom
Mittelwert stärker als die mittlere absolute Abweichung.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
42
Inhaltsverzeichnis (2. Kapitel)
1.
Deskriptive Statistik
2. Zufallsstichproben
3.
4.
5.
6.
Schätztheorie
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
43
Zufallsstichprobe
• Um mit Hilfe von Stichproben (wahrscheinlichkeitstheoretische) Aussagen
über Zufallsvariablen bzw. über unbekannte Wahrscheinlichkeiten
überprüfen zu können müssen die Stichprobenwerte durch
Zufallsexperimente gewonnen werden, wobei die entsprechenden
Zufallsexperimente die Zufallsvariablen eindeutig festlegen müssen.
Solche Stichproben heißen Zufallsstichproben.
• Vereinbarung: In der induktiven Statistik betrachten wir im Folgenden nur
noch Zufallsstichproben, die wir der Kürze halber wiederum Stichproben
nennen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
44
Realisierung von Zufallsvariablen und Zufallsvektoren
Bezeichnungsweisen:
• Die Zufallsvariable
liefert für
bei der Durchführung des
entsprechenden Zufallsexperiments den Stichprobenwert , der auch
Realisierung von
genannt wird.
• Die Zufallsstichprobe
sogenannten Zufallsvektors
aufgefasst.
Universität der Bundeswehr München
Fakultät für Informatik
wird als Realisierung des
der Zufallsstichprobe
Vorlesung Statistik im
HT 2010
Vorabversion
45
Unabhängige und einfache Stichproben
Definition 2.1:
Eine Stichprobe
heißt unabhängig, wenn die
entsprechenden Zufallsvariablen
(stochastisch) unabhängig
sind, wenn also für beliebige reelle Zahlen
gilt:
.
Die Stichprobe heißt einfach, wenn die Zufallsvariablen
unabhängig sind und alle dieselbe Verteilungsfunktion besitzen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
46
Erzeugung von einfachen Zufallsstichproben
Erzeugung:
Wird ein Zufallsexperiment -mal (unabhängig voneinander) unter denselben
Bedingungen durchgeführt, und ist
die Realisierung der Zufallsvariable bei
der -ten Versuchdurchführung für
, so ist
eine einfache Stichprobe.
Beispiele:
• Die Augenzahlen, die man beim 100-maligen, unabhängigen Werfen eines
Würfels erhält.
• Die Gewichte von 200 zufällig ausgewählten Zuckerpaketen aus der
Produktion.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
47
Auswahl von Merkmalsträgern für eine einfache Zufallsstichprobe
Auswahl von Merkmalsträgern:
Wählt man im Rahmen einer Versuchsdurchführung zur Erzeugung einer
einfachen Zufallsstichprobe die Merkmalsträger zufällig aus, für die die
Zufallsvariablen dann durch Messung realisiert werden, so ist darauf zu
achten, dass jeder Merkmalsträger der Grundgesamtheit die gleiche Chance
hat, ausgewählt und untersucht zu werden.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
48
Beispiel zur Auswahl von Merkmalsträgern
Beispiel:
Öffnet man einen Käfig, in dem sich 30 Kaninchen (Grundgesamtheit)
befinden, und wählt man fünf Tiere aus, die sich nach dem Öffnen in
der Nähe der Türe befinden, so ist diese Stichprobe im Allgemeinen nicht
repräsentativ für die Grundgesamtheit: Man würde vermutlich nur zahme
oder kranke Tiere auswählen.
Frage: Wie könnte man in dieser Situation eine repräsentative Stichprobe
erhalten?
Anwort: Man nummeriert die Tiere mit 1 bis 30 durch und wählt mittels eines
Zufallsmechanismus fünf Zahlen, wobei gewährleistet sein muss, dass jede
der
Auswahlmöglichkeiten gleich wahrscheinlich ist. Abschließend
werden die zu den Nummern gehörenden Tiere aus dem Käfig geholt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
49
Übungsaufgaben 2.1
1.
Die Teilnehmer an der Fernsehsendung Pro und Contra werden aus dem
Telefonbuch der Stadt München zufällig ausgewählt. Handelt es sich bei diesem
Auswahlverfahren um eine repräsentative Stichprobe der Münchener
Bevölkerung?
2.
In einer Schule sollen für einen Schüleraustausch 10 Schüler zufällig ausgewählt
werden. Zunächst wird eine der in Frage kommenden Klassen zufällig ausgewählt
und daraus anschließend 10 Schüler.
a) Ist dieses Auswahlverfahren gerecht, d.h. sind die ausgewählten Schüler
repräsentativ?
b) Ändert sich etwas, wenn die zufällige Auswahl der Klasse vor der Auswahl
des nächsten Schülers erneut erfolgt?
3.
An einem Auslosungsverfahren für 1000 Studienplätze für Medizin nahmen sechs
Abiturienten der gleichen Schule teil. Sie erhielten die Platznummern 601, 610,
623, 680, 910, 941. Die Chancengleichheit der Auslosung wurde von ihnen
angezweifelt mit dem Hinweis, dass 4 bzw. 2 von ihnen in der gleichen
Hundertergruppe sind. Sie meinten, bei einer gleichwahrscheinlichen Auslosung
müssten die 6 Zahlen gleichmäßiger verteilt sein. Ist dieser Einwand berechtigt?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
50
Inhaltsverzeichnis (3. Kapitel)
1.
2.
Deskriptive Statistik
Zufallsstichproben
3. Schätztheorie
3.
4.
5.
6.
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
Schätztheorie
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
51
Erinnerung: Binomialverteilung
Quelle: Wahrscheinlichkeitstheorie FT 2010
Foliensatz der 2. Vorlesung von Dr. Th. Krieger
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
52
Einführendes Beispiel: Fairer Münzwurf
Eine Entscheidung unter Freunden soll per Münzwurf gefällt werden. Zurerst
soll aber die Münze auf „Fairness“ geprüft werden. Dazu wird die Münze 10
mal geworfen und man notiert den Wert der Zufallsvariable , die festhält
wie oft insgesamt Kopf gefallen ist.
In dieser Situation ist der Verteilungstyp bekannt: Ist die Wahrscheinlichkeit, dass Kopf fällt, so ist
binomialverteilt mit den Einzelwahrscheinlichkeiten
, dass -mal Kopf gezählt wird.
Um zu entscheiden, ob die Münze fair ist, versucht man anhand der
erhobenen Daten auf zu schließen. Man „schätzt“ also den Parameter .
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
53
Aufgabenstellung beim Schätzen
Die folgende Aufgabenstellung kommt bei statistischen Analysen häufiger vor:
Der Typ der Verteilung (auch Verteilungsklasse genannt) ist bekannt, einer
oder mehrere Parameter der Verteilung sind jedoch unbekannt.
Die Aufgabe besteht nun darin, die Parameter aus einer Stichprobenerhebung
zu schätzen:
Auf Basis einer Stichprobe wird über eine Funktion
der Stichprobenwerte eine Aussage darüber getroffen, welche geschätzten
Werte die unbekannten Parameter vermutlich haben.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
54
Fragestellungen beim Schätzen
• Welche Arten von Schätzern sind möglich? Gibt man für einen gesuchten
Parameter einen Wert an, oder gibt man einen Bereich an, der die
tatsächliche Lage des Parameter wahrscheinlich abdeckt?
– Punktschätzung
– Intervallschätzung
• Welche Ansprüche stellt man an einen Schätzer? Was ist ein „guter“
Schätzer?
– Erwartungstreue
– Konsistenz
– Effizienz
• Wie kommt man zu einem Schätzer? Nach welchen Prinzipien kann man
Schätzer konstruieren?
– Momentenmethode
– Maximum-Likelihood-Methode
– Methode der kleinsten Quadrate
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
55
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
4.
5.
6.
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
Testtheorie
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8], [9].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
56
Parameterraum
Definition 3.1:
Sei
eine dem Typ nach bekannte Verteilung für die der Parameter
unbekannt ist. Die Menge , die alle möglichen Werte des unbekannten
Parameters enthält, heißt Parameterraum.
Beispiel:
Im einführenden Beispiel des „Fairen Münzwurfs“ war der unbekannte
Parameter aus dem Parameterraum
zu schätzen.
Hinweis:
Man beachte das der Parameter(raum) auch vektorwertig sein kann.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
57
Schätzfunktion, Schätzwert
Definition 3.2:
Sei
der unbekannte Parameter der Verteilung
der Zufallsvariable und sei
der Zufallsvektor einer einfachen (Zufalls-)
Stichprobe. Eine (messbare) Funktion
heißt eine Schätzfunktion (auch Schätzer, Schätzung, Statistik) von .
ist wiederum eine Zufallsvariable. Für eine konkrete
Stichprobe
ergibt sich der Schätzwert
als beobachtete Realisation des Zufallsvariable
.
Frage:
Wie könnte eine Schätzfunktion für den Parameter
Münzwurfs“ aussehen?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
im Beispiel des „Fairen
58
Erwartungstreue Schätzfunktionen
Definition 3.3:
• Eine Schätzfunktion
unbekannten Parameter
• Eine Folge
funktionen für
für den
heißt erwartungstreu, wenn gilt:
.
von Schätzheißt asymptotisch erwartungstreu, wenn gilt:
.
Bemerkung:
Erwartungstreue oder zumindest asymptotische Erwartungstreue ist
sicherlich eine Eigenschaft, die man von einer „guten“ Schätzfunktion
erwartet.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
59
Beispiele zu erwartungstreuen Schätzfunktionen
Sei
der Zufallsvektor einer einfachen Stichprobe, d.h. die
Zufallsvariablen
sind unabhängig und identisch verteilt, wobei
Erwartungswert
und Varianz
unbekannte
Parameter der zugrunde liegenden Verteilung der
seien. Dann ist …
1.
… der emprischer Mittelwert
für den Erwartungswert .
2.
… die empirische Varianz
Schätzer für die Varianz
.
3.
… die Schätzfunktion
erwartungstreuer Schätzer
erwartungstreuer
„nur“ asymptotisch
erwartungstreuer Schätzer für die Varianz
.
Beweis: Teil 1.: Übungsaufgabe 3.1, Teil 2. und 3. siehe Tafel.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
60
Übungsaufgabe 3.1
Beweisen Sie, dass unter den Voraussetzungen der vorangehenden Beispiele
der empirische Mittelwert ein erwartungstreuer Schätzer für den Erwartungswert ist.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
61
Konsistente Schätzfunktionen
Definition3.4:
Eine Folge
funktionen für
von Schätzheißt konsistent, wenn für jedes
gilt:
.
Bemerkung:
• Bei konsistente Schätzfunktionen wird also die Wahrscheinlichkeit, dass
die Schätzung von um mehr als abweicht beliebig klein, sobald nur
die Stichprobengröße groß genug gewählt wird.
• Ähnlich zur asymptotischen Erwartungstreue ist auch Konsistenz eine
relativ schwache Forderung an einen Schätzer, die man von einem „guten“
Schätzer mindestens erwartet.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
62
Effiziente Schätzfunktionen
Definition 3.5:
Eine erwartungstreue Schätzfunktion
für
heißt effizient (auch wirksamste Schätzfunktion), wenn es keine
andere erwartungstreue Schätzfunktion
mit kleinerer Varianz gibt, d.h.
für alle ewartungstreuen Schätzer
.
Bemerkung:
Bei allen Verteilungen mit endlicher Varianz ist der emprischer Mittelwert
effiziente Schätzfunktion für den Erwartungswert
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
63
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.2.1 Momentenmethode
3.2.2 Maximum-Likelihood-Methode
3.2.3 Methode der kleinsten Quadrate
3.3. Konfidenzintervalle
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [8], [10], [11].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
64
Erinnerung: Momente einer Zufallsvariablen
Quelle: Wahrscheinlichkeitstheorie FT 2010
Foliensatz der 7. Vorlesung von Dr. Th. Krieger
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
65
Empirische (zentrale) Momente
Definition3.6:
Sei
der Zufallsvektor einer einfachen Stichprobe.
• Das -te empirische Moment ist definiert als
.
• Das -te empirische zentrale Moment ist definiert als
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
66
Grundidee der Momentenmethode
Grundidee der Momentenmethode:
Man erhält eine Schätzfunktion nach der Momentenmethode, wenn man den
zu schätzenden Parameter durch die Momente der Verteilung (theoretische
Momente) ausdrückt und diese in der so erhaltenen Formel durch die
empirischen Momente ersetzt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
67
Schema der Momentenmethode
Problemstellung:
Gegeben sei ein Schätzproblem, bei dem eine Schätzfunktion für die
unbekannten Parameter
einer Verteilung
gegebenem Verteilungstyp konstruiert werden soll.
bei
Vorgehen:
1. Suche nach einem Satz von funktionalen Beziehungen, die verschiedene Momente
( mit
oder
) der Zufallsvariablen
in Abhängigkeit von den gesuchten Parametern
ausdrückt:
für
.
2. Löse das Gleichungssystem der funktionalen Beziehungsgleichungen
(soweit möglich) nach den gesuchten Parametern auf:
mit
.
3. Eine Schätzfunktion für die unbekannten Parameter
erhält
man dann, wenn man in 2. die Momente
durch ihr empirisches
Pendant
bzw.
ersetzt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
68
Beispiel zur Anwendung der Momentenmethode
Die Zufallsvariable
besitze die Dichtefunktion
(Normalverteilung) mit den unbekannten Parametern
,
.
Mit der Momentenmethode sollen nun Schätzfunktionen für die beiden
Parameter konstruiert werden, die auf einer - elementigen Stichprobe
basieren.
Konstruktion: siehe Tafel (vgl. [8])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
69
Eigenschaften der Momentenmethode
• Der Vorteil der Momentenmethode ist die oft gegebene Einfachheit ihrer
Anwendung.
• Die Momentenmethode liefert jedoch nicht grundsätzlich die im
statistischen Sinne „besten“ Schätzer. Beispielsweise sind Eigenschaften
wie Erwartungstreue oder Effizienz nicht immer gegeben.
• Die Existenz eines Momentschätzers ist zudem nicht sichergestellt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
70
Übungsaufgabe 3.2
Die Zufallsvariable
für
und
besitze die Dichtefunktion
sonst (Exponentialverteilung).
mit
Konstruieren Sie mit Hilfe der Momentenmethode eine Schätzfunktion für
den Parameter basierend auf einer -elementigen Stichprobe.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
71
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.2.1 Momentenmethode
3.2.2 Maximum-Likelihood-Methode
3.2.3 Methode der kleinsten Quadrate
3.3. Konfidenzintervalle
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8], [9].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
72
Likelihood-Funktion einer diskrete Zufallsvariable
Definition 3.7:
Sei diskrete Zufallsvariable mit dem Wertevorrat
den Einzelwahrscheinlichkeiten
die von dem unbekannten Parameter
Für die gegebene einfache Stichprobe
Zufallsvariable heißt die Funktion
die Likelihood-Funktion des Parameters
bei gegebener Stichprobe
Universität der Bundeswehr München
Fakultät für Informatik
und
mit
,
abhängen.
der diskreten
definiert durch
für die diskrete Zufallsvariable
.
Vorlesung Statistik im
HT 2010
Vorabversion
73
Interpretation der Likelihood-Funktion einer diskreten Zufallsvariable
Interpretation:
Der Wert
der Likelihood-Funktion
an der Stelle
beschreibt die Wahrscheinlichkeit der Realisierung der einfachen Stichprobe
,
wenn der wahre (unbekannte) Parameter gerade
wäre.
Bemerkung:
Man beachte, dass die Parameter (bzw. Variablen) der Einzelwahrscheinlichkeiten in der Likelihood-Funktion gerade Variablen (bzw. Parameter) sind.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
74
Likelihood-Funktion einer stetigen Zufallsvariable
Definition 3.8:
Sei stetige Zufallsvariable mit der Dichtefunktion
die von dem
unbekannten Parameter
abhängt.
Für die gegebene einfache Stichprobe
der stetigen
Zufallsvariable heißt die Funktion
definiert durch
die Likelihood-Funktion des Parameters
bei gegebener Stichprobe
Universität der Bundeswehr München
Fakultät für Informatik
für die stetige Zufallsvariable
.
Vorlesung Statistik im
HT 2010
Vorabversion
75
Interpretation der Likelihood-Funktion einer stetigen Zufallsvariable
Interpretation:
Für kleines
gilt approximativ
Damit beschreibt der mit
.
multiplizierte Wert
der Likelihood-Funktion
an der Stelle
approximativ die
Wahrscheinlichkeit der Realisierung einer einfachen -elementigen
Stichprobe im - dimensionalen Intervall
,
wenn der wahre (unbekannte) Parameter gerade
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
wäre.
76
Grundidee der Maximum-Likelihood-Methode
Nach dem sogenannten Maximum-Likilihood-Prinzip erhält man eine
Schätzfunktion für den unbekannten Parameter, indem man zu jeder
vorgelegten Realisierung einer Stichprobe denjenigen Parameterwert aus
dem Parameterraum als Schätzer für den unbekannten Parameter wählt, der
der vorgelegten Stichprobenrealisierung die größte Wahrscheinlichkeit
zuordnet.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
77
Maximum-Likelihood-Schätzer
Definition 3.9:
Unter den Voraussetzungen von Def. (3.8) bzw. (3.9) heißt der Parameterwert
ein Maximum-Likelihood-Schätzer, falls gilt:
.
Durch die Abbildung
ist
(sofern sie existiert) ein Schätzfunktion für den Parameter
Maximum-Likelihood-Methode gegeben.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
nach der
78
Praktische Berechnung der Maximum-Likelihood-Schätzers
Berechungsansatz:
(1) Häufig kann man für eine gegebene einfache Stichprobe
einen Maximum-Likelihood-Schätzer
berechnen, indem man das
Maximum der Funktion
durch Lösung des Gleichungssystems
,
mit
... ,
berechnet.
(2) Ist die Exponentialfunktion in den Einzelwahrscheinlichkeiten
oder
der Dichtefunktion
enthalten, so ist es rechnerisch häufig
einfacher und bequemer, statt des Gleichungssystem aus (1) das folgende
System zu lösen:
,
Universität der Bundeswehr München
Fakultät für Informatik
... ,
Vorlesung Statistik im
HT 2010
Vorabversion
.
79
Beispiel zur Anwendung der Maximum-Likelihood-Methode
Die Zufallsvariable
mit
,
besitze die Dichtefunktion
(Normalverteilung).
Konstruieren Sie mit Hilfe der Maximum-Likelihood-Methode eine Schätzfunktion für die Parameter
basierend auf einer -elementigen
Stichprobe.
Konstruktion: siehe Tafel (vgl. [1])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
80
Bemerkungen zur Maximum-Likelihood-Methode
• Die Schätzer die man aus der Maximum-Likelihood-Methode und der
Momentenmethode erhält können –müssen aber nicht– übereinstimmen.
• Der Maximum-Likelihood-Methode liegt ein zu lösendes Maximierungsproblem zugrunde, dass oft mit den bekannten Ansätzen aus der Analysis
gelöst werden kann. Gibt es mehrere Maxima, so muss das (ein) globales
Maximum bestimmt werden.
• Der Ansatz der Maximum-Likelihood-Methode basiert wesentlich auf der
Einfachheit der Stichprobe (Unabhängigkeit der einzelnen
Stichprobenziehungnen).
• Eine Likelihood-Funktion kann vor der Maximumbestimmung einer streng
monoton wachsenden Transformation unterworfen werden. Dadurch kann
u.U. die Berechnung wesentlich vereinfacht werden. In vielen Fällen bietet
sich hierfür Logarithmieren an.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
81
Übungsaufgabe 3.3
Um den Anteil
der mit Herpesviren infizierten Personen in der
Bevölkerung zu schätzen, wird eine repräsentative Stichprobe vom Umfang
gezogen. Es bezeichne die Anzahl der Infizierten in der Stichprobe. Die
Wahrscheinlichkeit, dass genau Infizierte in der Stichprobe enthalten sind
ist Binomial-verteilt mit den Einzelwahrscheinlichkeiten (d.h. der Massefunktion)
für
.
Konstruieren Sie mit Hilfe der Maximum-Likelihood-Methode eine Schätzfunktion für den Parameter .
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
82
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.2.1 Momentenmethode
3.2.2 Maximum-Likelihood-Methode
3.2.3 Methode der kleinsten Quadrate
3.3. Konfidenzintervalle
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [13], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
83
Grundproblemstellung der Methode der kleinsten Quadrate
Es werden Paare
von Messungen durchgeführt und als Punkte in ein
Koordinatensystem eingetragen.
Beispiel:
Temperatur eines Eisenstabes,
Länge des Eisenstabes.
Fragestellung: Wie kann man diesen Punkten eine möglichst einfache
Kurve möglichst gut anpassen?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
84
Zugrundeliegende Modellvorstellung der Methode der kleinsten Quadrate
• Die Zufallsvariable
wird durch die Werte einer (nicht notwendigerweise zufälligen) Größe derart beeinflusst, dass der Erwartungswert
von
durch den jeweiligen -Wert eindeutig durch eine Funktion
bestimmt ist:
.
• Für die zufällige Abweichung
soll die Varianz
von den
-Werten unbeeinflusst sein.
• Für je zwei verschiedene Werte und sollen
und
unkorrelliert
sein.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
85
Problemstellung bei der Methode der kleinsten Quadrate
Insgesamt erhalten wir das folgende Modell:
mit den o.a. Eigenschaften der Varianz
für verschiedene Werte , .
Problemstellung:
Die Funktion
mit
Universität der Bundeswehr München
Fakultät für Informatik
und Unkorrelliertheit von
und
ist unbekannt und soll auf Basis der Stichprobe
approximiert werden.
Vorlesung Statistik im
HT 2010
Vorabversion
86
Summe der quadratischen Abweichungen
Definition 3.10:
Sei
eine -elementige Stichprobe und
eine approximierende Funktion, dann ist die Summe der quadratischen
Abweichungen der Stichprobe von der Funktion definiert durch
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
87
Schema der Methode der kleinsten Quadrate
Um den funktionalen Zusammenhang der einer gegebenen Stichprobe
zugrunde liegt zu beschreiben, geht man wie folgt vor:
1.
2.
Auf Grundlage der Betrachtung der vorgelegten Stichprobendaten gibt
man einen Funktionstyp
vor, der durch geeignete Festlegung des
„freien“ Parameters
an die Stichprobe angepasst wird. Häufig
wird eine lineare, quadratische oder exponentielle Funktion
zugrunde gelegt.
Bei der Methode der kleinsten Quadrate wird ein geschätzter Wert für
den Parameters
durch Minimierung der Summe der
quadratischen Abweichungen bestimmt:
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
88
Beispiel zur Anwendung der Methode der kleinsten Quadrate
Gegeben sei die Stichprobe
. Bekannt sei, dass sich der
Einfluss der -Werte auf den Erwartungswert der Zufallsvariable
durch
einen linearen Zusammenhang
darstellen lässt.
Mittels der Methode der kleinsten Quadrate sollen die Parameter und
geschätzt werden.
Konstruktion: siehe Tafel (vgl. [13])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
89
Übungsaufgabe 3.4
Bestimmen Sie einen Schätzwert für den Erwartungswert einer einfachen
Stichprobe einer Zufallsvariable mittels der Methode der kleinsten Quadrate.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
90
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
3.3.1 Grundbegriffe
3.3.2 Intervall für bei Normalverteilung mit bekanntem
3.3.3 Intervall für und
bei Normalverteilung
3.3.4 Intervall für bei großen Stichprobenumfängen
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die
Darstellung in diesem Kapitel basiert weitgehend auf [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
91
Ziel einer Intervallschätzung
Das Ziel einer Intervallschätzung (bzw. der Bestimmung eines Konfidenzintervalls) besteht darin, auf Grundlage einer Stichtprobe den unbekannten
(eindimensionalen) Parameter
einer Verteilung so zu schätzen, dass …
• … als Schätzergebnis ein Intervall auftritt.
• … die Wahrscheinlichkeit, mit der das verwendete Verfahren ein
Intervall liefert, dass den wahren -Wert enthält, gleich einem
vorgegebenem (hohen) Wert
ist.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
92
Intervallschätzung
Die Intervallschätzung
eines unbekannten (eindim.) Parameters
legt die Intervallgrenzen aufgrund des Stichprobenergebnisses als
Realisierungen
von zwei Stichprobenfunktionen
und
fest, für die folgende Eigenschaften erfüllt sind:
(1) Es gilt sicher
, d.h. für alle Realisierungen gilt
.
(2) Die Wahrscheinlichkeit, dass der wahre -Wert von den beiden
Stichprobenfunktionen
eingeschlossen wird ist gleich einem
vorgegebenem Wert
, also
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
93
Definition Konfidenzintervall
Definition 3.9:
Bei der Intervallschätzung eines unbekannten (eindim.) Parameters
seien
und
zwei Stichprobenfunktionen mit
den Eigenschaften
(1)
bzw.
gilt sicher und
(2)
,
so heißt …
• … das Zufallsintervall
ein Konfidenzintervall für zum
Konfidenzniveau (bzw. zur Vertrauenswahrscheinlichkeit)
.
• … die Realisierung
von
das Ergebnis der Intervallschätzung (oder auch das Schätzintervall bzw. Konfidenzintervall zu
der zugrunde liegenden Stichprobe).
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
94
Konfidenzniveau und Irrtumswahrscheinlichkeit
Sei
ein Konfidenzintervall für
zum Konfidenzniveau
.
• Das Konfidenzniveau
legt fest, mit welcher Wahrscheinlichkeit
durch Einsetzen des Stichprobenergebnisses in
ein Intervall
entsteht, dass den unbekannten Parameterwert enthält.
• Der Wert heißt Irrtumswahrscheinlichkeit. Diese misst die
Wahrscheinlichkeit ein Schätzintervall zu erhalten, das nicht einschließt.
Frage:
Ist die folgende Formulierung
„Das Konfidenzintervall
einer Stichprobe bei einem
Konfidenzniveau
enthält den wahren Parameterwert
mit der Wahrscheinlichtkeit
.“
sinnvoll bzw. richtig?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
95
Symmetrische Konfidenzintervalle
Definition 3.10:
Ein Konfidenzintervall
für
heißt symmetrisch, wenn
gilt, d.h. wenn also die Wahrscheinlichkeiten übereinstimmen, dass
große und
zu kleine Werte annimmt.
zu
Anmerkung:
Unter einer Intervallschätzung verstehen wir im Folgenden immer die
Realisierung eines symmetrischen Konfidenzintervalls.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
96
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
3.3.1 Grundbegriffe
3.3.2 Intervall für
bei Normalverteilung mit bekann.
3.3.3 Intervall für und bei Normalverteilung
3.3.4 Intervall für bei großen Stichprobenumfängen
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
97
Definition
-Quantil
Definition 3.11:
Sei eine stetige Zufallsvariable mit Verteilungsfunktion , und sei
,
dann heißt der Wert
ein -Quantil (Fraktil) der Verteilung von , falls
gilt. D.h.,
tritt also genau mit der Wahrscheinlichkeit
ein:
.
Bildquelle: http://www.wior.uni-karlsruhe.de/LS_Neumann/Lehre/SS2004/POM/alpha-Quantil%20(stetige%20ZV).gif
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
98
Beispiel zur Bestimmung des -Quantils der Normalverteilung aus der Tabelle
Quellen: [15]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
99
Tabelle des
-Quantils der Standardnormalverteilung (Quelle: [15])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
100
Konfidenzintervall für Erwartungswert bei bekannter Varianz unter
Satz 3.12:
Sei
eine normalverteilte Zufallsvariable mit unbekanntem
Parameterwert und bekannter Varianz
. Sei weiterhin
eine zugehörige einfache Stichprobe.
Es bezeichne das
-Quantil der
-Verteilung. Dann ist das
Zufallsintervall
ein (symmetrisches) Konfidenzintervall für den Erwartungswert
Konfidenzniveau
.
zum
Herleitung: siehe Tafel (vgl.[15]).
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
101
Schema für Erwartungswert, bekannte Varianz,
-Verteilung
Schema:
Die praktische Durchführung der Intervallschätzung für den Erwartungswert
bei Normalverteilung mit bekannter Varianz vollzieht sich folgendermaßen:
1.
Schritt: Ein Konfidenzniveau
2.
Schritt: Das
3.
Schritt: Das Stichprobenmittel
4.
Schritt: Der Wert
5.
Schritt: Als Ergebnis der Intervallschätzung wird das Intervall
angegeben.
Universität der Bundeswehr München
Fakultät für Informatik
wird festgelegt.
-Quantil der
-Verteilung wird bestimmt.
wird berechnet.
wird berechnet.
Vorlesung Statistik im
HT 2010
Vorabversion
102
Übungsaufgabe 3.5
Ein schwierig zu justierendes Papierschneidegerät schneidet von einem
durchlaufenden Papierband Stücke ab, die eine bestimmte Länge haben
sollen. Auch bei fest gewählter Einstellung können zufällige Schwankungen in
der Länge der abgeschnittenen Papierstücke auftreten. Aufgrund langer
Erfahrung sieht man diese Schwankungen als normalverteilt an mit dem
Erwartungswert 0 und der (von der Einstellung unabhängigen) Standardabweichung
[mm].
Aus der laufenden Produktion werden
Stücke (zufällig) entnommen
und ihre Länge nachgemessen:
184.2; 182.6; 185.3; 184.5;186.2; 183.9; 185.0; 187.1; 184.4 [mm].
Führen Sie zum Konfidenzniveau 0.99 eine Intervallschätzung für den
Erwartungswert durch.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
103
Länge eines Konfidenzintervalls bei bekannter Varianz
Bemerkung:
Bei der Intervallschätzung für den Erwartungswert bei Normalverteilung
mit bekannter Varianz hängt die Länge des angegebenen Konfidenzintervalls
in diesem Fall nicht vom Stichprobenergebnis ab.
Bei gegebener Vertrauenswahrscheinlichkeit
kann man deshalb durch
die Wahl eines geeigneten Stichprobenumfangs stets erreichen, dass die
Länge des Konfidenzintervalls höchstens gleich einem vorgegebenen Wert
ist:
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
104
Übungsaufgabe 3.6
Welche Intervallschätzung für ergibt sich mit den Daten aus Übungsaufgabe 3.5, wenn eine Irrtumswahrscheinlichkeit von 0.05 zugelassen wird?
Wie viele Beobachtungen wären zu dieser Irrtumswahrscheinlichkeit erforderlich, um ein Schätzintervall von höchstens 1 [mm] Länge zu erreichen?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
105
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
3.3.1 Grundbegriffe
3.3.2 Intervall für bei Normalverteilung mit bekanntem
3.3.3 Intervall für
und
bei Normalverteilung
3.3.4 Intervall für bei großen Stichprobenumfängen
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
106
Chi-Quadrat-Verteilung
Definition 3.13:
Sind
unabhängige, jeweils
wird die Verteilung der Zufallsvariable
-verteilte Zufallsvariablen, so
als Chi-Quadrat-Verteilung mit n Freiheitsgraden (oder kürzer
lung) bezeichnet. Es gilt
und
.
Bemerkung:
Für
sind die Werte der -Quantile der
andernfalls ergibt sich das -Quantil der
weise gemäß
wobei
das -Quantil der
Universität der Bundeswehr München
Fakultät für Informatik
-Vertei-
-Verteilung vertafelt,
-Verteilung näherungs-
-Verteilung ist.
Vorlesung Statistik im
HT 2010
Vorabversion
107
Beispiel zur Bestimmung des -Quantils der
-Verteilung aus der Tabelle
Quellen: [15]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
108
Tabelle des
-Quantils Chi-Quadrat-Verteilung n=1 bis 10 (Quelle: [15])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
109
Tabelle des
-Quantils Chi-Quadrat-Verteilung n=11 bis 20 (Quelle: [15])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
110
Tabelle des
-Quantils Chi-Quadrat-Verteilung n=21 bis 30 (Quelle: [15])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
111
t-Verteilung
Definition 3.14:
Ist
standardnormalverteilt und besitzt eine
-Verteilung und sind
beide Zufallsvariablen und unabhängig, so wird die Verteilung der
Zufallsvariable
als t-Verteilung mit n Freiheitsgraden (oder kürzer
bezeichnet. Es gilt
und
.
-Verteilung)
Bemerkung:
Für
sind die Werte der -Quantile der
-Verteilung vertafelt,
andernfalls lässt sich das -Quantil näherungsweise durch das -Quantil
der
-Verteilung zu ersetzen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
112
Beispiel zur Bestimmung des -Quantils der t-Verteilung aus der Tabelle
Quellen: [15]
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
113
Tabelle des
-Quantils t-Verteilung (Quelle: [15])
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
114
Konfidenzintervall für Erwartungswert bei unbekannter Varianz unter
Satz 3.15:
Sei
eine normalverteilte Zufallsvariable mit unbekanntem
Parameterwert und unbekannter Varianz
. Sei weiterhin
eine zugehörige einfache Stichprobe und
ihre
empirische Varianz(funktion).
Es bezeichne das
-Quantil der
-Verteilung. Dann ist das
Zufallsintervall
ein (symmetrisches) Konfidenzintervall für den Erwartungswert
Konfidenzniveau
.
zum
Herleitung: siehe [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
115
Schema für Erwartungswert, unbekannte Varianz,
-Verteilung
Schema:
Die praktische Durchführung der Intervallschätzung für den Erwartungswert
bei Normalverteilung mit unbekannter Varianz vollzieht sich folgendermaßen:
1.
Schritt: Ein Konfidenzniveau
2.
Schritt: Das
3.
Schritt: Das Stichprobenmittel
-Quantil
wird festgelegt.
der
-Verteilung wird bestimmt.
und die Varianz der
Stichprobe
wird berechnet.
4.
Schritt: Der Wert
5.
Schritt: Als Ergebnis der Intervallschätzung wird das Intervall
angegeben.
Universität der Bundeswehr München
Fakultät für Informatik
wird berechnet.
Vorlesung Statistik im
HT 2010
Vorabversion
116
Länge eines Konfidenzintervalls bei unbekannter Varianz
Bemerkung:
Bei der Intervallschätzung für den Erwartungswert bei Normalverteilung
mit unbekannter Varianz hängt die Länge des angegebenen Konfidenzintervalls
in diesem Fall auch vom Stichprobenergebnis ab.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
117
Übungsaufgabe 3.7
In Übungsaufgabe 3.6 sei die Standardabweichung jetzt als unbekannt
anzusehen, die Normalverteilungsannahme werde beibehalten. Führen Sie
mit den gegebenen Beobachtungsdaten
184.2; 182.6; 185.3; 184.5;186.2; 183.9; 185.0; 187.1; 184.4 [mm]
eine Intervallschätzung für zur Vertrauenswahrscheinlichkeit 0.99 durch.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
118
Konfidenzintervall für die Varianz unter
Satz 3.16:
Sei
eine normalverteilte Zufallsvariable mit unbekanntem
Parameterwert und unbekannter Varianz
. Sei weiterhin
eine zugehörige einfache Stichprobe und
ihre
empirische Varianz(funktion).
Es bezeichne bzw. das - bzw.
-Quantil der
-Verteilung.
Dann ist das Zufallsintervall
ein (symmetrisches) Konfidenzintervall für die Varianz
.
zum Konfidenzniveau
Herleitung: siehe [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
119
Schema für Varianz,
-Verteilung
Schema:
Die praktische Durchführung der Intervallschätzung für die Varianz
Normalverteilung vollzieht sich folgendermaßen:
1.
Schritt: Ein Konfidenzniveau
2.
Schritt: Die - bzw.
-Quantile
lung werden bestimmt.
3.
Schritt: Die Größe
bei
wird festgelegt.
bzw.
der
-Vertei-
wird aus
dem Stichprobenergebnis errechnet.
4.
Schritt: Die Werte
5.
Schritt: Als Ergebnis der Intervallschätzung für die Varianz
Intervall
angegeben.
Universität der Bundeswehr München
Fakultät für Informatik
und
Vorlesung Statistik im
HT 2010
Vorabversion
werden errechnet.
wird das
120
Übungsaufgabe 3.8
Schätzen Sie in Übungsaufgabe 3.7 die Varianz
intervall zur Vertrauenswahrscheinlichkeit
Universität der Bundeswehr München
Fakultät für Informatik
durch ein Konfidenz.
Vorlesung Statistik im
HT 2010
Vorabversion
121
Inhaltsverzeichnis (3. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
3.1. Grundbegriffe
3.2. Konstruktion von Schätzfunktionen
3.3. Konfidenzintervalle
3.3.1 Grundbegriffe
3.3.2 Intervall für bei Normalverteilung mit bekanntem
3.3.3 Intervall für und
bei Normalverteilung
3.3.4 Intervall für
bei großen Stichprobenumfängen
4. Testtheorie
5. Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
122
Konfidenzintervall für Erwartungswert bei großen Stichprobenumfängen
Satz 3.17:
Seien
beliebig verteilte unabhängige Zufallsvariablen die alle
den Erwartungswert und die Varianz
besitzen.
Es bezeichne das
-Quantil der
-Verteilung und es sei
falls bekannt ist,
falls die
binäre Zufallsvariablen sind,
sonst.
Dann ist das Zufallsintervall
für große (
, bzw.
bei binären Zufallsvariablen) näherungsweise ein (symmetrisches) Konfidenzintervall für den
Erwartungswert zum Konfidenzniveau
.
Herleitung: vgl.[15].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
123
Schema für Erwartungswert bei großen Stichprobenumfängen
Schema:
Die praktische Durchführung der Intervallschätzung für den Erwartungswert
bei großen Stichprobenumfängen vollzieht sich folgendermaßen:
1. Schritt: Ein Konfidenzniveau
wird festgelegt.
2. Schritt: Das
-Quantil der
-Verteilung wird bestimmt.
3. Schritt: Das Stichprobenmittel sowie ein Schätzwert für werden
berechnet durch
falls bekannt ist,
falls die
binäre Zufallsvariablen sind,
sonst.
4.
5.
Schritt: Der Wert
wird berechnet.
Schritt: Als Ergebnis der Intervallschätzung wird das Intervall
angegeben.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
124
Übungsaufgabe 3.9
Um die Anzahl der Fische in einem Teich zu schätzen, wird folgendes
Verfahren gewählt: Es werden 250 Fische gefangen, gekennzeichnet und
wieder in den Teich zurückgebracht. Nach einiger Zeit werden 150 Fische
jeweils einzeln gefangen und sofort wieder in den Teich zurückgebracht.
Darunter befinden sich insgesamt 22 gekennzeichnete Fische. Bestimmen Sie
hieraus ein Konfidenzintervall für die Gesamtzahl der Fische im Teich zum
Konfidenzniveau
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
125
Inhaltsverzeichnis (4. Kapitel)
1.
2.
3.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
4. Testtheorie
4.1. Grundbegriffe
5.
6.
4.2. Parametertests
4.3.
-Anpassungstest
4.4.
-Unabhängigkeitstest
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
126
Aufgabenstellung beim Testen
• Voraussetzung: Über die Verteilung eines Merkmals in der Grundgesamtheit bzw. die Parameter der Verteilung hat man eine Hypothese, d.h. eine
ganz bestimmte Vermutung.
• Zielsetzung: Diese Hypothese über die Verteilung(sparameter) soll mittels
einer Stichprobe überprüft werden.
• Vorgehen: Anwendung eines statistischen Testverfahrens (Test) wie in
diesem Kapitel (beispielhaft) beschrieben.
Frage:
Welcher wesentliche Unterschied ergibt sich beim Vergleich von
Testen und Schätzen?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
127
Verschiedene Arten von (Hypothesen-)Tests
Arten von Signifikanztests (Hypothesentests):
• Wird eine Hypothese über den numerischen Wert eines unbekannten
Parameters (z.B. einen Lage- oder Streuungsparameter) getestet, so
spricht man von einem Parametertest.
• Die Prüfung einer Hypothese über den Typ der Verteilung eines Merkmals
bezeichnet man als Anpassungstest.
• Werden Hypothesen über die Abhängigkeit bzw. Unabhängigkeit von
zwei (oder mehr) Merkmalen geprüft, dann hat man es mit einem
Unabhängigkeitstest zu tun.
Signifikanztests:
Bei allen diesen Signifikanztests wird geprüft, ob eine Zufallsstichprobe eine
signifikante Abweichung von einer vorher festgelegten Hypothese
(Nullhypothese) liefert oder nicht.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
128
Alternativentest versus Signifikanztests
Signifikanztests:
Signifikanztests prüfen das mögliche Abweichen eines Parameters (, einer
Verteilung oder einer Eigenschaft) von einer Nullhypothese anhand einer
Stichprobe.
Alternativtests:
Beim Alternativtest werden für einen zu überprüfenden Parameter zwei gleichberechtigte Werte oder mögliche Wertebereiche gegeben. Mit Hilfe des
Testverfahrens soll dann geprüft werden, welcher der beiden Werte(bereiche)
zutrifft.
Anwendung:
Alternativentests spielen u.a. eine Rolle in der Qualitätskontrolle, wenn es um
die Abnahme oder Ablehnung einer Lieferung geht.
Vereinbarung:
Im Folgenden beschränken wir unsere Betrachtungen auf Signifikanztests.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
129
Schema eines Signifikanztests zur Überprüfung einer Hypothese
(1)
Bestimmung der Eigenschaften der Grundgesamtheit
(2)
Formulierung einer geeigneten Nullhypothese
(3)
Bestimmung einer geeigneten Testgröße
(4)
Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau
(5)
Berechnung der Annahmekennzahlen
(6)
Testentscheidung
Anmerkung:
Diese Schritte werden im Verlauf des vorliegenden Unterkapitels beschrieben.
Universität der Bundeswehr München
Vorlesung Statistik im
HT 2010
Vorabversion
Fakultät für Informatik
130
Schritt: (1)
Bestimmung der Eigenschaften der Grundgesamtheit
Für jeden Test sind zuerst folgende
Fragen über die Grundgesamtheit
und den zugrunde liegenden Verteilungstyp zu beantworten:
1.
2.
3.
Handelt es sich um ein quantitatives
oder um ein qualitatives Merkmal?
Ist die Grundgesamtheit endlich?
Welche Verteilung hat die Zufallsvariable
(=Merkmalswert bei
zufälliger Entnahme eines Elements der Grundgesamtheit)? Man
beachte, dass diese Angabe manchmal nicht oder nur angenähert
möglich ist.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
131
Einführung: Stehendes Beispiel zu Signifikanztests (1)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Schritt: (1) Bestimmung der Eigenschaften der Grundgesamtheit:
a) Das Merkmal ist quantitativ.
b) Die Grundgesamtheit hat den
Umfang
, ist also endlich.
c) Das Merkmal ist näherungsweise
-normalverteilt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
132
Übungsaufgabe 4.1
Beantworten Sie die Fragen des Schritts (1) für die folgenden Probleme:
a)
Ein Händler will feststellen, ob das mittlere Gewicht einer Lieferung von
3000 Eiern tatsächlich
beträgt.
b) Ein Schausteller betreibt ein Glücksrad. Ein Spieler behauptet, dass von
den 20 Zahlen die Zahl „13“ mit der Wahrscheinlichkeit
auftritt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
133
Schritt: (2)
Formulierung einer geeigneten Nullhypothese
Definition 4.1:
Die Nullhypothese
ist die
statistische Formulierung der
zu überprüfenden Hypothese
(auch: Behauptung, Vermutung).
Die Alternativhypothese
ist
das Gegenteil der Nullhypothese.
Anmerkung:
Ziel eines statistischen Tests ist die Überprüfung der zugehörigen
Nullhypothese
Die Nullhypothese kann sich beispielsweise ergeben aus
• einer Theorie,
• Erfahrungen oder vergangenen Beobachtungen,
• einer Güterforderung oder Gütezusage.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
134
Einseitige und zweiseitige Hypothesen
Definition 4.2:
Die zweiseitige Nullhypothese
(auch: Punkthypothese) ist eine
Hypothese in der behauptet wird, der (unbekannte) Parameter einer
Verteilung habe einen ganz bestimmten Wert
, d.h.
.
Dementsprechend lautet die Alternativhypothese
dann
.
Definition 4.3:
Die einseitige Nullhypothese
(auch: Bereichshypothese) ist eine
Hypothese in der behauptet wird, dass der (unbekannte) Parameter einer
Verteilung einen bestimmten Wert
nicht unterschreitet (bzw. nicht
überschreitet), d.h.
(bzw.
).
Dementsprechend lautet die Alternativhypothese dann
(bzw.
).
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
135
Einseitige und zweiseitige Tests
Vereinbarung:
Ein Parametertest mit einer einseitigen bzw. zweiseitigen Nullhypothese wird
abkürzend auch als einseitiger bzw. zweiseitiger Test bezeichnet.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
136
Übungsaufgabe 4.2
Formulieren Sie für folgende Beispiele jeweils die Null- und Alternativhypothese und begründen Sie Ihre Entscheidung für die Formulierung einer einbzw. zweiseitigen Nullhypothese:
a)
Ein Ottomotor soll mit Kolben des Durchmessers 70 (mm) bestückt
werde. Der Kolbenlieferant garantiert
bei einer
Standardabweichung von
. In einem statistischen Test soll
der Kolbendurchmesser überprüft werden.
b) Bei einer Lieferung von 10 000 Glühlampen sagt der Lieferant einen
Ausschussanteil mit dem Wert
zu. Nach Lieferung soll der
Ausschussanteil in einem statistischen Test überprüft werden.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
137
Fehler 1. Art und Fehler 2. Art
Basierend auf der Auswertung einer Stichprobe wird die Nullhypothese
abgelehnt (verworfen) oder nicht abgelehnt.
Definition 4.4:
Die Ablehnung (das Verwerfen) einer richtigen Nullhypothese (d.h. die
Nullhypothese trifft zu) heißt Fehler 1. Art (auch: -Fehler). Dabei bezeichnet
die Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art bei der Durchführung des Tests (unter der gegebenen Konstellation).
Definition 4.5:
Die Nichtablehnung (das Nicht-Verwerfen) einer falschen Nullhypothese heißt
Fehler 2. Art (auch: -Fehler). Dabei bezeichnet die Wahrscheinlichkeit für
das Auftreten des Fehlers 2. Art bei der Durchführung des Tests (unter der
gegebenen Konstellation).
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
138
Fehlermöglichkeiten beim Parametertest
Fehlermöglichkeiten bei einem Parametertest
tatsächlicher Zustand
Testentscheidung
Nullhypothese nicht verworfen
Nullhypothese verworfen
Nullhypothese zutreffend
Nullhypothese falsch
richtige Entscheidung
Fehler 2. Art ( -Fehler)
Fehler 1. Art ( -Fehler)
richtige Entscheidung
Interpretation:
• Fehler 1. Art: Die Nullhypothese wird abgelehnt, obwohl sie richtig ist.
Dieser Fehler 1. Art tritt mit der Wahrscheinlichkeit auf.
• Fehler 2. Art: Die Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist.
Dieser Fehler 2. Art tritt mit der Wahrscheinlichkeit auf.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
139
Zusammenhang zwischen Fehlern 1. und 2. Art
In der Regel gilt der folgende
Zusammenhang:
Die Wahrscheinlichkeit für einen
Fehler 2. Art (Nichtablehnung einer
falschen Nullhypothese) wächst mit
abnehmender Wahrscheinlichkeit
für einen Fehler 1. Art.
Bildquelle: [7]
Anmerkungen:
• Die Wahrscheinlichkeit für einen Fehler 2. Art kann nicht (ohne
Weiteres) berechnet werden, da sie vom tatsächlichen Wert des
unbekannten Parameters abhängt.
• Es ist empfehlenswert, das Niveau für den Fehler 1. Art (Signifikanzniveau) nicht kleiner als nötig zu wählen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
140
Verwerfen der Nullhypothese
Anmerkungen:
• Die Nullhypothese muss zu gegebener Problemstellung passend
formuliert werden. Von der adäquaten Formulierung der Nullhypothese
hängt es ab, ob der statistische Test ein sinnvolles Ergebnis liefern kann
bzw. ob die Testentscheidung zu einer Lösung des gegebenen Problems
führt.
• Ein statistischer Test kann zu einem Verwerfen (Ablehnung) oder zu einem
Nicht-Verwerfen (Nicht-Ablehung) der Nullhypothese führen.
Zur unbedingten Beachtung:
Bei Nicht-Verwerfen der Nullhypothese durch eine Testdurchführung wird die
Nullhypothese (nur) beibehalten, gilt aber keinesfalls als statistisch nachgewiesen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
141
Aufstellen der Nullhypothese (vgl. [14])
Grundsatz:
Soll durch einen statistischen Test der (statistische) Nachweis einer Behauptung erfolgen, so muss die Nullhypothese
die Negation dieser Behauptung sein. Der statistische Nachweis ist also genau dann erfolgt, wenn die
Nullhypothese
im Zuge der Testdurchführung verworfen wird.
Anmerkung:
Eine derartige Testentscheidung führt nicht mit Sicherheit zum richtigen
Ergebnis, denn bei richtiger Nullhypothese (d.h. falscher Behauptung) beträgt
die Wahrscheinlichkeit für einen Irrtum (d.h. einen irrtümlichen statistischen
„Nachweis“ der Behauptung) . Diese Wahrscheinlichkeit wird aber
vorgegeben und kann deshalb den jeweiligen Anforderungen entsprechend
klein gehalten werden.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
142
Fortsetzung des stehendes Beispiel zu Signifikanztests (2)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Schritt: (2) Formulierung einer geeigneten Nullhypothese:
Da sowohl zu hohe als auch zu niedrige
Widerstandswerte zu detektieren sind,
erfolgt ein zweiseitiger Test:
Nullhypothese:
Alternativhypothese:
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
143
Übungsaufgabe 4.3
Formulieren Sie zu folgenden Testproblemen jeweils eine sinnvolle
Nullhypothese und die zugehörige Alternativhypothese:
a)
Es soll geprüft werden, ob der durchschnittliche Intelligenzquotient von
Männern
größer ist als der von Frauen
.
b) Ein Hersteller von Motorblöcken möchte wissen, ob der zugesagte
mittlere Bohrungsdurchmesser von 78.65(mm) in der laufenden
Produktion noch eingehalten wird.
c)
Betonmischer haben nach Herstellerangaben einen Benzinverbrauch von
bei einer Standardabweichung von
. Ein
Konkurrent der Firma würde sich freuen, wenn er mit Hilfe einer
Stichprobe einen höheren Durchschnittsverbrauch nachweisen könnte.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
144
Schritt: (3)
Bestimmung einer geeigneten Testgröße
Die Überprüfung einer Nullhypothese über
einen unbekannten Parameter einer
Grundgesamtheit erfolgt mit Hilfe einer
„geeigneten“ Stichprobenfunktion .
Definition 4.6:
Eine Stichprobenfunktion , die man für die Überprüfung einer Hypothese
über einen Parameter verwendet, wird als Testgröße oder Prüfgröße
bezeichnet.
Jede Stichprobenfunktion , die als Schätzfunktion für den Parameter
geeignet ist, kann auch als Testgröße zur Überprüfung einer Hypothese über
diesen Parameter verwendet werden, sofern die Verteilung von (zumindest
näherungsweise) bekannt ist.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
145
Anmerkungen zu Testgröße
• Für einen Test über den Mittelwert einer Grundgesamtheit wird
meistens die Testgröße verwendet. Alternativ kann auch der Median
verwendet werden.
• Zum Test einer Hypothese über die Varianz
Stichprobenfunktion
herangezogen werden.
kann beispielsweise die
(empirische) Varianz
• Verschieden Testgrößen für den gleichen Parameter
sich insbesondere durch ihre Streuung .
Es gilt beispielsweise:
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
unterscheiden
146
Anmerkungen zur Verteilung der Testgrößen
• Die Verteilung der Testgröße lässt sich in der Regel aus der Verteilung der
Grundgesamtheit und den Charakteristika des Stichprobenmodells
mindestens approximativ bestimmen. Vorausgesetzt wird dabei immer,
dass die Nullhypothese tatsächlich zutrifft und der Stichprobenumfang
bekannt ist.
• Ohne Kenntnis der (zumindest approximativen) Verteilung der Testgröße
ist es nicht möglich, Annahmekennzahlen für einen Test zu bestimmen,
denn die Annahmekennzahlen ergeben sich als Grenzen eines
Wahrscheinlichkeitsintervalls der Testgröße bei richtiger Nullhypothese.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
147
Fortsetzung des stehendes Beispiel zu Signifikanztests (3)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Schritt: (3) Bestimmung einer geeigneten Testgröße:
Als Testgröße wird der empirische Mittelwert
der Stichprobe gewählt. Da die Widerstandswerte annähernd normalverteilt sind, ist
auch der Mittelwert näherungsweise
-normalverteilt,
falls die Nullhypothese zutrifft.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
148
Schritt: (4)
Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau
Definition 4.7:
Die Wahrscheinlichkeit für die
Ablehnung einer richtigen Nullhypothese
heißt Irrtumswahrscheinlichkeit oder
Signifikanzniveau.
Anmerkungen:
• Übliche Werte bei der Vorgabe von Irrtumswahrscheinlichkeiten sind
,
oder
.
• Wird die Irrtumswahrscheinlichkeit zu klein gewählt, so ist es kaum
möglich die Nullhypothese zu widerlegen. Man will ja dann gerade die
Ablehnung einer richtigen Nullhypothese „unbedingt“ vermeiden.
• Bei einer zu groß gewählten Irrtumswahrscheinlichkeit wird die richtige
Nullhypothese zu häufig nur aufgrund von Zufallseinflüssen abgelehnt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
149
Fortsetzung des stehendes Beispiel zu Signifikanztests (4)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Schritt: (4) Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau:
Als Signifikanzniveau wir
vorgegeben. Dementsprechend ist
das 0.975-Qunatil z=1.96.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
150
Schritt: (5)
Berechnung der Annahmekennzahlen
Definition 4.8:
Sei
der durch die Nullhypothese
behauptete Wert.
• Für einem Test wird ein Bereich um
um den Wert
festgelegt, in den die
Testgröße fallen kann, ohne dass
verworfen wird. Dieser Bereich heißt Annahmebereich des Tests.
• Der hierzu komplementäre Bereich wird als Ablehnungsbereich
bezeichnet. Fällt die Testgröße in diesen Bereich, so wird
abgelehnt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
151
Annahmekennzahlen
Definition 4.9:
Die Grenzen zwischen Annahme- und Ablehnungsbereich heißen
Annahmebereichsgrenzen (auch: Annahmegrenzen oder Annahmekennzahlen). Sie werden mit (untere Grenze) und (obere Grenze) bezeichnet
und gehören selbst zum Annahmebereich:
mit geeignet gewählten
.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
152
Annahmekennzahlen bei zweiseitigen Nullhypothesen
Satz 4.10:
Sei die Prüfgröße eines Tests mit zweiseitiger Nullhypothese
und
zum Signifikanzniveau . Zur konkreten Berechnung von
Annahmekennzahlen , wird (aus Mehrdeutigkeitsgründen)
und
(zusätzlich) festgelegt.
Dann gilt die folgende Bestimmungsgleichung für , :
oder alternativ
.
Beweis: offensichtlich, dem Leser überlassen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
153
Annahmekennzahlen bei einseitigen Nullhypothesen
Satz 4.11:
Sei die Prüfgröße eines Tests mit einseitiger Nullhypothese
und
(bzw.
und
) zum Signifikanzniveau . Zur konkreten Berechnung der Annahmekennzahlen , wird
(aus Mehrdeutigkeitsgründen)
(bzw.
) (zusätzlich)
festgelegt und der ungünstigste (Grenz-)Fall
angenommen.
Dann gilt die folgende Bestimmungsgleichung für , :
(bzw.
oder alternativ
)
(bzw.
).
Beweis: offensichtlich, dem Leser überlassen.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
154
Ergänzung zu Annahmekennzahlen bei einseitigen Nullhypothesen
• Beim Test mit einseitiger Nullhypothese wird die Annahmegrenze unter
der Bedingung bestimmt, dass die Nullhypothese gerade noch erfüllt ist
(
). In diesem Fall ist daher das Signifikanzniveau die obere Grenze
für die Wahrscheinlichkeit des Fehlers 1. Art.
• Achten Sie bei der Berechnung von Annahmekennzahlen jeweils darauf,
welches Quantil (abhängig von dem verwendeten einseitigen oder
zweiseitigen Tests) verwendet werden muss.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
155
Fortsetzung des stehendes Beispiel zu Signifikanztests (5)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Schritt: (5) Berechnung der Annahmekennzahlen:
Es ergeben sich folgende Annahmekennzahlen:
Somit ist
Universität der Bundeswehr München
Fakultät für Informatik
der Annahmebereich.
Vorlesung Statistik im
HT 2010
Vorabversion
156
Schritt: (6)
Testentscheidung
Um die Testentscheidung zu fällen wird
die Stichprobe realisiert und die daraus
resultierende Realisierung der
Testgröße bestimmt.
Die Nullhypothese
wird genau dann
verworfen, wenn die Realisierung der
Testgröße in den Ablehnungsbereich fällt.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
157
Fortsetzung des stehendes Beispiel zu Signifikanztests (6)
Aufgabenstellung: (zur Erinnerung)
Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück
beträgt nach Herstellerangaben
bei einer Standardabweichung
von
. Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom
Umfang
gezogen werden. Man weiß, dass die Widerstandswerte
annähernd normalverteilt sind.
Ergänzung: In der Zufallstichprobe wird der Mittelwert
ermittelt.
Schritt: (6) Testentscheidung:
Der Wert
fällt in den Annahmebereich, die Nullhypothese
wird also nicht
verworfen. Das bedeutet aber noch nicht,
dass
richtig sein muss.
-- ENDE des STEHENDEN BEISPIELS -Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
158
Übungsaufgabe 4.4
Durch einen Test soll die Hypothese „Der Anteil der durch Krankheit
ausgefallenen Arbeitsstunden in der Bundesrepublik Deutschland ist im April
2005 niedriger als im April 2004“ überprüft werden. Die Nullhypothese „Es ist
keine Verringerung eingetreten“ (
) kann bei einem
Signifikanzniveau von
nicht verworfen werden. Welche der
folgenden Aussagen ist dann richtig?
a) Die Nullhypothese ist damit statistisch widerlegt.
b) Auf dem Signifikanzniveau
ist eine Verringerung nicht
statistisch nachweisbar.
c) Mit einer Wahrscheinlichkeit von 0.05 kann dennoch eine Verringerung
vorliegen:
d) Die Anzahl der durch Krankheit ausgefallenen Arbeitsstunden hat sich
nicht verringert.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
159
Inhaltsverzeichnis (4. Kapitel)
1.
2.
3.
4.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
Testtheorie
4.1. Grundbegriffe
4.2. Parametertests
5.
6.
4.3.
-Anpassungstest
4.4.
-Unabhängigkeitstest
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
160
Bezeichnungen für konkrete Parametertest
Im Folgenden betrachten wir folgende konkrete Parametertests für den/die
• Erwartungswert bei Normalverteilung mit bekannter Varianz,
• Erwartungswert bei Normalverteilung mit unbekannter Varianz,
• Varianz bei Normalverteilung mit unbekanntem Erwartungswert und
• Anteilswert bei Binomialverteilung.
Gegeben sei dabei jeweils eine einfache Stichprobe
des
Umfangs mit der Realisierung
. Dabei sei festgelegt:
•
Empirischer Mittelwert
•
Empirische Varianz
mit Realisierung
mit Realisierung
.
.
Herleitung der Tests: [7], exemplarisch siehe Tafel.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
161
Testschema: Erwartungswert bei Normalverteilung mit bekannter Varianz
1. Voraussetzung an
Grundgesamtheit:
-normalverteilt,
unbekannt,
bekannt
2. Formulierung
Nullhypothese:
-normalverteilt
3. Testgröße:
4. Signifikanzniveau:
Irrtumswahrscheinlichkeit
festlegen
5. Annahmekennzahlen:
6. Testentscheidung:
Nullhypothese
verwerfen, falls
.
ist das
-Quantil der
-Normalverteilung.
ist das
-Quantil der
-Normalverteilung.
Ergänzung:
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
162
Testschema: Erwartungswert bei Normalverteilung mit unbekannter Varianz
1. Voraussetzung an
Grundgesamtheit:
-normalverteilt,
unbekannt,
unbekannt
2. Formulierung
Nullhypothese:
3. Testgröße:
4. Signifikanzniveau:
mit
-verteilt ( -Studentverteilung)
Irrtumswahrscheinlichkeit
festlegen
5. Annahmekennzahlen:
6. Testentscheidung:
Nullhypothese
verwerfen, falls
.
ist das
-Quantil der
-Studentverteilung.
ist das
-Quantil der
-Studentverteilung.
Ergänzung:
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
163
Testschema: Varianz bei Normalverteilung mit unbekanntem Erwartungswert
1. Voraussetzung an
Grundgesamtheit:
-normalverteilt,
unbekannt,
unbekannt
2. Formulierung
Nullhypothese:
3. Testgröße:
4. Signifikanzniveau:
mit
-verteilt (
Irrtumswahrscheinlichkeit
-Verteilung)
festlegen
5. Annahmekennzahlen:
6. Testentscheidung:
Nullhypothese
verwerfen, falls
.
ist das
-Quantil der
-Verteilung.
ist das
-Quantil der
-Verteilung.
Ergänzung:
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
164
Testschema: Anteilswert bei Binomialverteilung
1. Voraussetzung an
Grundgesamtheit:
-binomialverteilt,
unbekannt,
(Bernoulli-Experiment)
2. Formulierung
Nullhypothese:
-normalverteilt (Annäherung!)
3. Testgröße:
4. Signifikanzniveau:
Irrtumswahrscheinlichkeit
festlegen
5. Annahmekennzahlen:
6. Testentscheidung:
Nullhypothese
verwerfen, falls
.
ist das
-Quantil der
-Normalverteilung.
ist das
-Quantil der
-Normalverteilung.
Ergänzung:
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
165
Übungsaufgabe 4.5
Der Hersteller einer Drehmaschine gibt an, dass seine Maschinen sehr genau
arbeitet. Er behauptet, dass die annähernd normalverteilten Durchmesser
der gedrehten Teile eine Varianz von
haben. Eine Versuchsreihe des
Käufers vom Umfang
ergab eine empirische Varianz von
Kann die Angabe des Herstellers mit der Irrtumswahrscheinlichkeit
damit stochastisch widerlegt werden?
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
166
Übungsaufgabe 4.6
Durch langjährige Beobachtungen sei bekannt, dass die durchschnittliche
Brenndauer der mit einem bestimmten Produktionsverfahren hergestellten
Glühbirnen 2 000 Stunden beträgt bei einer Standardabweichung
Stunden. Eine nach Vornahme einer geringfügigen Materialänderung
hergestellte Probeserie von
Lampen ergibt eine mittlere Brenndauer
von 2 030 Stunden.
• Kann aus diesem Ergebnis auf ein Signifikante Erhöhung der Brenndauer
bei Anwendung des neuen Verfahrens geschlossen werden? Führen Sie
den Test mit Irrtumswahrscheinlichkeit
durch.
• Die Herstellerfirma treffe prinzipiell folgende Entscheidung: Beträgt die
mittlere Lebensdauer von 100 zufällig ausgesuchten Glühlampen mindestens 2 015 Stunden, so wird nach dem neuen Verfahren, andernfalls
nach dem alten Verfahren produziert. Berechnen Sie für diese Testentscheidung die Irrtumswahrscheinlichkeit.
Die Standardabweichung sei konstant.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
167
Übungsaufgabe 4.7
Unter 3 000 in einer Klinik neugeborenen Kindern befanden sich 1 578
Jungen. Untersuchen Sie die folgende Behauptung statistisch zur Irrtumswahrscheinlichkeit
:
Es werden mehr Jungen als Mädchen geboren.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
168
Inhaltsverzeichnis (4. Kapitel)
1.
2.
3.
4.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
Testtheorie
4.1. Grundbegriffe
4.2. Parametertests
4.3.
5.
6.
-Anpassungstest
4.4.
-Unabhängigkeitstest
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
169
Inhaltsverzeichnis (4. Kapitel)
1.
2.
3.
4.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
Testtheorie
4.1. Grundbegriffe
4.2. Parametertests
4.3.
-Anpassungstest
4.4.
5.
6.
-Unabhängigkeitstest
Regressionsanalyse
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
170
Inhaltsverzeichnis (5. Kapitel)
1.
2.
3.
4.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
Testtheorie
5. Regressionsanalyse
6.
Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
171
Inhaltsverzeichnis (6. Kapitel)
1.
2.
3.
4.
5.
Deskriptive Statistik
Zufallsstichproben
Schätztheorie
Testtheorie
Regressionsanalyse
6. Varianzanalyse
Literaturhinweise:
Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14].
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
172
Literaturverzeichnis (1)
[1] M. Burkschat, E. Cramer, U. Kamps: Beschreibende Statistik –
Grundlegende Methoden. Springer-Verlag, 2004.
[2] L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz: Statistik – Der Weg zur
Datenanalyse (7. neub. Auflage). Springer-Verlag, 2010.
[3] P. Zöfel: Statistik für Wirtschaftswissenschaftler – Im Klartext. Pearson
Studium, 2003.
[4] H. Toutenburg, C. Heumann: Deskriptive Statistik – Eine Einführung in
Methoden und Anwendungen mit SPSS (5. Auflage). Springer-Verlag, 2006.
[5] J. Schira: Statistische Methoden der VWL und BWL – Theorie und Praxis.
Pearson Studium, 2003.
[6] G. Zelany: Wie aus Zahlen Bilder werden – Der Weg zur visuellen
Kommunikation – Daten überzeugend präsentieren (6.überarb. und erweit.
Auflage). Gabler Verlag, 2005.
[7] K. Bosch: Elementare Einführung in die angewandte Statistik (8. durchg.
Auflage). Vieweg Verlag, 2005.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
173
Literaturverzeichnis (2)
[8] U. Genschel, C. Becker: Schließende – Grundlegende Methoden. SpringerVerlag, 2005.
[9] H. Toutenburg, C. Heumann: Induktive Statistik – Eine Einführung mit R
und SPSS (4. Auflage). Springer-Verlag, 2008.
[10] J. Hartung: Statistik – Lehr- und Handbuch der angewandten Statistik (9.
durchg. Auflage). Oldenbourg Verlag, 1993.
[12] G. Walz (Hrsg.): Lexikon der Statistik. Elsevier Spektrum Verlag, 2004.
[13] B. Rüger: Induktive Statistik – Einführung für Wirtschafts- und
Sozialwissenschaftler (3. überarb. Auflage). Oldenbourg Verlag, 1996.
[14] J. Schwarze: Grundlagen der Statistik II – Wahrscheinlichkeitsrechnung
und induktive Statistik (8. Auflage). Verlag Neue Wirtschafts-Briefe, 2006.
[15] G. Bamberg, F. Baur, M. Krapp : Statistik (14. korrigierte Auflage).
Oldenbourg Verlag, 2008.
Universität der Bundeswehr München
Fakultät für Informatik
Vorlesung Statistik im
HT 2010
Vorabversion
174
Herunterladen