Kapitel1_Statistik

Werbung
Einführung in die Statistik
Nach einem Skript verfasst von Prof. Dr. Harro Kümmerer – Fakultät Grundlagen
für die Vorlesung Mathematik 3 an der Fakultät Informationstechnik
überarbeitet und ergänzt von Prof. Dr. Gerhard Glatz – Fakultät Grundlagen
WS 2006/07
Statistik
Inhalt und 1. Einleitung
Inhalt
Seite
1.
Einleitung
4
2.
Beschreibende Statistik
7
2.1.
Eindimensionale Merkmale
7
2.1.1.
2.1.2.
2.1.3.
2.1.4.
Tabellarische und graphische Darstellung – Häufigkeit
Maßzahlen einer eindimensionalen Stichprobe
Auswertung umfangreicher Stichproben
Zusammenfassung von Teilstichproben
7
11
16
20
2.2.
Zweidimensionale Merkmale
22
2.2.1.
2.2.2.
2.2.3.
2.2.4.
Vorbetrachtungen / Korrelation – Regression
Tabellarische und graphische Darstellung – Grundbegriffe
Maßzahlen einer zweidimensionalen Stichprobe
Regression bei zweidimensionalen Stichproben
22
23
26
28
2.3.
Aufgaben
37
3.
Grundbegriffe der Wahrscheinlichkeitsrechnung
40
3.1.
Zufällige Ereignisse – Ereignisalgebra
40
3.2.
Zur Definition der Wahrscheinlichkeit
44
3.3.
Elementare Kombinatorik
49
3.4.
Rechnen mit Wahrscheinlichkeiten
52
3.4.1.
3.4.2.
3.4.3.
3.4.4.
Elementare Rechenregeln
Bedingte Wahrscheinlichkeiten, Multiplikationssatz
Zusammengesetzte Zufallsexperimente, totale Wahrscheinlichkeit
Satz von Bayes
52
55
59
60
3.5.
Aufgaben
62
4.
Zufallsvariable und Wahrscheinlichkeitsverteilung
65
4.1.
Zufallsvariable
65
4.2.
Diskrete Zufallsvariable
67
4.2.1. Beschreibung diskreter Zufallsvariablen
4.2.2. Erwartungswert einer diskreten Zufallsvariablen
4.2.3. Varianz einer diskreten Zufallsvariablen
67
71
73
4.3.
75
Theoretische diskrete Verteilungen
4.3.1. Binomialverteilung
4.3.2. Poissonverteilung (Verteilung seltener Ereignisse)
4.3.3. Hypergeometrische Verteilung
2
75
80
83
Statistik
Inhalt und 1. Einleitung
4.4.
Stetige Zufallsvariable
87
4.5.
Eigenschaften von Erwartungswert und Varianz
91
4.5.1. Lineare Transformationen
4.5.2. Summe von Zufallsvariablen
91
91
4.6.
Normalverteilung
93
4.6.1.
4.6.2.
4.6.3.
4.6.4.
Dichte und Verteilungsfunktion der Normalverteilung
Eigenschaften normalverteilter Zufallsvariablen
Grenzwertsätze
Annäherung der Binomialverteilung durch die Normalverteilung
93
99
100
101
4.7.
Weitere stetige Zufallsvariablen
104
4.8.
Aufgaben
106
5.
Beurteilende Statistik
109
5.1.
Einführung – Grundprobleme
109
5.2.
Bemerkungen zur Stichprobenauswahl
110
5.3.
Statistische Schätzverfahren
112
5.3.1. Punktschätzung und Schätzfunktionen
5.3.2. Konfidenzintervalle
112
116
5.4.
Signifikanztests (Hypothesentests)
130
5.4.1.
5.4.2.
5.4.3.
5.4.4.
5.4.5.
Schema eines Signifikanztests
Überblick und Bezeichnungen, Fehler bei Signifikanztests
Parametertests
Anpassungstests
Der  2 - Unabhängigkeitstest
130
134
138
143
146
5.5.
Aufgaben
150
6.
Anhang: Tabellen, Literatur
153
3
Statistik
1.
Inhalt und 1. Einleitung
EINLEITUNG
Die Statistik befasst sich mit der Analyse zufälliger Massenerscheinungen. Aus
Beobachtungen einer Vielzahl unter gleichen Bedingungen ablaufender Einzelerscheinungen
mit zufälliger Unregelmäßigkeit sind die statistischen Gesetzmäßigkeiten der
Massenerscheinung zu ermitteln.
z.B.:
a) Augenzahl eines Würfels
b) Bierkonsum einer Person
c) Lebensalter eines Menschen



Augenzahlen 1, . . . 6 etwa gleich häufig
Bierverbrauch pro Kopf (Mittelwert)
Bevölkerungsstatistik, „Sterbetafel“
In der Statistik interessiert nicht, ob einzelne Dinge oder Personen ein bestimmtes Merkmal
zeigen, es interessiert nur die Verteilung dieses Merkmals in einer Grundgesamtheit von
Dingen oder Personen. Aussagen über das Vorhandensein oder Nichtvorhandensein eines
Merkmals in einer Grundgesamtheit lassen sich andererseits aber erst machen, wenn man
zuvor einzelne Elemente der Grundgesamtheit auf dieses Merkmal hin genau untersucht.
Dabei ist es oft zu aufwendig oder gar nicht möglich, alle Elemente zu betrachten; man muss
sich auf die Untersuchung einer Stichprobe beschränken. Je nach Umfang der
Grundgesamtheit, Umfang der Stichprobe und Verteilung des betrachteten Merkmals lässt die
Stichprobe dann mehr oder weniger zuverlässige Schlüsse auf die Grundgesamtheit zu.
Man unterscheidet folglich zwei Teilgebiete der Statistik:
1. Die beschreibende Statistik (empirische Statistik) befasst sich mit der Erfassung,
Aufbereitung und Auswertung von Merkmals-Daten einer bestimmten Gruppe von
Dingen oder Personen.
z.B.:
a) Größe und Gewicht der Studierenden der FHTE
b) Lebensdauer technischer Geräte
c) Anzahl schadhafter Werkstücke einer Tagesproduktion
2. Die Grundaufgabe der beurteilenden Statistik (mathematische Statistik) besteht darin,
von der Verteilung eines Merkmals in einer Stichprobe mit mathematischen Methoden der
Wahrscheinlichkeitsrechnung auf die Verteilung dieses Merkmals in der Grundgesamtheit
zu schließen.
z.B.:
a) Muss ein Koch den ganzen Suppenkessel auslöffeln, um festzustellen, wie die
Suppe schmeckt?
b) Ein Würfel zeigt bei 3600 Würfen 505 mal eine Sechs; ist dieser Würfel gefälscht?
c) Aus der Tagesproduktion wird eine Stichprobe von 100 Werkstücken entnommen
und auf ein Qualitätsmerkmal Q untersucht; 2 Werkstücke erfüllen Q nicht. Kann
man daraus folgern, dass 2% der Tagesproduktion Q nicht erfüllen?
4
Statistik
Inhalt und 1. Einleitung
Begriffe der Datenerhebung:
Grundgesamtheit
- zu untersuchende Menge (Menge der Merkmalträger)
Merkmalträger
-
Merkmale
- interessierende Größen eines Merkmals (qualitativ bzw.
quantitativ)
interessierende Dinge oder Personen (Objekte)
Merkmalausprägungen - Möglichkeiten des Auftretens eines Merkmals
Merkmalwerte
-
Quantifizierung der Merkmalausprägungen (Verschlüsselungen)
Zahlen dienen zur Identifikation der einzelnen Gruppen
Bei statistischen Erhebungen werden Objekte auf gewisse Merkmale hin untersucht. Nach
der Art des Merkmals unterscheidet man:
-
quantitative Merkmale, deren Merkmalsausprägungen (Stichprobenwerte) Zahlen sind,
zwischen denen eine natürliche Größer-Kleiner-Beziehung besteht (Alter, Gewicht, ... )
-
qualitative Merkmale, die sich nicht unmittelbar durch Zahlen kennzeichnen lassen
(Farbe, Geschlecht, Familienstand, ... ). Qualitative Merkmale können gelegentlich mit
Hilfe von Zahlen codiert sein; dann haben aber die Differenzen der Codes keine
Bedeutung.
Bei quantitativen Merkmalen ist eine weitere Unterscheidung notwendig:
-
diskrete Merkmale mit endlich oder abzählbar unendlich vielen möglichen Werten
(Augenzahl beim Würfeln, Anzahl von Streichhölzern in einer Schachtel, ... )
Diskrete Merkmale treten vorzugsweise bei Zählungen auf; als Ausprägungen sind
dann nur 0 , 1 , 2 , … möglich.
-
stetige Merkmale, die alle Zahlen eines Intervalls annehmen können
(Körpergröße, Gewicht, ... ) Stetige Merkmale treten vorzugsweise bei Messungen auf.
Bei qualitativen Merkmalen unterscheidet man zwischen
- ordinal skalierten Merkmalen: Die Ausprägungen stehen in einer natürlichen Rangfolge,
die Merkmalausprägungen lassen sich durch Größer-Kleiner-Beziehungen anordnen;
z.B. Examensnoten, Güteklassen, …
- nominal skalierten Merkmalen: Die Ausprägungen lassen sich nicht in eine Rangfolge
bringen; eine Nominalskala dient nur zur Unterscheidung;
z.B. Farben, Religion, Geschlecht, …
5
Statistik
Inhalt und 1. Einleitung
Kurzer Überblick über Datengewinnung:
1. Arten von Erhebungen
• Totalerhebung (Vollerhebung)
• Teilerhebung
→
→
Grundgesamtheit
Stichprobe
2. Durchführung von Teilerhebungen
Möglichkeiten Stichprobenuntersuchungen durchzuführen sind:
• Reine Zufallsstichproben
• Schichtenstichproben: Einteilung der Grundgesamtheit in Schichten, die bezüglich des
Untersuchungsmerkmals möglichst homogen sind. Anschließend wird aus jeder Schicht
eine bestimmte Anzahl von Stichproben gezogen.
• Klumpenstichproben: Wenn sich die Grundgesamtheit in „Klumpen“ zerlegen lässt, die
möglichst genau wie die Grundgesamtheit zusammengesetzt sind.
• Quotenverfahren: Durch Vorgabe von Quoten wird sichergestellt, dass die Stichprobe
bei bestimmten Merkmalen wie z.B. Frau/Mann, Alter, Berufsgruppe,… die gleichen
Anteile enthält wie die Grundgesamtheit → repräsentative Stichprobe.
3. Bereinigung von Daten
• Behandlung von Ausreißern
Als Ausreißer bezeichnet man Daten, die offenbar viel zu groß oder zu klein sind.
Mögliche Vorgehensweisen:
1) Ausreißer identifizieren;
2) Überprüfen, gegebenenfalls berichtigen;
3) Wenn Ausreißer nicht berichtigt werden können,
a) Datensatz streichen oder
b) fehlerhafte Daten abändern (z.B. durch Ersetzen durch den Mittelwert der
nicht fraglichen Daten) oder
c) Datensatz unverändert beibehalten.
Die Möglichkeiten b) und c) sollten nur mit größter Zurückhaltung angewandt
Werden. Im Zweifelsfall wende man Möglichkeit a) an.
Ähnlich wie bei Ausreißern geht man bei Werten vor, die zwar kein Ausreißer sind,
die aber aus sonstigen Gründen unmöglich oder unplausibel erscheinen.
• Behandlung fehlender Werte
Das Vorgehen bei fehlenden Werten entspricht sinngemäß dem bei Ausreißern:
1) Fehlende Werte identifizieren;
2) überprüfen, gegebenenfalls ergänzen;
3) wenn die fehlenden Werte nicht ergänzt werde können,
a)
Datensatz streichen oder
b) einen Ersatzwert (Mittelwert der nicht fehlenden Daten) berechnen.
6
Herunterladen