Einführung in die Statistik Nach einem Skript verfasst von Prof. Dr. Harro Kümmerer – Fakultät Grundlagen für die Vorlesung Mathematik 3 an der Fakultät Informationstechnik überarbeitet und ergänzt von Prof. Dr. Gerhard Glatz – Fakultät Grundlagen WS 2006/07 Statistik Inhalt und 1. Einleitung Inhalt Seite 1. Einleitung 4 2. Beschreibende Statistik 7 2.1. Eindimensionale Merkmale 7 2.1.1. 2.1.2. 2.1.3. 2.1.4. Tabellarische und graphische Darstellung – Häufigkeit Maßzahlen einer eindimensionalen Stichprobe Auswertung umfangreicher Stichproben Zusammenfassung von Teilstichproben 7 11 16 20 2.2. Zweidimensionale Merkmale 22 2.2.1. 2.2.2. 2.2.3. 2.2.4. Vorbetrachtungen / Korrelation – Regression Tabellarische und graphische Darstellung – Grundbegriffe Maßzahlen einer zweidimensionalen Stichprobe Regression bei zweidimensionalen Stichproben 22 23 26 28 2.3. Aufgaben 37 3. Grundbegriffe der Wahrscheinlichkeitsrechnung 40 3.1. Zufällige Ereignisse – Ereignisalgebra 40 3.2. Zur Definition der Wahrscheinlichkeit 44 3.3. Elementare Kombinatorik 49 3.4. Rechnen mit Wahrscheinlichkeiten 52 3.4.1. 3.4.2. 3.4.3. 3.4.4. Elementare Rechenregeln Bedingte Wahrscheinlichkeiten, Multiplikationssatz Zusammengesetzte Zufallsexperimente, totale Wahrscheinlichkeit Satz von Bayes 52 55 59 60 3.5. Aufgaben 62 4. Zufallsvariable und Wahrscheinlichkeitsverteilung 65 4.1. Zufallsvariable 65 4.2. Diskrete Zufallsvariable 67 4.2.1. Beschreibung diskreter Zufallsvariablen 4.2.2. Erwartungswert einer diskreten Zufallsvariablen 4.2.3. Varianz einer diskreten Zufallsvariablen 67 71 73 4.3. 75 Theoretische diskrete Verteilungen 4.3.1. Binomialverteilung 4.3.2. Poissonverteilung (Verteilung seltener Ereignisse) 4.3.3. Hypergeometrische Verteilung 2 75 80 83 Statistik Inhalt und 1. Einleitung 4.4. Stetige Zufallsvariable 87 4.5. Eigenschaften von Erwartungswert und Varianz 91 4.5.1. Lineare Transformationen 4.5.2. Summe von Zufallsvariablen 91 91 4.6. Normalverteilung 93 4.6.1. 4.6.2. 4.6.3. 4.6.4. Dichte und Verteilungsfunktion der Normalverteilung Eigenschaften normalverteilter Zufallsvariablen Grenzwertsätze Annäherung der Binomialverteilung durch die Normalverteilung 93 99 100 101 4.7. Weitere stetige Zufallsvariablen 104 4.8. Aufgaben 106 5. Beurteilende Statistik 109 5.1. Einführung – Grundprobleme 109 5.2. Bemerkungen zur Stichprobenauswahl 110 5.3. Statistische Schätzverfahren 112 5.3.1. Punktschätzung und Schätzfunktionen 5.3.2. Konfidenzintervalle 112 116 5.4. Signifikanztests (Hypothesentests) 130 5.4.1. 5.4.2. 5.4.3. 5.4.4. 5.4.5. Schema eines Signifikanztests Überblick und Bezeichnungen, Fehler bei Signifikanztests Parametertests Anpassungstests Der 2 - Unabhängigkeitstest 130 134 138 143 146 5.5. Aufgaben 150 6. Anhang: Tabellen, Literatur 153 3 Statistik 1. Inhalt und 1. Einleitung EINLEITUNG Die Statistik befasst sich mit der Analyse zufälliger Massenerscheinungen. Aus Beobachtungen einer Vielzahl unter gleichen Bedingungen ablaufender Einzelerscheinungen mit zufälliger Unregelmäßigkeit sind die statistischen Gesetzmäßigkeiten der Massenerscheinung zu ermitteln. z.B.: a) Augenzahl eines Würfels b) Bierkonsum einer Person c) Lebensalter eines Menschen Augenzahlen 1, . . . 6 etwa gleich häufig Bierverbrauch pro Kopf (Mittelwert) Bevölkerungsstatistik, „Sterbetafel“ In der Statistik interessiert nicht, ob einzelne Dinge oder Personen ein bestimmtes Merkmal zeigen, es interessiert nur die Verteilung dieses Merkmals in einer Grundgesamtheit von Dingen oder Personen. Aussagen über das Vorhandensein oder Nichtvorhandensein eines Merkmals in einer Grundgesamtheit lassen sich andererseits aber erst machen, wenn man zuvor einzelne Elemente der Grundgesamtheit auf dieses Merkmal hin genau untersucht. Dabei ist es oft zu aufwendig oder gar nicht möglich, alle Elemente zu betrachten; man muss sich auf die Untersuchung einer Stichprobe beschränken. Je nach Umfang der Grundgesamtheit, Umfang der Stichprobe und Verteilung des betrachteten Merkmals lässt die Stichprobe dann mehr oder weniger zuverlässige Schlüsse auf die Grundgesamtheit zu. Man unterscheidet folglich zwei Teilgebiete der Statistik: 1. Die beschreibende Statistik (empirische Statistik) befasst sich mit der Erfassung, Aufbereitung und Auswertung von Merkmals-Daten einer bestimmten Gruppe von Dingen oder Personen. z.B.: a) Größe und Gewicht der Studierenden der FHTE b) Lebensdauer technischer Geräte c) Anzahl schadhafter Werkstücke einer Tagesproduktion 2. Die Grundaufgabe der beurteilenden Statistik (mathematische Statistik) besteht darin, von der Verteilung eines Merkmals in einer Stichprobe mit mathematischen Methoden der Wahrscheinlichkeitsrechnung auf die Verteilung dieses Merkmals in der Grundgesamtheit zu schließen. z.B.: a) Muss ein Koch den ganzen Suppenkessel auslöffeln, um festzustellen, wie die Suppe schmeckt? b) Ein Würfel zeigt bei 3600 Würfen 505 mal eine Sechs; ist dieser Würfel gefälscht? c) Aus der Tagesproduktion wird eine Stichprobe von 100 Werkstücken entnommen und auf ein Qualitätsmerkmal Q untersucht; 2 Werkstücke erfüllen Q nicht. Kann man daraus folgern, dass 2% der Tagesproduktion Q nicht erfüllen? 4 Statistik Inhalt und 1. Einleitung Begriffe der Datenerhebung: Grundgesamtheit - zu untersuchende Menge (Menge der Merkmalträger) Merkmalträger - Merkmale - interessierende Größen eines Merkmals (qualitativ bzw. quantitativ) interessierende Dinge oder Personen (Objekte) Merkmalausprägungen - Möglichkeiten des Auftretens eines Merkmals Merkmalwerte - Quantifizierung der Merkmalausprägungen (Verschlüsselungen) Zahlen dienen zur Identifikation der einzelnen Gruppen Bei statistischen Erhebungen werden Objekte auf gewisse Merkmale hin untersucht. Nach der Art des Merkmals unterscheidet man: - quantitative Merkmale, deren Merkmalsausprägungen (Stichprobenwerte) Zahlen sind, zwischen denen eine natürliche Größer-Kleiner-Beziehung besteht (Alter, Gewicht, ... ) - qualitative Merkmale, die sich nicht unmittelbar durch Zahlen kennzeichnen lassen (Farbe, Geschlecht, Familienstand, ... ). Qualitative Merkmale können gelegentlich mit Hilfe von Zahlen codiert sein; dann haben aber die Differenzen der Codes keine Bedeutung. Bei quantitativen Merkmalen ist eine weitere Unterscheidung notwendig: - diskrete Merkmale mit endlich oder abzählbar unendlich vielen möglichen Werten (Augenzahl beim Würfeln, Anzahl von Streichhölzern in einer Schachtel, ... ) Diskrete Merkmale treten vorzugsweise bei Zählungen auf; als Ausprägungen sind dann nur 0 , 1 , 2 , … möglich. - stetige Merkmale, die alle Zahlen eines Intervalls annehmen können (Körpergröße, Gewicht, ... ) Stetige Merkmale treten vorzugsweise bei Messungen auf. Bei qualitativen Merkmalen unterscheidet man zwischen - ordinal skalierten Merkmalen: Die Ausprägungen stehen in einer natürlichen Rangfolge, die Merkmalausprägungen lassen sich durch Größer-Kleiner-Beziehungen anordnen; z.B. Examensnoten, Güteklassen, … - nominal skalierten Merkmalen: Die Ausprägungen lassen sich nicht in eine Rangfolge bringen; eine Nominalskala dient nur zur Unterscheidung; z.B. Farben, Religion, Geschlecht, … 5 Statistik Inhalt und 1. Einleitung Kurzer Überblick über Datengewinnung: 1. Arten von Erhebungen • Totalerhebung (Vollerhebung) • Teilerhebung → → Grundgesamtheit Stichprobe 2. Durchführung von Teilerhebungen Möglichkeiten Stichprobenuntersuchungen durchzuführen sind: • Reine Zufallsstichproben • Schichtenstichproben: Einteilung der Grundgesamtheit in Schichten, die bezüglich des Untersuchungsmerkmals möglichst homogen sind. Anschließend wird aus jeder Schicht eine bestimmte Anzahl von Stichproben gezogen. • Klumpenstichproben: Wenn sich die Grundgesamtheit in „Klumpen“ zerlegen lässt, die möglichst genau wie die Grundgesamtheit zusammengesetzt sind. • Quotenverfahren: Durch Vorgabe von Quoten wird sichergestellt, dass die Stichprobe bei bestimmten Merkmalen wie z.B. Frau/Mann, Alter, Berufsgruppe,… die gleichen Anteile enthält wie die Grundgesamtheit → repräsentative Stichprobe. 3. Bereinigung von Daten • Behandlung von Ausreißern Als Ausreißer bezeichnet man Daten, die offenbar viel zu groß oder zu klein sind. Mögliche Vorgehensweisen: 1) Ausreißer identifizieren; 2) Überprüfen, gegebenenfalls berichtigen; 3) Wenn Ausreißer nicht berichtigt werden können, a) Datensatz streichen oder b) fehlerhafte Daten abändern (z.B. durch Ersetzen durch den Mittelwert der nicht fraglichen Daten) oder c) Datensatz unverändert beibehalten. Die Möglichkeiten b) und c) sollten nur mit größter Zurückhaltung angewandt Werden. Im Zweifelsfall wende man Möglichkeit a) an. Ähnlich wie bei Ausreißern geht man bei Werten vor, die zwar kein Ausreißer sind, die aber aus sonstigen Gründen unmöglich oder unplausibel erscheinen. • Behandlung fehlender Werte Das Vorgehen bei fehlenden Werten entspricht sinngemäß dem bei Ausreißern: 1) Fehlende Werte identifizieren; 2) überprüfen, gegebenenfalls ergänzen; 3) wenn die fehlenden Werte nicht ergänzt werde können, a) Datensatz streichen oder b) einen Ersatzwert (Mittelwert der nicht fehlenden Daten) berechnen. 6