Statistik Vorlesung und Übung für den Studiengang Informatik Modul „Anwendungsfach MA Modul 3“ (Modul-Nr.: 1327) Fakultät für Informatik Universität der Bundeswehr München HT 2010 Dozent: Dr. Max Krüger Vorabversion Organisatorisches: Ort und Zeit Termine Vorlesung und Übung: • Ort: Geb. 33 Raum 2216 • Termin: Montags: 13:15 -15:30 Uhr • Erster Vorlesungtermin: 04. Oktober 2010 • Letzter Vorlesungstermin: 13. Dezember 2010 • Insgesamt: 10 Termine Beachte: Keine Veranstaltung am 01. November 2010 (Feiertag) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 2 Organisatorisches: Allgemeines Ablauf: • Vorlesung (2 SWS) mit integrierten Übungen (1 SWS) • Grundlage: Vorlesung Wahrscheinlichkeitstheorie Unterlagen: • Folien enthalten die wesentlichen Inhalte und werden zu Verfügung gestellt. • Beispielrechnungen, Lösung der Übungsaufgaben und Beweise erfolgen in der Regel an der Tafel (und müssen ggf. mitgeschrieben werden). Klausur: • Schriftliche Prüfung von 45 Minuten Dauer • Termin (voraussichtlich) in der 50. oder 51. Kalenderwoche • Hilfsmittel: wird gesondert bekanntgegeben Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 3 Geplante Inhalte: (Schwerpunktthemen) • Deskriptive Statistik (1 Block) • Schätztheorie (3 Blöcke) • Testtheorie (3 Blöcke) • Regressionsanalyse (1 Block) • Varianzanalyse (1 Block) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 4 Inhaltsverzeichnis Kapitel: 1. Deskriptive Statistik 2. Zufallsstichproben 3. Schätztheorie 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 5 Begriffseinordnung (gem. [2]) • Stochastik ist ein Teilgebiet der angewandten Mathematik, das aus Wahrscheinlichkeitstheorie und (mathematischer) Statistik besteht und die Beschreibung und Modellierung zufälliger Ereignisse behandelt. • Die deskriptive Statistik (auch beschreibende Statistik) dient der beschreibenden und grafischen Aufbereitung und Komprimierung von Daten, insbesondere zur Präsentation von umfangreichen Datenmaterial. • Die induktive Statistik (auch schließende bzw. inferenzielle Statistik) stellt die Methoden bereit um statistische Schlüsse mittels stochastischer Modelle ziehen zu können. außerdem: • Die explorative Statistik befasst sich mit dem Auffinden von Strukturen, Fragestellungen und Hypothesen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 6 Inhaltsverzeichnis (1. Kapitel) 1. Deskriptive Statistik 1.1. Grundbegriffe 2. 3. 4. 5. 6. 1.2. Tabellarische und grafische Darstellungen von Daten 1.3. Lage- und Streuungsmaße Zufallsstichproben Schätztheorie Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [1], [2], [3], [4]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 7 Grundgesamtheit und Stichprobe • Als Grundgesamtheit (Population) einer statistischen Untersuchung bezeichnet man die Menge von räumlich und zeitlich eindeutig definierten Objekten, die hinsichtlich bestimmter – vom Ziel der Untersuchung abhängender – Kriterien übereinstimmen. • Die Elemente der Grundgesamtheit werden als statistische Einheiten (auch Merkmalsträger, Untersuchungseinheiten, Messobjekte) bezeichnet. Dies sind die Personen oder Objekte, deren Eigenschaften für die bestimmte Untersuchung von Interesse sind. • Ziel einer statistischen Untersuchung ist es, Aussagen über die Grundgesamtheit anhand der beobachteten Ausprägungen (Daten) der zu untersuchenden Eigenschaften der statistischen Einheiten zu treffen. • Eine Stichprobe ist (informell gesprochen) eine Teilmenge der Grundgesamtheit für die diese Daten ermittelt werden. Aus verschiedenen Gründen wird dabei selten die vollständige Grundgesamtheit betrachtet (Kosten- und Zeitaufwand, zerstörende Prüfung, etc.) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 8 Merkmale und Merkmalsausprägung • Als Merkmal bezeichnet man eine spezielle Eigenschaft statistischer Einheiten, die in Hinblick auf das Ziel der konkreten statistischen Untersuchung von Interesse ist. Die Begriffe Merkmal und Variable werden etwas ungenau häufig synonym verwendet. • Die möglichen Werte, die ein Merkmal annehmen kann bezeichnet man als Merkmalausprägungen. Die Menge aller möglichen Merkmalausprägungen heißt Wertebereich des Merkmals. • Multivariate (mehrdimensionale) Merkmale entstehen durch Kombination univariater (einzelner) Merkmale einer Einheit. • Ein zweidimensionales Merkmal heißt auch bivariat. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 9 Merkmalstypen (1): Qualitative versus quantitative Merkmale • Qualitative Merkmale sind solche Eigenschaften, die qualitativ, d.h. heißt der Beschaffenheit nach, artmäßig variieren. Sie besitzen nur endlich viele Ausprägungen. Beispiele: Geschlecht, Religion, Rechtsform von Unternehmungen. • Quantitative Merkmale sind dagegen solche Eigenschaften von statistischen Einheiten, die quantitativ, d.h. der Größe nach oder zahlenmäßig, variieren. Ihre Merkmalsausprägungen sind von vornherein Zahlen, mit oder ohne Maßeinheit. Beispiele: Alter, Kinderzahl, Einkommen, Körpergröße. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 10 Merkmalstypen (2): Diskrete versus kontinuierliche Merkmale • Diskrete Merkmale können nur ganz bestimmte (endlich viele oder abzählbar unendlich viele) abgestufte (Zahlen-)Werte als Merkmalsausprägung haben. Diskret sind alle Merkmale, deren Ausprägung man durch (Auf-)Zählen erhält, auch wenn keine Obergrenze vorhanden ist. Beispiele: Anzahl der Bauteile, Anzahl der Würfe mit einem Würfel. • Kontinuierliche Merkmale (auch stetige Merkmale) können in ein einem Intervall jeden reellen Wert als Ausprägung annehmen (überabzählbar unendlich viele verschiedene mögliche Merkmalsausprägungen innerhalb eines Intervalls). Stetig sind alle Merkmale, deren Ausprägungen gemessen werden. Beispiele: Zeit-, Längen- und Gewichtseinheiten. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 11 Merkmalstypen (3): Quasi-stetige Merkmale und diskrete Größenklassen • Quasi-stetige Merkmale besitzen sehr fein abgestufte diskrete Ausprägungen, die in der statistischen Praxis als stetig behandelt werden. Beispiele: Geld. • Im Prinzip werden stetige Merkmale durch den Meß- bzw. Erhebungsvorgang zu quasi-stetigen oder diskreten Merkmalen, da jede Messung aus technischen Gründen nur mit begrenzter Genauigkeit durchgeführt werden kann. Dadurch wird ein ursprünglich stetiges Intervall in diskrete Größenklassen aufgeteilt. Beispiele: Körpergröße. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 12 Skalierung von Merkmalen (1): Nominalskala, Ordinalskala, metrische Skala • Nominalskala: Die Ausprägungen eines nominalskalierten Merkmals können nicht geordnet werden. Der einzig mögliche Vergleich ist die Prüfung auf Gleichheit zweier Merkmalsausprägungen. Beispiel: Merkmal ´Geschlecht´ mit Ausprägungen ´männlich´ und ´weiblich´. • Ordinal- bzw. Rangskala: Die Merkmalsausprägungen können gemäß ihrer Größe, Intensität, o.ä. geordnet werden. Eine Interpretation der Rangordnung ist möglich. Abstände zwischen den Merkmalsausprägungen können jedoch nicht interpretiert werden. Beispiel: Merkmal ´Schulnote´. • Metrische Skala: Unter den Merkmalsausprägungen kann eine Rangordnung definiert werden, zusätzlich können Abstände zwischen den Merkmalsausprägungen gemessen und interpretiert werden. Beispiele: Merkmale ´Temperatur´, ´Semesterzahl´. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 13 Skalierung von Merkmalen (2): Intervall-, Verhältnis- und Absolutskala Metrische Skalen können weiter unterteilt werden in … • Intervallskala: Es sind nur Differenzenbildungen zwischen den Merkmalsausprägungen zulässig. Daher können nur Abstände verglichen werden. Beispiel: Merkmal ´Temperatur´ (kein natürlicher Nullpunkt!). • Verhältnisskala: Erweiterung der Intervallskala, in der zusätzlich ein natürlicher Nullpunkt existiert. Die Bildung von Quotienten ist zulässig, Verhältnisse sind damit sinnvoll interpretierbar. Beispiel: Merkmal ´Geschwindigkeit´. • Absolutskala: Erweiterung der Verhältnisskala, in der auch noch zusätzlich eine natürliche Einheit vorhanden ist. Beispiele: Merkmal ´Semesterzahl´ . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 14 Skalierung von Merkmalen (3): Rangordnung der Skalenarten • Zwischen den vorgestellten Skalenarten besteht eine Rangordnung, die sich in der Anwendbarkeit statistischer Begriffe und Verfarhren widerspiegelt. In aufsteigender Rangfolge sind dies: – Nominalskala, – Ordinal- bzw. Rangskala, – Intervallskala und – Verhältnisskala/Absolutskala. • Jedes Merkmal kann auch auf einer niedrigeren Skala gemessen werden, dies ist jedoch (üblicherweise) mit einem Informationsverlust verbunden. Beispiel: Das Merkmal ´Temperatur´ kann auch auf einer Ordinalskala mit den Ausprägungen ´kalt´, ´normal´, ´warm´ und ´heiß´ gemessen werden. Die so gemessenen Temperaturangaben sind aber wesentlich weniger aussagekräftig als Temperaturen, die auf der Celsius-Skala gemessen werden. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 15 Inhaltsverzeichnis (1. Kapitel) 1. Deskriptive Statistik 1.1. Grundbegriffe 1.2. Tabellarische und grafische Darstellungen von Daten 2. 3. 4. 5. 6. 1.3. Lage- und Streuungsmaße Zufallsstichproben Schätztheorie Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [1], [3], [7]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 16 Absolute Häufigkeit Definition 1.1: Für ein Merkmal mit den möglichen Ausprägungen liege die Stichprobe vom Umfang vor. Die Zahl gibt die Anzahl des Auftretens der Merkmalsausprägung in der Stichprobe an und heißt die absolute Häufigkeit der Beobachtung , . Bezeichnet die Anzahl von Elementen der Menge so gilt also . Eigenschaft: Offensichtlich muss Universität der Bundeswehr München Fakultät für Informatik , gelten. Vorlesung Statistik im HT 2010 Vorabversion 17 Relative Häufigkeit Definition1.2: Die absolute Häufigkeit der Merkmalsausprägungen Stichprobe sei durch gegeben, Für heißt der Quotient Merkmalsausprägung . Eigenschaft: Offensichtlich muss Universität der Bundeswehr München Fakultät für Informatik für in der . die relative Häufigkeit der und Vorlesung Statistik im HT 2010 Vorabversion gelten. 18 Darstellungsarten (1): Häufigkeitstabelle Bildquelle: [7] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 19 Darstellungsarten (2): Stabdiagramm Bildquelle: [1] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 20 Darstellungsarten (3): Säulendiagramm Bildquelle: [3] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 21 Darstellungsarten (4): Balkendiagramm Bildquelle: [1] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 22 Darstellungsarten (5): Box-Plot Bildquelle: [3] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 23 Darstellungsarten (6): Liniendiagramm Bildquelle: [3] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 24 Darstellungsarten (7): Netzdiagramm Bildquelle: http://www.controllingportal.de/Fachinfo/Excel-Tipps/Das-Erstellen-von-Netzdiagrammen.html Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 25 Darstellungsarten (8): Kreisdiagramm Quelle: [1] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 26 Darstellungsarten (9): Histogramm Quelle: [3] Bildquelle: [3] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 27 Darstellungsarten (10): Histogramm (Pyramide) Quelle: [1] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 28 Experiment: Ablesen von Prozentdarstellungen In jedem dieser sechs Schaubilder setzen Sie bitte nach Ihrem ersten Eindruck ohne weitere Überlegung die Prozentsätze für die einzelnen Anteile ein. (Zeitansatz: 3 min) Aufgaben- und Bildquelle: [6] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 29 Auswertung (1): Schema A Lösung Ihre Schätzung Delta B Lösung Ihre Schätzung Delta C Lösung a 5% a 37% a 58 % b 7% b 31 % b 32 % c 11 % c 10 % c 3% d 24 % d 14 % d 4% e 53 % e 8% e 3% Summe der Delta-Werte D Lösung Ihre Schätzung Summe der Delta-Werte Delta E Lösung Ihre Schätzung Delta F Lösung 7% a 7% a 5% b 6% b 15 % b 7% c 17 % c 18 % c 11 % d 16 % d 28 % d 24 % e 54 % e 42 % e 53 % Universität der Bundeswehr München Fakultät für Informatik Delta Summe der Delta-Werte a Summe der Delta-Werte Ihre Schätzung Summe der Delta-Werte Vorlesung Statistik im HT 2010 Vorabversion Ihre Schätzung Delta Summe der Delta-Werte 30 Auswertung (2): Beispiel A Lösung Ihre Schätzung DeltaBetrag B Lösung Ihre Schätzung DeltaBetrag C Lösung Ihre Schätzung DeltaBetrag a 5% 2% 3 a 37% 40 % 3 a 58 % 60 % 2 b 7% 6% 1 b 31 % 40 % 9 b 32 % 20 % 12 c 11 % 12 % 1 c 10 % 6% 4 c 3% 10 % 7 d 24 % 30 % 6 d 14 % 6% 8 d 4% 5% 1 e 53 % 50 % 3 e 8% 8% 0 e 3% 5% 2 14 Summe der Delta-Werte 24 Summe der Delta-Werte Summe der Delta-Werte D Lösung Ihre Schätzung DeltaBetrag E Lösung Ihre Schätzung DeltaBetrag F Lösung 24 Ihre Schätzung DeltaBetrag a 7% 12 % 5 a 7% 5% 2 a 5% 5% 0 b 6% 8% 2 b 15 % 15 % 0 b 7% 7% 0 c 17 % 20 % 3 c 18 % 20 % 2 c 11 % 12 % 1 d 16 % 20 % 4 d 28 % 25 % 3 d 24 % 21 % 3 e 54 % 40 % 14 e 42 % 35 % 7 e 53 % 55 % 2 28 Summe der Delta-Werte 14 Summe der Delta-Werte Summe der Delta-Werte Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 6 31 Auswertung (3): Folgerung Frage: Welche Folgerung ziehen Sie aus diesem kleinen Experiment? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 32 Inhaltsverzeichnis (1. Kapitel) 1. Deskriptive Statistik 1.1. Grundbegriffe 1.2. Tabellarische und grafische Darstellungen von Daten 1.3. Lage- und Streuungsmaße 2. 3. 4. 5. 6. Zufallsstichproben Schätztheorie Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [2], [7]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 33 Prinzipielles zu Lage- und Streumaßen Beim Vergleich von Stichproben bzw. den ihnen zugrundeliegenden Verteilungen ergeben sich oftmals Fragen der folgenden Art: • Wo liegt das Zentrum? • Ist die Verteilung symmetrisch oder schief? • Gibt es Ausreißer? • etc. . Maßzahlen beschreiben diese Eigenschaften der Stichproben in komprimierter Form durch numerische Werte formal. Lagemaße beschreiben das Zentrum einer Stichprobe. Welches Lagemaß bei einer bestimmten Fragestellung sinnvoll ist, hängt vom Kontext, von der Datensituation und vom Skalenrangniveau des Merkmals ab. Streuungsmaße beschreiben die Streuung, d.h. die Abstandseigenschaften der einzelnen Stichprobenwerte von Mittelwerten. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 34 Empirischer Mittelwert (Lagemaß) Definition 1.3: Sei eine Stichprobe vom Umfang , dann heißt der (empirische) Mittelwert (arithmetisches Mittel) der Stichprobe . Eigenschaften: Der empirische Mittelwert reagiert empfindlich auf (einzelne) extreme Werte oder Ausreißer in den Daten. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 35 Empirischer Median (Lagemaß) Definition 1.4: Sei eine Stichprobe vom Umfang . Die der Größe nach geordneten Werte der Stichprobe bezeichnen wir mit . Es gilt also . Dann heißt der durch diese geordnete Stichprobe eindeutig bestimmte Zahlenwert , falls ungerade ist, , falls gerade ist der (empirische) Median (Zentralwert) der Stichprobe. Eigenschaften: Der empirische Median ist sowohl größergleich als auch kleinergleich jeweils der Hälfte aller Datenwerte. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 36 Modalwert (Lagemaß) Definition 1.5: Jeder Merkmalswert, der in einer Stichprobe am häufigsten vorkommt heißt Modalwert (auch Modus bzw. Mode) der Stichprobe. Bemerkung: Der Modalwert ist nicht immer eindeutig definiert und nur für diskrete Merkmale (ohne Weiteres) sinnvoll definiert. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 37 Geometrisches Mittel (Lagemaß) Definition 1.6: Sei eine Stichprobe vom Umfang das geometrische Mittel der Stichprobe , dann heißt . Bemerkung: Das geometrische Mittel wird in der Regel im Zusammenhang mit Wachstums- oder Zinsfaktoren verwendet, die über mehrere Zeitperioden beobachtet werden. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 38 Harmonisches Mittel (Lagemaß) Definition 1.7: Sei eine Stichprobe vom Umfang das harmonische Mittel der Stichprobe Universität der Bundeswehr München Fakultät für Informatik , dann heißt . Vorlesung Statistik im HT 2010 Vorabversion 39 Spannweite (Streuungsmaß) Definition 1.8: Sei eine Stichprobe vom Umfang . Die Differenz heißt die Spannweite der Stichprobe. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 40 Mittlere absolute Abweichung bezüglich Mittelwert/Median (Streuungsmaße) Definition 1.9: Sei eine Stichprobe vom Umfang mit dem empirischen Mittelwert und dem empirischen Median . • Die mittlere absolute Abweichung bezüglich des Mittelwerts ist definiert durch . • Die mittlere absolute Abweichung bezüglich des Medians durch . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion ist definiert 41 Empirischer Varianz und Standardabweichung (Streuungsmaße) Definition 1.10: Sei eine Stichprobe vom Umfang empirischen Mittelwert , dann heißt mit und dem die (empirische) Varianz der Stichprobe und die positive Quadratwurzel der empirischen Varianz heißt die die (empirische) Standardabweichung der Stichprobe. Bemerkung: Die empirische Standardabweichung gewichtet größere Abweichungen vom Mittelwert stärker als die mittlere absolute Abweichung. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 42 Inhaltsverzeichnis (2. Kapitel) 1. Deskriptive Statistik 2. Zufallsstichproben 3. 4. 5. 6. Schätztheorie Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 43 Zufallsstichprobe • Um mit Hilfe von Stichproben (wahrscheinlichkeitstheoretische) Aussagen über Zufallsvariablen bzw. über unbekannte Wahrscheinlichkeiten überprüfen zu können müssen die Stichprobenwerte durch Zufallsexperimente gewonnen werden, wobei die entsprechenden Zufallsexperimente die Zufallsvariablen eindeutig festlegen müssen. Solche Stichproben heißen Zufallsstichproben. • Vereinbarung: In der induktiven Statistik betrachten wir im Folgenden nur noch Zufallsstichproben, die wir der Kürze halber wiederum Stichproben nennen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 44 Realisierung von Zufallsvariablen und Zufallsvektoren Bezeichnungsweisen: • Die Zufallsvariable liefert für bei der Durchführung des entsprechenden Zufallsexperiments den Stichprobenwert , der auch Realisierung von genannt wird. • Die Zufallsstichprobe sogenannten Zufallsvektors aufgefasst. Universität der Bundeswehr München Fakultät für Informatik wird als Realisierung des der Zufallsstichprobe Vorlesung Statistik im HT 2010 Vorabversion 45 Unabhängige und einfache Stichproben Definition 2.1: Eine Stichprobe heißt unabhängig, wenn die entsprechenden Zufallsvariablen (stochastisch) unabhängig sind, wenn also für beliebige reelle Zahlen gilt: . Die Stichprobe heißt einfach, wenn die Zufallsvariablen unabhängig sind und alle dieselbe Verteilungsfunktion besitzen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 46 Erzeugung von einfachen Zufallsstichproben Erzeugung: Wird ein Zufallsexperiment -mal (unabhängig voneinander) unter denselben Bedingungen durchgeführt, und ist die Realisierung der Zufallsvariable bei der -ten Versuchdurchführung für , so ist eine einfache Stichprobe. Beispiele: • Die Augenzahlen, die man beim 100-maligen, unabhängigen Werfen eines Würfels erhält. • Die Gewichte von 200 zufällig ausgewählten Zuckerpaketen aus der Produktion. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 47 Auswahl von Merkmalsträgern für eine einfache Zufallsstichprobe Auswahl von Merkmalsträgern: Wählt man im Rahmen einer Versuchsdurchführung zur Erzeugung einer einfachen Zufallsstichprobe die Merkmalsträger zufällig aus, für die die Zufallsvariablen dann durch Messung realisiert werden, so ist darauf zu achten, dass jeder Merkmalsträger der Grundgesamtheit die gleiche Chance hat, ausgewählt und untersucht zu werden. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 48 Beispiel zur Auswahl von Merkmalsträgern Beispiel: Öffnet man einen Käfig, in dem sich 30 Kaninchen (Grundgesamtheit) befinden, und wählt man fünf Tiere aus, die sich nach dem Öffnen in der Nähe der Türe befinden, so ist diese Stichprobe im Allgemeinen nicht repräsentativ für die Grundgesamtheit: Man würde vermutlich nur zahme oder kranke Tiere auswählen. Frage: Wie könnte man in dieser Situation eine repräsentative Stichprobe erhalten? Anwort: Man nummeriert die Tiere mit 1 bis 30 durch und wählt mittels eines Zufallsmechanismus fünf Zahlen, wobei gewährleistet sein muss, dass jede der Auswahlmöglichkeiten gleich wahrscheinlich ist. Abschließend werden die zu den Nummern gehörenden Tiere aus dem Käfig geholt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 49 Übungsaufgaben 2.1 1. Die Teilnehmer an der Fernsehsendung Pro und Contra werden aus dem Telefonbuch der Stadt München zufällig ausgewählt. Handelt es sich bei diesem Auswahlverfahren um eine repräsentative Stichprobe der Münchener Bevölkerung? 2. In einer Schule sollen für einen Schüleraustausch 10 Schüler zufällig ausgewählt werden. Zunächst wird eine der in Frage kommenden Klassen zufällig ausgewählt und daraus anschließend 10 Schüler. a) Ist dieses Auswahlverfahren gerecht, d.h. sind die ausgewählten Schüler repräsentativ? b) Ändert sich etwas, wenn die zufällige Auswahl der Klasse vor der Auswahl des nächsten Schülers erneut erfolgt? 3. An einem Auslosungsverfahren für 1000 Studienplätze für Medizin nahmen sechs Abiturienten der gleichen Schule teil. Sie erhielten die Platznummern 601, 610, 623, 680, 910, 941. Die Chancengleichheit der Auslosung wurde von ihnen angezweifelt mit dem Hinweis, dass 4 bzw. 2 von ihnen in der gleichen Hundertergruppe sind. Sie meinten, bei einer gleichwahrscheinlichen Auslosung müssten die 6 Zahlen gleichmäßiger verteilt sein. Ist dieser Einwand berechtigt? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 50 Inhaltsverzeichnis (3. Kapitel) 1. 2. Deskriptive Statistik Zufallsstichproben 3. Schätztheorie 3. 4. 5. 6. 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle Schätztheorie Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 51 Erinnerung: Binomialverteilung Quelle: Wahrscheinlichkeitstheorie FT 2010 Foliensatz der 2. Vorlesung von Dr. Th. Krieger Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 52 Einführendes Beispiel: Fairer Münzwurf Eine Entscheidung unter Freunden soll per Münzwurf gefällt werden. Zurerst soll aber die Münze auf „Fairness“ geprüft werden. Dazu wird die Münze 10 mal geworfen und man notiert den Wert der Zufallsvariable , die festhält wie oft insgesamt Kopf gefallen ist. In dieser Situation ist der Verteilungstyp bekannt: Ist die Wahrscheinlichkeit, dass Kopf fällt, so ist binomialverteilt mit den Einzelwahrscheinlichkeiten , dass -mal Kopf gezählt wird. Um zu entscheiden, ob die Münze fair ist, versucht man anhand der erhobenen Daten auf zu schließen. Man „schätzt“ also den Parameter . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 53 Aufgabenstellung beim Schätzen Die folgende Aufgabenstellung kommt bei statistischen Analysen häufiger vor: Der Typ der Verteilung (auch Verteilungsklasse genannt) ist bekannt, einer oder mehrere Parameter der Verteilung sind jedoch unbekannt. Die Aufgabe besteht nun darin, die Parameter aus einer Stichprobenerhebung zu schätzen: Auf Basis einer Stichprobe wird über eine Funktion der Stichprobenwerte eine Aussage darüber getroffen, welche geschätzten Werte die unbekannten Parameter vermutlich haben. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 54 Fragestellungen beim Schätzen • Welche Arten von Schätzern sind möglich? Gibt man für einen gesuchten Parameter einen Wert an, oder gibt man einen Bereich an, der die tatsächliche Lage des Parameter wahrscheinlich abdeckt? – Punktschätzung – Intervallschätzung • Welche Ansprüche stellt man an einen Schätzer? Was ist ein „guter“ Schätzer? – Erwartungstreue – Konsistenz – Effizienz • Wie kommt man zu einem Schätzer? Nach welchen Prinzipien kann man Schätzer konstruieren? – Momentenmethode – Maximum-Likelihood-Methode – Methode der kleinsten Quadrate Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 55 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 4. 5. 6. 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle Testtheorie Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8], [9]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 56 Parameterraum Definition 3.1: Sei eine dem Typ nach bekannte Verteilung für die der Parameter unbekannt ist. Die Menge , die alle möglichen Werte des unbekannten Parameters enthält, heißt Parameterraum. Beispiel: Im einführenden Beispiel des „Fairen Münzwurfs“ war der unbekannte Parameter aus dem Parameterraum zu schätzen. Hinweis: Man beachte das der Parameter(raum) auch vektorwertig sein kann. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 57 Schätzfunktion, Schätzwert Definition 3.2: Sei der unbekannte Parameter der Verteilung der Zufallsvariable und sei der Zufallsvektor einer einfachen (Zufalls-) Stichprobe. Eine (messbare) Funktion heißt eine Schätzfunktion (auch Schätzer, Schätzung, Statistik) von . ist wiederum eine Zufallsvariable. Für eine konkrete Stichprobe ergibt sich der Schätzwert als beobachtete Realisation des Zufallsvariable . Frage: Wie könnte eine Schätzfunktion für den Parameter Münzwurfs“ aussehen? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion im Beispiel des „Fairen 58 Erwartungstreue Schätzfunktionen Definition 3.3: • Eine Schätzfunktion unbekannten Parameter • Eine Folge funktionen für für den heißt erwartungstreu, wenn gilt: . von Schätzheißt asymptotisch erwartungstreu, wenn gilt: . Bemerkung: Erwartungstreue oder zumindest asymptotische Erwartungstreue ist sicherlich eine Eigenschaft, die man von einer „guten“ Schätzfunktion erwartet. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 59 Beispiele zu erwartungstreuen Schätzfunktionen Sei der Zufallsvektor einer einfachen Stichprobe, d.h. die Zufallsvariablen sind unabhängig und identisch verteilt, wobei Erwartungswert und Varianz unbekannte Parameter der zugrunde liegenden Verteilung der seien. Dann ist … 1. … der emprischer Mittelwert für den Erwartungswert . 2. … die empirische Varianz Schätzer für die Varianz . 3. … die Schätzfunktion erwartungstreuer Schätzer erwartungstreuer „nur“ asymptotisch erwartungstreuer Schätzer für die Varianz . Beweis: Teil 1.: Übungsaufgabe 3.1, Teil 2. und 3. siehe Tafel. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 60 Übungsaufgabe 3.1 Beweisen Sie, dass unter den Voraussetzungen der vorangehenden Beispiele der empirische Mittelwert ein erwartungstreuer Schätzer für den Erwartungswert ist. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 61 Konsistente Schätzfunktionen Definition3.4: Eine Folge funktionen für von Schätzheißt konsistent, wenn für jedes gilt: . Bemerkung: • Bei konsistente Schätzfunktionen wird also die Wahrscheinlichkeit, dass die Schätzung von um mehr als abweicht beliebig klein, sobald nur die Stichprobengröße groß genug gewählt wird. • Ähnlich zur asymptotischen Erwartungstreue ist auch Konsistenz eine relativ schwache Forderung an einen Schätzer, die man von einem „guten“ Schätzer mindestens erwartet. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 62 Effiziente Schätzfunktionen Definition 3.5: Eine erwartungstreue Schätzfunktion für heißt effizient (auch wirksamste Schätzfunktion), wenn es keine andere erwartungstreue Schätzfunktion mit kleinerer Varianz gibt, d.h. für alle ewartungstreuen Schätzer . Bemerkung: Bei allen Verteilungen mit endlicher Varianz ist der emprischer Mittelwert effiziente Schätzfunktion für den Erwartungswert . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 63 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.2.1 Momentenmethode 3.2.2 Maximum-Likelihood-Methode 3.2.3 Methode der kleinsten Quadrate 3.3. Konfidenzintervalle 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [8], [10], [11]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 64 Erinnerung: Momente einer Zufallsvariablen Quelle: Wahrscheinlichkeitstheorie FT 2010 Foliensatz der 7. Vorlesung von Dr. Th. Krieger Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 65 Empirische (zentrale) Momente Definition3.6: Sei der Zufallsvektor einer einfachen Stichprobe. • Das -te empirische Moment ist definiert als . • Das -te empirische zentrale Moment ist definiert als . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 66 Grundidee der Momentenmethode Grundidee der Momentenmethode: Man erhält eine Schätzfunktion nach der Momentenmethode, wenn man den zu schätzenden Parameter durch die Momente der Verteilung (theoretische Momente) ausdrückt und diese in der so erhaltenen Formel durch die empirischen Momente ersetzt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 67 Schema der Momentenmethode Problemstellung: Gegeben sei ein Schätzproblem, bei dem eine Schätzfunktion für die unbekannten Parameter einer Verteilung gegebenem Verteilungstyp konstruiert werden soll. bei Vorgehen: 1. Suche nach einem Satz von funktionalen Beziehungen, die verschiedene Momente ( mit oder ) der Zufallsvariablen in Abhängigkeit von den gesuchten Parametern ausdrückt: für . 2. Löse das Gleichungssystem der funktionalen Beziehungsgleichungen (soweit möglich) nach den gesuchten Parametern auf: mit . 3. Eine Schätzfunktion für die unbekannten Parameter erhält man dann, wenn man in 2. die Momente durch ihr empirisches Pendant bzw. ersetzt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 68 Beispiel zur Anwendung der Momentenmethode Die Zufallsvariable besitze die Dichtefunktion (Normalverteilung) mit den unbekannten Parametern , . Mit der Momentenmethode sollen nun Schätzfunktionen für die beiden Parameter konstruiert werden, die auf einer - elementigen Stichprobe basieren. Konstruktion: siehe Tafel (vgl. [8]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 69 Eigenschaften der Momentenmethode • Der Vorteil der Momentenmethode ist die oft gegebene Einfachheit ihrer Anwendung. • Die Momentenmethode liefert jedoch nicht grundsätzlich die im statistischen Sinne „besten“ Schätzer. Beispielsweise sind Eigenschaften wie Erwartungstreue oder Effizienz nicht immer gegeben. • Die Existenz eines Momentschätzers ist zudem nicht sichergestellt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 70 Übungsaufgabe 3.2 Die Zufallsvariable für und besitze die Dichtefunktion sonst (Exponentialverteilung). mit Konstruieren Sie mit Hilfe der Momentenmethode eine Schätzfunktion für den Parameter basierend auf einer -elementigen Stichprobe. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 71 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.2.1 Momentenmethode 3.2.2 Maximum-Likelihood-Methode 3.2.3 Methode der kleinsten Quadrate 3.3. Konfidenzintervalle 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [8], [9]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 72 Likelihood-Funktion einer diskrete Zufallsvariable Definition 3.7: Sei diskrete Zufallsvariable mit dem Wertevorrat den Einzelwahrscheinlichkeiten die von dem unbekannten Parameter Für die gegebene einfache Stichprobe Zufallsvariable heißt die Funktion die Likelihood-Funktion des Parameters bei gegebener Stichprobe Universität der Bundeswehr München Fakultät für Informatik und mit , abhängen. der diskreten definiert durch für die diskrete Zufallsvariable . Vorlesung Statistik im HT 2010 Vorabversion 73 Interpretation der Likelihood-Funktion einer diskreten Zufallsvariable Interpretation: Der Wert der Likelihood-Funktion an der Stelle beschreibt die Wahrscheinlichkeit der Realisierung der einfachen Stichprobe , wenn der wahre (unbekannte) Parameter gerade wäre. Bemerkung: Man beachte, dass die Parameter (bzw. Variablen) der Einzelwahrscheinlichkeiten in der Likelihood-Funktion gerade Variablen (bzw. Parameter) sind. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 74 Likelihood-Funktion einer stetigen Zufallsvariable Definition 3.8: Sei stetige Zufallsvariable mit der Dichtefunktion die von dem unbekannten Parameter abhängt. Für die gegebene einfache Stichprobe der stetigen Zufallsvariable heißt die Funktion definiert durch die Likelihood-Funktion des Parameters bei gegebener Stichprobe Universität der Bundeswehr München Fakultät für Informatik für die stetige Zufallsvariable . Vorlesung Statistik im HT 2010 Vorabversion 75 Interpretation der Likelihood-Funktion einer stetigen Zufallsvariable Interpretation: Für kleines gilt approximativ Damit beschreibt der mit . multiplizierte Wert der Likelihood-Funktion an der Stelle approximativ die Wahrscheinlichkeit der Realisierung einer einfachen -elementigen Stichprobe im - dimensionalen Intervall , wenn der wahre (unbekannte) Parameter gerade Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion wäre. 76 Grundidee der Maximum-Likelihood-Methode Nach dem sogenannten Maximum-Likilihood-Prinzip erhält man eine Schätzfunktion für den unbekannten Parameter, indem man zu jeder vorgelegten Realisierung einer Stichprobe denjenigen Parameterwert aus dem Parameterraum als Schätzer für den unbekannten Parameter wählt, der der vorgelegten Stichprobenrealisierung die größte Wahrscheinlichkeit zuordnet. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 77 Maximum-Likelihood-Schätzer Definition 3.9: Unter den Voraussetzungen von Def. (3.8) bzw. (3.9) heißt der Parameterwert ein Maximum-Likelihood-Schätzer, falls gilt: . Durch die Abbildung ist (sofern sie existiert) ein Schätzfunktion für den Parameter Maximum-Likelihood-Methode gegeben. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion nach der 78 Praktische Berechnung der Maximum-Likelihood-Schätzers Berechungsansatz: (1) Häufig kann man für eine gegebene einfache Stichprobe einen Maximum-Likelihood-Schätzer berechnen, indem man das Maximum der Funktion durch Lösung des Gleichungssystems , mit ... , berechnet. (2) Ist die Exponentialfunktion in den Einzelwahrscheinlichkeiten oder der Dichtefunktion enthalten, so ist es rechnerisch häufig einfacher und bequemer, statt des Gleichungssystem aus (1) das folgende System zu lösen: , Universität der Bundeswehr München Fakultät für Informatik ... , Vorlesung Statistik im HT 2010 Vorabversion . 79 Beispiel zur Anwendung der Maximum-Likelihood-Methode Die Zufallsvariable mit , besitze die Dichtefunktion (Normalverteilung). Konstruieren Sie mit Hilfe der Maximum-Likelihood-Methode eine Schätzfunktion für die Parameter basierend auf einer -elementigen Stichprobe. Konstruktion: siehe Tafel (vgl. [1]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 80 Bemerkungen zur Maximum-Likelihood-Methode • Die Schätzer die man aus der Maximum-Likelihood-Methode und der Momentenmethode erhält können –müssen aber nicht– übereinstimmen. • Der Maximum-Likelihood-Methode liegt ein zu lösendes Maximierungsproblem zugrunde, dass oft mit den bekannten Ansätzen aus der Analysis gelöst werden kann. Gibt es mehrere Maxima, so muss das (ein) globales Maximum bestimmt werden. • Der Ansatz der Maximum-Likelihood-Methode basiert wesentlich auf der Einfachheit der Stichprobe (Unabhängigkeit der einzelnen Stichprobenziehungnen). • Eine Likelihood-Funktion kann vor der Maximumbestimmung einer streng monoton wachsenden Transformation unterworfen werden. Dadurch kann u.U. die Berechnung wesentlich vereinfacht werden. In vielen Fällen bietet sich hierfür Logarithmieren an. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 81 Übungsaufgabe 3.3 Um den Anteil der mit Herpesviren infizierten Personen in der Bevölkerung zu schätzen, wird eine repräsentative Stichprobe vom Umfang gezogen. Es bezeichne die Anzahl der Infizierten in der Stichprobe. Die Wahrscheinlichkeit, dass genau Infizierte in der Stichprobe enthalten sind ist Binomial-verteilt mit den Einzelwahrscheinlichkeiten (d.h. der Massefunktion) für . Konstruieren Sie mit Hilfe der Maximum-Likelihood-Methode eine Schätzfunktion für den Parameter . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 82 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.2.1 Momentenmethode 3.2.2 Maximum-Likelihood-Methode 3.2.3 Methode der kleinsten Quadrate 3.3. Konfidenzintervalle 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [13], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 83 Grundproblemstellung der Methode der kleinsten Quadrate Es werden Paare von Messungen durchgeführt und als Punkte in ein Koordinatensystem eingetragen. Beispiel: Temperatur eines Eisenstabes, Länge des Eisenstabes. Fragestellung: Wie kann man diesen Punkten eine möglichst einfache Kurve möglichst gut anpassen? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 84 Zugrundeliegende Modellvorstellung der Methode der kleinsten Quadrate • Die Zufallsvariable wird durch die Werte einer (nicht notwendigerweise zufälligen) Größe derart beeinflusst, dass der Erwartungswert von durch den jeweiligen -Wert eindeutig durch eine Funktion bestimmt ist: . • Für die zufällige Abweichung soll die Varianz von den -Werten unbeeinflusst sein. • Für je zwei verschiedene Werte und sollen und unkorrelliert sein. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 85 Problemstellung bei der Methode der kleinsten Quadrate Insgesamt erhalten wir das folgende Modell: mit den o.a. Eigenschaften der Varianz für verschiedene Werte , . Problemstellung: Die Funktion mit Universität der Bundeswehr München Fakultät für Informatik und Unkorrelliertheit von und ist unbekannt und soll auf Basis der Stichprobe approximiert werden. Vorlesung Statistik im HT 2010 Vorabversion 86 Summe der quadratischen Abweichungen Definition 3.10: Sei eine -elementige Stichprobe und eine approximierende Funktion, dann ist die Summe der quadratischen Abweichungen der Stichprobe von der Funktion definiert durch . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 87 Schema der Methode der kleinsten Quadrate Um den funktionalen Zusammenhang der einer gegebenen Stichprobe zugrunde liegt zu beschreiben, geht man wie folgt vor: 1. 2. Auf Grundlage der Betrachtung der vorgelegten Stichprobendaten gibt man einen Funktionstyp vor, der durch geeignete Festlegung des „freien“ Parameters an die Stichprobe angepasst wird. Häufig wird eine lineare, quadratische oder exponentielle Funktion zugrunde gelegt. Bei der Methode der kleinsten Quadrate wird ein geschätzter Wert für den Parameters durch Minimierung der Summe der quadratischen Abweichungen bestimmt: . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 88 Beispiel zur Anwendung der Methode der kleinsten Quadrate Gegeben sei die Stichprobe . Bekannt sei, dass sich der Einfluss der -Werte auf den Erwartungswert der Zufallsvariable durch einen linearen Zusammenhang darstellen lässt. Mittels der Methode der kleinsten Quadrate sollen die Parameter und geschätzt werden. Konstruktion: siehe Tafel (vgl. [13]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 89 Übungsaufgabe 3.4 Bestimmen Sie einen Schätzwert für den Erwartungswert einer einfachen Stichprobe einer Zufallsvariable mittels der Methode der kleinsten Quadrate. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 90 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle 3.3.1 Grundbegriffe 3.3.2 Intervall für bei Normalverteilung mit bekanntem 3.3.3 Intervall für und bei Normalverteilung 3.3.4 Intervall für bei großen Stichprobenumfängen 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 91 Ziel einer Intervallschätzung Das Ziel einer Intervallschätzung (bzw. der Bestimmung eines Konfidenzintervalls) besteht darin, auf Grundlage einer Stichtprobe den unbekannten (eindimensionalen) Parameter einer Verteilung so zu schätzen, dass … • … als Schätzergebnis ein Intervall auftritt. • … die Wahrscheinlichkeit, mit der das verwendete Verfahren ein Intervall liefert, dass den wahren -Wert enthält, gleich einem vorgegebenem (hohen) Wert ist. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 92 Intervallschätzung Die Intervallschätzung eines unbekannten (eindim.) Parameters legt die Intervallgrenzen aufgrund des Stichprobenergebnisses als Realisierungen von zwei Stichprobenfunktionen und fest, für die folgende Eigenschaften erfüllt sind: (1) Es gilt sicher , d.h. für alle Realisierungen gilt . (2) Die Wahrscheinlichkeit, dass der wahre -Wert von den beiden Stichprobenfunktionen eingeschlossen wird ist gleich einem vorgegebenem Wert , also . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 93 Definition Konfidenzintervall Definition 3.9: Bei der Intervallschätzung eines unbekannten (eindim.) Parameters seien und zwei Stichprobenfunktionen mit den Eigenschaften (1) bzw. gilt sicher und (2) , so heißt … • … das Zufallsintervall ein Konfidenzintervall für zum Konfidenzniveau (bzw. zur Vertrauenswahrscheinlichkeit) . • … die Realisierung von das Ergebnis der Intervallschätzung (oder auch das Schätzintervall bzw. Konfidenzintervall zu der zugrunde liegenden Stichprobe). Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 94 Konfidenzniveau und Irrtumswahrscheinlichkeit Sei ein Konfidenzintervall für zum Konfidenzniveau . • Das Konfidenzniveau legt fest, mit welcher Wahrscheinlichkeit durch Einsetzen des Stichprobenergebnisses in ein Intervall entsteht, dass den unbekannten Parameterwert enthält. • Der Wert heißt Irrtumswahrscheinlichkeit. Diese misst die Wahrscheinlichkeit ein Schätzintervall zu erhalten, das nicht einschließt. Frage: Ist die folgende Formulierung „Das Konfidenzintervall einer Stichprobe bei einem Konfidenzniveau enthält den wahren Parameterwert mit der Wahrscheinlichtkeit .“ sinnvoll bzw. richtig? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 95 Symmetrische Konfidenzintervalle Definition 3.10: Ein Konfidenzintervall für heißt symmetrisch, wenn gilt, d.h. wenn also die Wahrscheinlichkeiten übereinstimmen, dass große und zu kleine Werte annimmt. zu Anmerkung: Unter einer Intervallschätzung verstehen wir im Folgenden immer die Realisierung eines symmetrischen Konfidenzintervalls. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 96 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle 3.3.1 Grundbegriffe 3.3.2 Intervall für bei Normalverteilung mit bekann. 3.3.3 Intervall für und bei Normalverteilung 3.3.4 Intervall für bei großen Stichprobenumfängen 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 97 Definition -Quantil Definition 3.11: Sei eine stetige Zufallsvariable mit Verteilungsfunktion , und sei , dann heißt der Wert ein -Quantil (Fraktil) der Verteilung von , falls gilt. D.h., tritt also genau mit der Wahrscheinlichkeit ein: . Bildquelle: http://www.wior.uni-karlsruhe.de/LS_Neumann/Lehre/SS2004/POM/alpha-Quantil%20(stetige%20ZV).gif Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 98 Beispiel zur Bestimmung des -Quantils der Normalverteilung aus der Tabelle Quellen: [15] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 99 Tabelle des -Quantils der Standardnormalverteilung (Quelle: [15]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 100 Konfidenzintervall für Erwartungswert bei bekannter Varianz unter Satz 3.12: Sei eine normalverteilte Zufallsvariable mit unbekanntem Parameterwert und bekannter Varianz . Sei weiterhin eine zugehörige einfache Stichprobe. Es bezeichne das -Quantil der -Verteilung. Dann ist das Zufallsintervall ein (symmetrisches) Konfidenzintervall für den Erwartungswert Konfidenzniveau . zum Herleitung: siehe Tafel (vgl.[15]). Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 101 Schema für Erwartungswert, bekannte Varianz, -Verteilung Schema: Die praktische Durchführung der Intervallschätzung für den Erwartungswert bei Normalverteilung mit bekannter Varianz vollzieht sich folgendermaßen: 1. Schritt: Ein Konfidenzniveau 2. Schritt: Das 3. Schritt: Das Stichprobenmittel 4. Schritt: Der Wert 5. Schritt: Als Ergebnis der Intervallschätzung wird das Intervall angegeben. Universität der Bundeswehr München Fakultät für Informatik wird festgelegt. -Quantil der -Verteilung wird bestimmt. wird berechnet. wird berechnet. Vorlesung Statistik im HT 2010 Vorabversion 102 Übungsaufgabe 3.5 Ein schwierig zu justierendes Papierschneidegerät schneidet von einem durchlaufenden Papierband Stücke ab, die eine bestimmte Länge haben sollen. Auch bei fest gewählter Einstellung können zufällige Schwankungen in der Länge der abgeschnittenen Papierstücke auftreten. Aufgrund langer Erfahrung sieht man diese Schwankungen als normalverteilt an mit dem Erwartungswert 0 und der (von der Einstellung unabhängigen) Standardabweichung [mm]. Aus der laufenden Produktion werden Stücke (zufällig) entnommen und ihre Länge nachgemessen: 184.2; 182.6; 185.3; 184.5;186.2; 183.9; 185.0; 187.1; 184.4 [mm]. Führen Sie zum Konfidenzniveau 0.99 eine Intervallschätzung für den Erwartungswert durch. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 103 Länge eines Konfidenzintervalls bei bekannter Varianz Bemerkung: Bei der Intervallschätzung für den Erwartungswert bei Normalverteilung mit bekannter Varianz hängt die Länge des angegebenen Konfidenzintervalls in diesem Fall nicht vom Stichprobenergebnis ab. Bei gegebener Vertrauenswahrscheinlichkeit kann man deshalb durch die Wahl eines geeigneten Stichprobenumfangs stets erreichen, dass die Länge des Konfidenzintervalls höchstens gleich einem vorgegebenen Wert ist: . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 104 Übungsaufgabe 3.6 Welche Intervallschätzung für ergibt sich mit den Daten aus Übungsaufgabe 3.5, wenn eine Irrtumswahrscheinlichkeit von 0.05 zugelassen wird? Wie viele Beobachtungen wären zu dieser Irrtumswahrscheinlichkeit erforderlich, um ein Schätzintervall von höchstens 1 [mm] Länge zu erreichen? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 105 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle 3.3.1 Grundbegriffe 3.3.2 Intervall für bei Normalverteilung mit bekanntem 3.3.3 Intervall für und bei Normalverteilung 3.3.4 Intervall für bei großen Stichprobenumfängen 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 106 Chi-Quadrat-Verteilung Definition 3.13: Sind unabhängige, jeweils wird die Verteilung der Zufallsvariable -verteilte Zufallsvariablen, so als Chi-Quadrat-Verteilung mit n Freiheitsgraden (oder kürzer lung) bezeichnet. Es gilt und . Bemerkung: Für sind die Werte der -Quantile der andernfalls ergibt sich das -Quantil der weise gemäß wobei das -Quantil der Universität der Bundeswehr München Fakultät für Informatik -Vertei- -Verteilung vertafelt, -Verteilung näherungs- -Verteilung ist. Vorlesung Statistik im HT 2010 Vorabversion 107 Beispiel zur Bestimmung des -Quantils der -Verteilung aus der Tabelle Quellen: [15] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 108 Tabelle des -Quantils Chi-Quadrat-Verteilung n=1 bis 10 (Quelle: [15]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 109 Tabelle des -Quantils Chi-Quadrat-Verteilung n=11 bis 20 (Quelle: [15]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 110 Tabelle des -Quantils Chi-Quadrat-Verteilung n=21 bis 30 (Quelle: [15]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 111 t-Verteilung Definition 3.14: Ist standardnormalverteilt und besitzt eine -Verteilung und sind beide Zufallsvariablen und unabhängig, so wird die Verteilung der Zufallsvariable als t-Verteilung mit n Freiheitsgraden (oder kürzer bezeichnet. Es gilt und . -Verteilung) Bemerkung: Für sind die Werte der -Quantile der -Verteilung vertafelt, andernfalls lässt sich das -Quantil näherungsweise durch das -Quantil der -Verteilung zu ersetzen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 112 Beispiel zur Bestimmung des -Quantils der t-Verteilung aus der Tabelle Quellen: [15] Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 113 Tabelle des -Quantils t-Verteilung (Quelle: [15]) Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 114 Konfidenzintervall für Erwartungswert bei unbekannter Varianz unter Satz 3.15: Sei eine normalverteilte Zufallsvariable mit unbekanntem Parameterwert und unbekannter Varianz . Sei weiterhin eine zugehörige einfache Stichprobe und ihre empirische Varianz(funktion). Es bezeichne das -Quantil der -Verteilung. Dann ist das Zufallsintervall ein (symmetrisches) Konfidenzintervall für den Erwartungswert Konfidenzniveau . zum Herleitung: siehe [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 115 Schema für Erwartungswert, unbekannte Varianz, -Verteilung Schema: Die praktische Durchführung der Intervallschätzung für den Erwartungswert bei Normalverteilung mit unbekannter Varianz vollzieht sich folgendermaßen: 1. Schritt: Ein Konfidenzniveau 2. Schritt: Das 3. Schritt: Das Stichprobenmittel -Quantil wird festgelegt. der -Verteilung wird bestimmt. und die Varianz der Stichprobe wird berechnet. 4. Schritt: Der Wert 5. Schritt: Als Ergebnis der Intervallschätzung wird das Intervall angegeben. Universität der Bundeswehr München Fakultät für Informatik wird berechnet. Vorlesung Statistik im HT 2010 Vorabversion 116 Länge eines Konfidenzintervalls bei unbekannter Varianz Bemerkung: Bei der Intervallschätzung für den Erwartungswert bei Normalverteilung mit unbekannter Varianz hängt die Länge des angegebenen Konfidenzintervalls in diesem Fall auch vom Stichprobenergebnis ab. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 117 Übungsaufgabe 3.7 In Übungsaufgabe 3.6 sei die Standardabweichung jetzt als unbekannt anzusehen, die Normalverteilungsannahme werde beibehalten. Führen Sie mit den gegebenen Beobachtungsdaten 184.2; 182.6; 185.3; 184.5;186.2; 183.9; 185.0; 187.1; 184.4 [mm] eine Intervallschätzung für zur Vertrauenswahrscheinlichkeit 0.99 durch. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 118 Konfidenzintervall für die Varianz unter Satz 3.16: Sei eine normalverteilte Zufallsvariable mit unbekanntem Parameterwert und unbekannter Varianz . Sei weiterhin eine zugehörige einfache Stichprobe und ihre empirische Varianz(funktion). Es bezeichne bzw. das - bzw. -Quantil der -Verteilung. Dann ist das Zufallsintervall ein (symmetrisches) Konfidenzintervall für die Varianz . zum Konfidenzniveau Herleitung: siehe [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 119 Schema für Varianz, -Verteilung Schema: Die praktische Durchführung der Intervallschätzung für die Varianz Normalverteilung vollzieht sich folgendermaßen: 1. Schritt: Ein Konfidenzniveau 2. Schritt: Die - bzw. -Quantile lung werden bestimmt. 3. Schritt: Die Größe bei wird festgelegt. bzw. der -Vertei- wird aus dem Stichprobenergebnis errechnet. 4. Schritt: Die Werte 5. Schritt: Als Ergebnis der Intervallschätzung für die Varianz Intervall angegeben. Universität der Bundeswehr München Fakultät für Informatik und Vorlesung Statistik im HT 2010 Vorabversion werden errechnet. wird das 120 Übungsaufgabe 3.8 Schätzen Sie in Übungsaufgabe 3.7 die Varianz intervall zur Vertrauenswahrscheinlichkeit Universität der Bundeswehr München Fakultät für Informatik durch ein Konfidenz. Vorlesung Statistik im HT 2010 Vorabversion 121 Inhaltsverzeichnis (3. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 3.1. Grundbegriffe 3.2. Konstruktion von Schätzfunktionen 3.3. Konfidenzintervalle 3.3.1 Grundbegriffe 3.3.2 Intervall für bei Normalverteilung mit bekanntem 3.3.3 Intervall für und bei Normalverteilung 3.3.4 Intervall für bei großen Stichprobenumfängen 4. Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 122 Konfidenzintervall für Erwartungswert bei großen Stichprobenumfängen Satz 3.17: Seien beliebig verteilte unabhängige Zufallsvariablen die alle den Erwartungswert und die Varianz besitzen. Es bezeichne das -Quantil der -Verteilung und es sei falls bekannt ist, falls die binäre Zufallsvariablen sind, sonst. Dann ist das Zufallsintervall für große ( , bzw. bei binären Zufallsvariablen) näherungsweise ein (symmetrisches) Konfidenzintervall für den Erwartungswert zum Konfidenzniveau . Herleitung: vgl.[15]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 123 Schema für Erwartungswert bei großen Stichprobenumfängen Schema: Die praktische Durchführung der Intervallschätzung für den Erwartungswert bei großen Stichprobenumfängen vollzieht sich folgendermaßen: 1. Schritt: Ein Konfidenzniveau wird festgelegt. 2. Schritt: Das -Quantil der -Verteilung wird bestimmt. 3. Schritt: Das Stichprobenmittel sowie ein Schätzwert für werden berechnet durch falls bekannt ist, falls die binäre Zufallsvariablen sind, sonst. 4. 5. Schritt: Der Wert wird berechnet. Schritt: Als Ergebnis der Intervallschätzung wird das Intervall angegeben. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 124 Übungsaufgabe 3.9 Um die Anzahl der Fische in einem Teich zu schätzen, wird folgendes Verfahren gewählt: Es werden 250 Fische gefangen, gekennzeichnet und wieder in den Teich zurückgebracht. Nach einiger Zeit werden 150 Fische jeweils einzeln gefangen und sofort wieder in den Teich zurückgebracht. Darunter befinden sich insgesamt 22 gekennzeichnete Fische. Bestimmen Sie hieraus ein Konfidenzintervall für die Gesamtzahl der Fische im Teich zum Konfidenzniveau . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 125 Inhaltsverzeichnis (4. Kapitel) 1. 2. 3. Deskriptive Statistik Zufallsstichproben Schätztheorie 4. Testtheorie 4.1. Grundbegriffe 5. 6. 4.2. Parametertests 4.3. -Anpassungstest 4.4. -Unabhängigkeitstest Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 126 Aufgabenstellung beim Testen • Voraussetzung: Über die Verteilung eines Merkmals in der Grundgesamtheit bzw. die Parameter der Verteilung hat man eine Hypothese, d.h. eine ganz bestimmte Vermutung. • Zielsetzung: Diese Hypothese über die Verteilung(sparameter) soll mittels einer Stichprobe überprüft werden. • Vorgehen: Anwendung eines statistischen Testverfahrens (Test) wie in diesem Kapitel (beispielhaft) beschrieben. Frage: Welcher wesentliche Unterschied ergibt sich beim Vergleich von Testen und Schätzen? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 127 Verschiedene Arten von (Hypothesen-)Tests Arten von Signifikanztests (Hypothesentests): • Wird eine Hypothese über den numerischen Wert eines unbekannten Parameters (z.B. einen Lage- oder Streuungsparameter) getestet, so spricht man von einem Parametertest. • Die Prüfung einer Hypothese über den Typ der Verteilung eines Merkmals bezeichnet man als Anpassungstest. • Werden Hypothesen über die Abhängigkeit bzw. Unabhängigkeit von zwei (oder mehr) Merkmalen geprüft, dann hat man es mit einem Unabhängigkeitstest zu tun. Signifikanztests: Bei allen diesen Signifikanztests wird geprüft, ob eine Zufallsstichprobe eine signifikante Abweichung von einer vorher festgelegten Hypothese (Nullhypothese) liefert oder nicht. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 128 Alternativentest versus Signifikanztests Signifikanztests: Signifikanztests prüfen das mögliche Abweichen eines Parameters (, einer Verteilung oder einer Eigenschaft) von einer Nullhypothese anhand einer Stichprobe. Alternativtests: Beim Alternativtest werden für einen zu überprüfenden Parameter zwei gleichberechtigte Werte oder mögliche Wertebereiche gegeben. Mit Hilfe des Testverfahrens soll dann geprüft werden, welcher der beiden Werte(bereiche) zutrifft. Anwendung: Alternativentests spielen u.a. eine Rolle in der Qualitätskontrolle, wenn es um die Abnahme oder Ablehnung einer Lieferung geht. Vereinbarung: Im Folgenden beschränken wir unsere Betrachtungen auf Signifikanztests. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 129 Schema eines Signifikanztests zur Überprüfung einer Hypothese (1) Bestimmung der Eigenschaften der Grundgesamtheit (2) Formulierung einer geeigneten Nullhypothese (3) Bestimmung einer geeigneten Testgröße (4) Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau (5) Berechnung der Annahmekennzahlen (6) Testentscheidung Anmerkung: Diese Schritte werden im Verlauf des vorliegenden Unterkapitels beschrieben. Universität der Bundeswehr München Vorlesung Statistik im HT 2010 Vorabversion Fakultät für Informatik 130 Schritt: (1) Bestimmung der Eigenschaften der Grundgesamtheit Für jeden Test sind zuerst folgende Fragen über die Grundgesamtheit und den zugrunde liegenden Verteilungstyp zu beantworten: 1. 2. 3. Handelt es sich um ein quantitatives oder um ein qualitatives Merkmal? Ist die Grundgesamtheit endlich? Welche Verteilung hat die Zufallsvariable (=Merkmalswert bei zufälliger Entnahme eines Elements der Grundgesamtheit)? Man beachte, dass diese Angabe manchmal nicht oder nur angenähert möglich ist. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 131 Einführung: Stehendes Beispiel zu Signifikanztests (1) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Schritt: (1) Bestimmung der Eigenschaften der Grundgesamtheit: a) Das Merkmal ist quantitativ. b) Die Grundgesamtheit hat den Umfang , ist also endlich. c) Das Merkmal ist näherungsweise -normalverteilt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 132 Übungsaufgabe 4.1 Beantworten Sie die Fragen des Schritts (1) für die folgenden Probleme: a) Ein Händler will feststellen, ob das mittlere Gewicht einer Lieferung von 3000 Eiern tatsächlich beträgt. b) Ein Schausteller betreibt ein Glücksrad. Ein Spieler behauptet, dass von den 20 Zahlen die Zahl „13“ mit der Wahrscheinlichkeit auftritt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 133 Schritt: (2) Formulierung einer geeigneten Nullhypothese Definition 4.1: Die Nullhypothese ist die statistische Formulierung der zu überprüfenden Hypothese (auch: Behauptung, Vermutung). Die Alternativhypothese ist das Gegenteil der Nullhypothese. Anmerkung: Ziel eines statistischen Tests ist die Überprüfung der zugehörigen Nullhypothese Die Nullhypothese kann sich beispielsweise ergeben aus • einer Theorie, • Erfahrungen oder vergangenen Beobachtungen, • einer Güterforderung oder Gütezusage. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 134 Einseitige und zweiseitige Hypothesen Definition 4.2: Die zweiseitige Nullhypothese (auch: Punkthypothese) ist eine Hypothese in der behauptet wird, der (unbekannte) Parameter einer Verteilung habe einen ganz bestimmten Wert , d.h. . Dementsprechend lautet die Alternativhypothese dann . Definition 4.3: Die einseitige Nullhypothese (auch: Bereichshypothese) ist eine Hypothese in der behauptet wird, dass der (unbekannte) Parameter einer Verteilung einen bestimmten Wert nicht unterschreitet (bzw. nicht überschreitet), d.h. (bzw. ). Dementsprechend lautet die Alternativhypothese dann (bzw. ). Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 135 Einseitige und zweiseitige Tests Vereinbarung: Ein Parametertest mit einer einseitigen bzw. zweiseitigen Nullhypothese wird abkürzend auch als einseitiger bzw. zweiseitiger Test bezeichnet. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 136 Übungsaufgabe 4.2 Formulieren Sie für folgende Beispiele jeweils die Null- und Alternativhypothese und begründen Sie Ihre Entscheidung für die Formulierung einer einbzw. zweiseitigen Nullhypothese: a) Ein Ottomotor soll mit Kolben des Durchmessers 70 (mm) bestückt werde. Der Kolbenlieferant garantiert bei einer Standardabweichung von . In einem statistischen Test soll der Kolbendurchmesser überprüft werden. b) Bei einer Lieferung von 10 000 Glühlampen sagt der Lieferant einen Ausschussanteil mit dem Wert zu. Nach Lieferung soll der Ausschussanteil in einem statistischen Test überprüft werden. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 137 Fehler 1. Art und Fehler 2. Art Basierend auf der Auswertung einer Stichprobe wird die Nullhypothese abgelehnt (verworfen) oder nicht abgelehnt. Definition 4.4: Die Ablehnung (das Verwerfen) einer richtigen Nullhypothese (d.h. die Nullhypothese trifft zu) heißt Fehler 1. Art (auch: -Fehler). Dabei bezeichnet die Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art bei der Durchführung des Tests (unter der gegebenen Konstellation). Definition 4.5: Die Nichtablehnung (das Nicht-Verwerfen) einer falschen Nullhypothese heißt Fehler 2. Art (auch: -Fehler). Dabei bezeichnet die Wahrscheinlichkeit für das Auftreten des Fehlers 2. Art bei der Durchführung des Tests (unter der gegebenen Konstellation). Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 138 Fehlermöglichkeiten beim Parametertest Fehlermöglichkeiten bei einem Parametertest tatsächlicher Zustand Testentscheidung Nullhypothese nicht verworfen Nullhypothese verworfen Nullhypothese zutreffend Nullhypothese falsch richtige Entscheidung Fehler 2. Art ( -Fehler) Fehler 1. Art ( -Fehler) richtige Entscheidung Interpretation: • Fehler 1. Art: Die Nullhypothese wird abgelehnt, obwohl sie richtig ist. Dieser Fehler 1. Art tritt mit der Wahrscheinlichkeit auf. • Fehler 2. Art: Die Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist. Dieser Fehler 2. Art tritt mit der Wahrscheinlichkeit auf. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 139 Zusammenhang zwischen Fehlern 1. und 2. Art In der Regel gilt der folgende Zusammenhang: Die Wahrscheinlichkeit für einen Fehler 2. Art (Nichtablehnung einer falschen Nullhypothese) wächst mit abnehmender Wahrscheinlichkeit für einen Fehler 1. Art. Bildquelle: [7] Anmerkungen: • Die Wahrscheinlichkeit für einen Fehler 2. Art kann nicht (ohne Weiteres) berechnet werden, da sie vom tatsächlichen Wert des unbekannten Parameters abhängt. • Es ist empfehlenswert, das Niveau für den Fehler 1. Art (Signifikanzniveau) nicht kleiner als nötig zu wählen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 140 Verwerfen der Nullhypothese Anmerkungen: • Die Nullhypothese muss zu gegebener Problemstellung passend formuliert werden. Von der adäquaten Formulierung der Nullhypothese hängt es ab, ob der statistische Test ein sinnvolles Ergebnis liefern kann bzw. ob die Testentscheidung zu einer Lösung des gegebenen Problems führt. • Ein statistischer Test kann zu einem Verwerfen (Ablehnung) oder zu einem Nicht-Verwerfen (Nicht-Ablehung) der Nullhypothese führen. Zur unbedingten Beachtung: Bei Nicht-Verwerfen der Nullhypothese durch eine Testdurchführung wird die Nullhypothese (nur) beibehalten, gilt aber keinesfalls als statistisch nachgewiesen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 141 Aufstellen der Nullhypothese (vgl. [14]) Grundsatz: Soll durch einen statistischen Test der (statistische) Nachweis einer Behauptung erfolgen, so muss die Nullhypothese die Negation dieser Behauptung sein. Der statistische Nachweis ist also genau dann erfolgt, wenn die Nullhypothese im Zuge der Testdurchführung verworfen wird. Anmerkung: Eine derartige Testentscheidung führt nicht mit Sicherheit zum richtigen Ergebnis, denn bei richtiger Nullhypothese (d.h. falscher Behauptung) beträgt die Wahrscheinlichkeit für einen Irrtum (d.h. einen irrtümlichen statistischen „Nachweis“ der Behauptung) . Diese Wahrscheinlichkeit wird aber vorgegeben und kann deshalb den jeweiligen Anforderungen entsprechend klein gehalten werden. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 142 Fortsetzung des stehendes Beispiel zu Signifikanztests (2) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Schritt: (2) Formulierung einer geeigneten Nullhypothese: Da sowohl zu hohe als auch zu niedrige Widerstandswerte zu detektieren sind, erfolgt ein zweiseitiger Test: Nullhypothese: Alternativhypothese: Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 143 Übungsaufgabe 4.3 Formulieren Sie zu folgenden Testproblemen jeweils eine sinnvolle Nullhypothese und die zugehörige Alternativhypothese: a) Es soll geprüft werden, ob der durchschnittliche Intelligenzquotient von Männern größer ist als der von Frauen . b) Ein Hersteller von Motorblöcken möchte wissen, ob der zugesagte mittlere Bohrungsdurchmesser von 78.65(mm) in der laufenden Produktion noch eingehalten wird. c) Betonmischer haben nach Herstellerangaben einen Benzinverbrauch von bei einer Standardabweichung von . Ein Konkurrent der Firma würde sich freuen, wenn er mit Hilfe einer Stichprobe einen höheren Durchschnittsverbrauch nachweisen könnte. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 144 Schritt: (3) Bestimmung einer geeigneten Testgröße Die Überprüfung einer Nullhypothese über einen unbekannten Parameter einer Grundgesamtheit erfolgt mit Hilfe einer „geeigneten“ Stichprobenfunktion . Definition 4.6: Eine Stichprobenfunktion , die man für die Überprüfung einer Hypothese über einen Parameter verwendet, wird als Testgröße oder Prüfgröße bezeichnet. Jede Stichprobenfunktion , die als Schätzfunktion für den Parameter geeignet ist, kann auch als Testgröße zur Überprüfung einer Hypothese über diesen Parameter verwendet werden, sofern die Verteilung von (zumindest näherungsweise) bekannt ist. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 145 Anmerkungen zu Testgröße • Für einen Test über den Mittelwert einer Grundgesamtheit wird meistens die Testgröße verwendet. Alternativ kann auch der Median verwendet werden. • Zum Test einer Hypothese über die Varianz Stichprobenfunktion herangezogen werden. kann beispielsweise die (empirische) Varianz • Verschieden Testgrößen für den gleichen Parameter sich insbesondere durch ihre Streuung . Es gilt beispielsweise: . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion unterscheiden 146 Anmerkungen zur Verteilung der Testgrößen • Die Verteilung der Testgröße lässt sich in der Regel aus der Verteilung der Grundgesamtheit und den Charakteristika des Stichprobenmodells mindestens approximativ bestimmen. Vorausgesetzt wird dabei immer, dass die Nullhypothese tatsächlich zutrifft und der Stichprobenumfang bekannt ist. • Ohne Kenntnis der (zumindest approximativen) Verteilung der Testgröße ist es nicht möglich, Annahmekennzahlen für einen Test zu bestimmen, denn die Annahmekennzahlen ergeben sich als Grenzen eines Wahrscheinlichkeitsintervalls der Testgröße bei richtiger Nullhypothese. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 147 Fortsetzung des stehendes Beispiel zu Signifikanztests (3) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Schritt: (3) Bestimmung einer geeigneten Testgröße: Als Testgröße wird der empirische Mittelwert der Stichprobe gewählt. Da die Widerstandswerte annähernd normalverteilt sind, ist auch der Mittelwert näherungsweise -normalverteilt, falls die Nullhypothese zutrifft. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 148 Schritt: (4) Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau Definition 4.7: Die Wahrscheinlichkeit für die Ablehnung einer richtigen Nullhypothese heißt Irrtumswahrscheinlichkeit oder Signifikanzniveau. Anmerkungen: • Übliche Werte bei der Vorgabe von Irrtumswahrscheinlichkeiten sind , oder . • Wird die Irrtumswahrscheinlichkeit zu klein gewählt, so ist es kaum möglich die Nullhypothese zu widerlegen. Man will ja dann gerade die Ablehnung einer richtigen Nullhypothese „unbedingt“ vermeiden. • Bei einer zu groß gewählten Irrtumswahrscheinlichkeit wird die richtige Nullhypothese zu häufig nur aufgrund von Zufallseinflüssen abgelehnt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 149 Fortsetzung des stehendes Beispiel zu Signifikanztests (4) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Schritt: (4) Festlegung von Irrtumswahrscheinlichkeit & Signifikanzniveau: Als Signifikanzniveau wir vorgegeben. Dementsprechend ist das 0.975-Qunatil z=1.96. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 150 Schritt: (5) Berechnung der Annahmekennzahlen Definition 4.8: Sei der durch die Nullhypothese behauptete Wert. • Für einem Test wird ein Bereich um um den Wert festgelegt, in den die Testgröße fallen kann, ohne dass verworfen wird. Dieser Bereich heißt Annahmebereich des Tests. • Der hierzu komplementäre Bereich wird als Ablehnungsbereich bezeichnet. Fällt die Testgröße in diesen Bereich, so wird abgelehnt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 151 Annahmekennzahlen Definition 4.9: Die Grenzen zwischen Annahme- und Ablehnungsbereich heißen Annahmebereichsgrenzen (auch: Annahmegrenzen oder Annahmekennzahlen). Sie werden mit (untere Grenze) und (obere Grenze) bezeichnet und gehören selbst zum Annahmebereich: mit geeignet gewählten . Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 152 Annahmekennzahlen bei zweiseitigen Nullhypothesen Satz 4.10: Sei die Prüfgröße eines Tests mit zweiseitiger Nullhypothese und zum Signifikanzniveau . Zur konkreten Berechnung von Annahmekennzahlen , wird (aus Mehrdeutigkeitsgründen) und (zusätzlich) festgelegt. Dann gilt die folgende Bestimmungsgleichung für , : oder alternativ . Beweis: offensichtlich, dem Leser überlassen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 153 Annahmekennzahlen bei einseitigen Nullhypothesen Satz 4.11: Sei die Prüfgröße eines Tests mit einseitiger Nullhypothese und (bzw. und ) zum Signifikanzniveau . Zur konkreten Berechnung der Annahmekennzahlen , wird (aus Mehrdeutigkeitsgründen) (bzw. ) (zusätzlich) festgelegt und der ungünstigste (Grenz-)Fall angenommen. Dann gilt die folgende Bestimmungsgleichung für , : (bzw. oder alternativ ) (bzw. ). Beweis: offensichtlich, dem Leser überlassen. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 154 Ergänzung zu Annahmekennzahlen bei einseitigen Nullhypothesen • Beim Test mit einseitiger Nullhypothese wird die Annahmegrenze unter der Bedingung bestimmt, dass die Nullhypothese gerade noch erfüllt ist ( ). In diesem Fall ist daher das Signifikanzniveau die obere Grenze für die Wahrscheinlichkeit des Fehlers 1. Art. • Achten Sie bei der Berechnung von Annahmekennzahlen jeweils darauf, welches Quantil (abhängig von dem verwendeten einseitigen oder zweiseitigen Tests) verwendet werden muss. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 155 Fortsetzung des stehendes Beispiel zu Signifikanztests (5) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Schritt: (5) Berechnung der Annahmekennzahlen: Es ergeben sich folgende Annahmekennzahlen: Somit ist Universität der Bundeswehr München Fakultät für Informatik der Annahmebereich. Vorlesung Statistik im HT 2010 Vorabversion 156 Schritt: (6) Testentscheidung Um die Testentscheidung zu fällen wird die Stichprobe realisiert und die daraus resultierende Realisierung der Testgröße bestimmt. Die Nullhypothese wird genau dann verworfen, wenn die Realisierung der Testgröße in den Ablehnungsbereich fällt. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 157 Fortsetzung des stehendes Beispiel zu Signifikanztests (6) Aufgabenstellung: (zur Erinnerung) Der Sollwert (Mittelwert) von Widerständen einer Lieferung von 500 Stück beträgt nach Herstellerangaben bei einer Standardabweichung von . Zur Prüfung des Sollwertes soll eine Zufallsstichprobe vom Umfang gezogen werden. Man weiß, dass die Widerstandswerte annähernd normalverteilt sind. Ergänzung: In der Zufallstichprobe wird der Mittelwert ermittelt. Schritt: (6) Testentscheidung: Der Wert fällt in den Annahmebereich, die Nullhypothese wird also nicht verworfen. Das bedeutet aber noch nicht, dass richtig sein muss. -- ENDE des STEHENDEN BEISPIELS -Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 158 Übungsaufgabe 4.4 Durch einen Test soll die Hypothese „Der Anteil der durch Krankheit ausgefallenen Arbeitsstunden in der Bundesrepublik Deutschland ist im April 2005 niedriger als im April 2004“ überprüft werden. Die Nullhypothese „Es ist keine Verringerung eingetreten“ ( ) kann bei einem Signifikanzniveau von nicht verworfen werden. Welche der folgenden Aussagen ist dann richtig? a) Die Nullhypothese ist damit statistisch widerlegt. b) Auf dem Signifikanzniveau ist eine Verringerung nicht statistisch nachweisbar. c) Mit einer Wahrscheinlichkeit von 0.05 kann dennoch eine Verringerung vorliegen: d) Die Anzahl der durch Krankheit ausgefallenen Arbeitsstunden hat sich nicht verringert. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 159 Inhaltsverzeichnis (4. Kapitel) 1. 2. 3. 4. Deskriptive Statistik Zufallsstichproben Schätztheorie Testtheorie 4.1. Grundbegriffe 4.2. Parametertests 5. 6. 4.3. -Anpassungstest 4.4. -Unabhängigkeitstest Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 160 Bezeichnungen für konkrete Parametertest Im Folgenden betrachten wir folgende konkrete Parametertests für den/die • Erwartungswert bei Normalverteilung mit bekannter Varianz, • Erwartungswert bei Normalverteilung mit unbekannter Varianz, • Varianz bei Normalverteilung mit unbekanntem Erwartungswert und • Anteilswert bei Binomialverteilung. Gegeben sei dabei jeweils eine einfache Stichprobe des Umfangs mit der Realisierung . Dabei sei festgelegt: • Empirischer Mittelwert • Empirische Varianz mit Realisierung mit Realisierung . . Herleitung der Tests: [7], exemplarisch siehe Tafel. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 161 Testschema: Erwartungswert bei Normalverteilung mit bekannter Varianz 1. Voraussetzung an Grundgesamtheit: -normalverteilt, unbekannt, bekannt 2. Formulierung Nullhypothese: -normalverteilt 3. Testgröße: 4. Signifikanzniveau: Irrtumswahrscheinlichkeit festlegen 5. Annahmekennzahlen: 6. Testentscheidung: Nullhypothese verwerfen, falls . ist das -Quantil der -Normalverteilung. ist das -Quantil der -Normalverteilung. Ergänzung: Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 162 Testschema: Erwartungswert bei Normalverteilung mit unbekannter Varianz 1. Voraussetzung an Grundgesamtheit: -normalverteilt, unbekannt, unbekannt 2. Formulierung Nullhypothese: 3. Testgröße: 4. Signifikanzniveau: mit -verteilt ( -Studentverteilung) Irrtumswahrscheinlichkeit festlegen 5. Annahmekennzahlen: 6. Testentscheidung: Nullhypothese verwerfen, falls . ist das -Quantil der -Studentverteilung. ist das -Quantil der -Studentverteilung. Ergänzung: Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 163 Testschema: Varianz bei Normalverteilung mit unbekanntem Erwartungswert 1. Voraussetzung an Grundgesamtheit: -normalverteilt, unbekannt, unbekannt 2. Formulierung Nullhypothese: 3. Testgröße: 4. Signifikanzniveau: mit -verteilt ( Irrtumswahrscheinlichkeit -Verteilung) festlegen 5. Annahmekennzahlen: 6. Testentscheidung: Nullhypothese verwerfen, falls . ist das -Quantil der -Verteilung. ist das -Quantil der -Verteilung. Ergänzung: Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 164 Testschema: Anteilswert bei Binomialverteilung 1. Voraussetzung an Grundgesamtheit: -binomialverteilt, unbekannt, (Bernoulli-Experiment) 2. Formulierung Nullhypothese: -normalverteilt (Annäherung!) 3. Testgröße: 4. Signifikanzniveau: Irrtumswahrscheinlichkeit festlegen 5. Annahmekennzahlen: 6. Testentscheidung: Nullhypothese verwerfen, falls . ist das -Quantil der -Normalverteilung. ist das -Quantil der -Normalverteilung. Ergänzung: Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 165 Übungsaufgabe 4.5 Der Hersteller einer Drehmaschine gibt an, dass seine Maschinen sehr genau arbeitet. Er behauptet, dass die annähernd normalverteilten Durchmesser der gedrehten Teile eine Varianz von haben. Eine Versuchsreihe des Käufers vom Umfang ergab eine empirische Varianz von Kann die Angabe des Herstellers mit der Irrtumswahrscheinlichkeit damit stochastisch widerlegt werden? Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 166 Übungsaufgabe 4.6 Durch langjährige Beobachtungen sei bekannt, dass die durchschnittliche Brenndauer der mit einem bestimmten Produktionsverfahren hergestellten Glühbirnen 2 000 Stunden beträgt bei einer Standardabweichung Stunden. Eine nach Vornahme einer geringfügigen Materialänderung hergestellte Probeserie von Lampen ergibt eine mittlere Brenndauer von 2 030 Stunden. • Kann aus diesem Ergebnis auf ein Signifikante Erhöhung der Brenndauer bei Anwendung des neuen Verfahrens geschlossen werden? Führen Sie den Test mit Irrtumswahrscheinlichkeit durch. • Die Herstellerfirma treffe prinzipiell folgende Entscheidung: Beträgt die mittlere Lebensdauer von 100 zufällig ausgesuchten Glühlampen mindestens 2 015 Stunden, so wird nach dem neuen Verfahren, andernfalls nach dem alten Verfahren produziert. Berechnen Sie für diese Testentscheidung die Irrtumswahrscheinlichkeit. Die Standardabweichung sei konstant. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 167 Übungsaufgabe 4.7 Unter 3 000 in einer Klinik neugeborenen Kindern befanden sich 1 578 Jungen. Untersuchen Sie die folgende Behauptung statistisch zur Irrtumswahrscheinlichkeit : Es werden mehr Jungen als Mädchen geboren. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 168 Inhaltsverzeichnis (4. Kapitel) 1. 2. 3. 4. Deskriptive Statistik Zufallsstichproben Schätztheorie Testtheorie 4.1. Grundbegriffe 4.2. Parametertests 4.3. 5. 6. -Anpassungstest 4.4. -Unabhängigkeitstest Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 169 Inhaltsverzeichnis (4. Kapitel) 1. 2. 3. 4. Deskriptive Statistik Zufallsstichproben Schätztheorie Testtheorie 4.1. Grundbegriffe 4.2. Parametertests 4.3. -Anpassungstest 4.4. 5. 6. -Unabhängigkeitstest Regressionsanalyse Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 170 Inhaltsverzeichnis (5. Kapitel) 1. 2. 3. 4. Deskriptive Statistik Zufallsstichproben Schätztheorie Testtheorie 5. Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 171 Inhaltsverzeichnis (6. Kapitel) 1. 2. 3. 4. 5. Deskriptive Statistik Zufallsstichproben Schätztheorie Testtheorie Regressionsanalyse 6. Varianzanalyse Literaturhinweise: Die Darstellung in diesem Kapitel basiert weitgehend auf [7], [14]. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 172 Literaturverzeichnis (1) [1] M. Burkschat, E. Cramer, U. Kamps: Beschreibende Statistik – Grundlegende Methoden. Springer-Verlag, 2004. [2] L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz: Statistik – Der Weg zur Datenanalyse (7. neub. Auflage). Springer-Verlag, 2010. [3] P. Zöfel: Statistik für Wirtschaftswissenschaftler – Im Klartext. Pearson Studium, 2003. [4] H. Toutenburg, C. Heumann: Deskriptive Statistik – Eine Einführung in Methoden und Anwendungen mit SPSS (5. Auflage). Springer-Verlag, 2006. [5] J. Schira: Statistische Methoden der VWL und BWL – Theorie und Praxis. Pearson Studium, 2003. [6] G. Zelany: Wie aus Zahlen Bilder werden – Der Weg zur visuellen Kommunikation – Daten überzeugend präsentieren (6.überarb. und erweit. Auflage). Gabler Verlag, 2005. [7] K. Bosch: Elementare Einführung in die angewandte Statistik (8. durchg. Auflage). Vieweg Verlag, 2005. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 173 Literaturverzeichnis (2) [8] U. Genschel, C. Becker: Schließende – Grundlegende Methoden. SpringerVerlag, 2005. [9] H. Toutenburg, C. Heumann: Induktive Statistik – Eine Einführung mit R und SPSS (4. Auflage). Springer-Verlag, 2008. [10] J. Hartung: Statistik – Lehr- und Handbuch der angewandten Statistik (9. durchg. Auflage). Oldenbourg Verlag, 1993. [12] G. Walz (Hrsg.): Lexikon der Statistik. Elsevier Spektrum Verlag, 2004. [13] B. Rüger: Induktive Statistik – Einführung für Wirtschafts- und Sozialwissenschaftler (3. überarb. Auflage). Oldenbourg Verlag, 1996. [14] J. Schwarze: Grundlagen der Statistik II – Wahrscheinlichkeitsrechnung und induktive Statistik (8. Auflage). Verlag Neue Wirtschafts-Briefe, 2006. [15] G. Bamberg, F. Baur, M. Krapp : Statistik (14. korrigierte Auflage). Oldenbourg Verlag, 2008. Universität der Bundeswehr München Fakultät für Informatik Vorlesung Statistik im HT 2010 Vorabversion 174