Statistik I im Sommersemester 2006 Themen am 18.4.2006: • Was ist Statistik, wozu Statistik? • Überblick über das Modul M2: Grundlagen sozialwissenschaftlicher Datenanalyse (Statistik I) • Einige Ergebnisse der Befragung zur Anmeldung • Mathematisches Repititorium: Indizierte Summen Lernziele: 1. Bedeutung der Statistik für die Sozialwissenschaften 2. Beurteilung des Lernaufwands 3. Umgang mit Symbolen: Das Summenzeichen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 1 Was ist Statistik ? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: a) Verteilung: Eigenschaften einer Menge von Einheiten Beispiele: • Einkommen von Haushalten in einer Stadt • Zweitstimmen und Bewertungen von Parteien in einem Bundesland • Konflikte zwischen Partnern • Konsum alkoholischer Getränke einer Person Statistik 1 (Vorlesung SoSe 06, 18.4.06) 2 Was ist Statistik ? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: b) Modellierung: Abstraktion von realen Einheiten durch Konzentration auf relevante und Ignorierung irrelvanter Aspekte ⇒ Informationsverdichtung u. Informationsreduktion Beispiel: Straßenkarte als Modell einer Landschaft Statistik 1 (Vorlesung SoSe 06, 18.4.06) 3 Was ist Statistik ? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: c) Mathematsche Modellierung; Modellformulierung in „Sprache“ der Mathematik (Symbole u. Formeln) Beispiel: Verteilung der Körpergröße (X) in einer Population f (x) = 1 2π ⋅ σ 2 X ⋅e 1 ( x −μ X ) − ⋅ 2 σ2X 2 wobei: μ X =: durchschnittliche Körpergröße (Erwartungswert) σ2X =: Ausmaß der Unterschiedlichleit der Körpergrößen (Varianz) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 4 Warum Statistik? Relevanz für Sozialwissenschaften? Sozialwissenschaften befassen sich mit empirischen Regelmäßigkeiten (und den Abweichungen von Regelmäßigkeiten) in Interaktionen, Verhalten u. Vorstellungen von Menschen, deren Ursachen und Konsequenzen. Daher Gegenstand empirischer Analysen in den Sozialwissenschaften: Verteilungen von Interaktionen, Verhaltensweisen, Vorstellungen. Beispiele für sozialwissenschaftliche Fragestellungen zu Verteilungen: • Sozialstruktur: Hat die Ungleichheit in Deutschland zugenommen? • Verhalten: Gibt es Unterschiede bei der Wahlbeteiligung von Männern und Frauen? • Einstellung: Wird die Todestrafe mehrheitlich befürwortet? Zur Beantwortung werden jeweils umfangreiche Datenmengen benötigt, die 1. für eine Fragestellung relevant sein und 2. im Hinblick auf die Fragestellung adäquat ausgewerte werden müssen. Statistik 1 (Vorlesung SoSe 06, 18.4.06) 5 Warum Statistik? Ein Beispiel: Gibt es Unterschiede bei der Wahlbeteiligung von Männern und Frauen? a) relevante Daten: Fragen nach beabsichtigter Wahlbeteiligung u. Geschlecht in Umfrage {(ja, männlich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,) (nein, männlich), (nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (nein, weiblich), (ja, männlich), (ja, weiblich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (weiß nicht, weiblich), (nein, weiblich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (nein, weiblich), (weiß nicht, männlich), (weiß nicht, weiblich), (nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (nein, weiblich), (ja, weiblich), (nein, weiblich), (weiß nicht, weiblich) (weiß nicht, männlich), (ja, weiblich) (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (nein, weiblich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,) ... } Antworten von insgesamt 3234 im März bis Juli 1998 befragten Personen in der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1998. Die Datenmenge lässt sich ohne statistische Modellierung praktisch nicht auswerten! Statistik 1 (Vorlesung SoSe 06, 18.4.06) 6 Warum Statistik? b) Statistische Modellierung: Zusammenfassung der Daten in Häufigkeitstabelle: Beabsichtigte Wahlbeteiligung Geschlecht Mann Frau Geschlecht Mann Frau Geschlecht Mann Frau Geschlecht Mann Frau - ja 998 1090 66.6% 62.8% 71.1% 65.0% 79.5% 72.2% 6.5% 5.1% 7.5% - nein 64 113 4.2% 4.6% 6.7% - weiß nicht 194 307 13.0% 17.7% 13.8% 18.3% 15.4% 20.3% 9.7% 10.5% 10.0% - keine Angabe 148 168 9.9% 3.3% - nicht wahlberecht. 94 58 6.3% Geschlecht Mann Frau 94.0% 90.6% 6.0% 9.4% 1498 1736 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% (1498) (1736) (1404) (1678) (1256) (1510) (1062) (1203) Was besagt das Ergebnis? Prozentuierung Prozentuierung Prozentuierung Prozentuierung nur ja/nein ohne Verweialle Befragten wahlberecht. gerungn Befragte Total - Ist der beobachtete Unterschied zwischen Männern und Frauen bedeutsam? - Wie sollen die Meinungslosen berücksichtigt werden? - Wie sehr gefährden die fehlende Angaben von 316 Befragten die Aussagekraft? Die Prozentuierungsbasis kann deutliche Auswirkungen haben! Aber: Statistik macht hierzu keine Vorgabe. Die Antwort muss daher aufgrund inhaltlicher Überlegungen erfolgen! Statistik 1 (Vorlesung SoSe 06, 18.4.06) 7 Warum Statistik? Vor Prozentuierung: Welche Ausgangsdaten sollen verwendet werden? Beabsichtigte Wahlbeteiligung Geschlecht Mann Frau Geschlecht Mann Frau - ja - nein - weiß nicht - keine Angabe - nicht wahlberecht. 998 64 194 148 94 1090 113 307 168 58 1010 61 184 142 110 1098 110 281 167 65 Total 1498 1736 1514 1721 ungewichtete Daten gewichte Daten Gewichtungsvariablen: - Region: alte/neue Länder - HaushaltsGröße - Lassen sich die Ergebnisse von der Stichprobe auf die Gesamtheit aller Wähler verallgemeinern? Sind gewichtete Daten vorzuziehen? Statistik 1 (Vorlesung SoSe 06, 18.4.06) 8 Warum Statistik? Sind die für die Untersuchung erobenen Daten aussagefähig? Beabsichtigte Wahlbeteiligung - ja - nein Wahlabsicht BTW 1998 Mann Frau Rückerinnerung BTW 1994 Mann Frau 94.3% 5.7% 90.9% 9.1% 91.8% ´ 91.8% 8.2% 8.2% (1071) (1208) (1336) gewichtete Daten Tatsächliche Beteiligung Bundestagswahl 1998 82.3% (1575) gewichtete Daten Tatsächliche Beteiligung Bundestagswahl 1994 79.1% - Lässt die Absichtsfrage tatsächlich Rückschlüsse auf das tatsächliche Verhalten zu? - Warum weichen Rückerinnerung und tatsächliches Verhalten ab? Statistik 1 (Vorlesung SoSe 06, 18.4.06) 9 Warum Statistik? Schlussfolgerungen: • Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen benötigen die Sozialwissenschaften empirische Daten. • Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen. • Fehlerquellen: - ungenügendes inhaltliches Vorwissen über Forschungsgebiet, - ungenügende Kenntnisse über statistische Datenanalyse. Ziel der Statistikausbildung: Gewinnung von Kenntnissen über statistische Datenanalyse, + um Aussagekraft von empirischen Studien zu beurteilen, + um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten Statistik 1 (Vorlesung SoSe 06, 18.4.06) 10 Klassische Einteilung der Statistik Univariate Verteilungen Bivariate Verteilungen Deskriptive Statistik Verteilungsparameter (Quantile, Lagemaße, Streuungsmaße) Induktive Statistik / Inferenzstatistik Wahrscheinlichkeitstheorie, Schätzen und Testen Beschreibung und Prüfung von bivariaten Zuammenhängen Multivariate Verteilungen Statistik 1 (Vorlesung SoSe 06, 18.4.06) Drittvariablenkontrolle Konditionale u. Partielle Effekte Prüfung der Angemessenheit statistischer Modelle 11 Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse (M2: Statistik I) M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits 1. Vorlesung Statistik I → Abschlussklausur Teil A (60 Minuten) ( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben) dazu Tutorien zur Vorlesung (45-60 Minuten Lösung der Übungsaufgaben) 2. Übung zu Statistik I → Abschlussklausur Teil B (30 Minuten) ← 2. Übung zu Statistik I B. Statistik mit SPSS A. Statistik mit Excel oder Vermittlung (a) (45 Minuten) Vermittlung (b) (45 Minuten) Übung (a) (45 Minuten Tutorium) Übung (b) (45 Minuten Tutorium) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 12 Veranstaltungsplan (Vorlesung) 18.4.06: • Einführung • Mathematisches Repititorium: Indizierte Summen 25.4.06: Von der theoretischen Fragestellung zu empirischen Daten • Operationalisierung, Messung Skalenniveau • Fälle, Variablen, Ausprägungen u. Realisationen: Die Datenmatrix • Häufigkeitstabellen 02.5.06: Verteilungen I: Graphische Darstellung und Lagemaße • Verteilungsfunktion und Quantile • Graphische Darstellung univariater Verteilungen • Modus, Median und arithmetisches Mittel 09.5.06: Verteilungen II: Lage- und Streuungsmaße • Getrimmtes Mittel u. geometrisches Mittel • Streuungsmaße, Schiefe und Steilheit • Auswirkungen von Lineartransformationen und Zusammenfassungen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 13 Veranstaltungsplan (Vorlesung) 16.5.06: Übungsklausur I (15 Minuten, 5% Anerkennung auf Abschlussklausur A) Wahrscheinlichkeitstheorie I • Stichprobe und Grundgesamtheit • Zufallsexperiment und Wahrscheinlichkeiten • Bedingte Wahrscheinlicheiten und statistische Unabhängigkeit • Statistisches Modell und Realität (Gesetz der großen Zahl) 23.5.06: Wahrscheinlichkeitstheorie II • Zufallsvariablen und Wahrscheinlichkeitsverteilungen • Kennwerteverteilungen von Häufigkeiten und Anteilen 30.5.06: Wahrscheinlichkeitstheorie III • Zentraler Grenzwertsatz • Normalverteilung • Quantile stetiger Verteilungen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 14 Veranstaltungsplan (Vorlesung) 06.6.06: Schätzen und Testen I • Schätzer, Schätzungen und Wahrscheinlichkeitsverteilungen von Schätzern • Schätzungen von Anteilen, Mittelwerten und Varianzen • Die Logik von Konfidenzintervallen • Anwendung von Konfidenzintervallen 13.6.06: Schätzen und Testen II • Schätzen oder Testen? • Die Logik statistischer Hypothesentests • Prüfung von Hypothesen über Anteile und Mittelwerte 20.6.06: Übungsklausur II (15 Minuten, 5% Anerkennung auf Abschlussklausur A) Zusammenhangsanalyse I • Die Vierfeldertafel und der Aufbau von Kreuztabellen • Zusammenhangsmaße in der Vierfeldertabelle Statistik 1 (Vorlesung SoSe 06, 18.4.06) 15 Veranstaltungsplan (Vorlesung) 27.6.06: Zusammenhangsanalyse II • Zusammenhangsmaße für nominalskalierte Variablen • Zusammenhangsmaße für ordinale Variablen auf der Basis von Paarvergleichen 04.7.06: Zusammenhangsanalyse III • Von der Kreuztabelle zum Regressionsmodell • Das Regressionsmodell in der Stichprobe • Kovarianz und Produktmomentkorrelation 11.7.06: Zusammenhangsanalyse IV • Annahmen bei der Schätzung von Regressionskoeffizienten • Standardfehler und Konfidenzintervalle im bivariaten Regressionsmodell • Hypothesentests im bivariaten Regressionsmodell 18.7.06: Abschlussklausur (Klausur A: Grundlagen der Statistik) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 16 Basisliteratur 3. Auflage, 2006 ISBN: 3 499 55639 1 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 1. Auflage, 2003 ISBN: 3 499 55655 3 17 Einige Ergebnisse der Befragung zur Anmeldung 1. Zusammenhang zwischen eingeplanten Zeitaufwand für Vor- und Nachbereitung des Lehrstoffes nach Einschätzung der Schwierigkeit des erfolgreichen Bestehens 15 Wieviele Stunden planen Sie pro Woche für die Vor- und Nachbereitung des Stoffes der Statistikveranstaltung ein? * F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? Kreuztabelle % von F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? 1.00 sehr 3.00 eher 4.00 eher 6.00 sehr leicht leicht schwer schwer 2.00 leicht 5.00 schwer F15 Wieviele Stunden planen Sie pro Woche für die Vor- und Nachbereitung des Stoffes der Statistikveranstaltung ein? 1.00 0 bis maximal 1 Stunde 2.00 mehr als 1 bis maximal 2 Stunden 3.00 mehr als 2 bis maximal 3 Stunden 4.00 mehr als 3 bis maximal 4 Stunden 5.00 mehr als 4 bis maximal 5 Stunden 6.00 mehr als 5 Stunden Gesamt 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Gesamt 4.9% 7.3% 4.5% 22.0% 34.1% 40.0% 30.9% 39.0% 31.7% 44.0% 37.3% 29.3% 12.2% 8.0% 18.2% 2.4% 7.3% 4.0% 4.5% 2.4% 100.0% 7.3% 100.0% 4.0% 100.0% 4.5% 100.0% Basis: (1) (1) (1) (41) (41) (25) (110) Mittelwert: 2.5 3.5 1.5 2.6 2.5 2.4 2.5 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 18 Einige Ergebnisse der Befragung zur Anmeldung 2. Axiomatische Messtheorie Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend Informationen zur Verfügung? Frage 7: Religionszgehörigkeit Nominal Ordinal richtige Antw. + – A.-Muster 1 + – A.-Muster 2 + + A.-Muster 3 – + A.-Muster 4 – – A.-Muster 5 – – A.-Muster 6 – – Statistik 1 (Vorlesung SoSe 06, 18.4.06) Intervall – – – – + – Ratio – – – – – + – – weiß nicht n % % – – – + – 56 1 13 1 5 44.4 73.7 0.8 1.3 10.3 17.1 0.8 1.3 4.0 6.6 + 50 39.7 -- 19 Einige Ergebnisse der Befragung zur Anmeldung 2. Axiomatische Messtheorie Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend Informationen zur Verfügung? Frage 8: Alter in Monaten Nominal Ordinal richtige Antw. + + A.-Muster 1 + + A.-Muster 2 – – A.-Muster 3 + + A.-Muster 4 – – A.-Muster 5 – – A.-Muster 6 – + A.-Muster 7 – + A.-Muster 8 + – A.-Muster 9 – – Statistik 1 (Vorlesung SoSe 06, 18.4.06) Intervall + + – + + + + – – Ratio + + + – – + – – – – – weiß nicht n % % – – – – – – – – 4 27 1 26 1 1 12 6 3.1 5.1 21.4 34.6 0.8 1.3 20.6 33.3 0.8 1.3 0.8 1.3 9.5 15.4 4.8 7.7 + 48 38.1 -- 20 Einige Ergebnisse der Befragung zur Anmeldung 3. Grundrechenarten Frage 9 u. 10: Welche Antwort stimmt? Frage 9: 15 – 4 +3 Vorgabe a) 11 Vorgabe b) 14 Vorgabe c) 8 Vorgabe d) 3 weiß nicht n 0 120 3 1 2 % % 0.0 0.0 95.2 96.8 2.4 2.4 0.8 0.8 1.6 -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) Frage 10: 15 – 3 · 3 n Vorgabe a) 36 11 Vorgabe b) 42 1 Vorgabe c) 6 108 Vorgabe d) –4 1 weiß nicht 5 % % 8.7 9.1 0.8 0.8 85.7 89.3 0.8 0.8 4.0 -- 21 Einige Ergebnisse der Befragung zur Anmeldung 4. Dreisatz und Prozentrechnung Frage 11: Vorgabe b) Vorgabe f) Vorgabe d) Vorgabe e) Vorgabe a) Vorgabe c) weiß nicht In Göttingen leben 600 Enten. An einem See, der Zugvögel als Rasstpaltz dient, infizieren sich pro Stunde 24 Enten mit Vogelgrippe. Wieviel Prozent der Entenpopulation sind nach 14 Stunden infiziert? Infiziert sind 21% 24% 56% 66% 96% 108% n 0 1 96 3 0 1 25 Statistik 1 (Vorlesung SoSe 06, 18.4.06) % % 0.0 0.0 0.8 1.0 77.4 95.0 2.4 3.0 0.0 0.0 0.8 1.0 19.8 -- 22 Einige Ergebnisse der Befragung zur Anmeldung 5. Indizierte Summen berechnen Fall 1 2 3 4 5 6 7 8 9 X 2 5 0 3 4 1 1 2 3 Y 1 1 0 0 0 1 1 1 0 Vorgaben Frage 13 Vorgabe e) 4 Vorgabe b) 5 Frage 13: ∑ y i = ? Vorgabe f) 7 Vorgabe d) 9 9 Vorgabe a) 21 Frage 14: ∑ x i − y i = ? Vorgabe c) 45 i=7 weiß nicht Welche Antwort nicht gefragt stimmt? Vorgaben Frage 14 Vorgabe e) 4 Vorgabe b) 5 Vorgabe f) 7 Vorgabe d) 9 Vorgabe a) 21 Vorgabe c) 45 weiß nicht nicht gefragt Statistik 1 (Vorlesung SoSe 06, 18.4.06) n 0 14 0 3 0 0 57 52 n 10 2 1 0 6 0 55 52 % 0.0 11.1 0.0 2.4 0.0 0.0 45.2 41.3 % 7.9 1.6 0.8 0.0 4.8 0.0 43.6 41.3 % 0.0 18.9 0.0 4.1 0.0 0.0 77.0 -% 13.5 2.7 1.4 0.0 8.1 0.0 74.3 -- % 0.0 82.3 0.0 17.8 0.0 0.0 --% 52.6 10.5 5.3 0.0 31.6 0.0 --- 23 Mathematisches Repititorium: Indizierte Summen Das Summenzeichen ∑ Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen. Beispiel: Daten: 3 4 1 6 2 ∑ 1 3 4 2 5 15 Anderenfalls muss die Menge, über die summiert wird, gekennzeichnet werden. „∑ X“ bezeichnet entsprechend die Summierung über alle Elemente einer Menge, die den Namen X hat. ∑ 16 ∑ X 3 5 7 2 4 6 1 0 28 Y 1 3 2 5 4 9 8 6 38 Wenn offensichtlich ist, über welche Menge summiert werden soll, wird einfach das Summenzeichen-Symbol verwendet. „∑ X“ ist also die Summe über die erste Zeile, ∑ X = 28, „∑ Y“ entsprechend die Summe über die zweite Zeile, ∑ Y = 38 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 24 Indizierte Summen Indizierte Summen Wenn nicht alle Elemente einer Summe, sondern eine Auswahl summiert werden soll, müssen die auszuwählenden Elemente gekennzeichnet werden. Dazu werden sie durchnummeriert. Die Nummer, die ihre Position angibt, wird als Index (oder Indexvariable) bezeichnet. Für Indizes werden sehr oft die Buchstabem „i“, „j“, „k“ oer „l“ verwendet. Wenn die Menge durch einen großen Buchstaben gekennzeichnet ist, werden die Elemente oft durch einen kleinen Buchstaben gekennzeichnet. Index 1 2 3 4 5 6 X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 x3 bezeichnet so das dritte Element von X (x3 = 0), y1 das erste Element von Y (y1 = 4), z6 das sechste (letzte) Element von z (z6 = 1) Sollen im Beispiel nur das dritte bis fünfte Element von Y summiert werden, wird a) die Menge durch ein beliebiges Indexsymbol indiziert und b) der Anfang und das Ende der Indexnummern unten und oben am Summenzeichen angegeben: 5 ∑y i =3 i = y3 + y 4 + y5 = 0 + 1 + 6 = 7 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 25 Indizierte Summen Index 1 2 3 4 5 6 X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 5 ∑y i =3 5 ∑y i =3 Die Anzahl der Elemente (Fälle) insgesamt einer Menge wird oft duch den Buchstaben „N“ oder „n“ gekennzeichnet! i i ∑z j=1 ∑z j=1 j X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 j 1 2 3 4 5 6 X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 = y3 + y 4 + y5 = 0 + 1 + 6 = 7 n n i 1 2 3 4 5 6 j = 1+ 0 +1+ 0 + 0 +1 = 3 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 26 Indizierte Summen Durch Verwendung von Formeln können in der Indizierung sehr spezifische Teilmengen ausgewählt. werden. Beispiel a): Auswahl jedes zweiten Elements einer Menge X, d.h. der geraden Elemente: Fall 1 2 3 4 5 6 X 2 1 0 3 5 4 n/2 ∑x i =1 2⋅i = x2 + x4 + x6 =1+ 3 + 4 = 8 Beispiel b): Auswahl der ungeraden Elemente einer Menge X Fall 1 2 3 4 5 6 X 2 1 0 3 5 4 n/2 ∑x i =1 2⋅i −1 = x1 + x 3 + x 5 = 2+0+5=7 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 27 Indizierte Summen Summen über Konstanten sind gleichbedeutend mit der Multiplikation der Konstante mit der zu summierenden Anzahl. Fall Wert 1 4 2 4 3 4 4 4 5 4 ∑ 20 5 ∑ 4 = 5 ⋅ 4 = 20 i =1 Konstanten innerhalb von Summen können daher oft ausgeklammert werden: Fall Wert 1 2 2 1 3 0 4 0 5 2 5 ∑4⋅ w k =1 k 5 ∑4⋅ w k =1 = 4 ⋅ 2 + 4 ⋅1 + 4 ⋅ 0 + 4 ⋅ 0 + 4 ⋅ 2 = 20 5 k = 4 ⋅ ∑ w k = 4 ⋅ ( 2 + 1 + 0 + 0 + 2 ) = 4 ⋅ 5 = 20 Statistik 1 (Vorlesung SoSe 06, 18.4.06) k =1 28 Indizierte Summen Summen können auch über Formeln von Elementen aus mehreren Mengen gebildet werden. Fall 1 2 3 4 5 6 n ∑x i =1 i + yi = ( x1 + y1 ) + ( x 2 + y 2 ) + Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 ( x n + yn ) = ( 2 + 4 ) + (1 + 2 ) + ( 0 + 0 ) + ( 3 + 1) + ( 5 + 6 ) + ( 4 + 2 ) = 30 n/2 ∑y ⋅z i =1 X 2 1 0 3 5 4 i n +1− i = ( y1 ⋅ z n ) + ( y 2 ⋅ z n −1 ) + ( y n / 2 ⋅ z n / 2+1 ) = ( 4 ⋅1) + ( 2 ⋅ 0 ) + ( 0 ⋅ 0 ) = 4 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 29 Indizierte Summen Die Auflösung (Berechnung) von Summen von Summen kann aufwendig sein. Fall 1 2 3 4 5 6 X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 3 Beispiel: 6 ∑∑ x i =1 j= 4 3 6 ∑∑ x i =1 j= 4 i i + yj + y j = ( x1 + ( y 4 + y 5 + y 6 ) ) = ( x 2 + ( y 4 + y5 + y6 ) ) = ( x 3 + ( y 4 + y5 + y6 ) ) = ( 2 + (1 + 4 + 5 ) ) + (1 + (10) ) + ( 0 + (10) ) = 33 6 ⎛ ⎞ = ∑ ⎜ xi + ∑ y j ⎟ i =1 ⎝ j= 4 ⎠ 3 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 30 Statistik I im Sommersemester 2006 Themen am 25.4.2006: Von der theoretischen Fragestellung zu empirischen Daten • Operationalisierung, Messung Skalenniveau • Die Datenmatrix: Fälle, Variablen, Ausprägungen u. Realisationen • Erstellung von Häufigkeitstabellen Lernziele: 1. 2. 3. 4. Beurteilung der Relevanz von Operationalisierung und Messung für die Sozialforschung Kenntniss über das Messniveau von Variablen und den daraus zu ziehenden Konsequenzen Unterscheidung zwischen Variablen, Ausprägungen und Realisierungen Berechnung von Häufigkeitstabellen und Verstehen der dabei angewendeten Formeln Statistik 1 (Vorlesung SoSe 06, 25.4.06) 31 Wiederholung der wichtigsten Inhalte der letzten Sitzung Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Univariate Verteilungen Bivariate Verteilungen Deskriptive Statistik Verteilungsparameter (Quantile, Lagemaße, Streuungsmaße) Induktive Statistik / Inferenzstatistik Wahrscheinlichkeitstheorie, Schätzen und Testen Beschreibung und Prüfung von bivariaten Zuammenhängen Multivariate Verteilungen Statistik 1 (Vorlesung SoSe 06, 25.4.06) Drittvariablenkontrolle Konditionale u. Partielle Effekte Prüfung der Angemessenheit statistischer Modelle 32 Warum Statistik? • Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen benötigen die Sozialwissenschaften empirische Daten. • Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen. • Fehlerquellen: - ungenügendes inhaltliches Vorwissen über Forschungsgebiet, - ungenügende Kenntnisse über statistische Datenanalyse. Ziel der Statistikausbildung: Gewinnung von Kenntnissen über statistische Datenanalyse, + um Aussagekraft von empirischen Studien zu beurteilen, + um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten Statistik 1 (Vorlesung SoSe 06, 25.4.06) 33 Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits 1. Vorlesung Statistik I → Abschlussklausur Teil A (60 Minuten) ( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben) dazu Tutorien zur Vorlesung (45-60 Minuten Lösung der Übungsaufgaben) 2. Übung zu Statistik I → Abschlussklausur Teil B (30 Minuten) ← 2. Übung zu Statistik I A. Statistik mit Excel oder B. Statistik mit SPSS Vermittlung (a) (45 Minuten) Vermittlung (b) (45 Minuten) Übung (a) (45 Minuten Tutorium) Übung (b) (45 Minuten Tutorium) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 34 Mathematisches Repititorium: Indizierte Summen Das Summenzeichen ∑ Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen. j 1 2 3 4 5 6 n ∑z j=1 j n ∑z j=1 Statistik 1 (Vorlesung SoSe 06, 25.4.06) j X 2 1 0 3 5 4 Y 4 2 0 1 6 2 Z 1 0 1 0 0 1 = 1+ 0 +1+ 0 + 0 +1 = 3 35 Operationalisierung Ausgangspunkt: Forschungsfrage Beispiel: Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird und je höher die Reaktionsbereitschaft des politischen Systems eingeschätzt wird, desto höher ist die Unterstützung des politischen Systems (zu überprüfende Hypothese) Vor jeder empirischen Analyse: Klärung der Begriffe Einschätzung der Beeinflussbarkeit des politischen Systems: Urteil eines Staatsangehörigen darüber, wie sehr er auf politische Entscheidungen Einfluss nehmen kann. Einschätzung der Reaktionsbereitschaft des politischen Systems: Urteil eines Staatsangehörigen darüber, wie sehr politische Entscheidungsinstanzen bei ihren Entscheidungen auf Vorstellungen und Forderungen der Staatsangehörigen achten. Unterstützung des politischen Systems: Ausmaß der (positiven) Bewertungen der politischen Institutionen und deren Aktivitäten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 36 Operationalisierung Hypothese: Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird und je höher die Reaktionsbereitschaft des politischen Systems eingeschätzt wird, desto höher ist die Unterstützung des politischen Systems Wenn es sich um eine empirische Hypothese handelt, hängt es von der Beschaffenheit der Realität ab, ob die Hypothese zutrifft oder nicht zutrifft. Für die Prüfung muss dann empirisch feststellbar sein, ob bzw. wie sehr die in den Begriffen der Hypothese vorkommenden Sachverhalte vorliegen oder nicht vorliegen. Operationalisierung Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten Sachverhalts festgestellt wird Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch beobachtabaren Sachverhalten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 37 Operationalisierung Operationalisierung Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten Sachverhalts festgestellt wird Beispiel: Operationalisierung des Begriffs "Systemunterstützung" durch die Frage (Variable): „Was würden Sie allgemein zu der Demokratie in der Bundesrepublik, d.h. zu unseren politischen Parteien und zu unserem ganzen politischen System sagen? Sind Sie damit sehr zufrieden, eher zufrieden, eher unzufrieden oder sehr unzufrieden?“ Bei dieser Operationalisierung wird einer Person, der Eigenschaftsträgerin, • eine starke Systemunterstützung zugeschrieben, wenn sie die Antwort „sehr zufrieden“ gibt, • eine geringe Systemunterstützung, wenn sie die Antwort „eher zufrieden“ gibt, • eine geringe Systemablehnung, wenn sie die Antwort „eher unzufrieden“ gibt • und eine starke Systemablehnung, wenn sie die Antwort „sehr unzufrieden“ gibt. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 38 Operationalisierung Die Korrespondenzregeln schreiben also vor, welche Schlussfolgerungen aus einer empirischen Beobachtung, hier: der Antwort eines Befragten in einem Interview, hinsichtlich des Vorliegens des empirischen Sachverhalts getroffen werden sollen, der durch den Begriff bezeichnet wird. Korrespondenzregeln sind Konsequenzen einer Messtheorie, die Folgen der durch einen Begriff bezeichneten theoretisch erwartbaren Eigenschaften auf empirisch beobachtbare Sachverhalte benennt. Die Postulierung dieser Folgen heißen Korrespondenzhypothesen, im Beispiel: 1. Je höher die Unterstützung des politischem System bei einer Person ist, desto stärker ist die geäußerte Zufriedenheit in der Antwort auf die Frage nach dem Funktionieren der Demokratie in dem politischen System. 2. Wenn sich zwei Personen in ihren Unterszützung des politischen Systems deutlich unterscheiden, dann geben sie auch unterschiedliche Antworten auf die Frage nach der Demokratiezufriedenheit untercheiden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 39 Operationalisierung Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten ↓ Explikation der Begriffe ↓ Formulierung einer Messtheorie mit Korrepondenzhypothesen ↓ Formulierung von Korrespondenzregeln Was ist der Unterschied zwischen einer Korrespondenzregel und einer Korrespondenzhypothese? Probleme: (1) In der Regel keine explizite Formulierung der Messtheorie: ⇒ Postulate der Messtheorie (Korrespondenzhypothesen) nicht bewusst. (2) Korrespondenzhypothesen können falsch sein: ⇒ Korrespondenzregeln vermutlich unangemessen ⇒ Empirische Beobachtung erlaubt keine Antwort auf Forschungsfrage. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 40 Operationalisierung Tabelle 2.1: Beispiel eines Erhebungsinstrumentes FRAGE Frage 1: Systeunterstützung Frage 2a: Einschätzung der Beeinflussbarkeit des politischen Systems (Efficacy) Frage 2b: Einschätzung der Reaktionsbereitschaft des politischen Systems (Responsiveness) Beobachtung: Geschlecht 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen ... ANTWORT Code ... sehr zufrieden,................................. ... eher zufrieden,................................. ... eher unzufrieden,............................. ... oder völlig unzufrieden?................. ___________________ weiß nicht 1 keine Angabe 4 3 2 1 8 9 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit... stimme eher zu stimme weiß eher nicht nicht zu keine Angabe 1 2 8 9 1 2 8 9 einem Mann.............................. einer Frau................................. 1 2 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! Statistik. Sagen Sie mir bitte, in ___________________ (Quelle: Kühnel/ Krebs, 2006: S. 26) welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Frage 4: Alter Statistik 1 (Vorlesung SoSe 06, 25.4.06) 41 Beobachten und Messen Im Erhebungsinstrument werden die Messvorschriften festgehalten, die sich aus den Korrespondenzregeln ergeben. Es dient als Hilfe bei der Erfassung der interessierenden Eigenschaften von Untersuchungseinheiten. Messen bezieht sich auf dann auf den Vorgang der Datengewinnung, d.h. der Anwendung der Korrespondenzregeln und der Umsetzung und Festhaltung der Beobachtungen in mathematische Größen (Zahlen). Bei dem oft nicht eindeutig verwendeten Begriff lassen sich zwei unterschiedliche Bedeutungen unterscheiden: (1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung. In der Sozialforschung spricht man auch von Beobachtung. (2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereits beobachteten empirischen Eigenschaften eines Objekts Messen im engeren Sinne wird technisch auch als Kodierung bezeichnet. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 42 Beobachten FRAGE 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen ... ANTWORT Code ... sehr zufrieden,................................. ... eher zufrieden,................................. ... eher unzufrieden,............................. ... oder völlig unzufrieden?................. ___________________ weiß nicht 1 keine Angabe 4 3 2 1 8 9 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit... stimme eher zu stimme weiß eher nicht nicht zu keine Angabe 1 2 8 9 1 2 8 9 einem Mann.............................. einer Frau................................. 1 2 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! 1943 Statistik. Sagen Sie mir bitte, in ___________________ welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Statistik 1 (Vorlesung SoSe 06, 25.4.06) Beobachten bedeutet im Beispiel: Stellen der Fragen und Notieren der Antworten Die Messung ergibt: Die befragte Person ... (1) ist „eher zufrieden“ mit dem Funktionieren der Demokratie, (2) stimmt der Aussage nicht zu, dass Leute wie die Person keinen Einfluss auf die Regierung hat, (3) stimmt auch nicht zu, dass die Parteien nicht an den Ansichten der Wähler interessiert sind, (4) ist männlich (5) und 1943 geboren. 43 Messen Mesen ist die Zuordnung von Zahlen zu den möglichen Vorkommensweisen einer Eigenschaften von Untersuchungseinheiten. Jedem empirischen Objekt wird eine Zahl (der Code) derart zugeordnet, dass der Zahl eine Eigenschaft des Objektes entspricht, und dem Vergleich von jeweils zwei Messungen der gemessenen Eigenschaft der Vergleich der zugeordneten Zahlen entspricht. Beispiel: gleiches Geschlecht ⇔ gleiche Zahl, verschiedenes Geschlecht ⇔ verschiedene Zahl. A B C 1 Statistik 1 (Vorlesung SoSe 06, 25.4.06) D 2 44 Messen in der axiomatischen Messtheorie Definition von Messen in der axiomatischen Messtheorie: Messen ist eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ A B C 1 D 2 empirisches Relativ: empirische Objekte und Beziehungen (Relationen) zwischen den Objekten anhand deren Eigenschaften (hier: Vergleich nach Gleichheit bzw. Verschiedenheit von Menschen hinsichtlich ihres Geschlechts numerisches Relativ: mathematische Objekte (Zahlen) und Beziehungen (Relationen) zwischen den Zahlen Homomorphe (strukturtreue) Abbildung: Vergleiche aufgrund der empischen Eigenschaft entsprechen Vergleiche von Zahlen und müssen daher zum gleichen Ergebnis kommen. hier: gleiche Zahl = gleiches Geschlecht, verschiedene Zahl = verschiedenes Geschlecht. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 45 Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen Zwischen Zahlen lassen sich sehr verschiedenen Beziehungen (Relationen) herstellen. So ist die Zahl 2 doppelt so groß wie die Zahl 1; 2 = 2×1 Dieser Eigenschaft entspricht bei der Messung des Geschlechts keine empirische Eigenschaft: Weibliche Befragte (Code = 2) haben verglichen mit männlichen Befragten (Code = 1) kein doppeltes Ausmaß an der Eigenschaft Geschlecht; Geschlecht lässt gar sich nicht hinsichtlich seines Ausmaßes vergleichen. Das Messniveau oder Skalenniveau einer Messung legt fest, welche numerische Eigenschaften von Zahlen empirischen Bedeutungen entsprechen: • Messungen auf Nominalskalenniveau enthalten nur Informationen, ob gleiche oder ungleiche Ausprägungen einer Eigenschaft vorliegen; • Messungen auf Ordinalskalenniveau geben zusätzlich Auskunft über ein mehr oder weniger des Ausmaßes einer Eigenschaft; • Messungen auf Intervallskalenniveau erlauben zusätzlich den Abstand zwischen einzelnen Messwerten inhaltlich zu interpretieren; • Messungen auf Ratioskalenniveau (auch: Verhältnisskalenniveau, Proportionalskalenniveau) ermöglichen zusätzlich die Interpretation des Verhältnisses von Messwerten. ⇒ Je höher das Messniveau, desto informationshaltiger die Messung Statistik 1 (Vorlesung SoSe 06, 25.4.06) 46 Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen Tabelle 2.2: Beispiele für Skalenniveaus Skalenniveau Relation zwischen Ausprägungen Nominalskala Klassifikation Religion, Familienstand, Parteineigung Ordinalskala Rangordnung Einstellungsmessungen in Umfragen z.B. Ausmaß an Zustimmung zu einer Behauptung Intervallskala Abstand Temperatur in Grad Celsius, Geburtsjahr Ratioskala Verhältnis Alter, Größe, Einkommen Beispiele (nach Kühnel/ Krebs, 2006: S. 31) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 47 Messniveau: Hierarchie zwischen den Messnievaus Zwischen den Messniveaus besteht eine hierarchische Ordnung: • Alle Informationen eines geringeren Messniveaus gelten auch bei höherem Messniveau. • Die zusätzlichen Informationen eines höheren Messniveaus können aber nicht bei einem geringeren Messniveau genutzt werden: Interpretierbare Relationen Identität Ränge Abstände Quotienten Nominalskala ja nein nein nein Ordinalskala ja ja nein nein Intervallskala ja ja ja nein Ratioskala ja ja ja ja Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet. Daraus folgt: Jede Messung auf Ratioskalenniveau ist auch eine Messung auf Intervallskalenniveau, auf Ordinalskalenniveau und auf Nominalskalenniveau; jede Messung auf Intervallskalenniveau ist auch eine Messung auf Ordinalskalenniveau und auf Nominalskalenniveau; jede Messung auf Ordinalskalenniveau ist auch eine Messung auf Nominalskalenniveau. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 48 Messniveau: Zulässige Transformationen Welche Zahlen den Ausprägungen eines Merkmals zugeordnet werden, ist solange willkürlich, solange die strukturtreue Abbildung der empirischen Beziehungen in die mathematischen Beziehungen erhalten bleibt. Messskalen (d.h. Kodierungen), die die gleichen Informationen erhalten, sind äquivalent. Beispiel: Ob bei der Ordinalskala „Demokratiezufriedenheit“ die Zahlen 1,2,3,4 oder 0,1,2,3 oder 10,11,15,20 verwendet werden, ist beliebig, solange eine größere Zahl stets für eine größere Demokratiezufriedenheit steht. Antworten Alternative Kodierungen völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden 1 2 3 4 0 1 2 3 10 11 15 20 1 2 4 3 zulässige unzulässige Messskalen Der Wechsel (Übergang) von einer Kodierung zu einer anderen Kodierung wird als zulässige Transformation bezeichnet, wenn alle empirischen Informationen enthalten bleiben. Bei unzulässigen Transformationen gehen dagegen Informationen verloren. Es ist aber unzulässig, die Zahlen 1,2,4,3 zu verwenden, da dann „eher zufrieden“ (4) für eine größere Zufriedenheit stehen würde als „sehr zufrieden“ (3). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 49 Messniveau: Zulässige Transformationen Tabelle 2.3: Zulässige Transformationen Skalenniveau Zulässige Transformationen Beispiele für erlaubte mathematische Operationen Nominal Alle ein-eindeutigen Transformationen Logarithmieren, Multiplikation, Addition (Subtraktion) einer Konstanten Ordninal Alle positiv-monotonen, die Rangordnung wahrenden Transformationen Wenn Ausgangswerte > 0: Quadrieren, Logarithmieren, Wurzelziehen Intervall Alle positiven linearen Transformationen Y = a + b ⋅ X mit b> 0 Ratio Streckungen und Stauchungen Y = b ⋅ X mit b> 0 (nach Kühnel/ Krebs, 2006: S. 32) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 50 Bedeutung des Skalenniveaus für die Sozialforschung Das Messniveau ist wichtig, weil es Aussagen über die Informationshaltigkeit von Messungen beinhaltet. Für die statistische Datenanalyse ist das Messniveau auch deswegen wichtig, weil es festgelegt, ob ein statistisches Analysemodell angemessen ist oder nicht: Wenn sich nach der Transformation einer Messwertreihe mit einer zulässigen Transformation die inhaltliche Aussage ändert, ist ein Analysemodell nicht angemessen. . Wenn ein nicht angemessenes Analysemodell verwendet wird, besteht die Gefahr der Produktion von Artefakten: Analyseergebnisse werden als vermeintliche empirische Befunde interpretiert, obwohl sie ungültig und Folge eines nicht angemessenen Analysemodells sind. Beispiel: Vergleich von Mittelwerten bei ordinalen Messungen Messwerte nach Transformation Messwerte bei Ausgangsskala Gruppe 1 Gruppe 2 Gruppe 1 Gruppe 2 zulässige Transformation 1 4 1 2 der Ordinalskala: 9 16 3 4 Ranginformationen 36 25 6 5 bleiben erhalten. Mittelwert: 46/3 45/3 Mittelwert: 10/3 11/3 Gruppe 2 hat im Mittel höheres Ausmaß Gruppe 2 hat im Mittel höheres Ausmaß an der interessierenden Eigenschaft. an der interessierenden Eigenschaft. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 51 Bestimmung des Messniveaus Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeit und Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden müssen: (1) Repräsentationstheoreme geben für jedes Skalenniveau Präzisierungen an, um Repräsentation nachzuweisen. Beispiel bei einer Ordinalskala: Transitivitätsbedingung muss erfüllt sein. Wenn bei drei Beobachtungen A, B und C gilt: (a) bei Beobachtung B liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung A, (b) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung B, dann muss auch gelten: (c) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung A. Gilt die Transitivitätsbedingung nicht, kann nicht auf Ordinalskalenniveau gemessen werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 52 Bestimmung des Messniveaus (2) Eindeutigkeitstheoreme geben die Bedingungen an, unter denen zulässige Transformationen im numerischen Relativ möglich sind. (3) Bedeutsamkeitstheoreme beziehen sich auf die statistischen Verfahren, die unter einem Skalenniveau zulässig sind. Repräsentation bezieht sich also auf den Informationsgehalt im empirischen Relativ, Eindeutigkeit auf die zulässigen Transformationen innerhalb des numerischen Relativs und Bedeutsamkeit auf die Gültigkeit statistischer Modelle innerhalb eines Messniveaus. Nach der axiomatischen Messtheorie muss für jede empirische Messkala das Vorliegen der drei Bedingungen nachgewiesen sein. In der Praxis erfolgt oft eine Festlegung des Skalenniveaus nach Augenschein („measurement per fiat“). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 53 Bestimmung des Messniveaus Bei der Unterstellung eines Messniveaus sind drei Aspekte zu beachten: 1. Beim Messniveau sind empirische wie theoretische Gegebenheiten relevant. Daher kann auch das Messniveau einer Größe nicht ‚theorielos‘ (d.h. ohne theoretische Annahmen) ermittelt werden. Beispiel: „Haarfarbe“ ist in der Soziologie der Mode eine nominalskalierte Größe. In der Physik ist Farbe dagegen eine auf Rationskalenniveau gemessene Frequenz von Lichtwellen. 2. Eine zu prüfende empirische Theorie kann ein bestimmtes Messniveau für die beteiligten Konzepte voraussetzen. Ist dieses nicht gegeben, ist die Theorie nicht oder nur eingeschränkt prüfbar. Beispiel: Die „Nutzentheorie“ behauptet, dass sich der Nettonutzen einer Alternative aus der Produktsumme der Bewertungen der mit der Alternative verbundenen Konsequenzen und den Auftretenswahrscheinlichkeiten dieser Konsequenzten ergibt. Sind die Bewertungen und die Auftretenswahrscheinlichkeiten nicht auf metrischem Messniveau erfassbar, kann diese Behauptung nicht geprüft werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 54 Bestimmung des Messniveaus 3. Das Messniveau der beobachteten Größen kann sich vom Messniveau der eigentlich interessierenden theoretischen Eigenschaft unterscheiden und z..B. ein höheres Messniveau haben. Beispiel: Alter dürfte in der Regel auf Ratioskalenniveau messbar sein. Wird „Alter“ aber in einer Studie im Sinne der theoretischen Konzeption des „Lebenszyklus“ verwendet, handelt es sich möglicherweise nur um eine nominale Messung. Letztlich kommt es bei der Festlegung des Messniveaus und der Messkala (Kodierung) darauf an, ob die verwendeteten Zahlen und die eingesetzten Analysemodelle inhaltlich interpretierbar sind. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 55 Bestimmung des Messniveaus Beispiel für die Festlegung einer Messkala. Die Einstellung zu Schwangerschaftsabbrüchen wird durch die Frage operationalisiert: „Welche Position haben Sie: Sollen Ihrer Ansicht nach Abtreibungen grundsätzlich verboten werden, sollen Abtreibungen grundsätzlich erlaubt sein oder sollen Abtreibungen nur in bestimmten Situationen erlaubt sein?“ Es wird folgende Kodierung verwendet: Antwort Messwerte grundsätzlich verboten –1 in bestimmten Situationen erlaubt 0 grundsätzlich erlaubt +1 Antwortverteilung in einer Umfrage 100 20% 200 40% 200 40% In einer Umfrage ergibt sich ein Mittelwert von 0.2 = 100×(−1) + 200×(0) + 200×(+1). Dieser Wert ist inhaltlich interpretierbar: Es gibt 0.2, d.h. 20% mehr Personen, die eine Abtreibung grundsätzlich erlauben lassen wollen (nämlich 40%), als es Personen gibt, die eine Abbtreibung grundsätzlich verbieten lassen wollen (nämlich 20%). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 56 Variablen und deren Ausprägungen Begriffe wie „Systemunterstützung“ sind sprachliche Konstruktionen, die im Kontext einer Theorie gebildet werden. In der Statistik sind nicht Begriffe, sondern Variablen die Ausgangsgrößen empirischer Analysen. Eine Variable bezeichnet eine mögliche Eigenschaft, d.h. ein Merkmal (Prädikat), die ein Merkmalsträger (z.B. ein Mensch oder eine Organisation) aufweisen oder aber nicht aufweisen kann. Die Ausprägungen (Kategorien, Werte) einer Variablen geben an, wie und evtl. in welchem Ausmaß die Eigenschaft bei den Merkmalsträgern vorliegen kannt. Beispiele: - Die Variable „Geschlecht“ hat i.a. zwei Ausprägungen, „männlich“ und „weiblich“ ; - Die Variable „Konfession“ kann in einer Umfrage z.B. 6 Ausprägungen haben: „katholisch“, „protestantisch“, „muslimisch“, „jüdisch“, „andere“, „keine“; - Die Variable „höchster allgemeinbildender Schulabschluss“ kann 3 Ausprägungen haben: „kein Abschluss“ „Volksschule/mittlere Reife“ „(Fach-) Hochschulreife“. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 57 Variablen und Ausprägungen Ausprägungen sollten nicht mit ihren Variablen verwechselt werden. So ist „männlich“ keine Variable, sondern eine Ausprägung der Variablen Geschlecht. Ausprägungen beziehen sich immer auf alle möglichen Formen/Ausgestaltungen einer Eigenschaft, Variablen auf die Eigenschaft selbst! Es ist allerdings möglich, aus Ausprägungen einer Variablen eine neue und andereVariable zu konstruieren. So kann aus der Ausprägung „mänlich“ des Geschlechts eine neue Variable „Ist männlich“ mit den Ausprägungen „trifft zu“ und „trifft nicht zu“ generiert werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 58 Beobachtete und unbeobachtete Variablen Nicht immer sind alle interessierenden Eigenschaften tatsächlich beobachtet oder auch nur beobachtbar. Beispiele: (a) Bei der Frage nach dem „Einkommen“ wird nicht das tatsächliche Einkommen erfasst, sondern die Antwort auf die Frage danach. Das tatsächliche Einkommen kann höher oder geringer sein als das berichtete Einkommen. Während das berichtete Einkommen eine beobachtete Variable ist, ist das tatsächliche Einkommen eine unbeobachtete Variable. (b) Einstellungen sind prinzipiell unbeobachtbare Vorstellungen in den Köpfen von Personen. Beobachtbar sind oft Äußerungen, von denen auf Einstellungen rückgeschlossen wird. Unbeobachtbare oder in einer Untersuchung unbeobachtete Eigenschaften von Merkmalsträgern werden in der Statistik als latente Variablen oder Faktoren bezeichnet; die in einer Untersuchung beobachteten Variablen werden auch als Indikatoren bezeichnet, insbesondere dann, wenn mit ihrer Hilfe auf latente Variablen rückgeschlossen wird. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 59 Variablen und Begriffe/Konstrukte Zwischen Indikatoren und Faktoren besteht eine analoge Beziehungen wie zwischen Begriffen und deren operationalisierten Messungen. Theorie Verbindung Begriff Faktor Operationalisierung Messmodell Messung Indikator Empirie latente Ebene beobachtete Ebene Aber, Analogie bedeutet keine Gleichheit: Die Operationalisierung eines Begriffs kann zu verschiedenen Variablen führen, die beobachtet wie latent sein können. Begriffe können sich auch gleichzeitig auf mehrere und unterschiedliche Einheiten beziehen, Variablen sind immer Ausprägungen eines Merkmalsträgers. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 60 Fälle und Realisationen Fälle oder Untersuchungseinheiten sind die Merkmalsträger, auf die sich die in durch eine Variable bezeichnete Eigenschaft in einer Untersuchung bezieht. Die tatsächlich bei einem Merkmalsträger vorkommende Ausprägung einer Variable wird als Realisierung oder Realisation bezeichnet. Variable (z.B. „Geschlecht“) bezieht sich auf Element aus der Menge aller Fälle hat Menge möglicher Ausprägungen (z.B.: {männlich, weiblich] Fälle (z.B. Personen) Konkretisierung Realisation bei einem Fall (z.B. Herr X ist männlich) Wenn alle Merkmalsträger bei einer Variable die gleiche Ausprägung haben, reduziert sich die Variable zu einer Konstanten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 61 Die Datenmatrix FRAGE 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen ... ANTWORT Code ... sehr zufrieden,................................. ... eher zufrieden,................................. ... eher unzufrieden,............................. ... oder völlig unzufrieden?................. ___________________ weiß nicht 1 keine Angabe 4 3 2 1 8 9 Neben den gemessenen Variablen enthält eine Datenmatrix in der Regel zusätzliche Variablen. 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit... stimme eher zu stimme weiß eher nicht nicht zu keine Angabe 1 2 8 9 1 2 8 9 einem Mann.............................. einer Frau................................. Die Ergebnisse der Beobachtungen bei allen Fällen werden in einer Tabelle, der Datenmatrix zusammengefasst. 1 2 So werden den einzelnen Fällen eindeutige Nummern zugewiesen, die etwa nach der Reihenfolge der Durchführung von Interviews oder des Eingangs der Daten gebildet werden. Diese Nummern heißen Fallnummern (oder Identifikationsnummern). 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! 1943 Statistik. Sagen Sie mir bitte, in ___________________ welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 62 Die Datenmatrix Untersuchungseinheiten (Fälle) Tabelle 2.4: Beispiel einer Datenmatrix Merkmale der Untersuchungseinheiten (Variablen) FallAntwort Antwort Antwort GeGeburtsnummer Frage 1 Frage 2a Frage 2b schlecht jahr ID F1 F2A F2B F3 F4 1 3 2 2 1 1943 2 2 8 1 2 1960 3 4 1 2 2 1957 4 9 8 1 1 1939 5 2 2 1 2 9999 6 8 8 1 1 1956 7 8 9 10 4 1 3 4 2 1 2 2 2 2 1 2 2 1 2 2 1970 1920 1956 1966 In einer Datenmatrix sind die Informationen i.a. so angeordnet, dass jede Zeile die gesamten verfügbaren Informationen (Realisierungen aller Variablen) bei einem Fall enthält, und dass jede Spalte alle Realisierungen einer Variablen über alle Fälle enthält. (nach Kühnel/ Krebs, 2006: S. 37) alle Realisierungen der Variablen F1: Univariate Verteilung von F1 Statistik 1 (Vorlesung SoSe 06, 25.4.06) Information über den ersten Fall 63 Datenmatrix: Kodierkonventionen für ungültige Fälle Bei empirischen Datenanalysen muss für jeden Fall und jede Variable eine Realisierung vorliegen. Wenn z.B. aufgrund von Antwortverweigerungen keine Antworten in einer vorgegebenen Antwortskala vorliegen, werden spezielle Ausprägungen, die sogenannten ungültigen oder fehlende Werte (missing values) verwendet. Dabei haben sich Konventionen eingespielt, die möglichst eingehalten werden sollten: Endziffer Verweigerung 7 weiß nicht 8 keine Angabe 9 trifft nicht zu 0 einstellige zweistellige Variablen Variablen 7 97 8 98 9 99 0 0 dreistellige Variablen 997 998 999 0 Da die meisten Analysemodelle davon ausgehen, dass es bei den betrachteten Variablen keine fehlenden Werte gibt, werden Fälle mit fehlenden Werten bei den betrachteten Variablen oft aus der Analyse ausgeschlossen (engl: listwise deletion of missing values). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 64 Häufigkeitstabellen Die empirische Verteilung einer Variablen gibt an, wie oft welche Ausprägungen einer Variable in der Datenmatrix (dem Datensatz), d.h. der Menge aller Untersuchungseinheiten, vorkommen. In der Regel handelt es sich bei einem Datensatz um eine Stichprobe, d.h. eine Teilmenge aus einer umfassenderen Population. Bei einer nicht zu hohen Anzahl von realiserten Ausprägungen lässt sich eine Häufigkeitsverteilung ohne Informationsverlust in einer Häufigkeitstabelle darstellen. Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) Statistik 1 (Vorlesung SoSe 06, 25.4.06) kumulierte Anteile 0.125 0.375 0.625 1.000 65 Häufigkeitstabellen Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) kumulierte Anteile 0.125 0.375 0.625 1.000 Die Tabelle enthält die absoluten Häufigkeiten mit der eine Ausprägung im Datensatz vorkommt. Im Beispiel kommt die 1. Ausprägung (“völlig zufrieden“, Code „1“) mit der absoluten Häufigkeit 1vor, die 4. Ausprägung (“völlig zufrieden“, Code „4“) mit der absoluten Häufigkeit 3 und die ungültige Ausprägung (“weiß nicht“, Code „8“) mit der absoluten Häufigkeit 1. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 66 Häufigkeitstabellen Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) kumulierte Anteile 0.125 0.375 0.625 1.000 Aus der Tabelle ist weiter ersichtlich, dass es neben den vier gültigen Ausprägungen zwei Ausprägungen gibt, die als ungültig deklariert sind. Ob eine Ausprägung als „ungültig“ bewertet wird, hängt von der jeweiligen Fragestellung ab. Dies Festlegun ungültiger Werte hat Auswirkungen auf die Berechnung der Anteile (relativen Häufigkeiten), die sich aus der Divison der absoluten Häufigkeiten durch die Gesamtzahl berechnen. Anteile können sich auf die gesamte Fallzahl (4. Spalte) oder nur auf die Zahl der Fälle mit gültigen Antworten (5. Spalte) beziehen Statistik 1 (Vorlesung SoSe 06, 25.4.06) 67 Häufigkeitstabellen Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) kumulierte Anteile 0.125 0.375 0.625 1.000 In der letzten Spalte werden die relativen Häufigkeiten der gültigen Fälle aufsummiert. Die Zahl 0.375 in der Zeile mit dem Code 2 „eher unzufrieden“ ist also die Summe der Anteile, die diesen oder einen kleineren Wert (Code) aufweisen, hier also die Summe der völlig unzufriedenen (Anteil = 0.125) und der eher unzufriedenen (Anteil = 0.250) Personen: 0.375 = 0.125 + 0.250. Kumulierte Anteile machen nur bei ordinalem oder höherem Messniveau Sinn. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 68 Konventionen Zur Darstellung in Formeln gibt es eine Reihe von Konventionen, mit denen Variablen, Ausprägungen und Realisierungen, gemessene Werte und Transformationen gekennzeichnet werden. Tabelle 3.1: Konventionen zur Bezeichnung von Variablen, Ausprägungen und Häufigkeiten Variable X, Y, Z, V2 Ausprägung x, y, z, v2 Anzahl der Fälle n Realisation des i-ten Falles (i=1,2,...,n) der Variablen X xi Realisation des i-ten sortierten Falles (Rangplatz) x(i) Ausprägung k (k=1,2,...,K) der Variablen X xk Anzahl der Fälle mit der Ausprägung xk nk Anteil der Fälle mit der Ausprägung xk pk Prozent der Fälle mit der Ausprägung xk pk% = pk ⋅ 100 (nach Kühnel/ Krebs, 2006: S. 42) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 69 Häufigkeitstabellen: Berechnung von Anteilen nk Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe pk pk Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) n pk = k n Bei der Indizierung wird manchmal auch die zugeordnete Ausprägung als Indexwert verwendet. cpk = ∑pk kumulierte Anteile 0.125 0.375 0.625 1.000 p1 = n1 / n = 1/10 = 0.1 p 2 = n 2 / n = 2 /10 = 0.2 p3 = n 3 / n = 2 /10 = 0.2 p 4 = n 4 / n = 3/10 = 0.3 p8 = n 8 / n = 1/10 = 0.1 p9 = n 9 / n = 1/10 = 0.1 Bei geordneten (sortierten) Werten wird immer die Rangnummer verwendet, d.h. im Beispiel p(5) an Stelle von p8. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 70 Häufigkeitstabellen: Berechnung von Anteilen nk Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe pk pk Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) cpk = ∑pk kumulierte Anteile 0.125 0.375 0.625 1.000 p1 = n1 / n = 1/ 8 = 0.125 Prozentuierung auf der Basis der gültigen Fälle: p 2 = n 2 / n = 2 / 8 = 0.250 p3 = n 3 / n = 2 / 8 = 0.250 p 4 = n 4 / n = 3/ 8 = 0.375 pk = Statistik 1 (Vorlesung SoSe 06, 25.4.06) nk n 71 Häufigkeitstabellen: Berechnung der kumulierten Anteile nk Ausprägung völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe pk pk Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 Summe (gültige Fälle: 8; fehlende Fälle 2) cpk = ∑pk kumulierte Anteile 0.125 0.375 0.625 1.000 k k cp k = p ( X ≤ x k ) = ∑ p k = i =1 ∑n i =1 k n cp1 = p1 = 0.125 = 1/ 8 cp 2 = p1 + p 2 = 0.125 + 0.250 = 0.375 = (1 + 2 ) / 8 cp3 = p1 + p 2 + p3 = 0.125 + .250 + 0.250 = 0.625 = (1 + 2 + 2 ) / 8 cp 4 = p1 + p 2 + p3 + p 4 = 0.125 + 0.250 + 0.250 + 0.375 = 1 = (1 + 2 + 2 + 3) / 8 Statistik 1 (Vorlesung SoSe 06, 25.4.06) 72 Häufigkeitstabellen: Berechnung von Prozenten nk Ausprägung pk pk Anteile insgesamt nur gültige Code Häufigkeit 1 2 3 4 8 9 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 --- 10 1.000 1.000 völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe Summe (gültige Fälle: 8; fehlende Fälle 2) p k % = p k ⋅100 ⇔ p k = pk % 100 pk % Anteile in Prozemt 12.5 % 25.0 % 25.0 % 37.5 % p1 % = 0.125 ⋅100 = 12.5 p 2 % = 0.250 ⋅100 = 25.0 p3 % = p3 ⋅100 = 0.250 ⋅100 = 25.0 p 4 % = p 4 ⋅100 = 0.375 ⋅100 = 37.5 Statistik 1 (Vorlesung SoSe 06, 25.4.06) 73 Häufigkeitstabellen bei gruppierten Daten Wenn eine Variable sehr viele Ausprägungen hat, werden aus Gründen der Übersichtlichkeit Ausprägungen zu Klassen (oder Gruppen) zusammengefasst. Messtheoretisch gesehen ist jede Klassenbildung eine unzulässige Trandformation. Die Zusammenfassung von Ausprägungen einer Variablen zu Klassen bedeutet grundsätzlich einen Informationsverlust. Regeln für die Definitiong der Klassen: 1. Die Klassengrenzen dürfen sich nicht überschneiden, d.h. jede Ausprägung darf nur einer einzigen Klasse zugeordnet werden. 2. Die Klassen sollen lückenlos aufeinander folgen, d.h. jede Ausprägung muss einer Klasse zugeordnet werden können, 3. Die Klassenbreiten sollen möglichst jeweils gleich sein. (Ausnahmen: ungleiche Klassenbreite bei erster oder letzer Klasse, wenn diese sonst sehr gering besetzt wären; Klassen sollen aus anderen Gründen gleich stark besetzt sein.) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 74 Häufigkeitstabellen bei gruppierten Daten Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben uk ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 (nach Kühnel/Krebs 2006: 49) Als Wert (Code) der Ausprägungen gruppierter Variablen wird oft die Klassenmitte berechnet, das ist der Durchschnittswert aus Ober- und Untergrenze einer Klasse Statistik 1 (Vorlesung SoSe 06, 25.4.06) pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 cpk Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 mk = Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 u k + ok 2 m1 = (17.5 + 29.5 ) / 2 = 23.5 m5 = ( 74.5 + 93.5 ) / 2 = 84.5 75 Statistik I im Sommersemester 2006 Themen am 2.5.2006: Verteilungen I: Graphische Darstellung und Lagemaße • Verteilungsfunktion und Quantile • Graphische Darstellung univariater Verteilungen • Modus, Median und arithmetisches Mittel Lernziele: 1. Die empirische Verteilungsfunktion 2. Bedeutung und Berechnung von Quantilen empirischer Verteilungen 3. Stabdiagramme, Histogramme, Dichteschätzer, Box-Plots, Balkendiagramme, Säulendiagramme, Tortendiagramme 4. Berechnung der Lagemaße Modus, Median und Mittelwerten Statistik 1 (Vorlesung SoSe 06, 2.5.06) 76 Wiederholung der wichtigsten Inhalte der letzten Sitzung Operationalisierung Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten Sachverhalts festgestellt wird Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch beobachtbaren Sachverhalten. Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten ↓ Explikation der Begriffe ↓ Formulierung einer Messtheorie mit Korrepondenzhypothesen ↓ Formulierung von Korrespondenzregeln Statistik 1 (Vorlesung SoSe 06, 2.5.06) 77 Beobachten und Messen (1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung. In der Sozialforschung spricht man auch von Beobachtung. (2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereits beobachteten empirischen Eigenschaften eines Objekts Messen im engeren Sinne wird technisch auch als Kodierung bezeichnet. Messen in der axiomatischen Messtheorie: Messen ist eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ Interpretierbare Relationen Identität Ränge Abstände Quotienten Nominalskala ja nein nein nein Ordinalskala ja ja nein nein Intervallskala ja ja ja nein Ratioskala ja ja ja ja Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 78 Messniveau: Zulässige Transformationen Tabelle 2.3: Zulässige Transformationen Skalenniveau Zulässige Transformationen Beispiele für erlaubte mathematische Operationen Nominal Alle ein-eindeutigen Transformationen Logarithmieren, Multiplikation, Addition (Subtraktion) einer Konstanten Ordninal Alle positiv-monotonen, die Rangordnung wahrenden Transformationen Wenn Ausgangswerte > 0: Quadrieren, Logarithmieren, Wurzelziehen Intervall Alle positiven linearen Transformationen Y = a + b ⋅ X mit b> 0 Ratio Streckungen und Stauchungen Y = b ⋅ X mit b> 0 Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeit und Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden müssen. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 79 Variablen und Begriffe/Konstrukte bezieht sich auf Variable (z.B. „Geschlecht“) Fälle (z.B. Personen) Element aus der Menge aller Fälle hat Menge möglicher Ausprägungen (z.B.: {männlich, weiblich] Theorie Verbindung Konkretisierung Begriff Realisation bei einem Fall (z.B. Herr X ist männlich) Faktor Operationalisierung Messmodell Messung Indikator Empirie Statistik 1 (Vorlesung SoSe 06, 2.5.06) latente Ebene beobachtete Ebene 80 Untersuchungseinheiten (Fälle) Die Datenmatrix Merkmale der Untersuchungseinheiten (Variablen) Antwort Antwort Antwort GeGeburtsFall Frage 2a Frage 2b schlecht jahr nummer Frage 1 F1 F2A F2B F3 F4 ID 3 2 2 1 1943 1 2 8 1 2 1960 2 4 1 2 2 1957 3 9 8 1 1 1939 4 2 2 1 2 9999 5 8 8 1 1 1956 6 4 2 2 2 1970 7 1 1 2 1 1920 8 3 2 1 2 1956 9 4 2 2 2 1966 10 Endziffer Verweigerung 7 weiß nicht 8 keine Angabe 9 trifft nicht zu 0 Statistik 1 (Vorlesung SoSe 06, 2.5.06) einstellige zweistellige Variablen Variablen 7 97 8 98 9 99 0 0 In einer Datenmatrix sind die Informationen i.a. so angeordnet, dass jede Zeile die gesamten verfügbaren Informationen (Realisierungen aller Variablen) bei einem Fall enthält, und dass jede Spalte alle Realisierungen einer Variablen über alle Fälle enthält. dreistellige Variablen 997 998 999 0 81 Häufigkeitstabellen: Konventionen xk k=1 k=2 k=3 k=4 k=5 k=6 nk Zufrieden mit Demokratie Ausprägung Code Häufigkeit völlig unzufrieden 1 1 eher unzufrieden 2 2 eher zufrieden 3 2 sehr zufrieden 4 3 weiß nicht 8 1 keine Angabe 9 1 Summe 10 (gültige Fälle: 8; fehlende Fälle 2) pk Anteile insgesamt nur gültige 0.100 0.125 0.200 0.250 0.200 0.250 0.300 0.375 0.100 0.100 1.000 1.000 Variable Ausprägung Anzahl der Fälle Realisation des i-ten Falles (i=1,2,...,n) der Variablen X Realisation des i-ten sortierten Falles (Rangplatz) Ausprägung k (k=1,2,...,K) der Variablen X Anzahl der Fälle mit der Ausprägung xk Anteil der Fälle mit der Ausprägung xk Prozent der Fälle mit der Ausprägung xk Statistik 1 (Vorlesung SoSe 06, 2.5.06) pk cpk = ∑pk kumulierte Anteile 0.125 0.375 0.625 1.000 X, Y, Z, V2 x, y, z, v2 n xi x(i) xk nk pk pk% = pk ⋅ 100 82 Häufigkeitstabellen: Berechnung von (kumulierten) Anteilen xk Zufrieden mit Demokratie Ausprägung Code k=1 k=2 k=3 k=4 k=5 k=6 völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden weiß nicht keine Angabe 1 2 3 4 8 9 Summe (gültige Fälle: 8; fehlende Fälle 2) nk pk Häufigkeit cpk = ∑pk pk Anteile insgesamt nur gültige 1 2 2 3 1 1 0.100 0.200 0.200 0.300 0.100 0.100 0.125 0.250 0.250 0.375 10 1.000 1.000 kumulierte Anteile 0.125 0.375 0.625 1.000 p1 = n1 / n = 1/ 8 = 0.125 cp1 = p1 = 0.125 p 2 = n 2 / n = 2 / 8 = 0.250 cp 2 = p1 + p 2 = 0.125 + 0.250 = 0.375 p3 = n 3 / n = 2 / 8 = 0.250 cp3 = p1 + p 2 + p3 = 0.125 + .250 + 0.250 = 0.625 p 4 = n 4 / n = 3/ 8 = 0.375 cp 4 = p1 + p 2 + p3 + p 4 = 0.125 + 0.250 + 0.250 + 0.375 = 1 k n pk = k n Statistik 1 (Vorlesung SoSe 06, 2.5.06) k cp k = p ( X ≤ x k ) = ∑ p k = i =1 ∑n i =1 k n 83 Häufigkeitstabellen bei gruppierten Daten Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben uk ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 (nach Kühnel/Krebs 2006: 49) Regeln für die Definition der Klassen bei gruppierten Daten: 1. Die Klassengrenzen dürfen sich nicht überschneiden, d.h. jede Ausprägung darf nur einer einzigen Klasse zugeordnet werden. 2. Die Klassen sollen lückenlos aufeinander folgen, d.h. jede Ausprägung muss einer Klasse zugeordnet werden können, 3. Die Klassenbreiten sollen möglichst jeweils gleich sein. (Ausnahmen: ungleiche Klassenbreite bei erster oder letzer Klasse, wenn diese sonst sehr gering besetzt wären; Klassen sollen aus anderen Gründen gleich stark besetzt sein.) Statistik 1 (Vorlesung SoSe 06, 2.5.06) 84 Verteilungsfunktion und Quantile Häufigkeitstabelle für die Bewertung der allgemeinen Wirtschaftslage Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 12.4 teils/teils 3 1710 48.6 schlecht 4 1087 30.9 sehr schlecht 5 232 6.6 weiß nicht 8 24 .7 Total 3518 100.0 Gültige Fälle: 3494 Fehlende Fälle: 24 Gültige Prozente .9 12.4 48.9 31.1 6.6 Missing 100.0 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 (Daten: ALLBUS 1996) xk nk pk pk cpk Quelle: Kühnel/Krebs, 2006: 44 Die empirische Verteilungsfunktion F̂(X) gibt an, welcher Anteil der Realisationen kleiner oder gleich diesem Wert sind: ( ) n i i =1 n k k nk F̂ ( X ≤ x k ) = ∑ = ∑ p k j=1 n j=1 In der Häufigkeitstabelle ist diese Information in der letzten Spalte mit den kumulierten Anteilen (cpk) aufgelistet. F̂ X ≤ x ( i ) = ∑ Statistik 1 (Vorlesung SoSe 06, 2.5.06) 85 Grafische Darstellung der Verteilungsfunktion Anstieg um p5=0.066 Anstieg um p4=0.311 1.0 Kumulierte Häufigkeiten 0.9 0.8 Anstieg um p3=0.489 0.7 0.6 0.5 0.4 Anstieg um p2=0.124 0.3 0.2 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 Anstieg um p1=0.009 0.1 0.0 0 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) 6 In der grafischen Darstellung ist die empirische Verteilungsfunktion eine Treppenfunktion, die bei jeder Ausprägung der Variablen um die relative Häufigkeit dieser Ausprägung ansteigt. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 86 Quantile Quantile teilen eine Verteilung in zwei Teilmengen auf: 13.3% ≤ 2 100% – 13.3% = 86.7 % > 2 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 0.5 0.4 100% – 13.3% = 86.7 % > 2 0.3 0.2 0.1 13.3% ≤ 2 0.0 0 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 1 (Vorlesung SoSe 06, 2.5.06) 6 87 Quantile: Quantilwert und Quantilanteil Der Quantilwert Q gibt die Trennstelle an, an der die Teilung erfolgt. α = 13.3% Q =2 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 0.5 0.4 Q =2 0.3 13.3%-Quantil: Q13.3% = Q0.133 = 2 0.2 0.1 α = 13.3% 0.0 0 Der Quantilanteil α gibt den Anteil an, der im unteren Teilbereich liegt. 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 1 (Vorlesung SoSe 06, 2.5.06) 6 88 Quantile Der Quantilwert Qα ist der kleinste Wert für den gilt, dass mindestens ein Anteil α von allen Realisierungen kleiner oder gleich diesem Wert ist. X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 1.0 Kumulierte Häufigkeiten 0.9 Q0.90 = 4? 0.8 0.7 0.6 0.5 Q0.50 = 3? 0.4 0.3 Q0.25 = 3? 0.2 0.1 Q0.10 = 2? 0.0 0 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 1 (Vorlesung SoSe 06, 2.5.06) 6 89 Quantile: Berechnung aus Häufigkeitstabellen ungruppierter Daten Wenn eine Häufigkeitstabelle ungruppierter Daten vorliegt, können die Quantilwerte direkt aus der Häufigkeitstabelle abgelesen werden: Der Quantilwert ist die Ausprägung, bei der in der Spalte mit den kumulierten Anteilen bzw. kumulierten Prozentwerten erstmals der Quantilanteil erreicht oder überschritten wird: X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 Statistik 1 (Vorlesung SoSe 06, 2.5.06) Q0.10 = Q 10% = ? 0.9% < 10 % ⇒ Q10% > 1 13.3% > 10 % ⇒ Q10% ≤ 2 „2“ ist die kleinste Ausprägung, für die gilt, mindestens 10% aller Fälle sind ≤ 2 ⇒ Q0.1 = 2. Qα=0.0% bis Qα=0.9% Qα>0.9% bis Qα=13.3% Qα>13.3% bis Qα=62.2% Qα>62.2% bis Qα=93.4% Qα>93.4% bis Qα=100% =1 =2 =3 =4 =5 90 Quantile: Berechnung aus geordneten Messwerten Untersuchungseinheiten (Fälle) Quantilwerte können auch direkt aus den Messwerten berechnet werden, wenn die Messwertreihe vorher der Größe nach sortiert wurde. Merkmale der Untersuchungseinheiten (Variablen) Antwort Antwort Antwort GeGeburtsFall Frage 2a Frage 2b schlecht jahr nummer Frage 1 F1 F2A F2B F3 F4 ID 3 2 2 1 1943 1 2 8 1 2 1960 2 4 1 2 2 1957 3 9 8 1 1 1939 4 2 2 1 2 9999 5 8 8 1 1 1956 6 4 2 2 2 1970 7 1 1 2 1 1920 8 3 2 1 2 1956 9 4 2 2 2 1966 10 Statistik 1 (Vorlesung SoSe 06, 2.5.06) Nach Größe sortiertes Geburtsjahr (ohne missing values) F4(i) 1920 1939 1943 1956 1956 1957 1960 1966 1970 9999 Fall Rang 8 4 1 6 9 3 2 10 7 5 1 2 3 4 5 6 7 8 9 -- 91 Quantile: Berechnung aus geordneten Messwerten Die Berechnung erfolgt in drei Schritten: Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat, Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i. Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j). Beispiel: Q50% = ? bei ungerader Fallzahl Schritt 1: i = n · α = 9 ·0.5 = 4.5 X 1920 1939 1943 1956 1956 1957 1960 1966 1970 Fall Rang 8 4 1 6 9 3 2 10 7 Schritt 2: Aufrunden zur nächsten ganzen Zahl: j = 5 1 Schritt 3: Q50% = x(5) = 1956 2 3 4 5 Wert auf Rangplatz 5: x(5) = 1956 6 7 8 9 Fallzahl n = 9. der Datensatz enthält n=9 Fälle mit gültigen Altersangaben Statistik 1 (Vorlesung SoSe 06, 2.5.06) 92 Quantile: Berechnung aus geordneten Messwerten Die Berechnung erfolgt in drei Schritten: Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat, Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i. Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j). Beispiel: Q50% = ? bei geraden Zahlen Schritt 1: i = n · α = 8 ·0.5 = 4 X Rang 1 2 2 3 5 6 6 7 1 2 3 4 5 6 7 8 Schritt 2: keine Aufrunden notwendig: j = i = 4 Schritt 3: Q50% = x(4) = 3 Wert auf Rangplatz 4: x(4) = 3 Fallzahl n = 8. Der Datensatz enthält n=8 Fälle Statistik 1 (Vorlesung SoSe 06, 2.5.06) 93 Bedeutung von Quantilen Wozu werden Quantile benötigt? Quantile geben Informationen über eine Verteilung: • So besagt das 50%-Quantil, bei welchem Wert die „Mitte“ einer Verteilung in etwa liegt, • Die Differenzen des 5%- und des 95%-Quantils geben an, in welchen Grenzen die mittleren 90% aller Fälle liegen. • Die Gesamtheit aller Quantile enthält alle Informationen über eine Verteilung. Besondere Namen: • Das 25%-, das 50-% und das 75%-Quantil werden auch als Quartile bezeichnet, weil sie die Verteilung in vier gleich stark besetzte Klassen aufteilen; • entsprechend werden das 10%-, 20%-, 30%-, ..., 90%-Quantil als Zentile bezeichnet, weil sie die Verteilung in 10 gleich stark besetzte Klassen aufteilen; • das 1%-, 2%-, ...., 98%-, 99%-Quantil werden analog als Perzentile bezeichnet. Messniveau: Voraussetzung für die Berechnung von Quantilen ist mindestens ordinales, besser metrisches Skalenniveau. Bei ordinalen Skalenniveau können Quantilwerte nur als Ausprägungen von Rangplätzen (Kategorien) interpretiert werden und nicht als exakte Zahlen. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 94 Hinweise zu Quantilen 2 3 3 4 4 5 5 6 3 4 5 6 7 8 9 10 Kumulierte Häufigkeiten Die vorgestellte Berechnungsweise ergibt die sogenannten „empirischen Quantile“ der empirischen Verteilungsfunktion. Darüber hinaus gibt es weitere Berechnungsformeln, die zu leicht unterschiedlichen Ergebnissen führen. Ursache ist die Unstetigkeit der empirischen Verteilungsfunktion bei ungruppierten So ist bei den links wiedergegebenen n=10 Fällen Daten. das 50%-Quantil Q0.50 = 3. 1.0 In zwei Hälften mit jeweils 50% (=5) Fällen X Rang 0.9 kann die Verteilung aber durch jede beliebige 1 1 Zahl zwischen 3 und 4 eingeteilt werden. 2 2 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) 6 95 Quantilberechnung bei gruppierten Daten Wenn wie bei metrischen Variablen mit sehr vielen Ausprägungen Klassen gebildet worden sind, werden die Quantilwerte über lineare Interpolation innerhalb der Klasse ermittelt, die das Quantil enthält. Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben uk ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 (nach Kühnel/Krebs 2006: 49) So ist das 25%-Quantil der Altersverteilung der Befragten aus dem Allbus 1996 in der Klasse von 29.5 bis unter 44.5 Jahren, da die kumulierten Prozentwerte in dieser Klasse das erste Mal größer oder gleich 25% sind. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 96 Verteilungsfunktion bei gruppierten Daten: Die Summenkurve Ausgangspunkt ist die Summenkurve, bei der in jeder Klasse eine Gerade zwischen Unter -und Obergrenze der Klasse gezogen wird. k 1 2 3 4 5 uk 17.5 29.5 44.5 59.5 74.5 ok <29.5 <44.5 <59.5 <74.5 <93.5 mk 23.5 37.0 52.0 67.0 84.5 1.0 5.2 % 0.9 Kumulierte Häufigkeiten pk cpk 19.2 19.2 30.5 49.7 26.9 76.6 18.2 94.8 5.2 100.0 19 Jahre 18.2 % 0.8 15 Jahre 0.7 0.6 26.9 % 0.5 15 Jahre 0.4 30.5 % 0.3 0.2 15 Jahre 0.1 19.2 % 0.0 Bei exakten Klassengrenzen berühren sich die Geraden und bilden zusammenhängend die Summenkurve, die eine Annäherung an die empirische Verteilungsfunktion der ungruppierten Daten ist. 12 Jahre 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 97 Quantilberechnung bei gruppierten Daten über die Summenkurve k 1 Der Quantilwert Qα bei gruppierten Daten ist dann der Wert von X, an der eine horizontale Gerade auf der Höhe 2 3 α die Summenkurve schneidet. 4 5 uk 17.5 29.5 44.5 59.5 74.5 ok <29.5 <44.5 <59.5 <74.5 <93.5 mk 23.5 37.0 52.0 67.0 84.5 pk cpk 19.2 19.2 30.5 49.7 26.9 76.6 18.2 94.8 5.2 100.0 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 48.7% = cp2 o2 = 44.5 (Obergrenze der zweiten Klasse) 0.5 0.4 0.3 α = 25 % Q25% = 32.35 0.2 0.1 0.0 19.2% = cp1 u2 = 29.5 (Untergrenze der zweiten Klasse) 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 98 Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse 0.5 Klassenbreite: o2 – o1 = 44.5 = 15 o1 = 29.5 o2 = 44.5 0.4 α = 25 % 0.3 p2 = 30.5 % 25.0% – 19.5% 0.2 0.1 cp1 = 19.2 % k 1 2 3 4 5 uk 17.5 29.5 44.5 59.5 74.5 ok <29.5 <44.5 <59.5 <74.5 <93.5 mk 23.5 37.0 52.0 67.0 84.5 pk cpk 19.2 19.2 30.5 49.7 26.9 76.6 18.2 94.8 5.2 100.0 0.0 15 20 25 30 35 40 45 50 55 Q25% = 32.35 Q0.25 = o1 + 25% − 19.2% x = 30.5% 44.5 − 29.5 Q 25% = 29.5 + 0.25 − 0.192 ⋅ ( 44.5 − 29.5 ) = 32.35 30.5 2.85 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 0.25 − cp1 ⋅ ( o 2 − o1 ) p2 α − cp k −1 ⋅ ( o k − o k −1 ) pk wobei k die Klasse ist, in der das gesuchte Quantil liegt. Qα = o k −1 + 99 Anwendung von Quantilen bei gruppierten Daten Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle? Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) Häufigkeit 673 1072 944 639 184 6 3518 Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 (nach Kühnel/Krebs 2006: 49) Das 50%-Quantil teilt die Verteilung in eine obere und eine untere Hälfte. Wenn 90% um das 50%-Quantil verteilt sind, liegen jeweils 45% unterhalb und oberhalb dieses Werts. Der gesuchte Bereich wird daher durch das 5%-Quantil (5% = 50% – 45%) und durch das 95%Quantil (95% = 50% + 45%) begrenzt. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 100 Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse Qα = o k −1 + α − cp k −1 ⋅ ( o k − o k −1 ) pk Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 (nach Kühnel/Krebs 2006: 49) Da cp1 = 19.2% > 5% liegt das 5%-Quantil in der ersten Klasse. Q0.05 = o1−1 + 0.05 − cp1−1 0.05 − 0 ⋅ ( o1 − o1−1 ) = 17.5 + ⋅ ( 29.5 − 17.5 ) = 20.625 p1 .192 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 101 Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse Qα = o k −1 + α − cp k −1 ⋅ ( o k − o k −1 ) pk Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 (nach Kühnel/Krebs 2006: 49) Da cp4 = 94.8% < 95% liegt das 95%-Quantil in der fünften Klasse. Q0.95 = o5−1 + 0.95 − cp5−1 0.95 − 0.948 ⋅ ( o5 − o5−1 ) = 74.5 + ⋅ ( 93.5 − 74.5 ) = 75.231 p5 .052 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 102 Anwendung von Quantilen bei gruppierten Daten Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle? 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 90% 0.5 0.4 90% aller Befragten sind zwischen 20.6 und 75.2 Jahre alt. 0.3 0.2 0.1 0.0 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Q5% = 20.625 Statistik 1 (Vorlesung SoSe 06, 2.5.06) Q95% = 75.231 103 Grafische Darstellung univariater Verteilungen Häufigkeiten Stabdiagramm 6 5 4 3 2 1 0 Empirische Dichte Grafische Darstellungen vermitteln einen Eindruck von der Form einer Verteilung. 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Histogramm 0.03 0.02 0.01 0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Alter in Jahren Alter in Jahren Box-Plot Empirische Dichte Kern-Dichte-Schätzer .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren 15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90 Alter in Jahren Daten: 150 zufällig ausgewählte Fälle der Altersverteilung im Allbus 1996 Statistik 1 (Vorlesung SoSe 06, 2.5.06) 104 Grafische Darstellung univariater Verteilungen: metrische Variablen Stabdiagramm 6 Häufigkeiten 5 4 3 2 1 0 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Alter in Jahren In Stabdiagrammen werden die absoluten oder relativen Häufigkeiten der Ausprägungen als senkrechte Linien symbolisiert. Dies ergibt einen schnellen Überblick über die Form einer Verteilung. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 105 Grafische Darstellung univariater Verteilungen: metrische Variablen Empirische Dichte Histogramm empirische Dichte: fˆk = pk ( ok − u k ) 0.03 0.02 0.01 0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Die Balkenhöhe ist gleich der empirischen Dichte im Intervall. Diese ist der Quotient aus der relativen Häufigkeit pk in einem Intervall geteilt durch die Intervallbreite (ok – uk) Alter in Jahren In Histogrammen wird die Häufigkeitsverteilung durch einander berührende Balken dargestellt. Histogramme sind besonders für die Darstellung der Verteilung bei gruppierten Daten sinvoll, da sie das Prinzip der Flächentreue berücksichtigen: Die Fläche eines Balkens entspricht der relativen Häufigkeit in dem durch die Balkenbreite definierten Intervall. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 106 Grafische Darstellung univariater Verteilungen: metrische Variablen Empirische Dichte Kern-Dichte-Schätzer In Abhängigkeit von der verwendeten Formel und der Länge des berücksichigten Abstands um den jeweiligen Wert, für den die emprische Dichte geschätzt wird, sind die resultierenden Kurvenverläufe glätter oder zerklüfteter. .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Die Form eines Histogramms hängt allerdings nicht nur von der Verteilung, sondern auch von den Intervallbreiten und der gewählten Untergrenze für das erste (ganz links angeordnete) Intervall ab. Um dieses Problem zu umgehen, sind Kern-Dichte-Schätzer entwickelt worden. Diese berechnen die empirische Dichte einer Verteilung an jedem beliebigen Punkt, wobei jeweils alle Realisierungen in einem vorgegebenen Abstand berücksichtigt werden und der Einfluss eines Wertes auf die berechnete Dichte mit steigendem Abstand sinkt. Werden die Dichten der Punkte verbunden, ergibt sich eine Kurve, die die Form einer Verteilung besser wiedergibt, als die Balken eines Histogramms. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 107 Grafische Darstellung univariater Verteilungen: metrische Variablen unimodal, linksschief bzw. rechtssteil unimodal, steil ansteigend, symmetrisch unimodal, symmetrisch uförmig bimodal, symmetrisch unimodal, rechtsschief bzw. linkssteil unimodal, flach ansteigend symmetrisch Mit Hilfe von Kern-Dichte-Schätzern bzw. Histogrammen lassen sich Verteilungen nach kennzeichnenden Charakteristika, wie Schiefe, U-Förmigkeit etc. beschreiben. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 108 Grafische Darstellung univariater Verteilungen: metrische Variablen Box-Plot 1. Quartil kleinster Wert (ohne Extremwerte max. 1.5 Boxlänge) 2. Quartil (Median) größter Wert (ohne Extremwerte max. 1.5 Boxlänge) 15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90 Alter in Jahren 3. Quartil Box-Plots konzentrieren sich auf wenige Merkmale einer Verteilung: • die „Box“ gibt die Lage der mittleren 50% aller Realisierungen einer Verteilung an; • ein Strich in der Box kennzeichnet den Median, der die Verteilung in zwei gleich strak besetzte Hälften teilt; • Linien links und rechts von der Box zeigen - mit Ausnahme möglicher extremer Ausreißerwerte - den Wertebereich an; • gibt es Extremwerte, die mehr als 1.5 mal weiter vom oberen oder unteren Ende der Box entfernt sind, als die Box selbst lang ist, werden diese durch zusätzliche Punkte oder Sternchen außerhalb der Linien gekennzeichnet. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 109 Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen 35 30 25 20 15 10 5 0 CD U CS / U Balkendiagramm Kreisdiagramm Andere Nichtwähler PDS Republikaner CDU/CSU Grüne D SP P FD ne il ka b pu e R r e S er PD n d A SPD FDP Säulendiagramm Nichtwähler 11.5% Grüne 14.0% FDP 8.0% Tortendiagramm Andere 1.1% PDS 4.9% Republikaner 1.9% Grüne PDS Republikaner Andere FDP Nichtwähler SPD 28.2% CDU/CSU CDU/CSU 30.5% SPD Daten: Tabelle 3.4 (Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 2.5.06) 110 Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen 35 Balkendiagramm 30 25 20 15 10 5 0 U CS / U CD D SP P er ne FD Grü ikan l ub p Re S PD re de n A c Ni r hle ä h tw Balkendiagramme entsprechen Stabdiagrammen. Für jede Ausprägung wird ein Balken gezeichnet, dessen Länge der Besetzungshäufigkeit entspricht. Die Balken dürfen sich nicht be rühren. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 111 Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen Säulendiagramm Nichtwähler 11.5% Andere 1.1% PDS 4.9% Republikaner 1.9% Grüne 14.0% FDP 8.0% SPD 28.2% CDU/CSU 30.5% In Säulendiagrammen wird ein Balken in Teilabschnitte eingeteilt, wobei jeder Abschnitt für eine Ausprägung steht. Die Abschnittsbreite entspricht der relativen Häufigkeit dieser Ausprägung. Säulendiagramme eignen sich gut beim Vergleich von Verteilungen in Subgruppen. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 112 Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen Kreisdiagram Tortendiagram CDU/CSU SPD FDP Grüne Republikaner PDS Andere Nichtwähler In Kreisdiagrammen und Tortendiagrammen wird ein Kreis bzw. ein Zylinder in Segmente zerteilt, die für die Ausprägungen stehen. Die relative Häufigkeit einer Ausprägung wird durch den Umfang des zugehörigen Segments, d.h. seinem Winkelanteil an den insgesamt 360° des Kreisumfangs bestimmt. Es ist allerdings nicht einfach, die relativen Größenverhältnisse der Ausprägungen über die Segmentumfänge abzuschätzen. Statistik 1 (Vorlesung SoSe 06, 2.5.06) 113 Statistik I im Sommersemester 2006 Themen am 9.5.2006: Verteilungsparameter: Lage- und Streuungsmaße • Modus, Median und arithmetisches Mittel • Getrimmtes Mittel u. geometrisches Mittel • Streuungsmaße: Spannweite, Quartilabstand, absolute Abweichung, Variation und abgeleitete Maße • Mittelwerte und Varianzen von Zusammenfassungen von Subgruppen Lernziele: 1. Verständnis der Logik von Lage- und Streuungsmaßen 2. Berechnung von Lage- und Streuungsmaßen 3. Konsequenzen von Zusammenfassungen für Mittelwerte und Varianzen und Berechnung von gemeinsamen Mittelwert und varianz aus den Kenngrößen der Subgruppen Statistik 1 (Vorlesung SoSe 06, 9.5.06) 114 Wiederholung der wichtigsten Inhalte der letzten Sitzung ( i i =1 n k k nk F̂ ( X ≤ x k ) = ∑ = ∑ p k j=1 n j=1 Anstieg um p5=0.066 Anstieg um p4=0.311 1.0 Kumulierte Häufigkeiten 0.9 0.8 Anstieg um p3=0.489 0.7 0.6 0.5 0.4 Anstieg um p2=0.124 0.3 0.2 ) n F̂ X ≤ x ( i ) = ∑ Verteilungsfunktion X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 Anstieg um p1=0.009 0.1 0.0 0 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 1 (Vorlesung SoSe 06, 8.5.06) 6 115 Quantile: Quantilwert und Quantilanteil Der Quantilwert Q gibt die Trennstelle an, an der die Teilung erfolgt. α = 13.3% Q =2 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 0.5 0.4 Q =2 0.3 13.3%-Quantil: Q13.3% = Q0.133 = 2 0.2 0.1 α = 13.3% 0.0 0 Der Quantilanteil α gibt den Anteil an, der im unteren Teilbereich liegt. 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 1 (Vorlesung SoSe 06, 8.5.06) 6 116 Quantile: Berechnung bei ungruppierter Daten Die Berechnung erfolgt in drei Schritten: Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat, Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i. Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j). X 1920 1939 1943 1956 1956 1957 1960 1966 1970 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 Fall Rang 8 4 1 6 9 3 2 10 7 1 2 3 4 5 6 7 8 9 Q50% = x(5) = 1956 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 0.9% < 10 % ⇒ Q10% > 1 13.3% > 10 % ⇒ Q10% ≤ 2 Q0.10 = Q 10% = 2 Qα=0.0% bis Qα=0.9% Qα>0.9% bis Qα=13.3% Qα>13.3% bis Qα=62.2% Qα>62.2% bis Qα=93.4% Qα>93.4% bis Qα=100% =1 =2 =3 =4 =5 117 Quantilberechnung bei gruppierten Daten über die Summenkurve 1.0 k 1 2 3 4 5 uk 17.5 29.5 44.5 59.5 74.5 ok <29.5 <44.5 <59.5 <74.5 <93.5 mk 23.5 37.0 52.0 67.0 84.5 pk cpk 19.2 19.2 30.5 49.7 26.9 76.6 18.2 94.8 5.2 100.0 Qα = o k −1 + α − cp k −1 ⋅ ( o k − o k −1 ) pk Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 48.7% = cp2 o2 = 44.5 (Obergrenze der zweiten Klasse) 0.5 0.4 0.3 α = 25 % Q25% = 32.35 0.2 0.1 0.0 19.2% = cp1 u2 = 29.5 (Untergrenze der zweiten Klasse) 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 118 Häufigkeiten Stabdiagramm 6 5 4 3 2 1 0 Empirische Dichte Grafische Darstellung univariater Verteilungen 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Histogramm 0.03 0.02 0.01 0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Alter in Jahren Alter in Jahren Box-Plot Empirische Dichte Kern-Dichte-Schätzer .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren 15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90 Alter in Jahren Daten: 150 zufällig ausgewählte Fälle der Altersverteilung im Allbus 1996 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 119 Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen 35 30 25 20 15 10 5 0 CD U CS / U Balkendiagramm Kreisdiagramm Andere Nichtwähler PDS Republikaner CDU/CSU Grüne D SP P FD ne il ka b pu e R r e S er PD n d A SPD FDP Säulendiagramm Nichtwähler 11.5% Grüne 14.0% FDP 8.0% Tortendiagramm Andere 1.1% PDS 4.9% Republikaner 1.9% Grüne PDS Republikaner Andere FDP Nichtwähler SPD 28.2% CDU/CSU CDU/CSU 30.5% SPD Daten: Tabelle 3.4 (Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 8.5.06) 120 Lagemaße: Typische Werte von Verteilungen Empirische Dichte Kern-Dichte-Schätzer .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Anstelle alle Realisierungen einer Verteilung etwa in Häufigkeitstabellen oder durch eine Grafik zu betrachten, benötigt man in der Statistik oft eine einzige Kenngröße, einen Verteilungsparameter, der charakteristisch für die ganze Verteilung ist. Eine solche Zahl, die gewissermaßen repräsentativ oder typisch für eine Verteilung sein soll, wird auch als typischer Wert bezeichnet. Da ein typischer Wert bei metrischen Verteilungen den Ort oder die Lage der Verteilung auf der Achse der Zahlen angibt, spricht man auch von einem Lagemaß. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 121 Lagemaße: Modus Empirische Dichte Modus .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer Verteilung bezeichnet. Sinnvoll ist die Wahl des Modus nur dann, wenn es nur einen Wert gibt, der am häufigksten vorkommt. Bei bi- oder multimodalen (mehrgipfligen) Verteilungen muss daher ein Gipfel besonders herausragen. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 122 Lagemaße: Modus Einschätzung der Wirtschaftslage in BRD Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 12.4 teils/teils 3 1710 48.6 schlecht 4 1087 30.9 sehr schlecht 5 232 6.6 weiß nicht 8 24 .7 Total 3518 100.0 Gültige Fälle: 3494 Fehlende Fälle: 24 Gültige Prozente .9 12.4 48.9 31.1 6.6 Missing 100.0 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 (Quelle: Allbus 1996) Bei der Häufigkeitsverteilung der Beurteilung der allgemeinen Wirtschaftsslage ist der Modus der Wert 3, d.h. die Ausprägung „teils/teils“. Von den Befragten wird diese Kategorie am häufigsten gewählt. Bei gruppierten Daten wird als Modus die Klassenmitte der Klasse gewählt, die die größe Besetzung aufweist. Dies macht offensichtlich nur Sinn, wenn die Klassenbildung nicht so gewählt ist, dass die Klassen gleiche Häufigkeiten aufweisen. In der Regel ist der Modus bei gruppierten Daten nicht informativ. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 123 Lagemaße: Median Empirische Dichte Median .025 .020 .015 .010 50% 50% .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Ein alternativer charakteristischer Wert einer Verteilung ist der Median, das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt. Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder gleich dem Median. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 124 Lagemaße: Berechnung des Median bei ungerader Fallzahl Fall: 1 2 3 4 5 6 7 8 9 Realisierung: 1943 1960 1957 1939 1956 1970 1920 1956 1966 Um den Median zu Berechnen, müssen die Realisierungen einer Verteilung zunächst der Größe nach geordnet werden. Rangplatz: (1) (2) (3) (4) (5) (6) (7) (8) (9) Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970 Bei einer ungeraden Fallzahl ist der Median die Realisierung auf dem Rangplatz (n+1)/2: x = x ⎛ n +1 ⎞ ⎜ ⎟ ⎝ 2 ⎠ Im Beispiel der Geburtsjahre der neun gültigen Fälle ist dies der Wert auf dem Rangplatz (9+1)/2 = 5, also 1956. Vier Fälle der Verteilung sind kleiner oder gleich, d.h. früher oder im gleichem Jahr geboren, und vier Fälle sind größer oder gleich, d.h. im gleichem Jahr oder später geboren. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 125 Lagemaße: Berechnung des Median bei gerader Fallzahl Fall: 1 2 3 4 5 6 7 8 9 10 Realisierung: 1943 1960 1956 1939 1958 1970 1920 1956 1966 1968 Rangplatz: (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Realisierung: 1920 1939 1943 1956 1956 1958 1960 1966 1968 1970 Bei einer geraden Fallzahl ist der Median der Mittelwert der beiden Fälle mit den Rangplätzen (n/2) und (n/2 + 1): x⎛ n ⎞ + x⎛ n x= ⎞ ⎜ +1⎟ ⎝2 ⎠ ⎜ ⎟ ⎝2⎠ 2 Im Beispiel der Geburtsjahre von zehn gültigen Fällen ist dies der Mittelwert der Fälle mit den Rangplätzen 10/2 = 5 und (10/2 + 1) = 6, also der Mittelwert von 1956 und 1958 = 1957. Jeweils fünf Fälle der Verteilung sind vor 1957 und nach 1957 geboren. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 126 Lagemaße: Berechnung des Median bei Häufigkeitstabellen ungruppierter Daten Wirtschaftslage in BRD Kumulierte Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 13.3 teils/teils 3 1710 62.2 schlecht 4 1087 93.4 sehr schlecht 5 232 100.0 Total 3494 (Quelle: fiktive Daten in Anlehnung an Allbus 1996) Wenn eine Verteilung als Häufigkeitstabelle vorliegt, kann der Median direkt aus der Häufigkeitstabelle abgelesen werden. Es ist die Ausprägung, bei der die kumulierten Anteilen den Wert 0.5 bzw. 50% erstmals überschreiten. Bei den Allbus-Daten 1996 zur Bewertung der allgemeinen Wirtschaftslage ist der Wert 3 bzw. die Kategorie „teils/teils“. Der Median ist der Mittelwert der Fälle mit den Rangplätzen 1747 (= 3494/2) und 1748. Beide Realisierungen weisen die dritte Ausprägung der Variablen auf. Daher ist jeweils die Hälfte der insgesamt 3494 Fälle kleiner gleich und gleichzeitig größer oder gleich diesem Wert. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 127 Lagemaße: Berechnung des Median bei Häufigkeitstabellen ungruppierter Daten Wirtschaftslage in BRD Kumulierte Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 13.3 50.0 teils/teils 3 1282 schlecht 4 1374 89.3 sehr schlecht 5 373 100.0 Total 3494 (Quelle: fiktive Daten in Anlehnung an Allbus 1996) Wenn allerdings bei einer Auspägung die kumulierte relative Häufigkeit exakt (d.h. ohne Rundungsfehler) den Wert 50% erreicht, was nur bei gerader Fallzahl möglich ist, dann ist der Median gemäß der obigen Definition der Mittelwert aus dieser Ausprägung und der nächsten Ausprägung. Im Beispiel weist der Median somit den Wert 3.5 = (3 + 4) /2 auf. Da eine Mittelwertberechnung nur bei metrischen Variablen zulässig ist, ist es hier sinnvoller, zu sagen: Der Median liegt genau zwischen der 3. („teils/teils“) und der 4. („schlecht“) Kategorie der Variablen. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 128 Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 Bei gruppierten Daten wird der Median über die Summenfunktion bzw. Summenkurve interpoliert: 0.5 − cp k −1 ⋅ ( o k − o k −1 ) x = o k −1 + pk In der Gleichung ist k die Klasse, in der der Median legt, im Beispiel also die 3 Klasse (k =3). Statistik 1 (Vorlesung SoSe 06, 8.5.06) 129 Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 6 3518 Die Berechnung ergibt: x = o k −1 + 0.5 − cp k −1 ⋅ ( o k − o k −1 ) pk x = o3−1 + 0.5 − cp3−1 ⋅ ( o3 − o3−1 ) p3 = 44.5 + pk Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 0.5 − 0.497 ⋅ ( 49.5 − 44.5 ) = 44.65 0.269 Der Median beträgt also 44.65 Jahre. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 130 Lagemaße: Beziehung zu Quantilen Vergleicht man die Formeln zur Berechnung des Median, mit denen zur Berechnung von Quantilen so zeigt sich: • bei gruppierten Häufigkeitstabellen sind der Median und das 50%-Quantil identisch; • bei ungerader Fallzahl ist der Median ebenfalls gleich dem empirischen 50%-Quantil; • nur bei gerader Fallzahl ist der Median etwas größer als das 50%-Quantil, wenn gleichzeitig die Realisierung mit dem Rangplatz (n/2+1) einen größeren Wert aufweist als die Realisierung mit dem Rangplatz (n/2). In fast allen Situation ist also der Median gleich dem 50%-Quantil. Die mögliche Abweichung bei gerader Fallzahl ist eine Folge davon, dass es unterschiedliche Berechnungsweisen für Quantile gibt. Empirische Quantile sind stets die kleinstmöglichen Werte, bei denen die empirische Verteilungsfunktion den Wert 0.5 erreicht. Auch der Median teilt die Verteilung bei Erreichen von 50%-Schwelle der der Größe nach geordneten Fälle. Bei gerader Fallzahl ist dieser Wert jedoch nicht immer eindeutig. Beim Median gilt dann eine andere Regel als beim empirischen Quantil. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 131 Lagemaße: Median minimiert die Summe der absoluten Differenzen von sich Wirtschaftslage in BRD Kumulierte Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 13.3 teils/teils 3 1282 50.0 schlecht 4 1374 89.3 sehr schlecht 5 373 100.0 Total 3494 X nk·|x–3.5| nk·|x–3| nk·|x–4| nk·|x–4.1| 1 75.0 60 90 93.0 2 652.5 43 870 913.5 3 641.0 0 1282 1410.2 4 687.0 1374 0 137.4 5 559.5 746 373 335.7 ∑ 2615.0 2615 2615 2889.8 (Quelle: fiktive Daten in Anlehnung an Allbus 1996) Der Median weist die Eigenschaft aus, dass die Summe der absoluten, d.h. vorzeichenbereinigten, Differenzen aller Realisierungen minimal ist. n ∑x i =1 n i − x ≤ ∑ x i − a für alle Werte a i =1 Allerdings ist diese Eigenschaft bei gerader Fallzahl nicht eindeutig. Sie gilt dann für alle Werte zwischen den Ausprägungen x(n/2) bis x(n/2+1). Im Beispiel beträgt die Summe der absoluten Differenzen der Realisierungen von den Werten 3 bis 4 jeweils 2615. Die Summe der absoluten Differenzen der Realisierungen von kleineren oder größeren Werten ist dagegen stets größer. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 132 Lagemaße: arithmetisches Mittel Empirische Dichte Arithmetisches Mittel .025 1 n x + x2 +… + xn x = ∑ xi = 1 n i=1 n .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Der vermutlich am häufigsten berechnete typische Wert einer Verteilung ist das arithmetische Mittel (engl: mean), das auch als Mittelwert oder Durchschnitt bezeichnet wird. Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit gültigen Werten) geteilt durch die Anzahl dieser Realisierungen. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 133 Lagemaße: Berechnung des arithmetischen Mittels Fall nummer ID 1 2 3 4 5 6 7 8 9 10 Alter Summe ∑xi / 9 415 46.1 X 55 38 41 59 k.A. 42 28 78 42 32 Da von den 10 Fällen aus der Tabelle 1 Wert ungültig ist, berechnet sich der Mittelwert aus den Realisierungen der verbleibenden 9 Fälle: n x= ∑x i =1 i n 55 + 38 + 41 + 59 + 42 + 28 + 78 + 42 + 32 = 9 415 = = 46.1 9 In einer Datenmatrix ergibt sich der Mittelwert einer Variablen als Summe aller gültigen Werte in der Spalte mit den Realisierungen dieser Variablen geteilt durch die Anzahl der gültigen Fälle. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 134 Lagemaße: Berechnung des arithmetischen Mittels in Häufgkeitstabellen xk 1 2 3 4 ∑ nk 20 25 40 15 100 nk·xk 20 50 120 60 250 pk pk ·xk 0.20 0.20 0.25 0.50 0.40 1.20 0.15 0.60 1.00 2.50 1 K x = ∑ nk ⋅ xk n k =1 Liegen die Daten als ungruppierte Häufigkeitstabelle vor, kann die Summierung über die Summe der mit den Besetzungszahlen multiplizierten Ausprägungen erfolgen. K K 1 K nk x = ∑ n k ⋅ x k = ∑ ⋅ x k = ∑ pk ⋅ x k n k =1 k =1 n k =1 1 K 20 ⋅1 + 25 ⋅ 2 + 40 ⋅ 3 + 15 ⋅ 4 20 + 50 + 120 + 60 250 x = ∑ nk ⋅ xk = = = = 2.5 n k =1 100 100 100 Alternativ kann auch die Summe der Produkte aus den Ausprägungen mal den relativen Häufigkeiten berechnet werden: K x = ∑ p k ⋅ x k = 0.20 ⋅1 + 0.25 ⋅ 2 + 0.40 ⋅ 3 + 0.15 ⋅ 4 = 0.20 + 0.50 + 1.2 + 0.60 = 2.5 k =1 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 135 Lagemaße: Berechnung des arithmetischen Mittels in gruppierten Häufgkeitstabellen uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 Total (Quelle: Allbus 1996) nk Häufigkeit 673 1072 944 639 184 3512 pk Gültige Prozente 19.2 30.5 26.9 18.2 5.2 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 nk·mk 15815.5 39664.0 49088.0 42813.0 15548.0 ∑ 162928.5 x 46.39 Bei gruppierten Daten werden statt der Auprägungen die Mittelwerte jeder Klasse zur Berechnung verwendet. 1 K 673 ⋅ 23.5 + 1072 ⋅ 37 + 944 ⋅ 52 + 639 ⋅ 67 + 184 ⋅ 84.5 x = ∑ n k ⋅ mk = = 46.39 n k =1 3512 Alternativ kann wieder die Summe über die Produkte aus relativen Häufigkeiten und Klassenmitten berechnet werden, was jedoch aufgrund von Rundungsfehlern i.a. ungenauer ist. K x = ∑ p k ⋅ m k = .192 ⋅ 23.5 + .305 ⋅ 37 + .269 ⋅ 52 + .182 ⋅ 67 + .052 ⋅ 84.5 = 46.37 k =1 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 136 Lagemaße: Eigenschaften des arithmetischen Mittels xk−3 −2 −1 0 1 2 0 xk 1 2 3 4 5 ∑ 15 1/n⋅∑ 3 (xk−3)2 4 1 0 1 4 10 xk−2.9 −1.9 −0.9 0.1 1.1 2.1 0.5 (xk−2.9)2 3.61 0.81 0.01 1.21 4.41 10.05 xk−3.1 −2.1 −1.1 −0.1 0.9 1.9 −0.5 (xk−3.1)2 4.41 1.21 0.01 0.81 3.61 10.05 Das arithmetische Mittel weist zwei Eigenschaften auf, die es gegenüber anderen Lagemaßen kennzeichnet: 1. Die Summe der Abweichungen vom Mittelwert ist stets null n ∑(x i =1 i − x) = 0 2. Die Summe der quadrierten Abweichungen vom Mittelwert ist minimal n ∑ ( xi − x ) i =1 2 n ≤ ∑ ( x i − a ) für alle Werte a 2 i =1 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 137 Empirische Dichte M od M us ed M ian it t el w er t Lagemaße: Auswahl eines Lagemaßes .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Bei der Entscheidung, welche Kenngröße als typischer Wert herangezogen werden soll, werden verschiedene Kriterien berücksichtigt: • Skalenniveau • Robustheit gegenüber Ausreißern und • Informationshaltigkeit Statistik 1 (Vorlesung SoSe 06, 8.5.06) 138 Lagemaße: Auswahl eines Lagemaßes Robustheit gegenüber Ausreißern: Die Robustheit gegenüber Ausreißern bezieht sich darauf, ob sich die Kenngröße sehr ändert, wenn die kleinsten oder größten Werte sehr weit vom Rest der Verteilung entfernt sind. - Wenn diese Werte sehr selten auftreten, können Stichprobenmittelwerte sehr deutlich vom Mittelwert in der Population abweichen, wenn zufälligerweise solche seltenen Werte in die Stichprobe fallen. Mittelwerte sind verglichen mit Median und Modus deutlich weniger robust gegenüber Ausreißern. - Der Median ist der robusteste Wert, da sein Wert ausschließlich auf der Ausprägung des mittleren Rangplatzes oder den Ausprägugnen der beiden mittleren Rangplätze beruht. - Der Modalwert ist nur dann robust, wenn der Abstand der relativen Häufigkeiten der modalen Ausprägung deutlich zu den relativen Häufigkeiten der übrigen Ausprägungen groß genug ist. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 139 Lagemaße: Auswahl eines Lagemaßes Informationshaltigkeit: Der Informationsgehalt der Lagemaße sinkt mit der Robustheit. - Das arithmetischen Mittel hat den höchsten Informationsgehalt, da in dessen Berechnung alle Realisierungen einfließen. - Der Informationsgehalt des Median ist geringer. - Am geringsten ist der Informationsgehalt des Modalwerts. Skalenniveau: - Da in die Berechnung des arithmetischen (und auch des geometrischen Mittels) Abstandsinformationen einfließen, ist der Mittelwert streng genommen nur bei metrischen Daten anwendbar. - Der Median basiert auf Rangreihen und setzt daher mindestens ordinales Skalenniveau voraus - Der Modus kann dagegen bereits ab Nominalskalenniveau berechnet werden. Insgesamt ergibt sich somit folgendes Bild. Kenngröße Skalenniveau Robustheit Modus ab Nominalskala bedingt Median ab Ordinalskala hoch Mittelwert nur metrisch gering Statistik 1 (Vorlesung SoSe 06, 8.5.06) Informationsgehalt gering mäßig hoch 140 Getrimmtes arithmetisches Mittel Im Unterschied zum Median ist das arithmetische Mittel nicht robust gegenüber Ausreißern. Als Ausweg wird bisweilen das getrimmte arithmetsiche Mittel verwendet, bei dem am oberen und unteren Rand eiern Verteilung eine vorgegebene Anzahl von Fällen ausgelassen wird. Fall: 1 2 3 4 5 6 7 8 9 10 ∑ Realisierung: 1943 1960 1957 1939 9999 1956 1970 1920 1956 1966 27566 Wird bei den Antworten auf die Frage nach dem Geburtsjahr fälschlicherweise der fehlende Wert 9999 als gültig in die Berechnung des Mittelwerts aufgenommen, ergibt sich ein mittleres Geburtsjahr von 2756.6. Ohne den ungültigen Fall beträgt der Mittelwert dagegen nur 1951.9 = (27566-9999)/9. Rang: 1 2 3 4 5 6 7 8 9 10 ∑ Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970 9999 15647 Beim 10%-getrimmten Mittel werden am unteren und am oberen Rand der Verteilung jeweils 10% der Fälle aus der Berechnung ausgeschlossen, bei n=10 also der kleinste und der größte Wert. Der Mittelwert der verbleibenden 8 Fälle beträgt 1955.9. Dieser Wert unterscheidet sich nicht mehr so stark vom korrekten Wert 1951.9. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 141 Getrimmtes arithmetisches Mittel Sinnvoll ist die Berechnung von getrimmten Mitteln auch bei gruppierten Daten, bei denen die Unter- bzw. Obergrenze der ersten bzw. letzten Klasse unbegrenzt ist: ok mk nk uk Klasse Klassenmitte Häufigkeit 0 € bis < 500 € 250 150 k=1 500 € bis < 1500 € 1000 200 k=2 3250 300 k=3 1500 € bis < 5000 € 7500 200 k=4 5000 € bis < 10000 € 17500 100 k=5 10000 € bis < 25000 € ? 50 k=6 25000 € und mehr Summe 1000 Im Beispiel der Einkommensklassen ist die Obergrenze der höchsten Einkommensklasse unbekannt. Dann lässt sich aber auch nicht die Klassenmitte berechnen, die wiederum für die Berechnung des Mittelwerts notwendig ist. Eine mögliche Lösung ist, die oberste Klasse mit n6=50 Fällen auszulassen. Dann müssen aber auch in der ersten Klasse die ersten 50 Fälle ebenfalls ausgelassen werden. Dabei wird wie bei der Berechnung von Quantilen über die Summenkurve davon ausgegangen, dass sich die Fälle in einer Klasse gleichmäßig über die gesamte Klassenbreite verteilen. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 142 Getrimmtes arithmetisches Mittel Die Untergrenze des Intervalls verschiebt sich dann entsprechend dem Anteil der ausgelassenen Fälle in dieser Klasse. Im Beispiel des Auslassens der 50 unteren Fälle verschiebt sich die Untergrenze um 50/150 der Intervallbreite nach oben: 1.0 u t = u1 + 0.9 nt ⋅ ( o1 − u1 ) n1 0.8 0.7 k=1 k=2 k=3 k=4 k=5 k=6 0.6 0.5 0.4 0.3 0.2 0.1 ok uk 50/1000 2 4 „getrimmte“ Untergrenze 6 8 10 Statistik 1 (Vorlesung SoSe 06, 8.5.06) Klasse 0 € bis < 500 € 500 € bis < 1500 € 1500 € bis < 5000 € 5000 € bis < 10000 € 10000 € bis < 25000 € 25000 € und mehr Summe ut = 0 + 14 mk 16 nk Klassenmitte 250 1000 3250 7500 17500 ? Häufigkeit 150 200 300 200 100 50 1000 50 ⋅ ( 500 − 0 ) = 167 150 18 20 22 24 26 Tsd. € 143 Getrimmtes arithmetisches Mittel uk k=1 k=2 k=3 k=4 k=5 k=6 Klasse 0 € bis < 500 € 500 € bis < 1500 € 1500 € bis < 5000 € 5000 € bis < 10000 € 10000 € bis < 25000 € 25000 € und mehr Summe uk k=1 k=2 k=3 k=4 k=5 k=6 ok ok Klasse 167 € bis < 500 € 500 € bis < 1500 € 1500 € bis < 5000 € 5000 € bis < 10000 € 10000 € bis < 25000 € 25000 € und mehr Summe mk Klassenmitte 250 1000 3250 7500 17500 ? ⇓ mk Klassenmitte 333.5 1000 3250 7500 17500 ? Statistik 1 (Vorlesung SoSe 06, 8.5.06) nk Häufigkeit 150 200 300 200 100 50 1000 nk Häufigkeit 100 200 300 200 100 50 900 u t = u1 + =0+ nt ⋅ ( o1 − u1 ) n1 50 ⋅ ( 500 − 0 ) = 167 150 nk·mk 33 350 200 000 975 000 1 500 000 1 750 000 ∑ 4 458 350 4 953.7 x 144 Getrimmtes arithmetisches Mittel ok uk k=1 k=2 k=3 k=4 k=5 k=6 Klasse 167 € bis < 500 € 500 € bis < 1500 € 1500 € bis < 5000 € 5000 € bis < 10000 € 10000 € bis < 25000 € 25000 € und mehr Summe mk Klassenmitte 333.5 1000 3250 7500 17500 ? nk Häufigkeit 100 200 300 200 100 50 900 nk·mk 33 350 200 000 975 000 1 500 000 1 750 000 ∑ 4 458 350 4 953.7 x Im Beispiel werden an den Rändern der Verteilung jeweils 5% (=50/1000) der Fälle nicht berücksichtigt. Das 5%-getrimmte arithmetische Mittel der Einkommensverteilung beträgt dann 4953.7 €. Ganz analog zum Verschieben der Untergrenze des ersten Intervalls kann auch die Obergrenze des letzten Intervalls verschoben werden, wenn am unteren Ende der Verteilung die letzte Kategorie ausgelassen wird. getrimmte Untergrenze n u t = u1 + t ⋅ ( o1 − u1 ) n1 Statistik 1 (Vorlesung SoSe 06, 8.5.06) getrimmte o t = o K − n t ⋅ ( o K − u K ) nK Obergrenze 145 Geometrisches Mittel Das arithmetische Mittel ist kein geeigneter Mittelwert, wenn durchschnittliche Veränderungsraten berechnet werden sollen. Beispiel: Eine Inflationsrate beträgt im ersten Jahr 20% im zweiten Jahr im zweiten Jahr 15% und im dritten Jahr 10%. Wie hoch ist die durchschnittliche Inflationsrate über die drei Jahre? Das arithmetische Mittel wäre 15%. Wenn etwas zu Beginn der drei Jahre 100€ gekostet hätte, sollte es nach 3 Jahren also 45% (= 3· 15%) mehr kosten, also 145€. Tatsächlich ergibt sich jedoch folgende Preissteigerung: Ausgangswert: Steigerung im 1. Jahr: Steigerung im 2. Jahr Steigerung im 3. Jahr 100€ 20% 15% 10% ⇒ 120€ ⇒ 138€ ⇒ 151.8€ Statistik 1 (Vorlesung SoSe 06, 8.5.06) 146 Geometrisches Mittel Selbst wenn man berücksichtigt, dass sich die Basis in jedem Jahr verändert, beträgt der durchschnittliche Zuwachs nicht 15%: Ausgangswert nach 1 Jahr 100€ 1.15·100€ = 115€ nach 2 Jahren ach 3 Jahren 1.15·115€ = 132.25€ 1.15·132.25€ = 152.0875€ Die Berechnung der korrekten durchschnittlichen Preissteigerung muss über das geometrische Mittel erfolgen, bei dem bei n Werten, die n-te Wurzel aus dem Produkt der n Änderungsfaktoren gezogen wird, im Beispiel bei drei Werten: 3 1.20 ⋅1.15 ⋅1.10 = 3 151.8 = 1.14927549 Bei Verwendung des geometrischen Mittels ergibt sich nach drei Jahren (bis auf Rundungsfehler) der tatsächlich erreichte Wert: Ausgangswert nach 1 Jahr nach 2 Jahren nach 3 Jahren 100€ 1.149·100€ = 114.9€ 1.149·114.9€ = 132.02€ 1.149·132.02€ = 151.69€ 100€ 1.20·100€ = 120€ Statistik 1 (Vorlesung SoSe 06, 8.5.06) 1.15·120€ = 138€ 1.10·138€ = 151.80€ 147 Geometrisches Mittel Im allgemeinen Fall berechnet sich das geometrischen Mittels über n Realisationen nach: n n i =1 i =1 x geom = n x1 ⋅ x 2 ⋅… ⋅ x n = n ∏ x i = ∏ x 1 n Bei der praktischen Berechnung kann man sich zunutze machen, dass durch Logarithmieren aus Produkten Summen werden und aus Potenzierungen Produkte. Die Logarithmierung der Ausgangswerte, Berechnung des arithmetsichen Mittels über die logarithmierten Werte und anschließende Antilogarithmierung führt daher zum gleichen Ergebnis wie die direkte Berechnung über die n-te Wurzel der Produkte. { x1 , x 2 , Schritt 1: Logarithmierung: , x n } → {ln ( x1 ) ,ln ( x 2 ) , ,ln ( x n )} 1 n Schritt 2: Berechnung des Mittelwerts: y = ∑ ln ( x i ) n i =1 Schritt 3: Anti-Logaritmierung: Im Beispiel: ⎛1 n ⎞ x geom = e = exp ⎜ ∑ ln ( x i ) ⎟ ⎝ n i =1 ⎠ ⎛1 ⎞ x geom = exp ⎜ ⋅ ( ln (1.2 ) + ln (1.15 ) + ln (1.1) ) ⎟ = 1.149 ⎝3 ⎠ y = 3 1.2 ⋅1.15 ⋅1.1 = 1.149 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 148 Streuungsmaße Neben einem typischen Wert, der eine Verteilung repräsentieren kann, ist von besonderer Bedeutung auch die Frage, wie repräsentativ dieser Wert ist, d.h., ob eher mit großen oder mit kleinen Abweichungen zu rechnen ist. 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 X 1 2 3 Y 4 5 1 2 3 4 5 W So gilt für alle drei Verteilungen in den Abbildungen, dass das arithmetische Mittel und der Median jeweils den Wert 3 aufweisen. Während bei der Variablen X die Realisierungen relativ eng um diesen Wert streuen, kommen bei der Gleichverteilung Y alle fünf Ausprägungen mit gleicher Häufigkeit vor. In der uförmigen Verteilung W werden Mittelwert und Median überhaupt nicht realisiert. Bei gleichem Lagemaß können die Realisierungen also sehr unterschiedlich um dieses Maß streuen. Die Unterschiedlichkeit der Realisationen wird durch Streuungsmaße erfasst. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 149 Spannweite 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 X RX = 5 – 1 = 4 1 2 3 4 Y RY = 5 – 1 = 4 5 1 2 3 4 5 W RW = 5 – 1 = 4 Ein sehr einfaches Maß zur Erfassung der Unterschiedlichkeit der Realisierungen ist die Spannweite (engl. Range), die als Abstand (Differenz) zwischen größter und kleinster Realisierung einer Verteilung definiert ist: R = x (n ) − x (1) Die Spannweite ist allerdings sehr empfindlich gegenüber Ausreißern und gibt keine weiteren Informationen über die Verteilung innerhalb des Wertebereichs. Daher unterscheiden sich im Beispiel die Spannweiten der drei Verteilungen nicht. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 150 (Mittlerer) Quartilabstand Q.25 45 45 45 40 40 40 35 Q.25 30 35 Q.75 Q.25 30 35 Q.75 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 X IQRX = 4 – 2 = 2 Q.75 1 2 3 4 Y IQRY = 4 – 2 = 2 5 1 2 3 4 5 W IQRW = 5 – 1 = 4 Unempfindlicher gegenüber Ausreißerwerten ist der Quartilabstand (engl. interquartil range), das ist die Differenz des dritten vom ersten Quartil: IQR = Q0.75 − Q0.25 Im Box-Plot wird der IQR zur Festlegung der Boxlänge verwendet. Anstelle des Quartilabstands wird auch der mittlere Quartilabstand verwendet, der die Hälfte des Quartilabstands ist. Q − Q0.25 mIQR = 0.75 2 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 151 Durchschnittliche absolute Abweichung 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X AD = (10 ⋅ 1 − 3 + 20 ⋅ 2 − 3 + 40 ⋅ 3 − 3 +20 ⋅ 4 − 3 + 10 ⋅ 5 − 3 ) /100 = 0.8 2 3 4 5 Y AD = ( 20 ⋅ 1 − 3 + 20 ⋅ 2 − 3 + 20 ⋅ 3 − 3 +20 ⋅ 4 − 3 + 20 ⋅ 5 − 3 ) /100 = 1.2 1 2 3 4 5 W AD = ( 40 ⋅ 1 − 3 + 10 ⋅ 2 − 3 + 0 ⋅ 3 − 3 +10 ⋅ 4 − 3 + 40 ⋅ 5 − 3 ) /100 = 1.8 Ein Maß, dass alle Realisationen einer Verteilung berücksichtigt und mit zunehmender Unterschiedlichkeit größere Werte aufweist, ist die durchschnittliche absolute Abweichung (engl. absolute deviation): 1 n AD = ∑ x i − x n i =1 Nur bei symmetrischen Verteilungen, bei denen arithmetisches Mittel und Median zusammenfallen, ist AD gleichzeitig ein definiertes Minimum. Nachteilig ist, dass auch andere durchschnittliche Abstände zu gleichen Werten kommen können. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 152 Variation 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 2 3 X ( 4 1 5 2 3 Y ( 4 5 W ( SSX = 10 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 40 ⋅ ( 3 − 3) SSY = 20 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 20 ⋅ ( 3 − 3) SSW = 40 ⋅ (1 − 3) + 10 ⋅ ( 2 − 3) + 0 ⋅ ( 3 − 3) 2 2 +20 ⋅ ( 4 − 3) + 10 ⋅ ( 5 − 3) 2 2 2 ) = 120 2 2 +20 ⋅ ( 4 − 3) + 20 ⋅ ( 5 − 3) 2 2 2 ) = 200 2 2 +10 ⋅ ( 4 − 3) + 40 ⋅ ( 5 − 3) 2 2 ) = 340 Dem gegenüber ist für jede Verteilung die Summe der quadrierten Abweichungen vom Mittelwert ein absoluter Minimalwert. Dieser Wert wird Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares) genannt: n n SSx = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2 i =1 2 i =1 Die Variation ist Ausgangsgröße für die in der Statistik am häufigsten verwendeten Streuungsmaße. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 153 2 Stichprobenvarianz 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 X SSX = 120 ; s X2 = 1.2 1 2 3 4 5 1 2 3 4 Y W SSY = 200 ; s X2 = 2.0 SSW = 340 ; s 2X = 3.4 5 Die (Stichproben-) Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert: 1 n SS 2 2 sX = ∑ ( x i − x ) = X n i =1 n Hinweis: In Statistikprogrammen, Taschenrechnern und manchen Statistikbüchern wird bei der Berechnung der Varianz die Variation nicht durch die Fallzahl n, sondern durch die Zahl der Freiheitsgrade n – 1 geteilt. Dieser Quotient ist eine Schätzung der Populationsvarianz auf der Basis von Stichprobendaten (geschätzte Populationsvarianz). Statistik 1 (Vorlesung SoSe 06, 8.5.06) 154 Standardabweichung 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X s 2X = 1.2 ; s x = 1.095 2 3 4 5 1 2 3 4 Y W s 2X = 2.0 ; s x = 1.414 s 2X = 3.4 ; s X =1.844 5 Da die Einheit der Varianz das Quadrat der Einheit der betrachteten Verteilung ist, wird meistens die Standardabweichung (engl: standard deviation) als Maß für die Streuung verwendet, die die positive Quadratwurzel aus der Varianz ist: 1 n SSX 2 − = sX = s = x x ( ) ∑ i n i =1 n 2 X Statistik 1 (Vorlesung SoSe 06, 8.5.06) 155 Variantionskoeffizient 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X s x = 1.095 ; Vx = 0.365 2 3 4 5 1 2 3 4 Y W s x = 1.414 ; Vx = 0.471 s x = 1.844 ; Vx = 0.615 5 Sind die Ausprägungen einer Variable große Zahlen, dann ist oft auch die Standardabweichung hoch, sind die Ausprägungen kleinere Zahlen, gilt dies oft auch für die Standardabwichung. Der Variationskoeffizient berücksichtigt dies, da er als Quotient der Standardabweichung geteilt durch das arithmetisches Mittel definiert ist: s 2X SSX sx VX = = = x x n ⋅x Statistik 1 (Vorlesung SoSe 06, 8.5.06) 156 Variantionskoeffizient 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X 2 3 4 5 1 2 3 4 Y W SSX = 120 ; s X2 = 1.2 ; SSY = 200 ; s X2 = 2.0 ; SSW = 340 ; s 2X = 3.4 ; s x = 1.095 ; Vx = 0.365 s x = 1.414 ; Vx = 0.471 s x = 1.844 ; Vx = 0.615 5 Der Variationsindex ist eine einheitslose Größe und wird oft in Prozent angeben. Ein Nachteil ist, dass seine Berechnung nur bei Variablen ohne negative Ausprägungen sinnvoll ist. Eine mögliche Verallgemeienrung besteht darin, statt durch den Mittelwert durch die Abweichung des Mittelwerts von der kleinsten Realisation zu teilen: s 2X SSX sx = = V = x − x (1) x − x (1) n ⋅ ( x − x (1) ) * X Statistik 1 (Vorlesung SoSe 06, 8.5.06) 157 Rechenschema für Variation und Varianz Die Berechnung der Variation und daraus abgeleiteter Streuungsmaße per Hand wird durch die Anwendung eines einfachen Rechenschemas erleichtert. Diesem liegt zugrunde, dass für die Berechnung neben der Fallzahl nur die Summe und die 2 Quadratsumme über alle Realisierungen benötigt werden: ⎛ n ⎞ ⎜ ∑ xi ⎟ n n n ⎛ ⎞ 2 SSX = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2 = ⎜ ∑ x i2 ⎟ − ⎝ i =1 ⎠ n i =1 i =1 ⎝ i =1 ⎠ Die Kenngrößen berechnen sich dann nach: Beispiel für die 9 Altersangaben: Alter (X) 55 38 41 59 42 28 78 42 32 ∑ 415 X2 3025 1444 1681 3481 1764 784 6084 1764 1024 21051 X−x 8.89 –8.11 –5.11 12.89 –4.11 –18.11 31.89 –4.11 –14.11 0.01 Statistik 1 (Vorlesung SoSe 06, 8.5.06) n (X − x) 79.01 65.79 26.12 166.12 16.90 328.01 1016.90 16.90 199.12 1914.87 ∑x i Variation: 415 = 46.1 n 9 n ⎛ n ⎞ 2 SSX = ∑ x i − ⎜ ∑ x i ⎟ / n i =1 ⎝ i =1 ⎠ = 21051 − 4152 / 9 = 1914.89 Varianz: s 2X = SSx / n = 1914.89 / 9 = 212.76 2 Mittelwert: x= i =1 = Standardabw.: s X = s X2 = 212.765 = 14.59 Variationsk.: VX = s X / x = 14.59 / 46.1 = 31.6% 158 Rechenschema für Häufigkeitstabellen Das Rechenschema lässt sich leicht auf Häufigkeitstabellen verallgemeinern. X 1 2 3 4 5 ∑ nk 10 20 40 20 10 100 nk·X 10 40 120 80 50 300 nk·X2 10 80 360 320 250 1020 K x= ∑n k =1 k ⋅ xk K ∑n k =1 = 2 ⎛ K ⎞ w SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n k =1 ⎝ k =1 ⎠ = 1020 − 3002 /100 = 120 K 300 =3 100 k s 2X = SSx /100 = 120 /100 = 1.2; s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5% Werden relative Häufigkeiten verwendet, ergit sich folgendes Schema: X 1 2 3 4 5 ∑ pk 0.1 0.2 0.4 0.2 0.1 1.0 pk·X 0.1 0.4 1.2 0.8 0.5 3.0 pk·X2 0.1 0.8 3.6 3.2 2.5 10.2 K x = ∑ pk ⋅ x k = 3 k =1 ⎛ K ⎞ s = ∑ pk ⋅ x − ⎜ ∑ pk ⋅ x k ⎟ k =1 ⎝ k =1 ⎠ = 10.2 − 32 = 1.2 K 2 X 2 2 k SSx = s 2X ⋅ n = 1.2 ⋅100 = 120; s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5% Bei gruppierten Daten werden in den Schemata statt der Ausprägungen xk die Klassenmitten mk eingesetzt. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 159 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen Werden Variationen, Varianz, Standardabweichung oder Variationskoeffizient aus gruppierten Häufigkeitstabellen berechnet, werden die entsprechenden Koeffizienten der ungruppierten Ausgangswerte unterschätzt. Warum das so ist, zeigt sich, wenn die Beziehung von Mittelwerten und Varianzen von Ausgangsdaten und Zusammenfassungen betrachtet wird. Angenommen, es sollen die Fälle aus zwei Subgruppen A und B zusammengefasst werden: Gruppe Fall XA A 1 2 A 2 2 A 3 3 A 4 3 A 5 4 A 6 4 ∑ nA=6 18 3 x (XA)2 4 4 9 9 16 16 58 9.67 x A = 18 / 6 = 3 SSA = 58 − 182 / 6 = 4 Gruppe Fall XB B 7 1 B 8 2 B 9 6 B 10 7 ∑ nB=4 16 x 4 (XB)2 1 4 36 49 90 22.5 x B = 16 / 4 = 4 SSB = 90 − 162 / 4 = 26 s 2B = 22.5 − 42 = 6.5 s 2A = 9.67 − 32 = 0.67 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 160 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen Gruppe Fall XA A 1 2 A 2 2 A 3 3 A 4 3 A 5 4 A 6 4 ∑ nA=6 18 3 x (XA)2 4 4 9 9 16 16 58 9.67 Gruppe Fall XB B 7 1 B 8 2 B 9 6 B 10 7 ∑ nB=4 16 x 4 (XB)2 1 4 36 49 90 22.5 x B = 16 / 4 = 4 SSB = 90 − 162 / 4 = 26 x A = 18 / 6 = 3 SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67 s 2B = 90 / 4 − 42 = 6.5 Wenn nA die Fallzahl in der 1. Subgruppe und nB die Fallzahl in der 2. Subgruppe B ist, ergeben sich die relativen Gruppenhäufigkeiten nach: nA n n nB n n pA = = A = 1 − B = 1 − pB ; pB = = B = 1 − A = 1 − pB nA + nB n n nA + nB n n Bezogen auf die Beispieldaten ergibt sich: pA = 6 6 4 = = 1 − = 0.6 ; 6 + 4 10 10 Statistik 1 (Vorlesung SoSe 06, 8.5.06) pB = 4 4 6 = = 1 − = 0.4 6 + 4 10 10 161 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen Gruppe Fall XA A 1 2 A 2 2 A 3 3 A 4 3 A 5 4 A 6 4 ∑ nA=6 18 3 x (XA)2 4 4 9 9 16 16 58 9.67 Gruppe Fall XB B 7 1 B 8 2 B 9 6 B 10 7 ∑ nB=4 16 x 4 x A = 18 / 6 = 3 SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67 (XB)2 1 4 36 49 90 22.5 x B = 16 / 4 = 4 SSB = 90 − 162 / 4 = 26 s 2B = 90 / 4 − 42 = 6.5 Der Gesamtmittelwert ergibt sich dann aus der mit den jeweiligen relativen Häufigkeiten gewichteten Summe der Mittelwerte in den Teilgruppen: nA nB n n x pooled = ⋅ xA + ⋅ x B = A ⋅ x A + B ⋅ x B = pA ⋅ x A + pB ⋅ x B nA + nB nA + nB n n Bezogen auf die Beispieldaten ergibt sich: x pooled = Statistik 1 (Vorlesung SoSe 06, 8.5.06) 6 4 ⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4 10 10 162 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen (XA)2 4 4 9 9 16 16 58 9.67 Gruppe Fall XA A 1 2 A 2 2 A 3 3 A 4 3 A 5 4 A 6 4 ∑ nA=6 18 3 x (XB)2 1 4 36 49 90 22.5 Gruppe Fall XB B 7 1 B 8 2 B 9 6 B 10 7 ∑ nB=4 16 x 4 x B = 16 / 4 = 4 SSB = 90 − 162 / 4 = 26 x A = 18 / 6 = 3 SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67 s 2B = 90 / 4 − 42 = 6.5 Die Gesamtvarianz berechnet sich nach einer etwas komplizierteren Formel: s 2 pooled ( ) ( = p A ⋅ s + ( x A − x pooled ) + p B ⋅ s + ( x B − x pooled ) 2 2 A = ( pA ⋅ s + pB ⋅ s 2 A 2 B Im Beispiel: s 2pooled = ( p A ⋅ s A2 + p B ⋅ s B2 ) + (p ⋅(x ) + (p ⋅ (x 2 B 2 ) A A A A − x pooled ) + p B ⋅ ( x B − x pooled ( ) )) − x pooled ) + p B ⋅ ( x B − x pooled ) 2 2 = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 ) + 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 ) 2 2 ) 2 2 = ( 0.4 + 2.6 ) + ( 0.096 + 0.144 ) = 3 + 0.24 = 3.24 Statistik 1 (Vorlesung SoSe 06, 8.5.06) 163 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen Gruppe Fall A 1 A 2 A 3 A 4 A 5 A 6 X 2 2 3 3 4 4 (X)2 4 4 9 9 16 16 B B B B 7 8 9 10 1 2 6 7 1 4 36 49 ∑ x n=10 34 3.4 148 14.8 x A = 18 / 6 = 3 x B = 16 / 4 = 4 s 2A = 58 / 6 − 32 = 0.67 s 2B = 90 / 4 − 42 = 6.5 x pooled = 6 4 ⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4 10 10 s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 ) ( + 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 ) 2 2 ) = 3 + 0.24 = 3.24 x = 34 /10 = 3.4 s 2X = 14.8 − 3.42 = 3.24 Bei Häufigkeitstabellen gruppierter Daten wird die Varianz ausschließlich über die Variation zwischen den Gruppenmittelwerten berechnet. Da die erste Komponenten der Variation innerhalb der Gruppen ignoriert wird, wird die tatsächliche Varianz unterschätzt. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 164 Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen X 2 2 3 3 4 4 (X)2 4 4 9 9 16 16 7 8 9 10 1 2 6 7 1 4 36 49 n=10 34 3.4 148 14.8 Gruppe Fall A 1 A 2 A 3 A 4 A 5 A 6 B B B B ∑ x x A = 18 / 6 = 3 x B = 16 / 4 = 4 s 2A = 58 / 6 − 32 = 0.67 s 2B = 90 / 4 − 42 = 6.5 x pooled = 6 4 ⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4 10 10 s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 ) ( + 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 ) 2 2 ) = 3 + 0.24 = 3.24 x = 34 /10 = 3.4 s 2X = 148 /10 − 3.42 = 3.24 Da bei der Zusammenfassung von Gruppen die Komponenten der Variation zwischen den Gruppen oft recht klein ist, wird als Näherungsformel nur die Variation innerhalb der Gruppen berücksichtigt: s 2pooled ≈ ( p A ⋅ s 2A + p B ⋅ s 2B ) = 3 ≤ 3.24 Die Näherungsformel ist dann exakt, wenn sich die Gruppenmittelwerte zwischen den Gruppen nicht unterscheiden. Statistik 1 (Vorlesung SoSe 06, 8.5.06) 165 Statistik I im Sommersemester 2006 Themen am 16.5.2006: Übungsklausur I Streungsmaße II und höhere Momente • Auswirkungen von Lineartransformationen • Z-Transformation • Devianz, Schiefe und Steilheit Lernziele: 1. Berechnung der Mittelwerte und variationsbasierter Streuungsmaße von linear transformierten Variablen auf der Basis der Ausgangsgröße und der Transformationsfunktion 2. Berechnung von Z-Werten und ihre Interpretation 3. Streuung bei nominalskalierten Variablen: Devianz 4. Momente und ihre Nutzung in der Statistik Statistik 1 (Vorlesung SoSe 06, 16.5.06) 166 Wiederholung der wichtigsten Inhalte der letzten Sitzung Lagemaße: Modus Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer Verteilung bezeichnet. Lagemaße: Median Ein alternativer charakteristischer Wert einer Verteilung ist der Median, das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt. Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder gleich dem Median. Bei einer ungeraden Fallzahl ist der Median die Realisierung auf dem Rangplatz (n+1)/2: x = x ⎛ n +1 ⎞ ⎜ ⎟ ⎝ 2 ⎠ Bei einer geraden Fallzahl ist der Median der Mittelwert der beiden Fälle mit den Rangplätzen (n/2) und (n/2 + 1): x⎛ n ⎞ + x⎛ n x= Statistik 1 (Vorlesung SoSe 06, 16.5.06) ⎞ ⎜ +1⎟ ⎝2 ⎠ ⎜ ⎟ ⎝2⎠ 2 167 Wiederholung: Median Wirtschaftslage in BRD Kumulierte Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 13.3 teils/teils 3 1710 62.2 schlecht 4 1087 93.4 sehr schlecht 5 232 100.0 Total 3494 50%-Quantil wird erstmals überschritten: Median ist 3 (Quelle: fiktive Daten in Anlehnung an Allbus 1996) Wirtschaftslage in BRD Kumulierte Ausprägung Code Häufigkeit Prozente sehr gut 1 30 .9 gut 2 435 13.3 50.0 teils/teils 3 1282 schlecht 4 1374 89.3 sehr schlecht 5 373 100.0 Total 3494 50%-Quantil wird erreicht (=Fall n/2). Median ist (3+4)/2 = 3.5 (Quelle: fiktive Daten in Anlehnung an Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 16.5.06) 168 Wiederholung: Median Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten uk k=1 k=2 k=3 k=4 k=5 ok mk Ausprägung in Jahren Code = (exakte Klassengenzen) Klassenmitte 17.5 bis <29.5 23.5 29.5 bis < 44.5 37.0 44.5 bis <59.5 52.0 59.5 bis <74.5 67.0 74.5 bis <93.5 84.5 keine Angabe 999.0 Total Gültige Fälle: 3512 Fehlende Fälle: 6 (Quelle: Allbus 1996) 0.5 − cp k −1 x = o k −1 + ⋅ ( o k − o k −1 ) pk nk pk Häufigkeit 673 1072 944 639 184 6 3518 x = o k −1 + 0.5 − cp k −1 ⋅ ( o k − o k −1 ) pk x = o3−1 + 0.5 − cp3−1 ⋅ ( o3 − o3−1 ) p3 = 44.5 + Statistik 1 (Vorlesung SoSe 06, 16.5.06) Prozente 19.1 30.5 26.8 18.2 5.2 .2 100.0 Gültige Prozente 19.2 30.5 26.9 18.2 5.2 Missing 100.0 cpk Kumulierte Prozente 19.2 49.7 76.6 94.8 100.0 0.5 − 0.497 ⋅ ( 59.5 − 44.5 ) = 44.65 0.269 169 Wiederholung: Mittelwert Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit gültigen Werten) geteilt durch die Anzahl dieser Realisierungen. 1 n x1 + x 2 + … + x n x = ∑ xi = n i=1 n xk 1 2 3 4 ∑ nk 20 25 40 15 100 nk·xk 20 50 120 60 250 pk pk ·xk 0.20 0.20 0.25 0.50 0.40 1.20 0.15 0.60 1.00 2.50 K K 1 K nk x = ∑ n k ⋅ x k = ∑ ⋅ x k = ∑ pk ⋅ x k n k =1 k =1 n k =1 Getrimmtes arithmetisches Mittel Im Unterschied zum Median ist das arithmetische Mittel nicht robust gegenüber Ausreißern. Als Ausweg wird bisweilen das getrimmte arithmetsiche Mittel verwendet, bei dem am oberen und unteren Rand einer Verteilung eine vorgegebene Anzahl von Fällen ausgelassen wird. Statistik 1 (Vorlesung SoSe 06, 16.5.06) 170 Wiederholung: Mittelwert Fall: 1 2 3 4 5 6 7 8 9 10 ∑ Realisierung: 1943 1960 1957 1939 9999 1956 1970 1920 1956 1966 27566 Rang: 1 2 3 4 5 6 7 8 9 10 ∑ Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970 9999 15647 uk k=1 k=2 k=3 k=4 k=5 k=6 ok Klasse 0 € bis < 500 € 500 € bis < 1500 € 1500 € bis < 5000 € 5000 € bis < 10000 € 10000 € bis < 25000 € 25000 € und mehr Summe mk Klassenmitte 250 1000 3250 7500 17500 ? nk Häufigkeit 150 200 300 200 100 50 1000 u t = u1 + =0+ nt ⋅ ( o1 − u1 ) n1 50 ⋅ ( 500 − 0 ) = 167 150 ot = oK − Statistik 1 (Vorlesung SoSe 06, 16.5.06) nt ⋅ ( oK − u K ) nK 171 Wiederholung Geometrisches Mittel n n x geom = n x1 ⋅ x 2 ⋅… ⋅ x n = n ∏ x i = ∏ x i =1 1 n i =1 R = x (n ) − x (1) Streuungmaße: Spannweite IQR = Q0.75 − Q 0.25 mIQR = (Mittlerer) Quartilabstand Durchschnittliche absolute Abweichung n Variation x geom ⎛1 n ⎞ = e = exp ⎜ ∑ ln ( x i ) ⎟ ⎝ n i =1 ⎠ y Q0.75 − Q0.25 2 1 n AD = ∑ x i − x n i =1 n SSx = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2 2 i =1 Stichprobenvarianz i =1 1 n SS 2 s = ∑ ( xi − x ) = X n i =1 n Standardabweichung Variantionskoeffizient 2 X 1 n SSX 2 − = sX = s = x x ( ) ∑ i n i =1 n 2 X s 2X SSX sx VX = = = x x n ⋅x Statistik 1 (Vorlesung SoSe 06, 16.5.06) 172 Wiederholung: Rechenschema für Variation und Varianz Alter (X) 55 38 41 59 42 28 78 42 32 ∑ 415 X2 3025 1444 1681 3481 1764 784 6084 1764 1024 21051 Variation: nk 10 20 40 20 10 100 nk·X 10 40 120 80 50 300 K x= ∑n k =1 k ⋅ xk K ∑n k =1 nk·X2 10 80 360 320 250 1020 Statistik 1 (Vorlesung SoSe 06, 16.5.06) i =1 i X 1 2 3 4 5 ∑ = pk 0.1 0.2 0.4 0.2 0.1 1.0 pk·X 0.1 0.4 1.2 0.8 0.5 3.0 pk·X2 0.1 0.8 3.6 3.2 2.5 10.2 K = x = ∑ pk ⋅ x k = 3 300 =3 100 k =1 ⎛ K ⎞ 2 2 sX = ∑ pk ⋅ x k − ⎜ ∑ pk ⋅ x k ⎟ k =1 ⎝ k =1 ⎠ = 10.2 − 32 = 1.2 K k 2 ⎛ K ⎞ w SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n k =1 ⎝ k =1 ⎠ = 1020 − 3002 /100 = 120 K ∑x 415 = 46.1 n 9 2 n n ⎛ ⎞ SSX = ∑ x i2 − ⎜ ∑ x i ⎟ / n i =1 ⎝ i =1 ⎠ = 21051 − 4152 / 9 = 1914.89 x= Mittelwert: X 1 2 3 4 5 ∑ n 2 173 Wiederholung: Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen Gruppe Fall A 1 A 2 A 3 A 4 A 5 A 6 X 2 2 3 3 4 4 (X)2 4 4 9 9 16 16 x B = 16 / 4 = 4 s 2A = 58 / 6 − 32 = 0.67 s 2B = 90 / 4 − 42 = 6.5 x pooled = 6 4 ⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4 10 10 s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 ) B B B B 7 8 9 10 1 2 6 7 1 4 36 49 ∑ x n=10 34 3.4 148 14.8 x pooled = x A = 18 / 6 = 3 ( + 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 ) 2 2 ) = 3 + 0.24 = 3.24 x = 34 /10 = 3.4 s 2X = 14.8 − 3.42 = 3.24 nA nB n n ⋅ xA + ⋅ x B = A ⋅ x A + B ⋅ x B = pA ⋅ x A + pB ⋅ x B nA + nB nA + nB n n ( ) ( s 2pooled = p A ⋅ s 2A + ( x A − x pooled ) + p B ⋅ s B2 + ( x B − x pooled ) 2 ( 2 ) = ( p A ⋅ s A2 + p B ⋅ s B2 ) + p A ⋅ ( x A − x pooled ) + p B ⋅ ( x B − x pooled ) Statistik 1 (Vorlesung SoSe 06, 16.5.06) 2 2 ) 174 Auswirkungen von Lineartransformationen Lineartransformationen In vielen statistischen Anwendungen werden die Maße einer Verteilung durch Verschieben und Strecken geändert. Solche Transformationen heißen Lineartransformationen und können durch eine lineare Gleichung dargestellt werden: Y=a+b·X (mit b≠0) X bezeichnet die Ursprungswerte und Y die transformierten Werte. Grafisch lassen sich Lineartransformationen durch lineare Geraden in einem Koordinatensystem darstellen. Y -5 -4 -3 -2 9 8 7 6 5 4 3 2 1 0 -1 -1 0 -2 -3 1 2 3 4 X Y=2+X Y=4+X Y=4+ 0.5X Statistik 1 (Vorlesung SoSe 06, 16.5.06) 5 Die Konstante a gibt den transformierten Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senkrechten Y-Achse. Das Transformationsgewicht b gibt die Steigung der Geraden an. Wenn der Wert von X um +1 Einheit ansteigt. Dann verändert sich der Wert von Y um b Einheiten. Y=2-0.5X 175 Auswirkungen von Lineartransformationen Wenn die Werte einer Variablen durch Lineartransformationen verändert werden, dann ist es möglich, den Mittelwert und die Varianz bzw. Standardabweichung der transformierten Werte aus dem Mittelwert und der Varianz bzw. Standardabweichung der Ursprungswerte zu berechnen. Lineartransformation Beispiel: Y= −1.5 + 0.5 · X Fall X 1 1 2 1 3 3 4 3 5 3 6 7 ∑ 18 18 x = =3 6 78 2 −3 s 2X = 6 sX = 2 X2 1 1 9 9 9 49 78 Y −1 −1 0 0 0 2 0 Y2 1 1 0 0 0 4 6 Wenn Y = a + b ·X, dann folgt: y = a + b⋅x s 2Y = b 2 ⋅ s X2 Im Beispiel: sY = b ⋅ sX y = a + b ⋅ x = −1.5 + 0.5 ⋅ 3 = 0 s 2Y = b 2 ⋅ s X2 = 0.52 ⋅ 4 = 1 s Y = b ⋅ s X = 0.5 ⋅ 2 = 1 0 =0 6 6 s 2Y = − 02 = 1 6 sY = 1 y= =4 Statistik 1 (Vorlesung SoSe 06, 16.5.06) 176 Zentrierung Durch geeignete Wahl der Transformationsparameter a und b kann eine Verteilung so transformiert werden, dass der Mittelwert der transformierten Werte genau null ist. Man spricht dann davon, dass die Werte bzw. die Variable zentriert wird. Die resultierenden Werte sind mittelwertbereinigt oder mittelwertfrei. Die Transformationsgleichung für die Zentrierung ist: Y = − x + 1 ⋅ X ⇒ y = 0; s 2Y = s X2 ; s Y = s x Normierung Durch geeignete Wahl der Transformationsparameter a und b kann auch dafür gesorgt werden, dass die transformierten Werte eine Varianz bzw. Standardabweichung von genau 1 haben. Man spricht hier von Normierung bzw. normierten Werten. Die Transformationsgleichung ist: Y =0+ X x ⇒ y = ; s 2Y = 1; s Y = 1 (Normierung mit Mittelwertsveränderung) sX sX ⎛ 1 ⎞ 1 Y = ⎜1 − ⎟ ⋅ x + ⋅ X ⇒ y = x; s 2Y = 1; s Y = 1 (Normierung ohne Mittelwertsveränderung) sX ⎝ sX ⎠ Statistik 1 (Vorlesung SoSe 06, 16.5.06) 177 Standardisierung Wenn eine Variable gleichzeitig zentriert und normiert wird, spricht man von Standardisierung. Standardisierte Werte haben also einen Mittelwert von 0 und eine Varianz von 1. Die Transformationsgleichung wird auch als Z-Transformation bezeichnet und die standardisierten Werte als Z-Werte. Die Transformationsgleichung ist: Z= −x X X − x + = ⇒ z = 0; s 2Z = 1; s Z = 1 sX sX sX Beispiel: Berechnung von Z-Werten für die Altersverteilung: Fall: Realisierung: X2 5 50 ∑ 250 400 3600 2025 5625 2500 14150 1 20 (X-50)/18.166 -1.65 2.727 Z2 2 60 3 45 4 75 .550 -.275 1.376 .303 .076 1.894 0 0 0.003 5.000 250 = 50 5 s 2X = 14150 / 5 − 502 = 330 x= s X = 330 = 18.166 Eine 20jährige Person ist –1.65 Standardabweichungen vom Mittelwert der Verteilung entfernt, eine 75jährige Person +1.376 Standardabweichungen. Statistik 1 (Vorlesung SoSe 06, 16.5.06) 178 Devianz Alle vorgestellten Maße gehen von metrischen Daten aus, da Abstandsinformationen verwendet werden. Der Quantilabstand kann auch bei ordinalen Variablen verwendet werden, wenn der Abstand nicht in Zahlen, sondern Ausprägungen interpretiert wird, also: 50% aller Fälle liegen innerhalb der Ausprägungen x und y, wobei x die Kategorie(nummer) des 1. und y die Kategorie(nummer) des 3. Quartils ist. Ein Streuungsmaß, dass vor allem in der loglinearen Zusammenhangsanalyse Verwendung findet, ist die Devianz, die bereits ab Nominalskalenniveau berechnet werden kann. Die absolute Devianz DX einer Variablen X berechnet sich nach: ⎛n D X = −2∑ n k ⋅ ln ⎜ k ⎝ n k =1 K K ⎞ ⎟ = −2∑ n k ⋅ ln ( p k ) ⎠ k =1 Bei der Berechnung der relativen Devianz dX erfolgt die Gewichtung der Logarithmen über die relativen Häufigkeiten: K D d X = −2∑ p k ⋅ ln ( p k ) = x n k =1 Statistik 1 (Vorlesung SoSe 06, 16.5.06) 179 Devianz Als Beispiel soll die Devinaz der gültigen Antworten auf die Frage nach der Wahlabsicht berechnet werden: Kategorie CDU/CSU SPD FDP B90/Grüne Republikaner PDS Andere Nichtwähler ∑ nk 791 730 206 362 49 126 29 297 2590 pk 0.305 0.282 0.080 0.140 0.019 0.049 0.011 0.115 1.001 –2 · nk · ln(pk) 1876.434 1848.898 1042.993 1424.665 388.824 761.829 260.543 1286.415 8890.601 (Quelle: Allbus 1996) K D X = −2∑ n k ⋅ ln ( p k ) = 8890.601 k =1 K d X = −2∑ p k ⋅ ln ( p k ) ⋅ p k = k =1 Statistik 1 (Vorlesung SoSe 06, 16.5.06) D x 8890.601 = = 3.433 n 2590 180 Devianz Die Idee der Devianz besteht darin, dass die Prognose einee Realisierung um so unsicherer wird, je stärker die Gesamtheit der Realisierungen über die Ausprägungen einer nominalskalierten Variablen streut. Dann sollte die Streuung bei einer Konstanten minimal und bei einer Gleichverteilung maximal sein.Genau dies ist bei der Devianz der Fall, wie die folgenden Beispiele zeigen: xk 1 2 3 4 5 ∑ Variable A nk –2·nk·ln(pk) 500 0 0 -0 -0 -0 -500 0 xk 1 2 3 4 5 ∑ Variable B nk –2·nk·ln(pk) 250 346.57 0 -0 -0 -250 346.57 500 693.14 xk 1 2 3 4 5 ∑ Variable C nk –2·nk·ln(pk) 100 321.88 100 321.88 100 321.88 100 321.88 100 321.88 500 1609.40 Den größten und maximalen Wert weist die Devianz bei der Gleichverteilung (Variable C) auf, am geringsten ist die Devianz, wenn alle Realisierungen die gleiche Ausprägung aufweisen (Variable A). Statistik 1 (Vorlesung SoSe 06, 16.5.06) 181 Schiefe Neben der Streuung ist oft auch von Interesse, ob eine Verteilung (annhähernd) symmetrisch oder schief verteilt ist. Empirische Dichte M od M us ed M ian it t el w er t Hinweise auf die Schiefe (engl.: skewness) einer Verteilung gibt der Vergleich von Modus, Median und Mittelwert: • Für unimodale, symmetrische Verteilungen gilt: Modus = Median = Mittelwert, bei mehrgipfligen, symmetrischen Verteilungen gilt: Median = Mittelwert; • bei einer rechtsschiefen Verteilung gilt: Modus < Median < Mittelwert; • bei einer linksschiefen Verteilung gilt: Modus > Median > Mittelwert. .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Statistik 1 (Vorlesung SoSe 06, 16.5.06) 182 Schiefe Dies gilt jedoch nur im Idealfall, so dass oft keine klaren Hinweise möglich sind. Eine Kenngröße der Schiefe ist der Schiefekoeffizient, der das dritte Moment um den Mittelwert geteilt durch die dritte Potenz der Standardabweichung ist: 1 n 3 ( xi − x ) ∑ n Schiefekoeff . = i =1 3 sX Der Durchschnittswert der mit einer ganzen Zahl k potenzierten Realisierungen einer Verteilung wird als k-tes (Roh-) Moment bezeichnet: 1 n k k-tes Rohmoment = ⋅ ∑ x i n i =1 Das 1. Moment ist also der Mittelwert einer Verteilung, das 2. Moment der Durchschnittswert der quadrierten Realisierungen. Werden vor der Potenzierung die Differenzen vom Mittelwert berechnet, ergeben sich die Momente um den Mittelwert: 1 n k k-tes Moment um den Mittelwert = ⋅ ∑ ( x i − x ) n i =1 Statistik 1 (Vorlesung SoSe 06, 16.5.06) 183 Steilheit Das erste Moment um den Mittelwert ist stets null, das zweite ist die Varianz, das dritte wird für den Schiefekoeffizienten verwendet. Das vierte Moment gibt Hinweise auf die Steilheit oder Wölbung (engl. excess oder kurtosis) einer Verteilung. Je höher der Wert, desto steiler ist eine Verteilung, je geringer der Wert, desto flacher ist die Verteilung. Als Maß für die Steilheit wird folgender Koeffizient berechnet: Steilheit = 1 n 4 x x − ( ) ∑ i n i =1 (s ) 2 X 2 −3 Bei positiven Werten ist die Verteilung flacher, bei negativen Werten steiler als eine Normalverteilung. Die Interpretation ist jedoch schwierig. Angewendet werdenSchiefe- und Steilheitskoeffizienten in erster Linie in statistschen Tests, um zu prüfen, ob die Daten einer Stichprobe aus einer Normalverteilung kommen können. Statistik 1 (Vorlesung SoSe 06, 16.5.06) 184 Statistik I im Sommersemester 2006 Themen am 23.5.2006: Wahrscheinlichkeitstheorie • Stichprobe und Grundgesamtheit • Zufallsexperiment und Wahrscheinlichkeiten • Axiomatische Wahrscheinlichkeitstheorie • Stichprobenwahrscheinlichkeiten bei einfachen Zufallsauswahlen • Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen • Kennwerte, Kennwerteverteilungen und Populationsparameter Lernziele: 1. 2. 3. Kenntnisse über Grundlagen und Grundbegriffe der Wahrscheinlichkeitstheorie Definition von Zufallsvariablen und Wahrscheinlichkeitsverteilungen Die Bedeutung von Zufallsauswahlen für die Schätzung von Populationsparametern Statistik 1 (Vorlesung SoSe 06, 23.5.06) 185 Wiederholung der Gegenstände der letzten Sitzungen • Operationalisierung und Messung • Datenmatrix: Variablen, Ausprägungen und Realisierungen • Empirische Verteilungen - Darstellung in Häufigkeitstabellen und grafische Darstellung - Empirische Verteilungsfunktion und Quantile • Verteilungskennwerte - Lagemaße: Modus, Median, arithmetisches Mittel - Streuungsmaße: Spannweite, Quartilabstand, absolute Abweichung Variation, Varianz, Standardabweichung, Variationskoeffizient - Momente und weitere Kennwerte: Schiefe und Steilheit • Mathematische Grundlagen Summenzeichen, Produktzeichen, Logarithmen und Potenzieren Statistik 1 (Vorlesung SoSe 06, 23.5.06) 186 Stichprobe und Grundgesamtheit Viele Anwendungen der Statistik beziehen sich auf Stichprobendaten, mit deren Hilfe auf Eigenschaften der Grundgesamtheiten rückgeschlossen werden soll, aus denen die Stichprobe kommt. Beispiel: In der Stichprobe des ALLBUS 1996 gaben 13.3 % von 3494 Befragten mit gültigen Antworten an, dass Sie die Wirtschaftslage in Deutschland für sehr gut oder gut hielten. Daraus wird geschlossen, dass gut 13% der Wohnbevölkerung in Deutschland 1996 die Wirtschaftslage für gut oder sehr gut hielten. Aber: Die Verallgemeinerung von den Ergebnisse einer Teilmenge auf eine größere Gesamtmenge ist ein Induktionsschluss, bei dem sich prinzipiell nicht ausschließen lässt, dass er unzutreffend ist. Möglicherweise hielten 1996 95% oder auch nur 5% die Wirtschaftslage für gut oder sehr gut. Bei 3494 Befragten von vielen Millionen Personen, über die eine Aussage gemacht wird, sind nahezu alle Ergebnisse möglich. Sicher ist nur, dass es 1996 mindestens 465 (= 13.3% von 3494) Befragten gab, die die Wirtschaftslage für gut oder sehr gut hielten. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 187 Stichprobe und Grundgesamtheit Auch mit Hilfe der Statistik kann die logische Möglichkeit eines falschen Induktionsschlusses nicht vermieden werden. Aber: Die Statistik • kann Hinweise dazu geben, wie die Fälle einer Stichprobe ausgewählt werden sollten, damit die Wahrscheinlichkeit korrekter Schlüsse von einer Stichprobe auf die Grundgesamtheit (Population) möglichst hoch ist, • und bei Wahrscheinlichkeitsauswahlen das Risiko von Fehlschlüssen berechenbar machen. In einer Wahrscheinlichkeitsauswahl (oder Zufallsauswahl) besteht für jedes Element einer Grundgesamtheit eine prinzipiell angebbare Wahrscheinlichkeit größer null, dass das Element in die Stichprobe aufgenommen wird. Um diese Behauptungen, die die Rechtfertigung für die schließende Statistik bilden, nachvollziehbar zu machen, sind Grundkenntnisse über Wahrscheinlichkeitstheorie notwendig. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 188 Zufallsexperimente und Wahrscheinlichkeit Beispiel: In einem entlegendem Dorf leben 6 Familien, die ein monatliches Haushaltseinkommen von 1000, 2000, 3000, 4000, 5000 und 6000 Euro haben. Ein Statistiker wählt mit Hilfe eines Würfels zufällig genau eine Familie aus, um diese zu befragen. Dazu nummeriert er die Haushalte mit Zahlen von 1 bis 6 durch. Wenn beim Würfeln eine 1 resultiert, wird der erste Haushalt ausgewählt, wenn eine 2 resuliert, der zweite, usw.. Unsicher, ob die Befragung eines Haushalts Aussagen über das gesamte Dorf ermöglicht, wiederholt der Statistiker eine Woche später diesen Auswahlprozess und befragt ein weiteres Mal genau einen der sechs Haushalte. Der Einfachheit halber wird angenommen, dass die Nummer des Haushalts gerade dem Haushaltseinkommen entspricht, also Haushalt Nr. 1 über 1000€ pro Monat verfügt, Haushalt Nr. 2 über 2000€, Nr. 3 über 3000E, Nr. 4 über 4000€, Nr. 5 über 5000 € und Nr. 6 über 6000€. Die Gesamtheit aller möglichen Ergebnisse der zweimaligen Befragung von jeweils einem Haushalt lässt sich dann grafisch als Punkte in einem Koordinatensystem visualiseren. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 189 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung In der statistischen Modellierung des Beispiel wird davon ausgegangen, dass die zweimalige Befragung als Zufallsexperiment aufgefasst werden kann. Ein Zufallsexperiment ist eine Situation, • die (theoretisch) unter gleichen Bedingungen beliebig oft wiederholbar ist, • deren Resultat genau eines von mehreren möglichen Ereignissen einer Ereignismenge (des Ereignisraums) ist, das auch als Universum bezeichnet und durch Ω (Omega) symbolisiert wird, und • das vor seinem Auftreten unbekannt ist. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 190 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung In der Abbildung steht jeder Punkt für ein mögliches Ereignis. + Der rot umrandete Punkt (1,4) steht für das Ereignis, Befragung des Haushalts Nr. 1 in der ersten Befragung und des Haushalts Nr. 4 in der zweiten Befragung. + Entsprechend steht der blau umrandete Punkt (5,5) für das Ereignis, sowohl in der ersten wie der zweiten Befragung Haushalt Nr. 5 zu erfassen. + Es ist möglich, komplexe Ereignisse zu definieren, z.B. „Das Erzielen einer ‚1‘ im ersten Wurf“. Bei diesem Ereignis wird zuerst der Haushalt Nr. 1 befragt und bei der zweiten Befragung der Haushalt Nr. 1 oder Nr. 2 oder Nr. 3 oder Nr. 4 oder Nr. 5 oder Nr. 6. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 191 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 B 5 A 4 D 3 2 1 C 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Die Ereignisse A und B sind disjunkt: Es ist unmöglich, in der ersten Befragung Haushalt 1 sowie in der zweiten Befragung Haushalt 4 zu befragen und gleichzeitig in beiden Befragungen Haushalt 5 zu befragen. Die Ereignisse C und D sind nicht disjunkt: Es ist möglich, in der ersten Befragung Haushalt 1 (Ereignis C) und in der zweiten Befragung Haushalt 2 (Ereignis D) zu befragen. In einem Ereignisraum eines Zufallsexperiments werden Ereignisse oft durch große Buchstaben bezeichnet: A kann z.B. das Ereignis bezeichnen, bei der ersten Befragung Haushalt 1 und bei zweiten Haushalt 4 zu befragen, B das Ereignis, in beiden Befragungen Haushalt Nr. 5 zu befragen, C das (komplexe) Ereignis, in der ersten Befragung Haushalt Nr. 1 zu befragen, und D das Ereignis, in der zweiten Befragung Haushalt Nr. 2 zu befragen. Zwei Ereignisse A und B heißen disjunkt, wenn sie nicht gleichzeitig auftreten können. Die Schnittmenge A∩B ist dann die leere Menge {}. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 192 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 5 A 4 3 2 1 C 0 0 1 2 3 4 5 Das zu einem Ereignis komplementäre Ereignis wird oft durch das Symbol ¬ B („nicht“) dargestellt, da das Komplementärereignis das „Gegenteil“ D eines Ereignisse ist. Das Ereignis ¬C ist das Komplentärereignis zum Ereignis C, im Beispiel ist ¬C das Ereignis, in der ¬C ersten Befragung nicht Haushalt 1 zu befragen. 6 Haushaltsnummer der ersten Befragung Es ist möglich disjunkte wie nicht disjunkte Ereignisse zu einem komplexen Ereignis zusammenzufassen: Das komplexe Ereignis A oder B fasst die beiden disjunkten Ereignisse A und B zusammen; das komplexe Ereignis C oder D die beiden nicht disjunkten Ereignisse C und D. Formal werden solche Zusammenfassungen oder Vereinigungen von Mengen durch das Symbol ∪ dargestellt: A ∪ B ist die Vereinigungsmenge von A und B. Zwei disjunkte Ereignisse heißen komplementär, wenn ihre Vereinigungsmenge den gesamten Ereignisraum Ω umfasst. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 193 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 Apriori-Wahrscheinlichkeit Wenn ein Zufallsexperiment zu n Elementarereignissen führen kann, ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 1/n. 5 4 3 2 1 0 0 1 2 3 4 5 6 Im Beispiel ist dann die Wahrscheinlichkeit jedes der 36 Elementarereignisse genau 1/36. Haushaltsnummer der ersten Befragung Eine exhaustive Zerlegung ist die vollständige Aufteilung eines Ereignisraums Ω in disjunkte Teilmengen, so dass die Vereinigungsmenge dieser Teilmengen den gesamten Ereignisraum umfasst. Die Ereignisse einer exhaustiven Zerlegung heißen Elementarereignisse, wenn diese Ereignisse nicht weiter in Teilereignisse zerlegt werden können, d.h. Elementarereignisse sind die kleinstmöglichen Teilereignisse eines Universums. In der Abbildung ist jeder Punkt ein Elementarereignis. Die insgesamt 36 Punkte ergeben eine exhaustive Zerlegung des Ereignisraums. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 194 Haushaltsnummer der zweiten Befragung Zufallsexperimente und Wahrscheinlichkeit 6 B 5 A 4 D 3 2 1 C 0 0 1 2 3 4 5 Klassicher Wahrscheinlichkeitsbegriff Im Sinne der Apriori-Wahrscheinlichkeit wurde nach der klassichen Vorstellung die Wahrscheinlichkeit eines Ereignisses als Zahl der günstigen Möglichkeiten durch die Zahl der ¬C Möglichkeiten insgesamt berechnet. 6 Haushaltsnummer der ersten Befragung Entsprechend dieser Vorstellung beträgt die Wahrscheinlichkeit des Eignisses A wie auch des Ereignisses B jeweils 1/36. Die Wahrscheinlichkeit des Ereignisses C beträgt dann 6/36 oder 1/6. Die gleiche Wahrscheinlichkeit von 1/6 hat auch das Ereignisses D. Das zu C komplementäre Ereignis ¬C hat dann die Wahrscheinlichkeit 30/36 oder 5/6 Die Wahrscheinlichkeit des Ereignissraums Ω beträgt also 36/36 = 1. Wenn „Pr“ für die Wahrscheinlichkeit eines Ereignisses steht, dann gilt also: Pr(¬C) = Pr(Ω) – Pr(C) = 1 – 1/6 = 5/6. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 195 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie 6 B 5 A 4 Im Beispiel: Pr (A) = Pr(B) = 1/36 Pr(A∪B) = 1/36 + 1/36 = 2/36 D 3 2 1 C 0 0 1 2 3 4 5 6 Pr(C) = 6/36 Pr(B) + Pr(C) = 7/36 Die Wahrscheinlichkeit, bei der ersten Befragung Haushalt 1 zu erreichen oder bei beiden Befragungen Haushalt 5, beträgt 7/36. Haushaltsnummer der ersten Befragung Die klassischen Überlegungen über Wahrscheinlichkeiten wurden in der axiomatischen Wahrscheinlichkeitstheorie zu drei Axiomen zusammengefasst: A1 Die Wahrscheinlichkeit jedes beliebigen Ereignisses A ist eine relle Zahl zwischen null und eins: 0 ≤ Pr(A) ≤ 1 A2 Irgendein Ereignis des Ereignisraums (Universums) Ω muss auftreten. Die Wahrscheinlichkeit des Universums ist daher das sichere Ereignis mit der Wahrscheinlichkeit 1: Pr(Ω) = 1 A3 Die Wahrscheinlichkeit der Vereinigungsmenge zweier disjunkter Ereignisse A oder B ist die Summe der Wahrscheinlichkeit von A und der Wahrscheinlichkeit von B Pr(A∪B) = Pr(A) + Pr(B) wenn A∩B = {} Statistik 1 (Vorlesung SoSe 06, 23.5.06) 196 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Additionstheorem 6 B 5 A 4 D 3 Im Beispiel: Pr(C∪D) = Pr(C) + Pr(D) – PR(C∩D) = 6/36 + 6/36 – 1/36 = 11/36 Pr(A∪C) = Pr(A) + Pr(C) – PR(A∩C) = 1/36 + 6/36 – 1/36 = 6/36 2 1 C 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Pr(B∪D) = Pr(B) + Pr(D) – PR(B∩D) = 1/36 + 6/36 – 0/36 = 7/36 Aus den drei Axiomen der Wahrscheinlichkeitstheorie folgt für die Wahrscheinlichkeit der Vereinigungsmenge zweier beliebiger (disjunkter wie nicht disjunkter) Ereignisse A und B: Pr(A∪B) = Pr(A) + Pr(B) – Pr(A∩B) Dieser Satz wird als Additionstheorem der Wahrscheinlichkeitstheorie bezeichnet. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 197 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Wahrscheinlichkeit bedingter Ereignisse 6 B 5 A 4 Im Beispiel: Pr(A|C) = Pr(A∩C) / Pr(C) = 1/36 / 6/36 = 1/6 D 3 Pr(D|C) = Pr(D∩C) / Pr(C) = 1/36 / 6/36 = 1/6 2 1 C 0 0 1 2 3 4 5 6 Pr(B|C) = Pr(B∩C) / Pr(C) = 0/36 / 6/36 = 0 Haushaltsnummer der ersten Befragung Oft ist man an der Wahrscheinlichkeit des Auftretens eines Ereignisses A unter der Bedingung interessiert, dass ein zweites Ereignis B auftritt. Das Ereignis B wird dann als bedingendes Ereignis bezeichnet, das Ereignis A als bedingtes Ereignis. Da das Auftreten des bedingendes Ereignisses B vorausgesetzt wird, reduziert sich der mögliche Ereignisraum für das bedingte Ereigniss A auf das Auftreten des bedingten Ereignises B. Die bedingte Wahrscheinlichkeit des Ereignisses A gegeben B ist daher die Wahrscheinlichkeit, dass A und B gemeinsam auftreten, geteilt durch die Wahrscheinlichkeit, dass B auftritt: Pr(A|B) = Pr(A∩B) / Pr(B) Statistik 1 (Vorlesung SoSe 06, 23.5.06) 198 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Wahrscheinlichkeit bedingter Ereignisse 6 B 5 A 4 Im Beispiel: Pr(C|D) = Pr(C∩D) / Pr(D) = 1/36 / 6/36 = 1/6 D 3 Die Wahrscheinlichkeit in der ersten Befragung Haushalt 1 zu erreichen, wenn in der zweiten Befragung Haushalt 2 erreicht werden wird, beträgt 1/6. 2 1 C 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung Bedingte Wahrscheinlichkeiten bilden die Grundlage der statistischen Zusammenhangsanalyse. Zu beachten ist, dass es sich zunächst um rein formale Aussagen handelt, ohne einen zeitlichen Bezug, wie er z.B. bei kausalen Beziehungen vorausgesetzt wird. Es ist daher auch möglich, die bedingte Wahrscheinlichkeit eines Ereignisses zu berechnen unter der Bedingung, dass ein später eintretendes Ereignis eintreten wird. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 199 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Statistische Unabhängigkeit 6 B 5 A 4 D 3 2 1 C 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Im Beispiel: Da Pr(D|C) = 1/6 gleich Pr(D) = 1/6, sind C und D statistisch unabhängig voneinander. Da Pr(A|C) = 1/6 ungleich Pr(A) = 1/36, sind A und C nicht statistisch unabhängig voneinander. Da Pr(B|C) = 0 ungleich Pr(B) = 1/36, sind B und C nicht unabhämgig voneinander. Disjunkte Ereignisse sind nicht statistisch unabhängig voneinander! Über die bedingte Wahrscheinlichkeit wird die statistische Unabhängigkeit definiert: Zwei Ereignisse A und B sind genau dann statistisch unabhängig voneinander, wenn die bedingte Wahrscheinlichkeit von A gegeben B gleich der (unbedingten) Wahrscheinlichkeit von A ist bzw. die bedingte Wahrscheinlichkeit von B gegeben A gleich der (unbedingten) Wahrscheinlichkeit von B ist: Pr(A|B) = Pr(A) Pr(B|A) = Pr(B) Statistik 1 (Vorlesung SoSe 06, 23.5.06) 200 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Multiplikationstheorem 6 B 5 A 4 D Im Beispiel: Pr(A∩C) = Pr(A|C) · Pr(C) = 1/6 ·1/6 = 1/36 Pr(B∩C) = Pr(B|C) · Pr(C) = 0/6 ·1/6 = 0 3 2 1 C 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Pr(C∩D) = Pr(C|D) · Pr(D) = Pr(C) · PrD) = 1/6 ·1/6 Bei statistischer Unabhängigkeit ist das gemeinsame (gleichzeitige) Auftreten zweier Ereignisse gleich dem Produkt der beiden Auftretenswahrscheinlichkeiten! Eine Umformung der Definition der Wahrscheinlichkeit eines bedingten Ereignisses zeigt, dass die Wahrscheinlichkeit des gleichzeitigen Auftretens zweier Ereignisse gleich dem Produkt der bedingten Wahrscheinlichkeit des einen Ereignisse und der unbedingten Wahrscheinlichkeit des bedingenden Ereignisses ist: P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A) Dieser Zusammenhang ist als Multiplikationstheorem bekannt. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 201 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Theorem von Bayes 6 Im Beispiel: Pr(D) = Pr(D∩C) + Pr(D∩¬C) = 1/36 + 5/36 = 6/36 = Pr(D|C) · Pr(C) + Pr(D|¬C) · Pr(¬C) D = 1/6 ·6/36 + 5/30 · 30/36 5 4 3 2 1 ¬C C 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung Mit Hilfe der unbedingten Wahrscheinlichkeiten lassen sich bei bedingten Wahrscheinlichkeiten bedingtes und bedingendes Ereignis austauschen. Zunächst ist ein Zwischenschritt nötig: Da ein Ereignis A undsein Komplementärereignis ¬A eine exhaustive Zerlegung des Universums bilden, ist die Wahrscheinlichkeit eines beliebigen Ereignisses B gleich der Summe der Wahrscheinlichkeiten des gleichzeitigen Auftretens von A und B sowie der von ¬A und B: Pr ( B ) = Pr ( A ∩ B ) + Pr ( ¬A ∩ B ) = Pr ( B A ) ⋅ Pr(A) + Pr ( B ¬A ) ⋅ Pr(¬A) Statistik 1 (Vorlesung SoSe 06, 23.5.06) 202 Haushaltsnummer der zweiten Befragung Axiomatische Wahrscheinlichkeitstheorie: Theorem von Bayes 6 Im Beispiel: Pr ( D C ) ⋅ Pr ( C ) 1/ 6 ⋅1/ 6 Pr ( C D ) = = Pr(D) 1/ 6 5 4 3 D= 2 1 ¬C C 0 0 1 2 3 4 5 = Pr ( D C ) ⋅ Pr ( C ) Pr ( D C ) ⋅ Pr ( C ) + Pr ( D ¬C ) ⋅ Pr ( ¬C ) 1/ 6 ⋅1/ 6 1/ 6 ⋅1/ 6 + 5 / 30 ⋅ 30 / 36 6 Haushaltsnummer der ersten Befragung Die bedingte Wahrscheinlichkeit von A gegeben B ist dann eine Funktion der bedingten Wahrscheinlichkeiten von B gegeben A und von B gegeben ¬A: Pr ( A B ) = = Pr ( A ∩ B ) Pr ( B A ) ⋅ Pr ( A ) = Pr ( B ) Pr ( B ) Pr ( B A ) ⋅ Pr ( A ) Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A ) Diese Beziehung ist als Satz von Bayes oder Bayessches Theorem bekannt. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 203 Anwendung des Theorem von Bayes: Kumulierung von Wissen Der Satz von Bayes ist die Grundlage der Bayesschen Statistik, in der u.a. versucht wird, mit Hilfe von Daten Wissen zu kumulieren. Ausgangspunkt ist die subjektive Wahrscheinlichkeit über ein Ereignis A, das ist die Sicherheit, mit der eine Ausage für wahr gehalten wird. Beispiel: Die Aussage „50% halten die Wirtschaftslage für gut“ wird durch A symbolisiert. Es wird vermutet, dass diese Aussage mit einer subjektiven Apriori-Wahrscheinlichkeit Pr(A) = 0.5 wahr ist In einer Stichprobe von 100 Peronen zeigt sich, dass nur 40% der Bevökerung die Wirtschaftslage für gut halten. Dies ist das empirische Datum B. Die Wahrscheinlichkeit, dass von 100 Personen maximal 40% die Wirtschaftslage für gut halten, wenn es tatsächlich 50% in der Population sind, beträgt Pr(B|A) = 0.025. Da die Wahrscheinlichkeit der beobachteten Daten (Ereignis B) eins ist, P(B)=1, folgt nach dem Satz von Bayes: ( ) Pr ( A B ) = Pr ( B A ) ⋅ Pr ( A ) / Pr ( B ) = ( 0.025 ⋅ 0.5 ) /1 = 0.0125 Angesichts der Daten sinkt die subjektive Wahrscheinlichkeit von 0.5 auf nur noch 0.0125, Dies ist die sogenante Aposteriori-Wahrscheinlichkeit. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 204 Anwendung des Theorem von Bayes: Vermeidung von Fehlurteilen Der Satz von Bayes kann auch helfen, Fehlschlüsse zu vermeiden. Beispiel: Mit Hilfe eines Tests wird mit einer Wahrscheinlichkeit von 1 entdeckt, ob ein Vogel an der gefährlichen Form der Vogelgrippe gestorben ist; mit einer Fehlerwahrscheinlichkeit von 1% (=0.01) wird bei einem toten Vogel fälschlicherweise Vogelgrippe diagnostiziert, obwohl sie nicht vorliegt. In einer Region haben 0.1% (=0.001) der Vögel Vogelgrippe. Bei einem toten Vogel zeigt der Test Vogelgrippe an. Wie wahrscheinlich ist es, dass der Vogel tatsächlich an der Vogelgrippe gestorben ist? Intuitiv möchte man meinen, dass die gesuchte Wahrscheinlichkeit 99% beträgt, da der Test nur 1% Fehler macht. Tatsächlich ergibt sich eine Wahrscheinlichkeit von nur gut 9%. A ist das Ereignis „Vogel hat Vogelgrippe“, B das Ereignis „Test zeigt Vogelgrippe an“. Die gesuchte Wahrscheinlichkeit ist dann die bedingte Wahrscheinlichkeit, dass ein Vogel Vogelgrippe hat, wenn der Test dies anzeigt: Pr(A|B). Mit Hilfe des Satzes von Bayes errechnet sich diese Wahrscheinlichkeit als: Pr ( A B ) = Pr ( B A ) ⋅ Pr ( A ) Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A ) Statistik 1 (Vorlesung SoSe 06, 23.5.06) = 1 ⋅ 0.001 = 0.091 1 ⋅ 0.001 + 0.01 ⋅ 0.999 205 Stichprobenziehung bei einfachen Zufallsauswahlen Eine wichtige Anwendung der Wahrscheinlichkeitstheorie in den Sozialwissenschaften besteht in der Bewertung von Stichproben. Eine Population enthält N Elemente, von denen n mit gleicher Wahrscheinlichkeit zufällig ausgewählt werden sollen. Die Auswahl kann mittels einer Urne erfolgen. Dabei wird wie bei einer Lotterie für jede der N Elemente eine numerierte Kugel mit der Fallnummer des Elements in eine Urne gelegt, die gut durchmischt wird. Nacheinander werden dann n Kugeln gezogen. Die Nummern auf den gezogenen Kugeln bestimmen die ausgewählten Elemente, die in die Stichprobe aufgenommen werden. Vor der ersten Ziehung sind N Kugeln in der Urne. Es gibt somit auch N mögliche Resultate. Nach der ersten Ziehung sind nur noch (N–1) Kugeln in der Urne, so dass für die zweite Ziehung noch (N–1) Möglichkeiten verbleiben. Nach der zweiten Ziehung sind noch (N–2) Kugeln in der Urne, so dass es in der dritten Ziehung noch (N–2) Möglichkeiten gibt. Nach jeder Ziehung reduziert sich die Zahl der Kugeln in der Urne um 1. Vor der n-ten Ziehung sind somit (N–n+1) Kugeln in der Urne, nach der n-ten Ziehung (N–n) Kugeln. Grafisch lässt sich das gesamt Vorgehen mit Hilfe eines Ereignisbaums darstellen. Um übersichtlich zu bleiben, wird als Beispiel die Auswahl von n=2 Elementen (Fällen) aus N=4 Elementen einer Population dargestellt. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 206 Urnenmodell einer einfachen Zufallsauswahl ohne Zurücklegen 12 34 1 2 2 34 2 34 3 24 Vor der ersten Ziehung 3 1 34 4 1 23 34 3 14 4 Erste Ziehung 12 4 4 1 13 24 2 14 12 3 4 1 12 23 2 13 Vor der zweiten Ziehung 3 Zweite Ziehung 12 Nach der zweiten Ziehung {1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe Insgesamt gibt es im Beispiel 12 = 4 · 3 mögliche Ergebnisse des Zufallsexperiments „Zufälliges Ziehen von n=2 Elemenen aus N=4 Elementen“. Geht man davon aus, dass bei jedem Ziehungsschritt die gleiche Auswahlwahrscheinlichkeit für eine der Kugeln in der Urne vorliegt, dann bträgt die Wahrscheinlichkeit für jedes Ergebnis vor der ersten Ziehung 1/4 und vor der zweiten Ziehung 1/3. Nach dem Multiplikationstheorem der Wahrscheinlichkeitstheorie beträgt dann die Wahrscheinlichkeit jeder Stichprobe 1/12 (= 1/4 ·1/3). Statistik 1 (Vorlesung SoSe 06, 23.5.06) 207 Urnenmodell einer einfachen Zufallsauswahl ohne Zurücklegen 12 34 1 2 2 34 2 34 3 24 Vor der ersten Ziehung 3 1 34 4 1 23 34 3 14 4 Erste Ziehung 12 4 4 1 13 24 2 14 12 3 4 1 12 23 2 13 Vor der zweiten Ziehung 3 Zweite Ziehung 12 Nach der zweiten Ziehung {1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe In einer Stichprobe kommt jede Nummer genau einmal vor. Über alle 12 Stichproben kommt jede Nummer genau sechsmal vor. Die Wahrscheinlichkeit, dass ein beliebiges Element ausgewählt wird, beträgt also für jede Nummer 6/12 bzw. 0.5. Es gibt jeweils zwei Stichproben mit gleichen Fällen, z.B. {1,2} und {2,1}. Eine Wahrscheinlichkeitsauswahl heißt einfache Zufallsauswahl, wenn jedes Element mit gleicher Wahrscheinlichkeit und auch jede mögliche Stichprobe gleicher Fallzahl mit jeweils gleicher Wahrscheinlichkeit ausgewählt wird. Da jedes Element nur einmal ausgewählt werden kann, handelt es sich um eine einfache Zufallsauswahl ohne Zurücklegen. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 208 Urnenmodell einer einfachen Zufallsauswahl mit Zurücklegen 12 3 1 2 12 3 1 12 3 2 12 3 Vor der ersten Ziehung 3 Erste Ziehung 12 3 3 12 3 1 12 3 2 12 3 12 3 3 1 12 3 12 3 2 12 3 Vor der zweiten Ziehung 3 Zweite Ziehung 12 3 {1,1} {1,2} {1,3} {2,1} {2,2} {2,3} {3,1} {3,2} {3,3} Nach der zweiten Ziehung Resultierende Stichprobe Bei einer einfachen Zufallsauswahl mit Zurücklegen kann jede Nummer mehrfach ausgewählt werden, da die entsprechende Kugel nach der Ziehung wieder in die Urne zurückgelegt wird. Das Beispiel zeigt eine einfache Zufallsauswahl mit Zurücklegen von n=2 Elementen aus N=3 Elementen. Vor jeder Ziehung beträgt die Auswahlwahrscheinlichkeit jeder Nummer 1/3. Die einzelnen Ziehungen sind statistisch unabhängig voneinander. Die Auswahlwahrscheinlichkeit jeder Stichprobe beträgt daher 1/9 (= 1/3 · 1/3). Im Beispiel wird jedes Element insgesamt sechsmal in fünf Stichproben ausgewählt. Die Wahrscheinlichkeit ein beliebiges Element genau einmal auszuwählen, beträgt 4/9, die Wahrscheinlichkeit ein beliebieges Element zweimal auszuwählen, 1/9. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 209 Kombinatorik: Permutationen, Variationen, Kombinationen Mit Hilfe der Kombinatorik lassen sich für den allgemeinen Fall Formeln angeben, mit denen sich die Zahl der Stichproben berechnen lassen. Bei einer einfachen Zufallsauswahl ohne Zurücklegen von n Elememten aus N Elementen gibt n es N Vn = N ⋅ (N − 1) ⋅ (N − 2) ⋅ … (N − n + 2) ⋅ (N − n + 1) = ∏ ( N − i + 1) Produkt aus n Faktoren i =1 verschiedene Stichproben, wenn die Reihenfolge der Auswahl berücksichtigt wird, bei einer Auswahl von z.B. n=2 aus N=4 Elementen die Stichprobe {1,2} von der Stichprobe {2,1} unterschieden wird. In der Kombinatorik bezeichnet man diese Zahl der Möglichkeiten als Variationen ohne Zurücklegen, die durch das Symbol NVn abgekürzt wird. Werden der Reihe nach alle N Elemente der Population ausgewählt, gibt es offenbar PN = N ⋅ ( N − 1) ⋅ (N − 2) ⋅…3 ⋅ 2 ⋅1 = N! Produkt aus N Faktoren unterscheidbare Reihenfolgen, die einzelnen Elemente auszuwählen. In der Kombinatorik spricht man in diesem Zusammenhang von PN Permutationen. Bei insgesamt N Elementen gibt es N! (sprich: „groß N-Fakultät“ oder „Fakultät von groß N“) Permutationen. Das Ausrufungszeichen hinter der Zahl steht für das Fakultätszeichen. Bei der Berchnung einer Fakultät ist die Fakultät von 0 definitorisch auf den Wert 1 festgesetzt: 0! = 1! = 1. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 210 Kombinatorik: Permutationen, Variationen, Kombinationen Mit Hilfe des Fakultätssymbols lässt sich die Zahl der Variationen auch als Quotient zweier Permutationen darstellen: N Vn = P N ⋅ (N − 1) ⋅ (N − 2) ⋅… (N − n + 1) ⋅ (N − n) ⋅ (N − n − 1) ⋅… 2 ⋅1 N! = = N (N − n) ⋅ (N − n − 1) ⋅… 2 ⋅1 ( N − n )! PN −n In der Regel interessiert nicht die Reihenfolge, in der ein Element ausgewählt wird. Wichtig ist allein, ob es ausgewählt worden ist oder ob es nicht ausgewählt worden ist. Wenn die Anordnung in der Stichprobe keine Rolle spielt, also z.B. die Stichprobe {1,2} von der Stichprobe {2,1} nicht unterschieden werden soll, reduziert sich die Anzahl der unterscheidbaren Stichproben. Da es bei n Elementen in der Stichprobe n! veschiedene Permutationen der Anordnung (d.h. der Ziehungsreihenfolge) gibt, berechnet sich die Zahl der Kombinationen mit Zurücklegen, das ist die Zahl der Möglichkeiten n Elemente aus N ohne Berücksichtigung der Anordnung auszuwählen nach: N! N − n )! ( N! N ⋅ (N − 1) ⋅… ⋅ (N − n + 1) ⎛ N ⎞ N Vn = = = =⎜ ⎟ N Kn = Pn n! n ⋅ (n − 1) ⋅… ⋅ 2 ⋅1 ( N − n )!⋅ n! ⎝n⎠ Der ganz rechts stehende Ausdruck heißt Binomialkoeffizient und wird „a über b“ gesprochen, bei der Zahl der Kombinationen also als „groß N über klein n“. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 211 Kombinatorik: Permutationen, Variationen, Kombinationen Generell berechnet sich ein Binomialkoeffizient nach b a − i + 1) ⎛a⎞ ( a! a ⋅ (a − 1) ⋅ (a − 2) ⋅… 2 ⋅1 ⎜ b ⎟ = b!⋅ a − b ! = b ⋅ (b − 1) ⋅ (b − 2) ⋅… 2 ⋅1 ⋅ (a − b) ⋅ (a − b − 1) ⋅ … ⋅ 2 ⋅1 = ∏ i ( ) i =1 ⎝ ⎠ wobei davon ausgegangen wird, dass die untere Zahl (b) kleiner ist als die obere Zahl (a). Aus der Anzahl der Variationen und Kombiationen lassen sich die Stichprobenwahrscheinlichkeiten bei einfachen Zufallsauswahlen ohne Zurücklegen direkt berechnen, da diese sich aus den Kehrwerten der Zahl möglicher Stichproben ergeben. Bei Berücksichtigung der Reihenfolge beträgt die Wahrscheinlichkeit jeder Stichprobe bei einer einfachen Zufallsauswahl ohne Zurücklegen von n aus N Elementen: N − n )! ( 1 Pr ( jede Stichprobe ) = = V N! N n Ohne Berücksichtigung der Reihenfolge beträgt die Wahrscheinlichkeit jeder Stichprobe bei einer einfachen Zufallsauswahl ohne Zurücklegen von n aus N Elementen: n!⋅ ( N − n )! 1 Pr ( jede Stichprobe ) = = K N! N n Statistik 1 (Vorlesung SoSe 06, 23.5.06) 212 Kombinatorik: Permutationen, Variationen, Kombinationen 12 34 1 2 2 34 2 34 3 24 Vor der ersten Ziehung 3 1 34 4 1 23 34 3 14 4 Erste Ziehung 12 4 4 1 13 24 2 14 12 3 4 1 12 23 2 13 Vor der zweiten Ziehung 3 Zweite Ziehung 12 Nach der zweiten Ziehung {1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe Pr ( jede Stichprobe ) = ( N − n )! = ( 4 − 2 )! = 2 = 1 1 = N! 4! 24 12 N Vn mit Berücksichtigung der Reihenfolge Pr ( jede Stichprobe ) = n!⋅ ( N − n )! 2!⋅ 2! 4 1 1 = = = = N! 4! 24 6 N Kn ohne Berücksichtigung der Reihenfolge Im Beispiel von n=2 aus N=4 beträgt die Ziehungswahrscheinlichkeit entsprechend (4–2)!/4! = 2/24 = 1/12 ohne Berücksichtgung und 2!(4-2)!/4! = 4/24 = 1/6 mit Berücksichtigung der Reihenfolge. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 213 Kombinatorik: Permutationen, Variationen, Kombinationen Bei einfachen Zufallsauswahlen mit Zurücklegen wird die Berechnung der Auswahlwahrscheinlichkeiten komplizierter, wenn die Reihenfolge berücksichtig wird. Ohne Berücksichtigung der Reihenfolge gibt es bei jeder der n Ziehungen N Auswahlmöglichkeiten (Varationen), so dass insgesamt Nn Auswahlmöglichkeiten vorliegen, die Auswahlwahrscheinlichkeit jeder Stichprobe beträgt entsprechend: 1 1 Pr ( jede Stichprobe ) = n = N N ⋅ N ⋅… ⋅ N Produkt aus n Faktoren Bei Berücksichtigung der Reihenfolge ist zu beachten, dass ein ausgewähltes Element in einer Stichprobe mehrfach vorkommen kann. Im Beispiel der Ziehung von n=2 aus N=3 Elementen gibt es so N = 3 Stichproben mit zwei gleichen Elementen und N·(N–1) = 6 Stichproben mit unterschiedlichen Elementen, wobei ohne Berücksichtigung der Reihenfolge jeweils 2 Stichproben ununterscheidbar sind. Wenn n=3 Elemente ausgewählt werden, gibt es N = 3 Stichproben mit jeweils drei gleichen Elementen und einer Anordnung, N·(N–1) = 6 Stichproben mit zwei gleichen Elementen und jeweils „n über 2“ = 3 unterschiedlichen Anordnungen, also insgesamt 18 Stichproben und 1 Stichprobe mit drei verschiedenen Elementen, die in n! = 6 Reihenfolgen gezogen werden können. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 214 Kombinatorik: Permutationen, Variationen, Kombinationen Wenn n>3 oder N>3 steigt die Zahl der Möglichkeiten weiter an. Im allgemeinen Fall gibt es bei einer einfachen Zufallsauswahl von n aus n Elementen mit Zurücklegen insgesamt ⎛ N + n − 1⎞ ⎜ ⎟ n ⎝ ⎠ Kombinationen, also unterscheidbare Stichproben, bei denen die Reihenfolge der Ziehung keine Rolle spielt. Die Auswahlwahrscheinlichkeiten unterscheiden sich dabei je nach Anzahl der Mehrfachziehungen eines Elements. Bei n=2 aus N=3 gibt es „4 über 2“ = 6 unterscheidbare Stichproben ohne Berücksichtigung der Anordnung. Die Auswahlwahrscheinlichkeit jeder der 3 Stichproben mit gleichen Elementen beträgt 1/9, die jeder der 3 Stichproben mit verschiedenen Elementen 2/9. Bei n=3 aus N=3 Elementen gibt es 10 unterscheidbare Stichproben ohne Berücksichtigung der Anordnung. Die N=3 Stichproben mit drei gleichen Elementen haben jeweils eine Auswahlwahrscheinlichkeit von 1/33 = 1/27 , die N·(N–1) = 6 Stichproben mit jeweils zwei gleichen Elementen haben eine Auswahlwahrscheinlichkeit von jeweils 3/27 = 1/9 und die 1 Stichprobe mit unterschiedlichen Elementen hat eine Auswahlwahrscheinlichkeit von 6/27 = 2/9 . Statistik 1 (Vorlesung SoSe 06, 23.5.06) 215 Kombinatorik: Permutationen, Variationen, Kombinationen 12 3 1 2 12 3 1 12 3 2 12 3 Vor der ersten Ziehung 3 Erste Ziehung 12 3 3 12 3 1 12 3 2 12 3 3 12 3 1 12 3 12 3 2 12 3 Vor der zweiten Ziehung 3 Zweite Ziehung 12 3 {1,1} {1,2} {1,3} {2,1} {2,2} {2,3} {3,1} {3,2} {3,3} Pr ( jede Stichprobe ) = 1 1 1 1 = = = n 2 N N ⋅ N ⋅… ⋅ N 3 9 Nach der zweiten Ziehung Resultierende Stichprobe mit Berücksichtigung der Reihenfolge Produkt aus n Faktoren ⎛ N + n − 1⎞ ⎛ 3+2-1⎞ =⎜ =6 Stichproben, ⎜ ⎟ ⎟ n ⎝ ⎠ ⎝ 2 ⎠ ohne Berücksichtigung der Reihenfolge 1 1 = n N 9 n! 2 und: Pr ( jede Stichprobe mit unterschiedlichen Elementen ) = n = N 9 mit: Pr ( jede Stichprobe mit identischen Elementen ) = Statistik 1 (Vorlesung SoSe 06, 23.5.06) 216 Haushaltsnummer der zweiten Befragung Zufallsvariablen und Wahrscheinlichkeitsverteilungen 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung Die Berechnung der Ziehungswahrscheinlichkeit einer Stichprobe ist nur der erste Schritt bei der Abschätzung der Risiken von Fehlentscheidungen bei Induktionsschlüssen von einer Stichprobe auf die Population, aus der die Stichprobe kommt. Es sind nämlich nicht die Stichproben an sich, sondern Kennwerte, die aus den Verteilungen der Stichproben berechnet werden, die als Schätzung entsprechender Kennwerte in der Population herangezogen werden. So kann das Ausgangsbeispiel der zweimaligen Befragung von jeweils einem von 6 Haushalten eines Dorfes als eine einfache Zufallsauswahl von n=2 aus N=6 Elementen mit Zurücklegen aufgefasst werden. Für jede Stichprobe lässt sich das mittlere Haushaltseinkommen berechnen. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 217 Haushaltsnummer der zweiten Befragung Zufallsvariablen und Wahrscheinlichkeitsverteilungen 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Elemente in RealisierungswahrMittleres Stichprobe scheinlichkeit Einkommen {1,1} 1/36 1000 € {2,1} 2/36 1500 € {3,1}{2,2} 3/36 2000 € {4,1}{3,2} 4/36 2500 € {5,1}{4,2}{3,3} 5/36 3000 € {6,1}{5,2}{4,3} 6/36 3500 € {6,2}{5,3}{4,4} 5/36 4000 € {6,3}{5,4} 4/36 4500 € {6,4}{5,5} 3/36 5000 € {6,5} 2/36 5500 € {6,6} 1/36 6000 € Summe: 36/36 Die bei Berücksichtigung der Anordnung unterscheidbaren 36 Stichproben ergeben 11 unterschiedliche Werte, wenn jeweils der Stichprobenmittelwert der Haushaltseinkommen der beiden Fälle berechnet wird. Da jede Stichprobe eine angebbare Auswahlwahrscheinlichkeit hat, lassen sich auch für die unterscheidbaren Werte der mittleren Haushaltseinkommen Realisierungswahrscheinlichkeiten berechnen. Sie ergeben sich jeweils aus der Summe der Auswahlwahrscheinlichkeiten der Stichproben, die zum gleichen mittleren Einkommen führen. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 218 Haushaltsnummer der zweiten Befragung Zufallsvariablen und Wahrscheinlichkeitsverteilungen 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Elemente in RealisierungswahrMittleres Stichprobe scheinlichkeit Einkommen {1,1} 1/36 1000 € {2,1} 2/36 1500 € {3,1}{2,2} 3/36 2000 € {4,1}{3,2} 4/36 2500 € {5,1}{4,2}{3,3} 5/36 3000 € {6,1}{5,2}{4,3} 6/36 3500 € {6,2}{5,3}{4,4} 5/36 4000 € {6,3}{5,4} 4/36 4500 € {6,4}{5,5} 3/36 5000 € {6,5} 2/36 5500 € {6,6} 1/36 6000 € Summe: 36/36 Variablen, deren Ausprägungen mit (im Prinzip) berechenbaren Auftretenswahrscheinlichkeiten realisiert werden, heißen Zufallsvariablen. Die Auftretenswahrscheinlichkeiten der Ausprägungen definieren die Wahrscheinlichkeitsfunktion Pr(X) einer Zufallsvariablen X, die jeder Ausprägung ihre Realisierungswahrscheinlichkeit zuordnet. Die Wahrscheinlichkeitsfunktion der Ausprägungen einer Zufallsvariablen entspricht den relativen Auftretenshäufigkeiten der Ausprägungen einer empirischen Verteilung. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 219 Haushaltsnummer der zweiten Befragung Zufallsvariablen und Wahrscheinlichkeitsverteilungen 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Die Aufsummierung der Wahrscheinlichkeitsfunktion ergibt die Verteilungsfunktion F(X), die für jede Ausprägung einre Zufallsvariablen X die Wahrscheinlichkeit angibt, dass eine Reaisierung kleiner oder gleich dieser Ausprägung ist: F(X = x) = Pr(X ≤ x) Die Verteilungsfunktion von Zufallsvariablen entspricht der empirischen Verteilungsfunktion empirischer Variablen, also der Aufsummierung der relativen Häufigkeiten, mit denen eine Ausprägung vorkommt. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 220 Zufallsvariablen und Wahrscheinlichkeitsverteilungen X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 X · p(X) 1000/36 3000/36 6000/36 10000/36 15000/36 21000/36 20000/36 18000/36 15000/36 11000/36 6000/36 126000/36 3500 X2 · p(X) Quantile 1000000/36 4500000/36 12000000/36 10% 25000000/36 25% 45000000/36 73500000/36 50% 80000000/36 81000000/36 75% 75000000/36 90% 60500000/36 36000000/36 493500000/36 13708333.33 Analog zu empirischen Verteilungsfunktionen lassen sich auch für Zufallsvariablen aus der Umkehrung der Verteilungsfunktion Quantilwerte berechnen. So ist das z.B. das 10%-Quantil der Wert, bei dem die Verteilungsfunktion erstmals den Anteil 0.1 erreicht oder überschreitet. Das 50%-Quantil ist bei Zufallsvariablen immer gleichzeitig der Median, da nicht zwischen geraden und ungeraden Fallzahlen unterschieden werden kann. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 221 Zufallsvariablen und Wahrscheinlichkeitsverteilungen X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 X · p(X) 1000/36 3000/36 6000/36 10000/36 15000/36 21000/36 20000/36 18000/36 15000/36 11000/36 6000/36 126000/36 3500 X2 · p(X) Quantile 1000000/36 4500000/36 12000000/36 10% 25000000/36 25% 45000000/36 73500000/36 50% 80000000/36 81000000/36 75% 75000000/36 90% 60500000/36 36000000/36 493500000/36 13708333.33 Analog zu empirischen Verteilungen lassen sich auch für Zufallsvariablen weitere Kennwerte berechnen. Das arithmetische Mittel heißt bei Zufallsvariablen Erwartungswert µX („mü von X“) und ist die Summe aus den Ausprägungen mal deren Auftretenswahrscheinlichkeiten: K μ(X) = μ X = ∑ Pr ( x k ) ⋅ x k k =1 Im Beispiel ergibt sich ein Erwartungswert von 3500€. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 222 Zufallsvariablen und Wahrscheinlichkeitsverteilungen X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 X · p(X) 1000/36 3000/36 6000/36 10000/36 15000/36 21000/36 20000/36 18000/36 15000/36 11000/36 6000/36 126000/36 3500 X2 · p(X) Quantile 1000000/36 4500000/36 12000000/36 10% 25000000/36 25% 45000000/36 73500000/36 50% 80000000/36 81000000/36 75% 75000000/36 90% 60500000/36 36000000/36 493500000/36 13708333.33 Die Varianz σ2X (ausgesprochen „sigma-quadrat von X“) ist der Erwartungswert der quadrierten Abweichungen vom Mittelwert: K K σ (X) = σ = ∑ Pr ( x k ) ⋅ ( x k − μ X ) = ∑ Pr ( x k ) ⋅ x k2 − μ X2 2 2 X k =1 2 k =1 Im Beispiel beträgt die Varianz 1458333.33€2 (=13708333.33–35002) und die Standardabweichung 1207.61€. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 223 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Im Beispiel einer einfachen Auswahl mit Zurücklegen von 2 Haushalten aus einer Population von 6 Haushalten wurde die Zufallsvariable X „durchschnittliches Haushaltseinkommen“ berechnet. Bezogen auf eine konkrete Stichprobe ist das durchschnittliche Haushaltseinkommen in dieser Stichprobe ein Kennwert der Stichprobenverteilung, bezogen auf die Wahrscheinlichkeitsverteilung der durchschnittlichen Haushaltseinkommen in den möglichen Stichproben eine Realisierung einer Zufallsvariablen. Ziel der Berechnung eines Stichprobenmittelwerts ist i.a. die Schätzung eines Populationskennwertes, im Beispiel des durchschnittlichen Haushaltseinkommen in der Population. Kennwerte einer Population heißen auch Populationsparameter. Ihr Wert ist in der Regel unbekannt und wird daher mittels Stichprobendaten geschätzt. Der zur Schätzung eines Populationsparameters berechnete Kennwert einer Stichprobe wird auch als Statistik bezeichnet. Über alle möglichen Stichproben hinweg ist die Statistik eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung auch als Kennwerteverteilung bezeichnet wird, da es sich um die (Wahrscheinlichkeits-) Verteilung von Stichprobenkennwerten über verschiedene Stichproben handelt. Es gilt daher, drei verschiedene Verteilungen zu unterscheiden: die Populationsverteilung, die Kennwerteverteilung und die Verteilung in einer Stichprobe. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 224 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Populationsverteilung: Haush. einkom. nk pk cpk 1000 1 1/6 1/6 2000 1 1/6 2/6 3000 1 1/6 3/6 4000 1 1/6 4/6 5000 1 1/6 5/6 6000 1 1/6 6/6 Summe: 6 6/6 Kennwerteverteilung: X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Stichprobenverteilung 1 Haush. {1,1} einkom. nk pk cpk 1000 1 0.5 0.5 1000 1 0.5 1.0 Summe: 2 1.0 Stichprobenverteilung 2 Haush. {1,2} einkom. nk pk cpk 1000 1 0.5 0.5 2000 1 0.5 1.0 Summe: 2 1.0 Auf die Populationsverteilung bzw. deren Parameter ist das Forschungsinteresse gerichtet; sie ist jedoch der direkten Beobachtung nicht (oder nur mit sehr großem Aufwand) zugänglich. Beobachtet werden kann dagegen die Verteilung in einer Stichprobe. Von den aus den Stichprobendaten berechneten Kennwerten wird in einem Induktionsschluss auf die Werte der Populationsparameter geschlossen. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 225 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Populationsverteilung: Haush. einkom. nk pk cpk 1000 1 1/6 1/6 2000 1 1/6 2/6 3000 1 1/6 3/6 4000 1 1/6 4/6 5000 1 1/6 5/6 6000 1 1/6 6/6 Summe: 6 6/6 Kennwerteverteilung: X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Stichprobenverteilung 1 Haush. {1,1} einkom. nk pk cpk 1000 1 0.5 0.5 1000 1 0.5 1.0 Summe: 2 1.0 Stichprobenverteilung 2 Haush. {1,2} einkom. nk pk cpk 1000 1 0.5 0.5 2000 1 0.5 1.0 Summe: 2 1.0 Die Kennwerteverteilung ist das Verbindungsglied zwischen Stichprobe und Population. Sie ermöglicht Aussagen über die Risiken des Induktionsschlusses. Im Beispiel lässt sich so aus der Kennwerteverteilung ablesen, dass mit einer Wahrscheinlichkeit von 1/6 ein Stichprobenmittelwert genau mit dem Populationsmittelwert (3500€) übereinstimmt und mit einer Wahrscheinlichkeit von 2/3 der Stichprobenmittelwert um maximal 1000€ vom Populationsmittelwert abweicht. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 226 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Populationsverteilung: Haush. einkom. nk pk cpk 1000 1 1/6 1/6 2000 1 1/6 2/6 3000 1 1/6 3/6 4000 1 1/6 4/6 5000 1 1/6 5/6 6000 1 1/6 6/6 Summe: 6 6/6 Kennwerteverteilung: X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Stichprobenverteilung 1 Haush. {1,1} einkom. nk pk cpk 1000 1 0.5 0.5 1000 1 0.5 1.0 Summe: 2 1.0 Stichprobenverteilung 2 Haush. {1,2} einkom. nk pk cpk 1000 1 0.5 0.5 2000 1 0.5 1.0 Summe: 2 1.0 Die Aussagen über die Stichprobengüte beziehen sich also stets auf die Kennwerteverteilung. Eine konkreter Stichprobenmittelwert kann vom gesuchten Populationsparameter sehr stark abweichen. So sind in den beiden rechts wiedergegebenen Stichproben die Stichprobenmittewerte mit Werten von 1000€ und 1500€ deutlich vom Populationsmittelwert mit 3500€ entfernt. Statistik 1 (Vorlesung SoSe 06, 23.5.06) 227 Statistik I im Sommersemester 2006 Themen am 30.5.2006: Wahrscheinlichkeitstheorie II • Statistische Modellierung und Realität • Stichprobenziehung in der Umfrageforsschung • Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen • Wahrscheinlichkeitsverteilungen von Mittelwerten Lernziele: 1. 2. 3. 4. 5. Bedeutung der frequentistischen Wahrscheinlichkeitsdefinition und des Gesetzes der großen Zahl Auswirkung von Schichtung, Klumpung und Ausfällen auf Kennwerteverteilungen Anwendung von Binomialverteilung und hypergeometrischer Verteilung Bedeutung des zentralen Grenzwertsatzes Berechnung von Quantilwerten und Quantilanteilen einer Normalverteilung Statistik 1 (Vorlesung SoSe 06, 30.5.06) 228 Wiederholung: Wahrscheinlichkeitstheorie Apriori-Wahrscheinlichkeit eines Ereignisses =: Anzahl der Elementarereignisse durch Summe der Elementarereignisse Axiomatische Wahrscheinlichkeitstheorie: A1: 0 ≤ Pr(A) ≤ 1; A2: Pr(Ω) = 1; A3: Pr(A∪B) = Pr(A) + Pr(B) wenn A∩B = {} Bedingte Wahrscheinlichkeit: Pr(A|B) = Pr(A∩B) / Pr(B) Statistische Unabhängigkeit: Pr(A|B) = Pr(A) bzw. Pr(B|A) = Pr(B) Additionstheorem: Pr(A∪B) = Pr(A) + Pr(B) – Pr(A∩B) Multiplikationstheorem: P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A) Satz von Bayes: Pr ( A B ) = Pr ( B A ) ⋅ Pr ( A ) Pr ( B ) = Pr ( B A ) ⋅ Pr ( A ) Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A ) Zufallsexperiment Urnenmodell als Basis für: - einfache Zufallsauswahl ohne Zurücklegen - einfache Zufallsauswahl mit Zurücklegen Statistik 1 (Vorlesung SoSe 06, 30.5.06) 229 Wiederholung: Kombinatorik Permutationen = Anzahl der möglichen Anordnungen von N Elementen PN = N ⋅ ( N − 1) ⋅ (N − 2) ⋅…3 ⋅ 2 ⋅1 = N! Produkt aus N Faktoren Variationen ohne Zurücklegen = Anzahl von möglichen Anordnungen von n Elementen aus N Elementen n N Vn = N ⋅ (N − 1) ⋅ (N − 2) ⋅… (N − n + 2) ⋅ (N − n + 1) = ∏ ( N − i + 1) Produkt aus n Faktoren i =1 Kombinationen ohne Zurücklegen = a) Anzahl von Möglichkeiten, n Elementen aus N Elementen ohne Berücksichtigung der Anordnung auszuwählen b)Anzahl von Möglichkeiten, eine Menge von N Elementen in zwei Teilmengen n und N–n aufzuteilen N! N − n )! ( N! N ⋅ (N − 1) ⋅… ⋅ (N − n + 1) ⎛ N ⎞ N Vn = = = =⎜ ⎟ N Kn = Pn n! N − n ! ⋅ n! n ⋅ (n − 1) ⋅ … ⋅ 2 ⋅ 1 ( ) ⎝n⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 230 Wiederholung: Kombinatorik und Zufallsvariablen Variationen mit Zurücklegen = Anzahl von möglichen Anordnungen von n Elementen aus N Elementen wobei jedes Element mehrfach vorkommen kann: Nn Kombinationen mit Zurücklegen = Anzahl von Möglichkeiten n Elementen aus N Elementen ohne Berücksichtigung der Anordnung auszuwählen ⎛ N + n − 1⎞ ⎜ ⎟ n ⎝ ⎠ Zufallsvariablen: Variablen deren Realisierungen Auftretenswahrscheinlichkeiten haben; Zuordnung von Werten zu Ereignissen eines Zufallsexperiments Wahrscheinlichkeitsfunktion: Auftretenswahrscheinlichkeiten der Ausprägungen Verteilungsfunktion: F(x) = Pr(X ≤ x) Erwartungswert µ(X) Arithmetisches Mittel einer Wahrscheinlichkeitsverteilung = Summe der Produkte der Ausprägungen mal ihren Auftretenswahrscheinlichkeiten Varianz σ2(X) Erwartungswert der quadrierten Abweichungen der Ausprägungen einer Zufallsvariablen von ihrem Erwartungswert Statistik 1 (Vorlesung SoSe 06, 30.5.06) 231 Statistische Modellierung und Realität Wahrscheinlichkeitsverteilungen unterscheiden sich von empirisch erhobenen Verteilungen darin, dass anstelle der relativen Häufigkeiten von Realisierungen Realisierungswahrscheinlichkeiten stehen. Es scheint also eine Ähnlichkeit zwischen relativen Häufigkeiten und Wahrscheinlichkeiten zu geben. Diese Ähnlichkeit wird in der frequentistischen Definition der Wahrscheinlichkeit (auch als A-posteriori-Definition von Wahrscheinlichkeit bezeichnet) explizit formuliert: Die Wahrscheinlichkeit Pr(A) eines Ereignisses A ist gleich dem Grenzwert der relativen Auftretenshäufigkeit nA/n dieses Ereignisses, wenn die Zahl der Wiederholungen n des Zufallsexperiments, zu dessen Ereignissen A gehört, über alle Grenzen wächst: ⎛n ⎞ lim ⎜ A ⎟ = Pr ( A ) n →∞ ⎝ n ⎠ Die frequentistische Wahrscheinlichkeitsdefinition führt zu einem scheinbar empirischen Wahrscheinlichkeitsbegriff. Wahrscheinlichkeiten sind nach dieser Definition relative Häufigkeiten. Da es aber empirisch unmöglich ist, Zufallsexperimente tatsächlich unendlich oft zu wiederholen, können sie nicht direkt beobachtet werden. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 232 Das Gesetz der großen Zahl Begründet wird die frequentistische Sicht auf Wahrscheinlichkeit durch das Gesetz der großen Zahl: Wenn die Zahl n der Wiederholungen eines Zufallsexperiments über alle Grenzen steigt, dann nähert sich die Wahrscheinlichkeit, dass der Abstand der relativen Häufigkeit nA/n eines Ereignisses A von der Wahrscheinlichkeit Pr(A) dieses Ereignisses im einfachen Zufallsexperiment kleiner oder gleich einer beliebig kleinen positiven Zahl ist, dem Wert eins an. ⎛ ⎛ nA ⎞⎞ lim ⎜ Pr ⎜ − Pr ( A ) < ε ⎟ ⎟ = 1 n →∞ n ⎠⎠ ⎝ ⎝ Das Gesetz der großen Zahl lässt sich formal beweisen. Eine Idee, wieso das Gesetz funktioniert, zeigt das Beispiel des wiederholten Werfens einer Münze. Ein solcher Münzwurf lässt sich als Zufallsexperiment mit zwei möglichen Ergebnissen „Kopf“ und „Zahl“ auffassen, die im folgenden durch die Buchstaben A für „Kopf“ und B für „Zahl“ symbolisiert werden. Entsprechend der klassischen Wahrscheinlichkeitsdefinition wird unterstellt, dass die Realisierungswahrscheinlichkeit jedes der beiden Ereignisse 0.5 beträgt. Da die Wiederholungen eines Zufallsexperiments unter gleichen Bedingungen zu voneinander statistisch unabhängigen Ereignissen führen, ist bei n Widerholungen des Experiments die Wahrscheinlichkeit des Auftretens einer beliebigen Folge der möglichen Ereignisse 0.5n, da in jedem Experiment ein Ereignis mit Wahrscheinlichkeit 0.5 auftritt. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 233 Das Gesetz der großen Zahl Bei z.B. 3 Wiederholungen sind 8 (= 2·2·2) Ergebnisse möglich: {A,A,A}, {A,A,B}, {A,B,A}, {B,A,A}, {A,B,B}, {B,A,B}, {B,B,A} und {B,B,B} Soll die relative Häufigkeit des Ereignisses A („Kopf“) berechnet werden, interessiert allerdings nicht die Reihenfolge sondern nur die Anzahl des Auftretens von A in allen Stichproben. Bei n Wiederholungen kann die Zahl nA der möglichen Ereignisse zwischen 0 (niemals „Kopf“) und n (immer „Kopf“ variieren). Bei 2n möglichen Ergebnissen ist die Zahl der Ergebnisse, in denen insgesamt nA mal Ereignis A realisiert werden kann, offenbar gleich der Zahl der Variationen ohne Zurücklegen von nA Elementen aus n Elementen also „n über nA“. Somit beträgt die Wahrscheinlichkeit nA: ⎛ n ⎞ n! Pr ( n A ) = ⎜ ⎟ ⋅ 0.5n = ⋅ 0.5n ( n − n A )!⋅ n! ⎝ nA ⎠ Da die relative Auftretenshäufigkeit pA von A der Quotient nA/n ist, lassen sich alle realisierbaren relativen Häufigkeiten von A über diese Formel berechnen. Bei n=3 Wiederholungen ergibt sich z.B.: ⎛ 3⎞ ⎛ 3⎞ Pr ( 0 / 3) = ⎜ ⎟ 0.53 = 0.125 , Pr (1/ 3) = ⎜ ⎟ 0.53 = 0.375 , ⎝0⎠ ⎝1⎠ ⎛ 3⎞ ⎛ 3⎞ Pr ( 2 / 3) = ⎜ ⎟ 0.53 = 0.375 , Pr ( 3/ 3) = ⎜ ⎟ 0.53 = 0.125 ⎝ 2⎠ ⎝ 3⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 234 Das Gesetz der großen Zahl n Pr(0.3 ≤ pA ≤ 0.7) 1 0.00 2 0.50 3 0.75 4 0.38 5 0.63 6 0.78 n Pr(0.3 ≤ pA ≤ 0.7) 7 0.55 8 0.71 9 0.82 10 0.66 11 0.77 12 0.85 n Pr(0.3 ≤ pA ≤ 0.7) 13 0.91 14 0.82 15 0.88 16 0.92 17 0.86 18 0.90 n 10 100 500 1000 5000 10000 50000 pA .200 .500 .524 .474 .495 .507 .504 pA–0.5 –.300 .000 .024 –.026 –.005 .007 .004 Über die Wahrscheinlichketien der Anteile lässt sich auch ausrechnen, wie wahrscheinlich es ist, daß die realiserte relative Häufigkeit innerhalb eines Intervalls liegt. So kann z.B. berechnet werden, wie wahrscheinlich es ist, dass die relative Häufigkeit des Ereignisses A („Kopf“) beim mehrmaligen Werfen einer Münze zwischen 0.3 und 0.7 liegt, wenn die Wahrscheinlichkeit beim einmaligen Werfen 0.5 beträgt. Es zeigt sich, dass diese Wahrscheinlichkeit, wie es das Gesetz der großen Zahl behauptet, – mit gewissen Schwankungen – immer mehr ansteigt. Ein ähnliches Egebnis ergibt der empirische Versuch. So zeigt die Tabelle rechts den Anteil des Ereignisses A, wenn tatsächlich wiederholt eine Münze geworfen wird. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 235 Das Gesetz der großen Zahl Obwohl es also eine Beziehung zwischen empirischen relativen Häufigkeiten und Wahrscheinlichkeiten zu geben scheint, sollte doch klar sein, dass der Begriff Wahrscheinlichkeit eine abstrakte Modellvorstellung ist und kein reales empirisches Phänomen. Tatsächlich beruht der frequentistische Wahrscheinlichkeitsbegriff auf einen (fehlerhaften) Zirkelschluss, wenn er mit dem Gesetz der großen Zahl begründet wird. Im Gesetz der großen Zahl taucht ja bereits der Begriff der Wahrscheinlichkeit auf, der erst durch die frequentistische Vorstellung definiert werden soll. Die frequentistische Definition wäre erst dann nicht zirkulär, wenn es gelänge, die Forderung der „Wiederholung eines Zufallsexperiments unter gleichen Bedingungen“ unabhängig vom Begriff der statistischen Unabhängigkeit zweier Ereignisse zu definieren. Unabhängig von der logischen Korrektheit der Wahrscheinlichkeitsdefinition führt der frequentistische Wahrscheinlichkeitsbegriff jedoch zu einer intuitiven und hilfreichen Vorstellung der Bedeutung des Wortes „Wahrscheinlichkeit“. Der Vorteil gegenüber dem klassischen Wahrscheinlichkeistbegriff liegt auch darin, dass nicht unterstellt werden muss, dass Elementarereignisse mit gleicher Wahrscheinlichkeit auftreten müssen. Stattdessen kann durch Wiederholen empirisch „geprüft“ werden, ob z.B. eine Münze oder ein Würfel ausgewogen ist, d.h. zu gleichwahrscheinlichen Ergebnissen führt. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 236 Stichprobenziehung in der Umfrageforschung Bei Anwendungen der Wahrscheinlichkeitstheorie sollte stets überlegt werden, welches Zufallsexperiment zu den beobachtbaren Ereignissen geführt haben mag und ob die hierbei getroffenen Annahmen zutreffen. So folgen z.B. sozialwissenschaftliche Wahrscheinlichkeitsauswahlen oft nicht dem Lotteriemodell, wie es die einfache Zufallsauswahl unterstellt. Stattdessen werden in der Umfrageforschung meist geschichtete (stratifizierte, engl. stratified) und/oder (mehrstufigen) Klumpenstichproben (engl. cluster sampling) gezogen. In beiden Situationen ist die Grundgesamtheit in eine (große) Zahl von Teilgruppen (Subpopulationen) zerteilt. In einer geklumpten Stichprobe wird in einem mehrstufigen Auswahlverfahren zunächst eine Anzahl von Teilgruppen (Cluster) zufällig ausgewählt. Innerhalb dieser Teilgruppen werden dann in einer weiteren zufälligen Auswahl die eigentlich interessierenden Elemente ausgewählt. Dieses Vorgehen kann sich sogar über mehr als zwei Stufen erstrecken. So werden bei persönlichen Interviews oft in einem ersten Schritt (konstruierte) Wahlkreise ausgewählt, innerhalb derer im zweiten Schritt Haushalte ausgewählt werden, innerhalb derer dann im dritten Schritt eine „Zielperson“ ausgewählt wird. Bei geschichteten Stichproben werden dagegen in jeder Schicht Zufallsauswahlen durchgeführt. In der Praxis werden mehrstufige geklumpte Stichproben innerhalb von Schichten gezogen. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 237 Haushaltsnummer der zweiten Befragung Geklumpte und geschichtete Stichproben 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Die Auswirkungen von geklumpten und geschichteten Stichproben lassen sich an dem Beispiel der einfachen Zufallsauswahl von n=2 aus N=6 Haushalten verdeutlichen. Die Haushaltsnummern geben wieder das Einkommen des Haushalts in 1000€ pro Monat wieder. Bei einer einfachen Zufallsauswahl gibt es genau 36 mögliche Ereignisse, die mit gleicher Wahrscheinlichkeit auftreten und zu 11 Stichproben mit unterschiedlichem Stichprobenmittelwert des Einkommens führen. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 238 Haushaltsnummer der zweiten Befragung Geklumpte und geschichtete Stichproben Einfache Zufallsauswahl n=2 aus N=6: Erwartungswert: 3500 € Standardabw. 1207.615€: 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung Die Population kann in zwei Teilgruppen zerlegt werden, wobei die ersten drei Haushalte die erste und die letzten drei die zweite Gruppe bilden. In einer geklumpten Auswahl wird zunächst mit gleicher Wahrscheinlichkeit eine der beiden Teilgruppen ausgewählt und innerhalb der Teilgruppen zwei Haushalte. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 6 Geklumpte Auswahl n=2 aus Nm=3 in m=1 von M=2 Cluster Stichprobe Einkommen Wahrscheinl. {1,1} 1000 € 1/18 {2,1} 1500 € 2/18 {3,1}{2,2} 2000 € 3/18 {3,2} 2500 € 2/18 {3,3} 3000 € 1/18 {4,4} 4000 € 1/18 {5,4} 4500 € 2/18 {6,4}{5,5} 5000 € 3/18 {6,5} 5500 € 2/18 {6,6} 6000 € 1/18 Erwartungswert: 3500 € Standardabw. 1607.28€: Die Anzahl der möglichen Stichproben reduziert sich dann auf 18, die zu 10 unterschiedlichen Stichprobenmittelwerten führen. 239 Haushaltsnummer der zweiten Befragung Geklumpte und geschichtete Stichproben Einfache Zufallsauswahl n=2 aus N=6: Erwartungswert: 3500 € Standardabw. 1207.615€: 6 5 Geklumpte Auswahl n=2 aus Nm=3 in m=1 von M=2 Cluster Stichprobe Einkommen Wahrscheinl. Erwartungswert: 3500 € Standardabw. 1607.28€: 4 3 2 1 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung Bei einer geschichteten Auswahl wird aus jeder der beiden Teilgruppen jeweils ein Element zufällig ausgewählt. Stratifizierte Auswahl n=1 aus Nm=3 in jeder von M=2 Schichten: Stichprobe Einkommen Wahrscheinl. {4,1} 2500 € 1/9 {5,1}{4,2} 3000 € 2/9 {6,1}{5,2}{4,3} 3500 € 3/9 {6,2}{5,3} 4000 € 2/9 {6,3} 4500 € 1/9 Erwartungswert: 3500 € Standardabw. 577.35€: Die Anzahl der möglichen Stichproben reduziert sich wiederum auf 18, die zu 5 unterschiedlichen Stichprobenmittelwerten führen. Die drei Auswahlverfahren führen zu drei Kennwerteverteilungen mit gleichem Erwartungswert aber unterschiedlicher Standardabweichung. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 240 Haushaltsnummer der zweiten Befragung Geklumpte und geschichtete Stichproben Einfache Zufallsauswahl n=2 aus N=6: Erwartungswert: 3500 € Standardabw. 1207.615€: 6 5 Geklumpte Auswahl n=2 aus Nm=3 in m=1 von M=2 Cluster Stichprobe Einkommen Wahrscheinl. Erwartungswert: 3500 € Standardabw. 1607.28€: 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Stratifizierte Auswahl n=1 aus Nm=3 in jeder von M=2 Schichten: Erwartungswert: 3500 € Standardabw. 577.35€: Wenn sich – wie in dem Beispiel – die Elemente innerhalb einer Teilgruppe ähnlicher sind als die Elemente in unterschiedlichen Teilgruppen, dann führen geschichtete Stichproben dazu, dass die Standardabweichung der Kennwerteverteilung kleiner ist als die Standardabweichung bei einer einfachen Zufallsauswahl. Umgekehrt ist in dieser Situation die Standardabweichung bei einer geklumpten Stichprobe größer als bei einer einfachen Zufallsauswahl. Falls die interessierenden Eigenschaften der Elemente einer Population unabhängig von der Zugehörigkeit zu einer Teilgruppe variieren, unterscheiden sich die Standardabweichungen nicht. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 241 Haushaltsnummer der zweiten Befragung Unterschiedliche Ausfallwahrscheinlichkeiten 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung Ausfallwahrscheinlichkeit 0.10 0.64 6 Einkom- Wahrscheinlichkeiten men (X) Auswahl Ausfall Pr(X) 1000 1/36 1/10 .025 1500 2/36 1/10 .050 2000 3/36 1/10 .075 2500 4/36 1/10 .100 3000 5/36 1/10 .125 3500 6/36 1/10 .150 4000 5/36 16/25 .050 4500 4/36 16/25 .040 5000 3/36 16/25 .030 5500 2/36 16/25 .020 6000 1/36 16/25 .010 Summe: 36/36 .675 Missing .325 In der Realität lassen sich Auswahlpläne aufgrund von Ausfällen nicht vollständig realisieren. Im Beispiel wird angenommen, dass die Ausfallwahrscheinlichkeit Pr(A) bei einem Stichprobenmittelwert von max. 3500€ 0.10 und bei höheren Einkommen 0.64 beträgt. Bei einer einfachen Zufallsauswahl von n=2 aus N=6 mit Zurücklegen ist dann die Realisierungswahrscheinlichkeit einer Stichprobe die Wahrscheinlichkeit, die Stichprobe entsprechend der Auswahlwahrscheinlichkeit der Zufallsauswahl (d.h. nach dem Stichprobenplan) auszuwählen, mal der Komplementärwahrscheinlichkeit eines Ausfalls: Pr ( Sk ) = Pr ( X k ) ⋅ Pr ( ¬A k ) = Pr ( X k ) ⋅ (1 − Pr ( A k ) ) Statistik 1 (Vorlesung SoSe 06, 30.5.06) 242 Haushaltsnummer der zweiten Befragung Unterschiedliche Ausfallwahrscheinlichkeiten 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung Ausfallwahrscheinlichkeit 0.10 0.64 6 Einkom- Wahrscheinlichkeiten ohne Miss. men (X) Auswahl Ausfall Pr(X) Pr(X) 1000 1/36 1/10 .025 .037 1500 2/36 1/10 .050 .074 2000 3/36 1/10 .075 .111 2500 4/36 1/10 .100 .148 3000 5/36 1/10 .125 .185 3500 6/36 1/10 .150 .222 4000 5/36 16/25 .050 .074 4500 4/36 16/25 .040 .059 5000 3/36 16/25 .030 .044 5500 2/36 16/25 .020 .030 6000 1/36 16/25 .010 .015 Summe: 36/36 .675 .999 Missing .325 Die Wahrscheinlichkeit, dass irgendeine Stichprobe realisiert wird, beträgt im Beispiel 0.675. Entsprechend ist die Wahrscheinlichkeit eines Ausfalls 0.325. Da nur bei realisierten Stichproben Stichprobenmittelwerte berechnet werden können, reduziert sich die Kennwerteverteilung auf die bedingten Wahrscheinlichkeiten, dass eine Stichprobe realisiert wird: Pr ( X ) ⋅ (1 − Pr ( A k ) ) Pr ( S ¬A ) = K ∑ (1 − Pr ( A k ) ) k =1 Statistik 1 (Vorlesung SoSe 06, 30.5.06) 243 Haushaltsnummer der zweiten Befragung Unterschiedliche Ausfallwahrscheinlichkeiten 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Haushaltsnummer der ersten Befragung Ausfallwahrscheinlichkeit 0.10 0.64 Der Erwartungswert der Kennwerteverteilung beträgt dann 3111.11€ und die Standardabweichung ist 1099.94€ Einkom- Wahrscheinlichkeiten ohne Miss. men (X) Auswahl Ausfall Pr(X) Pr(X) 1000 1/36 1/10 .025 .037 1500 2/36 1/10 .050 .074 2000 3/36 1/10 .075 .111 2500 4/36 1/10 .100 .148 3000 5/36 1/10 .125 .185 3500 6/36 1/10 .150 .222 4000 5/36 16/25 .050 .074 4500 4/36 16/25 .040 .059 5000 3/36 16/25 .030 .044 5500 2/36 16/25 .020 .030 6000 1/36 16/25 .010 .015 Summe: 36/36 .675 .999 Missing .325 Einfache Zufallsauswahl mit Ausfällen n=2 aus N=6: Erwartungswert: 3111.11 € Standardabw. 1099.94 €: Bei systematischen Ausfällen, d.h. Ausfallwahrscheinlichkeiten, die mit der interessierenden Eigenschaft der Elemente in der Population zusamenhängen, weicht der Erwartungswert der Kennwerteverteilung vom zu schätzenden Populationsparameter ab. Die Schätzung ist dann verzerrt. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 244 Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen Binomialverteilung Im Zusammenhang mit dem Gesetz der großen Zahl wurde die Wahrscheinlichkeit berechnet, mit der bei n Würfen einer Münze nA bzw pA mal das Ereignis A („Kopf“) auftritt. Dabei wurde unterstellt, dass die Wahrscheinlichkeit von „Kopf“ wie „Zahl“ jeweils 0.5 beträgt. Es ist auch möglich, die Wahrscheinlichkeit von nA bzw pA zu berechnen, wenn die Auftretenswahrscheinlichkeit Pr(A) nicht 0.5 sondern eine beliebige Zahl πA zwischen 0 und 1 ist. Wenn z.B. die Wahrscheinlichkeit von A Pr(A) = πA = 0.4 beträgt, dann muss die Wahrscheinlichkeit des komplementären Ereignisses B = ¬A offenbar Pr(B) = πB = 1 – 0.4 = 0.6 betragen. Da bei n Wiederholungen nA mal A auftritt, muss entsprechend nB = n – nA mal B auftreten. Die n Wiederholungen sind statistisch unabhängig voneinander. Somit ist die Wahrscheinlichkeit bei Berücksichtigung der Reihenfolge (Anordnung), in der A bzw. B ausgewählt werden: Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = 0.4n A ⋅ 0.6n B = πAn A ⋅ πBn B = πAn A ⋅ (1 − π A ) n −nA Bei insgesamt 2n möglichen Ergebnissen (Anordnungen) der Folge nA mal Ereignis A und nB mal Ereignis B is die Zahl der unterschiedlichen Anordnungen wieder gleich der Zahl der Variationen ohne Zurücklegen von nA Elementen aus n Elementen also „n über nA“ bzw., was zum selben Ergebnis führt, von nB Elementen aus n Elementen, also „n über nB“. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 245 Binomialverteilung Für die Wahrscheinlichkeit der Häufigkeiten nA und nB ohne Berücksichtigung der Auswahlreihenfolge gilt somit: ⎛ n ⎞ nA ⎛ n ⎞ nA nB Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = ⎜ ⎟ 0.4 ⋅ 0.6 = ⎜ ⎟ 0.4 ⋅ 0.6n B ⎝ nA ⎠ ⎝ nB ⎠ Die so berechneten Wahrscheinlichkeiten sind ein Beispiel für die sogenannte Binomialverteilung, die sich ergibt, wenn die Wahrscheinlichkeit der Auftretenshäufigkeit eines Ereignisses bei n statistisch unabhängigen Wiederholungen eines Zufallsexperiments interessiert. In der generelleren Darstellung wird folgende Notation verwendet: π1 ist die Wahrscheinlichkeit, mit der das interessierende Ereignis im Zufallsexperiment auftritt, n ist die Zahl der unabhängigen Wiederholungen des Zufallsexperiments, n1 ist die Häufigkeit, mit der das interessierende Ereignis in diesen n Wiederholungen auftritt, X ist die Zufallsvariable, die die Werte 0, 1, ..., n1, ..., n annehmen kann. Die Wahrscheinlichkeitsverteilung von X ist dann binomialverteilt mit den Parametern π1 und n: ⎛n⎞ n! n −n n −n Pr(X = n1 ) = ⎜ ⎟ ⋅ π1n1 ⋅ (1 − π1 ) 1 = ⋅ π1n1 ⋅ (1 − π1 ) 1 = b ( X;n, π1 ) (n − n1 )!⋅ n! ⎝ n1 ⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 246 Binomialverteilung Pr(X) = b(X;5,0.5) 0.3125 0.3125 0.1563 0.1563 0.0313 0.0313 0 1 2 3 4 5 X Pr(X) = b(X;10,0.5) 0.2461 0.2051 0.1172 0.2051 0.1172 0.0439 0.0098 0.0439 0.0098 0.001 0 0.001 1 2 3 4 5 6 7 8 9 10 X Pr(X) = b(X;10,0.4) 0.2508 0.1115 0.0425 0.0106 0.0016 0.0001 0.1209 0.0403 0.006 1 2 3 Aus der Wahrscheinlichkeitsfunktion lässt sich durch Aufsummieren die Verteilungsfunktion berechnen: n1 ⎛n⎞ j n− j F(X = n1 ) = Pr(X ≤ n1 ) = ∑ ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 ) j= 0 ⎝ j ⎠ 0.2007 0.215 0 Die Verteilungsform der Binomialverteilung variiert mit den Verteilungsparametern π1 und n. Ist π1 = 0.5, ist die Verteilung symmetrisch, bei π1 < 0.5, ist sie linkssteil bzw. rechtsschief und bei π1 > 0.5, ist sie rechtssteil bzw. linksschief. Mit steigendem n nimmt die Schiefe dadurch faktisch ab, dass an einem Ende der Verteilung die Auftetenswahrcheinlichkeiten schnell gegen null gehen. 4 5 6 7 8 9 10 X Pr(X) = b(X;10,0.7) Es lässt sich zeigen, dass der Erwartungswert und die Varianz der Binomialverteilung Funktionen der beiden Parameter π1 und n sind: 0.2668 0.2001 0.2335 0.1029 0.0368 0.1211 0.009 0.0014 0.0281 0.0001 μ X = n ⋅ π1 σ 2X = n ⋅ π1 ⋅ (1 − π1 ) 0 0 1 2 3 4 5 6 7 8 9 10 X Statistik 1 (Vorlesung SoSe 06, 30.5.06) 247 Bernoulli-Verteilung Ein Spezialfall der Binomialverteilung ergibt sich, wenn n=1 ist. Die Verteilung wird dann auch Punkt-Binomialverteilung oder Bernoulli-Verteilung genannt. Für die Wahrscheinlichkeitsverteilung gilt dann: P ( X = 1) = π1 und P(X = 0) = π0 = 1 − π1 Erwartungswert und die Varianz sind: μ X = π1 und σ X2 = π1 ⋅ (1 − π1 ) Eine Binomialverteilung mit den Parametern π1 und n kann als Summe statistisch unabhängiger Bernoulli-Verteilungen mit gemeinsamen Parameter π1 aufgefasst werden. Generell gilt: Wenn X1 binomialverteilt ist mit b(X1; m1, π1) und X2 binomialverteilt mit b(X2; m2, π1), und X1 und X2 statistisch unabhängig voneinander sind, dann ist die Summe Y = X1 + X2 ebenfalls binomialverteilt mit b(Y; m1+m2, π1). Für den Erwartungswert und die Varianz gilt dann: μ ( X1 ) = m1 ⋅ π1 ; σ 2 ( X1 ) = m1 ⋅ π1 ⋅ (1 − π1 ) μ ( X 2 ) = m 2 ⋅ π1 ; σ 2 ( X1 ) = m 2 ⋅ π1 ⋅ (1 − π1 ) μ ( Y ) = ( m1 + m 2 ) ⋅ π1 ; σ 2 ( X1 ) = ( m1 + m 2 ) ⋅ π1 ⋅ (1 − π1 ) Statistik 1 (Vorlesung SoSe 06, 30.5.06) 248 Erwartungswert und Varianz von Linearkombinationen unabhängiger Zufallsvariablen Die Berechnung von Erwartungswerten und Varianzen von Summen aus den Erwartungswerten und Varianzen der Summanden gilt nicht nur für die Binomialverteilung, sondern generell und lässt sich auf beliebige Linearkombinationen von Zufallsvariablen verallgemeinern. Wenn (1) Y = b0 + b1 · X1 + b2 · X2 + ... + bK · XK, (2) alle Xk statistisch unabhängig voneinander sind, dann gilt für den Erwartungswert und die Varianz von Y: K μ Y = μ ( Y ) = b 0 + b1 ⋅ μ ( X1 ) + b 2 ⋅ μ ( X 2 ) + … + b K ⋅ μ ( X k ) = b 0 + ∑ b k ⋅ μ ( X k ) k =1 K σ = σ ( Y ) = b ⋅ σ ( X1 ) + b ⋅ σ ( X 2 ) + … + b ⋅ σ ( X K ) = ∑ b k2 ⋅ σ 2 ( X k ) 2 Y 2 2 1 2 2 2 2 2 K 2 k Zwei Zufallsvariablen X und W sind statistisch unabhängig voneinander, wenn die Wahrscheinlichkeit des gemeinsamen Auftretens gerade das Produkt der Wahrscheinlichkeitsfunktionen ist: Pr ( X = x ∩ W = w ) = Pr ( X = x ) ⋅ Pr ( W = w ) für alle x und w Diese Regel kann als Verallgemeinerung der Berechnung von Mittelwert und Varianz einer Lineartransformation einer Variablen aufgefasst werden. Tatsächlich gilt die Aussage auch entsprechend für die Verteilungen empirischer Variablen, falls diese unkorreliert sind. Auch für Zufallsvariablen gilt genaugenommen die schwächere Formullierung, dass die sog. Produktmomentkorrelation zwischen allen Summanden null betragen muss. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 249 Wahrscheinlichkeiten von Häufigkeiten bei einfachen Zufallsauswahlen mit Zurücklegen Die Binomialverteilung kann genutzt werden, um Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen zu berechnen. Ausgangspunkt ist eine Population mit insgesamt N Elementen, von denen N1 eine interessierende Eigenschaft aufweisen. Wenn zufällig n=1 Element aus dieser Population ausgewählt wird, beträgt die Wahrscheinlichkeit, dass das Element die interessierende Eigenschaft aufweist π1 = N1/N. Die Wahrscheinlichkeitsverteilung ist dann bernoulliverteilt. Bei einer einfachen Zufallsauswahl mit Zurücklegen ist bei jeder Ziehung eines Elements die Wahrscheinlichkeit, dass das jeweilige Element die interessierende Eigenschaft aufweist π1 = N1/N. Bei einem Stichprobenumfang von n ist dann die Wahrscheinlichkeit, dass genau n1 der n Elemente die interessierende Eigenschaft aufweisen, binomialverteilt mit den Parametern n und π1 = N1/N: n n −n N1 ⎞ ⎛ n ⎞ ⎛ N1 ⎞ 1 ⎛ N1 ⎞ 1 ⎛ Pr ( n1 ) = b ⎜ X = n1;n, ⎟ = ⎜ ⎟ ⋅ ⎜ ⎟ ⋅ ⎜ 1 − ⎟ N ⎠ ⎝ n1 ⎠ ⎝ N ⎠ ⎝ N⎠ ⎝ Der Erwartungswert und die Varianz betragen dann: μ ( n1 ) = n ⋅ N1 N ⎛ N ⎞ und σ 2 ( n1 ) = n ⋅ 1 ⋅ ⎜1 − 1 ⎟ N N ⎝ N⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 250 Wahrscheinlichkeiten von Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen Die Wahrscheinlichkeit einer relative Häufigkeit p1 = n1/n lässt sich aus der Binomialverteilung berechnen, da es sich um eine Lineartransformation handelt: p1 = 0 + 1/n ·n1 Die Wahrscheinlichkeit einer relative Häufigkeit p1 = n1/n beträgt: p ⋅n n ⋅(1− p1 ) N1 ⎞ ⎛ n ⎞ ⎛ N1 ⎞ 1 ⎛ N1 ⎞ ⎛ Pr ( p1 ) = b ⎜ X = n ⋅ p1;n, ⎟ = ⎜ ⎟ ⎟ ⋅ ⎜ ⎟ ⋅ ⎜1 − p n ⋅ N N⎠ ⎝ ⎠ ⎝ 1 ⎠ ⎝ N⎠ ⎝ Die Gleichung gilt nur unter der Bedingung p1 = n1/n; für beliebige andere Werte p1 ≠ n1/n sind die Auftretenswahrscheinlichkeiten stets null. Für den Erwartungswert und die Varianz der Kennwerteverteilung eines Anteils folgt dann bei einer einfachen Zufallsauswahl mit Zurücklegen aus der Regel für Linearkombinationen: μ ( p1 ) = N1 1 N ⎛ N ⎞ und σ 2 ( p1 ) = ⋅ 1 ⋅ ⎜1 − 1 ⎟ N n N ⎝ N⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 251 Haushaltsnummer der zweiten Befragung Anwendungsbeispiel 0 ⎛2⎞ 4 ⋅⎜ ⎟ = ⎝3⎠ 9 1 ⎛2⎞ 4 ⋅⎜ ⎟ = ⎝3⎠ 9 2 ⎛2⎞ 1 ⋅⎜ ⎟ = ⎝3⎠ 9 2! ⎛ 1 ⎞ Pr(p1 = 0.0) = ⋅⎜ ⎟ 0!⋅ 2! ⎝ 3 ⎠ 6 5 2 Pr(0.0) 4 2! ⎛ 1 ⎞ Pr(p1 = 0.5) = ⋅⎜ ⎟ 1!⋅1! ⎝ 3 ⎠ 3 2 Pr(1.0) 1 Pr(0.5) 0 0 1 2 3 4 5 6 2! ⎛ 1 ⎞ Pr(p1 = 1.0) = ⋅⎜ ⎟ 2!⋅ 0! ⎝ 3 ⎠ 1 0 Haushaltsnummer der ersten Befragung Wie wahrscheinlich ist es, dass bei der einfachen Zufallsauswahl von n=2 aus N=6 Haushalten der Anteil der ausgewählten Haushalte, die maximal 2000 € Monatseinkommen haben, 0, 0.5 bzw. 1 beträgt. Der Anteil der Haushalte mit einem Einkommen von maximal 2000 € beträgt 2/6. Dann gilt für die gesuchten Wahrscheinlichkeiten: Pr(0.0) = b(X=0; 2, 1/3) = 4/9, Pr(0.5) = b(X=1; 2, 1/3) = 4/9, Pr(1.0) = b(X=2; 2, 1/3) = 1/9. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 252 Häufigkeiten und Anteile bei einfachen Zufallsauswahlen ohne Zurücklegen Eine einfache Zufallsauswahl mit Zurücklegen ist in der Praxis der Sozialforschung eher die Ausnahme denn die Regel. Wenn es darum geht, mittels einer Stichprobe Informationen über eine Population zu gewinnen, warum sollte dann ein Element mehrfach ausgewählt werden? Realistischer ist eine einfache Zufallsauswahl ohne Zurücklegen. Wenn die Population wiederum N Elemente umfasst, von denen N1 eine interessierende Eigenschaft haben, dann müssen entsprechend N0 = N – N1 diese Eigenschaft nicht aufweisen. In einer Stichprobe von n Elementen, die mit einer einfachen Zufallsauswahl ohne Zurücklegen aus der Population gezogen wurden, weisen n1 Elemente die interessierende Eigenschaft auf, wobei n1 entweder zwischen 0 und n oder zwischen 0 und N1 variieren kann, je nachdem, ob n < N1 oder ob n > N1. Entsprechend haben dann n0 = n – n1 der ausgewählten Elemente die interessierende Eigenschaft nicht. Da in der Stichprobe n1 von maximal N1 Elementen die interessierende Eigenschaft aufweisen können, gibt es „N1 über n1“ Möglichkeiten (Anordnungen), die n1 Elemente aus den N1 Elementen auszuwählen. Analog gibt es „N0 über n0“ Möglichkeiten (Anordnungen), die n0 Elemente aus N0 auszuwählen. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 253 Häufigkeiten und Anteile bei einfachen Zufallsauswahlen ohne Zurücklegen Da die Auswahl der n1 aus N1 unabhängig von der Auswahl der n0 aus N0 erfolgt, ist die Gesamtzahl der Anordnungen der n1 und n0 Elemente das Produkt der beiden Möglichkeiten also „N1 über n1“ mal „N0 über n0“. Insgesamt gibt es „N über n“ Möglichkeiten, ohne Berücksichtigung der Anordnung n von N Elementen (egal ob mit oder ohne der interessirenden Eigenschaft) bei einer einfachen Zufallsauswahl ohne Zurücklegen auszuwählen. Die Wahrscheinlichkeit einer einzelnen Stichprobe ist der Kehrwert dieser Zahl. Die Wahrscheinlichkeit, dass von einer Stichprobe mit n Elementen genau n1 die interessierenden Eigenschaft aufweisen, ist dann der Quotient aus den beiden Zahlen: ⎛ N1 ⎞ ⎛ N 0 ⎞ ⎛ N1 ⎞ ⎛ N − N1 ⎞ ⎜ n ⎟⋅⎜ n ⎟ ⎜ n ⎟⋅⎜ N − n ⎟ 1 ⎠ Pr ( n1 ) = ⎝ 1 ⎠ ⎝ 0 ⎠ = ⎝ 1 ⎠ ⎝ ⎛ N⎞ ⎛ N⎞ ⎜n⎟ ⎜n⎟ ⎝ ⎠ ⎝ ⎠ Eine Zufallsvariable mit den möglichen Ausprägungen 0, 1, ..., n1 ist hypergeometrisch verteilt, wenn die Wahrscheinlichkeitsfunktion dieser Formel folgt. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 254 Hypergeometrische Verteilung: Wahrscheinlichkeiten von Häufigkeiten in einfachen Zufallsauswahlen ohne Zurücklegen Die hypergeometrische Verteilung hat die drei Parameter n, N und N1. Ist X hypergeometrisch verteilt, wird hierfür day Symbol h(X; n, N, N1) verwendet: ⎛ N1 ⎞ ⎛ N − N1 ⎞ ( N − N1 )! N1 ! ⋅ ⋅ ⎜ n ⎟ ⎜ N − n ⎟ n !⋅ N − n ! n − n !⋅ N − N − n + n ! ( 1 1) ( 1) ( 1 1) 1 ⎠ Pr ( X = n1 ) = h ( X = n1;n, N, N1 ) = ⎝ 1 ⎠ ⎝ = 1 N! ⎛ N⎞ ⎜n⎟ n!⋅ ( N − n )! ⎝ ⎠ Die Verteilungsfunktion ergibt sich über Aufsummieren: ⎛ N1 ⎞ ⎛ N − N1 ⎞ ⎟⋅⎜ n − j ⎟ n1 ⎜ j ⎠ F ( X = n1 ) = Pr ( X ≤ n1 ) = ∑ ⎝ ⎠ ⎝ ⎛ N⎞ j= 0 ⎜n⎟ ⎝ ⎠ Der Erwartungswert und die Varianz betragen: μX = n ⋅ N1 N ⎛ N ⎞ N−n und σ X2 = n ⋅ 1 ⋅ ⎜1 − 1 ⎟ ⋅ N N ⎝ N ⎠ N −1 Statistik 1 (Vorlesung SoSe 06, 30.5.06) 255 Hypergeometrische Verteilung Pr(X) = h(X;5,20,10) 0.3483 0.3483 0.1354 0.1354 0.0163 0.0163 0 1 2 3 4 5 X Pr(X) = h(X;10,20,10) 0.3437 0.2387 0.2387 0.0779 0.0779 0.011 0.011 0.0005 0.0005 0 0 0 1 2 3 4 5 6 7 8 9 10 X Pr(X) = h(X;5,20,7) 0.3874 0.3228 Die Form der hypergeometrischen Verteilung hängt von den Parametern ab. Sind die Häufigkeiten N1 und N0 in der Population gleich groß, d.h. N1/N = 0.5, dann ist die Verteilung symmetrisch. Ist N1/N < 0.5, dann ist die Verteilung rechtsschief bzw. linkssteil, ist N1/N > 0.5, dann ist die Verteilung linksschief bzw. rechtssteil. Mit steigender Stichprobengröße nimmt die Schiefe ab, der Verlauf wird immer symmetrischer. Die Wahrscheinlichkeitsverteilung von Anteilen lässt sich bei einfachen Zufallsauswahlen ohne Zurücklegen ebenfalls über die hypergeometrische Verteilung berechnen. Der Erwartungswert und die Varianz eines Anteils beträgt: 0.1761 0.083 0.0293 0 1 2 3 0.0014 4 5 X Pr(X) = h(X;10,20,7) 0.3251 0.3251 0.1463 0.1463 0.0271 0.0015 0.0271 0.0015 0 1 n ⎞ N ⎛ μ ⎜ p1 = 1 ⎟ = 1 n⎠ N ⎝ n ⎞ 1 N ⎛ N ⎞ N−n ⎛ σ2 ⎜ p1 = 1 ⎟ = ⋅ 1 ⋅ ⎜ 1 − 1 ⎟ ⋅ n⎠ n N ⎝ N ⎠ N −1 ⎝ 2 3 4 5 6 7 0 0 0 8 9 10 X Statistik 1 (Vorlesung SoSe 06, 30.5.06) 256 Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung b(X,10,0.5) und h(X,10,20,10) im Vergleich b(X;10,0.5) h(X;10,20,10) 0 1 2 3 4 5 6 7 8 9 10 X Auch wenn in der Realität eher Zufallsauswahlen ohne Zurücklegen als mit Zurücklegen vorkommen, werden Wahrscheinlichkeiten häufiger über die Binomialverteilung berechnet, da die Binomialverteilung einen Parameter weniger aufweist und einfacher zu berechnen ist. Darüber hinaus sind sich die Verteilungen relativ ähnlich. Die Abbildung zeigt, dass bei gleichem n und gleichen Populationsanteilen π1 = N1/N die hypergeometrische Verteilung enger um den Erwartungswert streut. Ursache ist die geringere Varianz. Während die Erwartungswerte gleich sind, ist die Varianz der hypergeometrischen Verteilung um den Faktor (N-n)/(N-1) geringer als die Varianz der Binomialverteilung. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 257 Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung 0.4 Pr(X) 0.3 0.2 0.1 0 0 h(X;10,20,10) 1 2 3 4 h(X;10,100,50) 5 6 7 X h(X;10,200,100) 8 9 10 b(X;10,0.5) Wenn der Populationsumfang N relativ zum Stichprobenumfang n ansteigt, dann nähert sich der Faktor (N–n)/(N–1)immer mehr den Wert eins an. Tatsächlich nähern sich auch die Wahrscheinlichkeiten der Ausprägungen der beiden Verteilungen immer mehr an. Die Abbildung zeigt exemplarisch die Auftretetenswahrscheinlichkeiten von hypergeometrischen Verteilungen mit den Parametern h(X;10,20,10), h(X;10,100,50) und h(X;10,200,100) sowie die Binomialverteilung mit den Parametern b(X,10,0.5). Gemeinsam ist allen Verteilungen, dass der Populationsanteil der Ausprägung 1 stets π1=N1/N=0.5 beträgt. Je größer der Populationsumfang, desto ähnlicher sind die Verteilungen. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 258 Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung Für praktische Zwecke ist die Annäherung hinreichend genau, wenn das Verhältnis von Populationsgröße zur Stichprobengröße größer 20 ist: N > 20 n Pr(X) 0.4 0.3 0.2 0.1 Diese Bedingung ist in der Umfrageforschung praktisch immer erfüllt. 0 0 1 2 3 4 5 6 7 8 9 10 X h(X;10,20,10) h(X;10,100,50) h(X;10,200,100) b(X;10,0.5) Im Extremfall einer unendlich großen Population sind die beiden Verteilungen identisch. Wenn eine Wahrscheinlichkeitsverteilung einer anderen unter bestimmten Bedingungen immer ähnlicher wird, spricht man von einer asymptotischen Annäherung. Die hypergeometrische Verteilung nähert sich der Binomialverteilung asymptotisch an, wenn der Populationsumfang N über alle Grenzen ansteigt und dabei der betrachtete Populationsanteil N1/N konstant bleibt: N ⎞ ⎛ lim ( h ( X, n, N, N1 ) ) = b ⎜ X;n, 1 ⎟ N →∞ N⎠ ⎝ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 259 Wahrscheinlichkeitsverteilungen von Stichprobenmittelwerten Wahrscheinlichkeitsverteilungen des Mittelwerts bei einfacher Zufallauswahl mit Zurücklegen bei n = 1, 2 und 3 aus N=6 0.20 n=1 0.15 Pr(X) 0.10 0.05 n=2 n=3 0.00 1 2 3 4 5 6 X Wenn eine Stichprobe verwendet wird, um einen Populationsmittelwert zu schätzen, wird die Kennwerteverteilung des Stichprobenmittelwerts über alle Stichproben benötigt. Die obige Abbildung zeigt die Wahrscheinlichkeitsvereilung des Stichprobenmittelwerts für das Beispiel einer einfachen Zufallsauswahl mit Zurücklegen aus einer Grundgesamtheit von N=6 Haushalten, die 1000, 2000, 3000, 4000, 5000 und 6000 € pro Monat verdienen. Für jede Wahrscheinlichkeitsverteilung sind die Realisierungswahrscheinlichkeiten durch eine durchgezogene Linie verbunden. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 260 Der Zentrale Grenzwertsatz Wahrscheinlichkeitsverteilungen des Mittelwerts bei einfacher Zufallauswahl mit Zurücklegen n = 1, 2 und 3 aus N=6 0.20 n=1 0.15 Pr(X) 0.10 0.05 n=2 n=3 0.00 1 2 3 4 5 6 X Bei n=1 gibt es nur 6 mögliche Ausprägungen des Stichprobenmittelwerts, bei n=2 sind es 11 und bei n=3 sind es bereits 16. Je größer der Stichprobenumfang ansteigt, desto mehr Ausprägungen gibt es. Da sich alle Wahrscheinlichkeiten zu eins addieren, sinken tendenziell die Auftretenswahrscheinlichkeiten bei steigender Zahl der Ausprägungen. An der Abbildung fällt zudem auf, dass sich die Form der Verteilung ändert und mit steigendem Stichprobenumfang einer Glockenform nähert. Dies ist nicht zufällig, sondern Folge des zentralen Grenzwertsatzes. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 261 Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz ist die neben dem Gesetz der großen Zahl vielleicht wichtigste Aussage der Wahrscheinlichkeitstheorie: Die Summe unabhängiger und identisch verteilter Zufallsvariablen nähert sich bei steigender Zahl von Summanden asymptotisch einer Normalverteilung an: ⎛ ⎛ n ⎞⎞ lim ⎜ Pr ⎜ ∑ X i ⎟ ⎟ = N ( n ⋅ μ X ;n ⋅ σ 2X ) n →∞ ⎝ ⎝ i =1 ⎠ ⎠ Da bei steigender Zahl von Summanden Erwartungswert und Varianz der Summe ansteigen, wird der zentrale Grenzwertsatz in der Regel für standardisierte (Z-transformierte) Zufallsvariablen formuliert: ⎛ ⎛ n ⎞⎞ X n − ⋅ μ ⎜ ⎜∑ i X ⎟⎟ = i 1 ⎟ ⎟ = N ( 0;1) lim ⎜ Pr ⎜ 2 n →∞ ⎜ ⎜ ⎟⎟ n ⋅ σX ⎟⎟ ⎜ ⎜ ⎠⎠ ⎝ ⎝ Das Symbol N(µ; σ²) bzw. N(µ, σ) steht für eine normalverteilte Zufallsvariable mit Erwartungswert µ und Varianz σ² bzw. einer Standardabweichung σ. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 262 Stetige Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsdichte .40 .35 So ist in der abgebildeten Wahrscheinlichkeitsverteilung einer normalverteilten Variablen die Wahrscheinlichkeit, dass eine Realisierung in das Intervall zwischen –1 und 0 fällt, die rot eingetragene Fäche unter der Kurve. .30 .25 .20 .15 .10 .05 .00 -4 -3 -2 -1 0 1 2 3 4 X Die Normalverteilung ist ein Beispiel für eine stetige (kontinuierliche) Wahrscheinlichkeitsverteilung, bei der der Wertebereich der Realisierungen nicht nur wenige (diskrete) Ausprägungen, sondern unendlich viele reelle Zahlen umfasst. Da die Wahrscheinlichkeit des Auftretens der Gesamtheit aller Realisierungen eins ist, ist bei stetigen Wahrscheinlichkeitsverteilungen die Wahrscheinlichkeit des Auftretens einer einzelnen Ausprägung immer null. Angebbar ist immer nur die Wahrscheinlichkeit, mit der eine Realisation in ein vorgegebenes Intervall fällt. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 263 Wahrscheinlichkeitsdichten Wahrscheinlichkeitsdichte .40 Die Wahrscheinlichkeitsdichte der abgebildeten Standardnormalverteilung ist folgende Funktion der Ausprägungswerte: .35 .30 .25 1 − ⋅x 2 1 f (X) = ⋅e 2 2⋅π .20 .15 .10 .05 .00 -4 -3 -2 -1 0 1 2 3 4 Je „dünner“ ein solches Intervall wir, desto geringer ist die Wahrscheinlichkeit, dass eine Realisation in das Intervall fällt. Im Extremfall hat das Intervall die Länge null und die zweidimensionale „Fläche“ wird zu einer eindimensionalen Linie von der Kurve bis zur unteren waagerechten Achse. Die Länge dieser Linie ist genau der Wert der Funktion, die als Kurvenverlauf in der Abbildung eingezeichnet ist. Sie wird als Wahrscheinlichkeitsdichte (engl. density) f(X) bezeichnet. Das Verhältnis der Dichtewerte zweier Ausprägungen einer stetigen Variablen gibt die relative Chance des Auftretens der beiden Ausprägungen an. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 264 Verteilungsfunktion einer stetigen Zufallsvariablen Wahrscheinlichkeitsdichtefunktion f(X) .40 1 ⋅e f (X) = 2⋅π .35 .30 .25 .20 .15 16% .10 .05 .00 −∞ -4 -3 -2 -1 x = −1 0 X 1 2 3 Verteilungsfunktion F(X) 1 − ⋅x 21 2 4 .9 .8 .7 .6 .5 .4 .3 .2 .1 0 F( X) = x ∫ −∞ 1 − ⋅z 2 1 ⋅ e 2 dz 2⋅π Q0.16 = −1 -4 -3 -2 -1 0 X 1 2 3 4 Die Verteilungsfunktion F(X=x) ist bei einer stetigen Wahrscheinlichkeitsverteilung die Fläche vom linken Rand der Verteilung (bzw. –∞) bis zum Wert X. Mathematisch ist diese Fäche das bestimmte Integral über die Dichtefunktion von minus unendlich bis x. So ist z.B., die Wahrscheinlichkeit, dass eine standardnormalverteilte Größe kleiner gleich –1 ist, die Fläche unter der Kurve vom linken Extrem bis zur Stelle minus eins. Die Verteilunsgfunktion lässt sich auch grafisch darstellen und ist bei einer Normalverteilung eine S-förmige Kurve. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 265 Verteilungsfunktion einer stetigen Zufallsvariablen Wahrscheinlichkeitsdichtefunktion f(X) .40 1 ⋅e f (X) = 2⋅π .35 1 − ⋅x 2 2 .30 .25 .20 .15 34% 50% .10 .05 .00 -4 -3 -2 -1 0 X 1 2 3 4 1 .9 .8 .7 .6 .5 .4 .3 .2 .1 0 Verteilungsfunktion F(X) F( X) = x ∫ −∞ 1 − ⋅z 2 1 ⋅ e 2 dz 2⋅π Q0.5 = 0.0 0.34 = 0.5 – 0.16 Q0.16 = −1 -4 -3 -2 -1 0 X 1 2 3 Über die Verteilungsfunktion einer stetigen Zufallsvariablen lassen sich für beliebige Intervalle des Wertebereichs Realisierungswahrscheinlichleiten berechnen. Die Quantilwahrscheinlichkeit des Quantilwerts 0 der Standardnormalverteilung ist 0.5 oder 50%. Die Quantilwahrscheinlichkeit des Quantilwerts –1 der Standardnormalverteilung beträgt 0.16 oder 16%. Dann ist die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable zwischen –1 und 0 liegt, 34% (= 50% – 16%). Statistik 1 (Vorlesung SoSe 06, 30.5.06) 266 4 Die Normalverteilung Wahrscheinlichkeitsdichte 0.40 0.35 N(0;1) f (X) = N(2;1) 0.30 1 2⋅π⋅σ 2 X ⋅e 1 ( X −μ X ) − ⋅ 2 σ2X 2 0.25 0.20 0.15 N(-1;2) 0.10 N(0;3) 0.05 0.00 -5 -4 -3 -2 -1 0. X 1 2 3 4 5 Die bekannteste stetige Wahrscheinlichkeitsverteilung ist die Normalverteilung. Normalverteilungen haben eine glockenförmige Dichtefunktion. Die Dichtefunktion einer normalverteilten Zufallsvariable X ist eine Funktion ihres Erwartungswertes und ihrer Varianz. Daher sind Erwartungswert und Varianz (bzw. Standardabweichung) die Parameter einer Normalverteilung. Um auszudrücken, dass eine Zufallsvariable X mit dem Erwartungswert µ uund der Varianz σ2 normalverteilt ist, wird dass Symbol „N(µ ; σ2)“ oder „N(µ , σ)“ verwendet. Je größer die Varinanz, desto flacher ist der Kurvenverlauf. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 267 Die Normalverteilung Wahrscheinlichkeitsdichte 0.40 0.35 N(0;1) −1.732 = −1 ⋅ 3 + 0 ; 1.732 = 1 ⋅ 3 + 0 0.30 0.25 −2.414 = −1 ⋅ 2 − 1 ; 0.414 = 1 ⋅ 2 − 1 68.26% 0.20 0.15 N(-1;2) 0.10 68.26% 0.05 0.00 N(0;3) 68.26% -5 -4 -3 -2 -1 0. X 1 2 3 4 5 Kennzeichen einer Normalverteilung ist, dass in einem Abstand von ± 1 Standardabweichung vom Erwartungswert, der wegen der Symmetrie gleichzeitig Median und Modus ist, immer 68.26% aller Realisationen liegen, dass in einem Abstand von ± 2 Standardabweichungen vom Erwartungswert immer 95.44% aller Realisationen liegen, in einem Abstand von ± 3 Standardabweichung vom Erwartungswert immer 99.72%., usw.. Aufgrund dieser Eigenschaft ist es leicht möglich, Quantile von Normalverteilungen ineinander umzurechnen: Qα ;N(μ ,σ ) − μ Qα ;N( μ ,σ ) = Qα ;N(0,1) ⋅ σ + μ bzw. Qα ;N(0,1) = σ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 268 Die Normalverteilung α 0.000 0.005 0.010 0.015 0.020 0.025 ... 0.050 ... 0.100 ... zα -∞ -2.57 -2.326 -2.170 -2.054 -1.960 ... -1.645 ... -1.282 ... α 0.200 ... 0.250 ... 0.300 ... 0.400 ... 0.500 ... 0.600 zα -0.842 ... -0.674 ... -0.524 ... -0.253 ... 0.000 ... 0.253 α ... 0.700 ... 0.750 ... 0.800 ... 0.900 ... 0.995 1.00 zα ... 0.524 ... 0.674 ... 0.842 ... 1.282 ... 2.576 ∞ Aus den abgebildeten Ausschnitten einer Tabelle mit Z-Werten lässt sich so etwa ablesen, - dass das 1%-Quantil der Standardnormalverteilung Q0.01;N(0;1) = –2.326 ist - das das 5%-Quantil Q0.05;N(0;1) = –1.645 beträgt. Umgekehrt lässt sich der Tabelle entnehmen, - dass der Wert –1.96 das 2.5%-Quantil ist, Φ(–1.96) = 0.025 - und der Wert +1.282 das 90%-Quantil, Φ(1.282) = 0.90. Jede Normalverteilung kann also durch eine einfache Lineartransformation in eine beliebige andere Normalverteilung umgeformt werden. Darüber hinaus gilt, dass Linearkombinationen von normalverteilten Zufallsvariablen wiederum normalverteilt sind. Die Standardnormalverteilung ist eine Normalverteilung mit Erwartungswert null und einer Varianz von eins. Die Quantilwerte einer Standardnormalverteilung werden bisweilen auch als „Z-Werte“ bezeichnet. Aufgrund ihrer Bedeutung gibt es spezifische Symbole. So steht ϕ(x) für die Dichtefunktion und Φ(x) für die Verteilungsfunktion der Standardnormalverteilung an der Stelle X=x. Statistik 1 (Vorlesung SoSe 06, 30.5.06) 269 Die Normalverteilung α 0.000 0.005 0.010 0.015 0.020 0.025 ... 0.050 ... 0.100 ... zα -∞ -2.57 -2.326 -2.170 -2.054 -1.960 ... -1.645 ... -1.282 ... α 0.200 ... 0.250 ... 0.300 ... 0.400 ... 0.500 ... 0.600 zα -0.842 ... -0.674 ... -0.524 ... -0.253 ... 0.000 ... 0.253 α ... 0.700 ... 0.750 ... 0.800 ... 0.900 ... 0.995 1.00 zα ... 0.524 ... 0.674 ... 0.842 ... 1.282 ... 2.576 ∞ Q0.1 = –1.282 ⇒ Q0.9 = +1.282 Q0.2 = –0.842 ⇒ Q0.8 = +0.842 Q0.4 = –0.253 ⇒ Q0.6 = +0.253 Da Normalverteilungen symmetrisch sind, können bereits aus einer Hälfte der Verteilung alle Quantilwerte berechnet werden. So ist der Wert des 10%-Quantils –1.282. Daraus folgt, dass das 90%-Quantil +1.282 sein muss. Generell gilt bei symmetrischen Verteilungen: Q1−α = −Qα Das 90%-Quantil einer Normalverteilung mit Erwartungswert 3 und Varianz 4 berechnet sich dann nach: Q0.9;N(3;4) = Q0.9;N(0;1) ·2 +3 = 1.282 · 2 +3 = 5.564. Dem Quantilwert 6.29 einer Normalverteilung mit Erwartungswert 3 und Varianz 4 entspricht die Wahrscheinlichkeit: ⎛ 6.29 − 3 ⎞ Φ⎜ ⎟ = Φ (1.645) = 0.95 ⎝ 2 ⎠ Statistik 1 (Vorlesung SoSe 06, 30.5.06) 270 Statistik I im Sommersemester 2006 Themen am 6.6.2006: Wahrscheinlichkeitstheorie und Inferenzstatistik • Wahrscheinlichkeitsverteilungen von Mittelwerten • Schätzer, Schätzungen und Eigenschaften von Schätzern • Punkt- und Intervallschätzung • Schätzung von Anteilen, Mittelwerten und Varianzen Lernziele: 1. 2. 3. 4. Erwartungstreue, Konsistenz und Effizienz als erwünschte Schätzereigenschaften Die Bedeutung von Standardfehlern bei der Schätzung von Populationsparametern Interpretation von Konfidenzintervallen und Irrtumswahrscheinlichkeiten Anwendung der T-Verteilung Statistik 1 (Vorlesung SoSe 06, 6.6.06) 271 Wiederholung ⎛n ⎞ Frequentistischen Definition der Wahrscheinlichkeit: lim ⎜ A ⎟ = Pr ( A ) n →∞ ⎝ n ⎠ ⎛ ⎛n ⎞⎞ Gesetz der großen Zahl: lim ⎜ Pr ⎜ A − Pr ( A ) < ε ⎟ ⎟ = 1 n →∞ ⎠⎠ ⎝ ⎝ n Einfache Zufallsauswahlen, geschichtete Zufallsauswahlen, mehrstufige Zufallsauswahlen Wahrscheinlichkeitsverteilung von Häufigkeiten bei einfache Zufallsauswahlen ohne Zurücklegen: Die hypergeometrische Verteilung ⎛ N1 ⎞ ⎛ N − N1 ⎞ ( N − N1 )! N1 ! ⋅ ⋅ ⎜ n ⎟ ⎜ N − n ⎟ n !⋅ N − n ! n − n !⋅ N − N − n + n ! ( 1 1) ( 1) ( 1 1) 1 ⎠ Pr ( X = n1 ) = h ( X = n1;n, N, N1 ) = ⎝ 1 ⎠ ⎝ = 1 N! ⎛ N⎞ ⎜n⎟ n!⋅ ( N − n )! ⎝ ⎠ μ ( n1 ) = n ⋅ N1 N ⎛ N ⎞ und σ 2 ( n1 ) = n ⋅ 1 ⋅ ⎜1 − 1 ⎟ N N ⎝ N⎠ Statistik 1 (Vorlesung SoSe 06, 6.6.06) 272 Wiederholung Wahrscheinlichkeitsverteilung von Häufigkeiten bei einfache Zufallsauswahlen mit Zurücklegen: Binomialverteilung ⎛ n ⎞ n1 n! n −n n −n ⋅ π1n1 ⋅ (1 − π1 ) 1 Pr(X = n1 ) = b ( X;n, π1 ) = ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 ) 1 = (n − n1 )!⋅ n! ⎝ n1 ⎠ μ X = n ⋅ π1 und σ X2 = n ⋅ π1 ⋅ (1 − π1 ) Annäherung der hypergeometrischen Verteilung an die Normalverteilung hinreichend genau, wenn N/n > 20. Der zentrale Grenzwertsatz: Die Summe unabhängiger und identisch verteilter Zufallsvariablen nähert sich bei steigender Zahl von Summanden asymptotisch einer Normalverteilung an: ⎛ ⎛ n ⎞⎞ − ⋅ μ X n ⎜ ⎜∑ i X ⎟⎟ = i 1 ⎟ ⎟ = N ( 0;1) lim ⎜ Pr ⎜ 2 n →∞ ⎜ ⎜ ⎟⎟ n ⋅ σX ⎟⎟ ⎜ ⎜ ⎠⎠ ⎝ ⎝ Statistik 1 (Vorlesung SoSe 06, 6.6.06) 273 Wiederholung Quantile der Standardnormalverteilung α 0.000 0.005 0.010 0.015 0.020 0.025 ... 0.050 ... 0.100 ... zα -∞ -2.57 -2.326 -2.170 -2.054 -1.960 ... -1.645 ... -1.282 ... α 0.200 ... 0.250 ... 0.300 ... 0.400 ... 0.500 ... 0.600 zα -0.842 ... -0.674 ... -0.524 ... -0.253 ... 0.000 ... 0.253 α ... 0.700 ... 0.750 ... 0.800 ... 0.900 ... 0.995 1.00 zα ... 0.524 ... 0.674 ... 0.842 ... 1.282 ... 2.576 ∞ Aus den abgebildeten Ausschnitten einer Tabelle mit Z-Werten lässt sich so etwa ablesen, - dass das 1%-Quantil der Standardnormalverteilung Q0.01;N(0;1) = –2.326 ist - dass das 5%-Quantil Q0.05;N(0;1) = –1.645 beträgt. Umgekehrt lässt sich der Tabelle entnehmen, - dass der Wert –1.96 das 2.5%-Quantil ist, Φ(–1.96) = 0.025 - und der Wert +1.282 das 90%-Quantil, Φ(1.282) = 0.90. Qα ;N( μ ,σ ) = Qα ;N(0,1) ⋅ σ + μ bzw. Qα ;N(0,1) = Qα ;N(μ ,σ ) − μ σ ⎛ x − μX ⎞ α = Φ ( Qα ,N(0;1) ) = Φ ( z ) = Φ ⎜ ⎟ σ ⎝ ⎠ X Statistik 1 (Vorlesung SoSe 06, 6.6.06) 274 Stichprobenverteilungen von Mittelwerten Der zentrale Grenzwertsatz besagt, dass Summen unabhängiger identisch verteilter Zufallsvariablen mit steigender Zahl der Summanden asymptotisch normalverteilt sind. Dies gilt unabhängig von der Wahrscheinlichkeitsverteilung der Ausgangsvariablen. Vorausgesetzt wird allerdings, dass die ersten Momente der Wahrscheinlichkeitsverteilungen der Ausgangsvariablen existieren, d.h. berechenbare reelle Zahlen sind. Diese Bedingung ist in der Regel erfüllt. Jeder Stichprobenmittelwert kann als Summe gleichartiger Summanden dargestellt werden: n 1 n X X = ∑ Xi = ∑ i n i =1 i =1 n In Zufallsauswahlen können die Summanden als identisch verteilte Zufallsvariablen aufgefasst werden. Bei einfachen Zufallsauswahlen mit Zurücklegen sind diese Variablen zudem statistisch unabhängig voneinander. Also sind Stichprobenmittelwerte bei einfachen Zufallsauswahlen mit Zurücklegen unabhängig von der Verteilung der interessierenden Größe in der Population asymptotisch normalverteilt. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 275 Stichprobenverteilungen von Mittelwerten Aus den Regeln für Linearkombinationen von Zufallsavariablen folgt dann, dass der Erwartungswert und die Varianz der Kennwerteverteilung eine Funktion des Populationsmittelwerts, der Populationsvarianz und der Stichprobengröße n sind. Erwartungswert und Varianz der Kennwerteverteilung von Stichprobenmittelwerten sind daher bei einfachen Zufallsauswahlen mit Zurücklegen: 1 n μ ( X ) = ∑ μ ( Xi ) = μ ( X ) = μ X n i =1 σ2 ( X ) 1 2 1 n 2 σ ( X ) = 2 ∑ σ ( Xi ) = = ⋅ σX n i =1 n n 2 Statistik 1 (Vorlesung SoSe 06, 6.6.06) 276 Stichprobenverteilungen von Mittelwerten Die Realisierungen einfacher Zufallsauswahlen ohne Zurücklegen sind nicht statistisch unabhängig voneinander. Die Abhängigkeit kann jedoch ausgeglichen werden, wobei der Ausgleichsfaktor gerade dem Unterschied der Varianz einer Biomialverteilung und einer hypergeometrischen Verteilung entspricht. Bei einfachen Zufallsauswahlen ohne Zurücklegen gilt daher für Erwartungswert und Varianz der Kennwerteverteilung von Stichprobenmittelwerten: 1 n μ ( X ) = ∑ μ ( Xi ) = μ ( X ) = μ X n i =1 2 N−n 1 n 2 N − n σ (X) N − n 1 2 σ (X) = ⋅ 2 ∑ σ ( Xi ) = ⋅ = ⋅ ⋅ σX N − 1 n i =1 N −1 n N −1 n 2 In beiden Situationen sind die Kennwerteverteilungen asymptotisch normalverteilt. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 277 Stichprobenverteilungen von Mittelwerten Als Kennwerteverteilung für Stichprobenmittelwerte kann also die Normalverteilung herangezogen werden. Zu beachten ist allerdings, dass die Normalverteilung in der Regel nur asymptotisch gilt, d.h. bei hinreichend großen Stichproben. Als Faustregel hat die Erfahrung gezeigt, dass die Normalverteilung als Kennwerteverteilung von Stichprobenmittelwerten bereits bei einer Fallzahl ab etwa 30 Fällen hinreichend genau ist: n ≥ 30. Bei anderen Verteilungen kommt es auf die Zahl der Ausprägungen und die Verteilungsform an, ab welcher Fallzahl eine hinreichend genaue Annäherung an die Normalverteilung vorliegt. Bei diskreten Verteilingen mit wenigen Ausprägungen und bei schiefen Verteilungen ist die Annäherung langsamer als bei symmetrischen und unimodalen Verteilungen mit vielen Ausprägungen. Exakt und unabhängig von der Stichprobengröße sind Stichprobenmittelwerte über verschiedene Stichproben hinweg normalverteilt, wenn die interessierende Größe in der Population normalverteilt ist. Stichprobenmittelwerte sind dann Linearkombinationen von Normalverteilungen, die daher normalverteilt sein müssen. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 278 Asymptotische Normalverteilung von Anteilen und Häufigkeiten Die Binomialverteilung mit den Parametern b(X; n, π1) kann als Summe von n unabhängigen Bernoulli-Verteilungen mit gleicher Wahrscheinlichkeit π1 aufgefasst werden. Nach dem zentralen Grenzwertsatz muss sich daher die Binomialverteilung asymptotisch einer Normalverteilung annähern. Dies gilt tatsächlich. Die Annäherung ist hinreichend genau, wenn gilt: n⋅ πi 1 − πi > 9 und n ⋅ >9 πi 1 − πi Ist diese Bedingung erfüllt kann anstelle der Binomialverteilung bzw. der hypergeometrischen Verteilung auch eine Normalverteilung mit dem Erwartungswert µX = n⋅π1 und Varianz σ2X = n·π1·(1-π1) bei Zufallsauswahlen mit Zurücklegen bzw. σ2X = (N-n)/(n-1)·n·π1·(1-π1) bei Zufallsauswahlen ohne Zurücklegen verwendet werden. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 279 Asymptotische Normalverteilung von Anteilen und Häufigkeiten Die hypergeometrische und die Binomialverteilung sind diskret, die Normalverteilung dagegen stetig. Um dies zu berücksichtigen, wird bei der Berechnung der Wahrscheinlichkeiten jeweils 0.5 abgezogen bzw. addiert. Die Wahrscheinlichkeit, dass bei einer Fallzahl von n die Anzahl n1 der Fälle mit der Ausprägung 1 im Intervall von a bis b liegt, ist bei einfachen Zufallsauswahlen mit Zurücklegen: ⎛ b + 0.5 − ( n ⋅ π ) ⎞ ⎛ a − 0.5 − ( n ⋅ π ) ⎞ ⎛ n ⎞ n1 n − n1 1 1 ⎟ − Φ⎜ ⎟ ≈ Φ⎜ P(a ≤ n1 ≤ b) = ∑ ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 ) ⎜ n ⋅ π1 ⋅ (1 − π1 ) ⎟ ⎜ n ⋅ π1 ⋅ (1 − π1 ) ⎟ n1 = a ⎝ n1 ⎠ ⎝ ⎠ ⎝ ⎠ n1 = b Bei Zufallsauswahlen ohne Zurücklegen und kleinen Populationen wird die hypergeometrische Verteilung an die Normalverteilung angenähert: ⎛ N1 ⎞ ⎛ N − N1 ⎞ ⎛ ⋅ n1 = b ⎜ ⎜ b + 0.5 − ( n ⋅ π1 ) n1 ⎟⎠ ⎜⎝ n − n1 ⎟⎠ ⎝ P(a ≤ n1 ≤ b) = ∑ ≈ Φ⎜ ⎛ N⎞ N−n ⎜ n1 = a n 1 ⋅ π ⋅ − π ⋅ ( ) ⎜ 1 1 ⎜ ⎟ N −1 ⎝ ⎝n⎠ Statistik 1 (Vorlesung SoSe 06, 6.6.06) ⎞ ⎛ ⎟ ⎜ a − 0.5 − ( n ⋅ π1 ) ⎟ − Φ⎜ N−n ⎟ ⎜ n 1 ⋅ π ⋅ − π ⋅ ( ) ⎟ ⎜ 1 1 N −1 ⎠ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 280 Asymptotische Normalverteilung von Anteilen und Häufigkeiten Bei der asymptotischen Berechnung der Kennwerteverteilung von Anteilen wird in der Regel auf die Stetigkeitskorrektur ±0.5/n verzichtet. Die asymptotische Kennwerteverteilung ist dann: ⎛ π ⋅ (1 − π1 ) ⎞ f ( p1 ) ≈ N ⎜ π1; 1 mit Zurücklegen ⎟ n ⎝ ⎠ ⎛ π ⋅ (1 − π1 ) N − n ⎞ ≈ N ⎜ π1; 1 ⋅ ⎟ ohne Zurücklegen n n −1 ⎠ ⎝ Statistik 1 (Vorlesung SoSe 06, 6.6.06) 281 Schätzen von Anteilen, Mittelwerten und Varianzen 70% Stichprobe Population 60% 60% 50% 40% 40% 30% 20% (40) (60) dagegen dafür ⇐ dagegen 51% 49% (51000) (49000) dafür 10% 0% Eine der wichtigsten Anwendungen der Statistik in den Sozialwissenschaften besteht darin, anhand von Stichprobendaten Aussagen über eine Grundgesamtheit (Population) treffen zu können. Es interessiert z.B. der Anteil π1 der jenigen Personen in einer Stadt, die für die Einrichtung einer Ganztagsschule sind. In einer einfachen Zufallsauswahl von n=100 Personen sind p1=60% für die Einrichtung. Es liegt nahe, den Stichprobenanteil p1 als Schätzung des unbekannten Populationsanteils π1 zu verwenden. Da aber von einer Teilmenge (der Stichprobe) auf eine umfassendere Allgemeinheit (die Population) geschlossen wird, handelt es sich bei der Schätzung um einen Induktionsschluss der prinzipiell unsicher ist und fehlerhaft sein kann. So ist es im Beispiel denkbar, dass in der Grundgesamtheit nicht eine Mehrheit von 60%, sondern nur eine Minderheit von 49% für die Einrichtung der Ganztagsschule ist. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 282 Schätzer und Schätzung Für eine einzelne Schätzung lässt sich grundsäzlich nicht angeben, ob ihr Wert mit dem zuschätzenden Populationswert übereinstimmt oder ob sie sehr vom gesuchten Wert abweicht. Bei Zufallsauswahlen ist jede Schätzung ein Zufallsexperiment und jede Schätzung ein mögliches Ereignis dieses Zufallsexperiments. Eine Schätzung kann dann als Realisierung einer Zufallsvariable aufgefasst werden. Zufallsvariablen, die für Schätzungen verwendet werden, heißen Schätzer. Eine Schätzung ist also eine von vielen möglichen Realisierungen eines Schätzers. Die Kennwerteverteilung des Schätzers, d.h. die Wahrscheinlichkeits(dichte)verteilung der Zufallsvariable erlaubt Aussagen darüber, wie wahrscheinlich Schätzungen sind, die nahe beim zu schätzenden Populationswert liegen. Die Statistik versucht Schätzer zu finden, die möglichst gute Eigenschaften aufweisen. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 283 Eigenschaften von Schätzern Erwartungstreue oder Unverzerrtheit Ein Schätzer ist unverzerrt oder erwartungstreu (engl. unbiased), wenn der Erwartungswert der Kennwerteverteilung des Schätzers mit dem zu schätzenden Populationswert übereinstimmt; () μ θˆ = θ In der Statistik wird das griechische kleine Theta („θ“) oft als allgemeinses Symbol für einen Parameter verwendet. Ein kleines Dach („^“) über dem Symbol kennzeichnet dann einen Schätzer oder eine Schätzung. Bei einfachen Zufallsauswahlen lässt sich die Kennwerteverteilung des Stichprobenanteils aus der Binomialverteilung oderder hypergeometrischen Verteilung berechnen. In beiden Fällen ist der Erwartungswert der Kennwerteverteilung genau der Anteil π1 = N1/N der Elemente in der Population, die die betrachtete Eigenschaft aufweisen. Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen ein erwartungstreuer Schätzer. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 284 Eigenschaften von Schätzern Konsistenz Ein Schätzer ist konsistent, wenn bei steigender Stichprobenfallzahl die Wahrscheinlichkeit gegen eins geht, dass der Abstand zwischen dem zu schätzenden Parameter und dem Stichprobenkennwert gegen null geht. ( ( )) lim Pr θˆ − θ = 0 = 1 n →∞ Aus dem Gesetz der großen Zahl folgt, dass die Wahrscheinlichkeit einer beliebig kleinen Abweichung zwischen Stichprobenanteil und Populationsanteil bei einfachen Zufallsauswahlen gegen eins geht, wenn die Fallzahl über alle Grenzen wächst. Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen mit Zurücklegen ein konsistenter Schätzer des Populationsanteils. Bei einfachen Zufallsauswahlen ohne Zurücklegen ist der Anteil der ausgewählten Fälle ebenfalls gleich dem Populationsanteil, wenn im Extremfall alle Fälle ausgewählt werden. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 285 Eigenschaften von Schätzern Effizienz Die Realisationen der Kennwerteverteilung sollen möglichst gering um den zu schätzenden Populationsparameter streuen. Ein Kennwert ist effizient, wenn es keinen anderen Schätzer gibt, der mit einer geringeren Streuung um den zu schätzenden Parameter streut. Als Maß für die Effizienz wird üblicherweise der Erwartungswert der quadrierten Abstände vom zu schätzenden Parameterwert herangezogen, der nach der englischen Bezeichnung mean squared error (MSE) heißt: 2 2 2 ˆ ⎛ ⎞ ˆ ˆ MSE = μ ⎜ θ − θ ⎟ = σ θ + μ θ − θ ⎝ ⎠ ( ) () ( () ) Die Gleichung zeigt, dass MSE auch als Summe der Varianz der Kennwerteverteilung eines Schätzers plus der quadrierten Verzerrung (engl. bias), das ist der quadrierte Abstand zwischen dem Erwartungswert des Schätzers und dem zu schätzendem Parameter dargestellt werden kann. Zur Schätzung des Populationsmittelwertes kann bei einer symmetrischen, unimodalen Verteilung sowohl der Stichprobenmittelwert als auch der Stichprobenmedian herangezogen werden. Effizienter ist die Kenngröße, deren Kennwerteverteilung mit einer geringeren Streuung um den Populationsmittelwert variiert. Welche das ist, hängt von Verteilung ab. Bei einfachen Zufallsstichproben aus normalverteilten Populationen ist der Stichprobenmittelwert ein effizienterer Schätzer des Erwartungswert als der Stichprobenmedian. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 286 Standardfehler Bei unverzerrten Schätzern ist die quadrierte Verzerrung definitionsgemäß null, so dass die Effizienz in diesem Fall über die Varinanz der Kennwerteverteilung gemessen werden kann. Anstelle der Varinanz wird meist die Standardabweichung einer Kennwerteverteilung als Streuungsmaß verwendet. Die Standardabweichung eines Schätzers wird als Standardschätzfehler oder Standardfehler bezeichnet. Da bei einfachen Zufallsauswahlen ohne Zurücklegen der Stichprobenanteil ein unverzerrter Schätzer des Populationsanteils ist, ist der Standardfehler die Quadratwurzel aus dem MSE. Sie ist aus der Standardabweichung der hypergeometrischen Verteilung berechenbar: σ ( p1 ) = 1 ⎛ N1 ⎞ ⎛ N1 ⎞ N − n ⋅ ⎜ ⎟ ⋅ ⎜1 − ⎟⋅ n ⎝ N⎠ ⎝ N ⎠ N −1 Üblicherweise wird neben der Schätzung eines Populationsparameters auch der Standardfehler der Kennwerteverteilung aus den Stichprobendaten geschätzt. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 287 Punktschätzung und Intervallschätzung Von Punktschätzung spricht man, wenn die Realisation eines Schätzers als konkrete Schätzung des unbekannten Wertes eines Populationsparameters verwendet wird. Es ist allerdings sehr unwahrscheinlich, dass eine einzelne Schätzung exakt mit dem unbekannten Populationsparameter übereinstimmt. So ist die Wahrscheinlichkeit, dass ein Stichprobenanteil p1=0.6 (=60/100) bei einer Population von N=100000 und einer Stichprobengröße von n=100 einem Populationsanteil π1=0.60 entspricht nur etwa 8%: ⎛ ⎜ 60 + 0.5 − 0.6 ⋅100 Pr(p1 = 0.6) ≈ Φ ⎜ 100000 − 100 ⎜ 100 ⋅ 0.6 ⋅ 0.4 ⋅ ⎜ 100000 − 1 ⎝ = Φ (0.102) − Φ (−0.102) ≈ 0.08 ⎞ ⎛ ⎟ ⎜ 60 − 0.5 − 0.6 ⋅100 ⎟ − Φ⎜ 100000 − 100 ⎟ ⎜ 100 ⋅ 0.6 ⋅ 0.4 ⋅ ⎟ ⎜ 100000 − 1 ⎠ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ In 92% aller Stichproben ist also mit Abweichungen zu rechnen. Da der gesuchte Wert vermutlich nur in der Nähe der Schätzung liegt, ist es oft sinnvoller, statt eines exakten Wertes ein Intervall anzugeben, in dem der gesuchte Wert vermutlich liegt. Statt von Punktschätzung spricht man dann von Intervallschätzung. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 288 Vorgehensweise bei Intervallschätzung Mit Hilfe der Kennwerteverteilung eines Schätzers können Intervallschätzungen berechnet werden. Dies kann am Beispiel der Schätzung eines Stichprobenmittelwerts verdeutlicht werden. Bei einer einfachen Zufallsauswahl aus einer normalverteilten Population ist der Stichprobenmittelwert um den zu schätzenden Populationsmittelwert normalverteilt: ⎛ σ 2X ⎞ f ( X ) = N ⎜ μX ; ⎟ n ⎝ ⎠ Aus der asymptotischen Normalverteilung lässt sich ein Intervall berechnen, in dem der Stichprobenmittelwert mit einer Wahrscheinlichkeit von z.B. 90% liegt: 0.9 = 0.95 − 0.05 = Φ (1.645 ) − Φ ( −1.645 ) 90% aller Realisationen liegen = Pr(−1.645 ≤ Z ≤ 1.645) zwischen dem 95%-Quantil und dem 5%-Quantil der StandardX − μX = Pr(−1.645 ≤ ≤ 1.645) normalverteilung σ(X) ( = Pr ( μ = Pr −1.645 ⋅ σ ( X ) ≤ X − μ X ≤ 1.645 ⋅ σˆ ( X ) X ) − 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X ) ) ⎛ σ 2X σ X2 ⎞ = Pr ⎜ μ X − 1.645 ⋅ ≤ X ≤ μ X + 1.645 ⋅ ⎟ ⎜ ⎟ n n ⎝ ⎠ Statistik 1 (Vorlesung SoSe 06, 6.6.06) Durch Z-Transformation werden die Quantilgrenzen bei einer Normalverteilung mit Erwartungswert µX und Varianz σ2X/n berechnet. 289 Vorgehensweise bei Intervallschätzung 0.9 = 0.95 − 0.05 = Φ (1.645 ) − Φ ( −1.645 ) = Pr(−1.645 ≤ Z ≤ 1.645) = Pr(−1.645 ≤ ( = Pr ( μ X − μX ≤ 1.645) σ(X) = Pr −1.645 ⋅ σ ( X ) ≤ X − μ X ≤ 1.645 ⋅ σˆ ( X ) X ) − 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X ) ) ⎛ σ 2X σ X2 ⎞ = Pr ⎜ μ X − 1.645 ⋅ ≤ X ≤ μ X + 1.645 ⋅ ⎟ ⎜ ⎟ n n ⎝ ⎠ .40 .35 .30 .25 .20 .15 .10 .05 .00 90 % µX μ X − 1.645 ⋅ σˆ ( x ) μ X + 1.645 ⋅ σˆ ( x ) Mit einer Wahrscheinlichkeit von 90% wird ein Stichprobenmittelwert also in einem Intervall realisiert, das ±1.645 Standardfehler um den gesuchten Erwartungswert liegt. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 290 Vorgehensweise bei Intervallschätzung .40 .35 .30 .25 .20 .15 .10 .05 .00 90 % µX μ X − 1.645 ⋅ σˆ ( x ) μ X + 1.645 ⋅ σˆ ( x ) Das Intervall lässt sich so umformen, dass es zu einem Intervall um den Populationsmittelwert wird: 0.9 = Pr μ X − 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X ) ( ) = Pr ( −X − 1.645 ⋅ σˆ ( X ) ≤ −μ ≤ − X + 1.645 ⋅ σ ( X ) ) = Pr ( X + 1.645 ⋅ σ ( X ) ≥ μ ≥ X − 1.645 ⋅ σ ( X ) ) = Pr ( X − 1.645 ⋅ σ ( X ) ≤ μ ≤ X + 1.645 ⋅ σ ( X ) ) X X X Ein solches Intervall, dass mit einer bestimmten Wahrscheinlichkeit zu beobachten ist, wird als Konfidenzintervall bezeichnet. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 291 Interpretation von Konfidenzintervallen Durch die Umformung ist das Intervall selbst bzw. sind seine Intervallgrenzen Zufallsvariablen. Mit einer vorgegebenen Wahrscheinlichkeit, im Beispiel 90%, liegen die Intervallgrenzen so, dass der zu schätzende Populationsmittelwert innerhalb der Intervallgrenzen ist. Die Wahrscheinlichkeitsaussage bezieht sich nicht auf den unbekannten Parameter, sondern auf die Zufallsvariable „Konfidenzintervall“ Die Behauptung, dass der unbekannte Populationsparameter mit bekannter Wahrscheinlichkeit in einem berechneten Intervall liegt, wäre daher falsch. Wenn die Realisationen von Konfidenzintervallen mit einer bekannten Wahrscheinlichkeit den zu schätzenden Parameter überdecken, dann ist die Wahrscheinlichkeit, dass dies nicht der Fall ist, gleich eins minus dieser Wahrscheinlichkeit, im Beispiel also 100%-90% = 10%. Die Wahrscheinlichkeit eines Fehlers wird als Irrtumswahrscheinlichkeit bezeichnet und durch den kleinen griechischen Buchstaben α (alpha) gekennzeichnet. Die Berechnungsart von Konfidenzintervallen führt also dazu, dass der Anteil aller Konfidenzintervalle, die den Populationsparameter überdecken, gleich der vorgegebenen Wahrscheinlichkeit ist. Wenn diese Vertrauenswahrscheinlichkeit hoch bzw. die Irrtumswahrscheinlichkeit klein ist, dann ist das Vertrauen berechtigt, dass auch ein konkret berechnetes Intervall den zu schätzenden Wert tatsächlich enthält, auch wenn unbekannt bleibt, ob dies tatsächlich der Fall ist. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 292 Mittelwerte und Intevallgrenzen Interpretation von Konfidenzintervallen 5.2 5.1 5.0 4.9 4.8 Zufallsstichproben vom Umfang n=500 aus N(5;1) Die Abbildung zeigt 90%-Konfidenintervalle um die Stichprobenmittelwerte von 100 Stichproben des Umfangs n=500 aus einer normalverteilten Population mit dem Populationsmittelwert 5 und einer Varianz von 1. Von den 100 Intervallen enthalten 91 den Populationswert 5.0, neun dagegen nicht. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 293 Vorgehensweise bei Intervallschätzung Aus dem Beispiel lässt sich die generelle Vorgehensweise bei der Berechnung von Konfidenzintervallen verallgemeinern: Schritt 1: Im ersten Schritt ist ein Stichprobenkennwert auszuwählen, dessen Kennwerteverteilung bekannt ist, wobei der zu schätzende Populationsparameter ein Parameter der Verteilungsfunktion ist und ansonsten die Verteilung berechenbar sein muss. Schritt 2: Im zweiten Schritt wird die Irrtumswahrscheinlichkeit bzw. umgekehrt die Vertrauenswahrscheinlichkeit festgelegt. In der Sozialforschung werden üblicherweise Irrtumswahrscheinlichkeiten von 5% oder 1% akzeptiert und entsprechend 95%- oder 99%-Konfidenzintervalle berechnet. Je kleiner die Irrtumswahrscheinlichkeit, desto größer sind die Längen der Konfidenzintervalle. Wenn ein Konfidenzintervall zu lang ist, hat es kaum Aussagekraft. Schritt 3: Nach der Festlegung der Irrtumswahrscheinlichkeit α kann das Intervall berechnet werden. Dazu werden Quantile der Kennwerteverteilung benötigt. In der Regel wird das Intervall nach der Formel c.i = Schätzer ± (1−α/2)-Quantil · (geschätzer) Standardfehler berechnet. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 294 Schätzung von Populationsanteilen Bei einfachen Zufallsauswahlen ist der Stichprobenanteil ein konsistenter und erwartungstreuer Schätzer des entsprechenden Populationsanteils. Die Kennwerteverteilung lässt sich bei einfachen Zufallsauswahlen ohne Zurücklegen über die hypergeometrische Verteilung berechnen. Bei Zufallsauswahlen mit Zurücklegen bzw. wenn die Population um ein Vielfaches größer ist als die Stichprobe (N > 20·n), lässt sich die Kennwerteverteilung über die Binomialverteilung berechnen. Bei großen Stichproben nähern sich die Kennwerteverteilungen von Stichprobenanteilen asymptotisch einer Normalverteilung an. Die Annäherung ist hinreichend genau, wenn n⋅ πi 1 − πi > 9 und n ⋅ >9 1 − πi πi Der Standardfehler σ(p1) des Schätzers ist: σ ( p1 ) = π1 ⋅ (1 − π1 ) n π1 ⋅ (1 − π1 ) N − n = ⋅ n N −1 bei einfacher Zufallsauswahl mit Zurücklegen bei einfacher Zufallsauswahl ohne Zurücklegen Statistik 1 (Vorlesung SoSe 06, 6.6.06) 295 Schätzung von Populationsanteilen Da die Berechnung des Standardfehlers die Kenntnis des zu schätzenden Popualtionsanteils π1 voraussetzt, wird in der Praxis oft der geschätzte Standardfehler verwendet, bei dem in der Gleichung der Populationsanteil durch seinen Schätzer ersetzt wird: σˆ ( p1 ) = = p1 ⋅ (1 − p1 ) n bei einfacher Zufallsauswahl mit Zurücklegen p1 ⋅ (1 − p1 ) N − n ⋅ n N −1 bei einfacher Zufallsauswahl ohne Zurücklegen Als Faustregel gilt: Wenn n > 60, dann ist die Schätzung des Standardfehlers für praktische Anwendungen genau genug. Bei kleineren Fallzahlen kann der maximal mögliche Standardfehler verwendet werden, der sich ergibt, wenn der Populationsanteil π1=0.5 ist: σ ( p1 ) ≤ ≤ 0.5 n bei einfacher Zufallsauswahl mit Zurücklegen 0.5 N − n ⋅ N −1 n bei einfacher Zufallsauswahl ohne Zurücklegen Statistik 1 (Vorlesung SoSe 06, 6.6.06) 296 Schätzung von Populationsanteilen Bei der Berechnung von Konfidenzintervalle für Anteile wird die asymptotische Annäherung der Kennwerteverteilung an die Normalverteilung genutzt. Die Grenzen des (1-α)-Konfidenzintervalls berechnen sich nach: c.i.(π1 ) = p1 ± p1 ⋅ (1 − p1 ) ⋅ z1−α / 2 n Die Berechnung ist hinreichend genau, wenn gilt: (a) n · p1 / (1-p1) > 9 bzw. n · (1-p1) / (p1) > 9 (b) n > 60 Soll z.B. für das Eingangsbeispiel der Stichprobe von n=100 und einem Stichprobenanteil von p1 = 60% Befürwortern von Ganztagsschulen ein 95%Konfidenzintervall berechnet werden, dann ergeben sich die Intervallgrenzen nach: c.i.(π1 ) = 0.6 ± 0.6 ⋅ 0.4 ⋅1.96 = 0.6 ± 0.096 100 Bei einer Irrtumswahrscheinlichkeit von 5% ist zu vermuten, dass der Anteil der Befürworter in der Stadt zwischen 50.4% und 69.6% liegt. Die Anwendungsvoraussetzungen sind erfüllt, da gilt: 100 · 0.4 / 0.6 = 66.7 > 9 und 100 > 60 Statistik 1 (Vorlesung SoSe 06, 6.6.06) α 0.000 0.005 0.010 0.015 0.020 0.025 0.050 0.100 zα -∞ -2.57 -2.326 -2.170 -2.054 -1.960 -1.645 -1.282 297 Schätzung von Populationsmittelwerten Bei einfachen Zufallsauswahlen ist der Stichprobenmittelwert ein konsistenter und erwartungstreuer Schätzer des entsprechenden Populationsmittelwerts. Ist eineVariable in der Population (annähernd) normalverteilt, dann ist auch die Kennwerteverteilung des Stichprobenmittelwerts (annähernd) normal. Aus dem zentralen Grenzwertsatz folgt, dass unabhängig von der Verteilung in der Population ein Stichprobenmittelwert asymptotisch normalverteilt ist. Die Annäherung ist für praktische Anwendungen genau genug, wenn n > 30. Der Standardfehler des Schätzers berechnet sich nach: σ 2X σ X = σ(x) = n n bei einfacher Zufallsauswahl mit Zurücklegen N−n σ 2X N − n σ X = `= ` bei einfacher Zufallsauswahl ohne Zurücklegen ⋅ ⋅ n N −1 N −1 n Statistik 1 (Vorlesung SoSe 06, 6.6.06) 298 Schätzung von Populationsmittelwerten Wenn - was in der Regel der Fall ist - die Populationsstandardabweichung σX unbekannt ist, berechnet sich der geschätzte Standardfehler nach: n σˆ ( x ) = ∑ ( xi − x ) n 2 i =1 n ⋅ ( n − 1) SSX = n ⋅ ( n − 1) σˆ sX = X n −1 n mit Zurücklegen = σˆ ( x ) = ⋅= ∑(x i =1 i − x) n ⋅ ( n − 1) 2 ⋅ N−n N −1 SSX N−n ⋅ n ⋅ ( n − 1) N −1 sX N − n σˆ X N−n ⋅ = ⋅ N −1 n −1 N −1 n ohne Zurücklegen = Ist eine Variable X in der Grundgesamtheit normalverteilt und ist die Varianz oder Standardabweichung in der Grundesamtheit bekannt, dann ist die Kennwerteverteilung des Stichprobenmittelwertes ebenfalls normalverteilt. Das (1−α/2)-Konfidenzintervall des Mittelwerts mit der Irrtumswahrscheinlichkeit α berechnet sich dann nach: σ c.i.(μ X ) = x ± X ⋅ z1−α / 2 n Statistik 1 (Vorlesung SoSe 06, 6.6.06) 299 Schätzung von Populationsmittelwerten Ist die Standardabweichung σX bzw. die Varianz σ2X in der Population unbekannt, dann ist die Kennwerteverteilung nicht länger normalverteilt, wenn bei der Berechnung von Konfidenzintervallen anstelle der unbekannten Standardabweichung die geschätzte Populationsstandardabweichung verwendet wird. Es kann jedoch gezeigt werden, dass die Z-Transformation des Stichprobenmittelwerts in diesem Fall einer sogenannten T-Verteilung mit df = n–1 Freiheitsgraden folgt, wobei df der Parameter einer T-Verteilung ist: ⎛ ⎞ ⎜ ⎟ − μ X ⎟=t X f ( X i ) = N ( μ X ; σ X2 ) ⇒ f ⎜⎜ ⎟ df = n −1 n 2 1 ⎜ ⋅ ( Xi − X ) ⎟ ⎜ n ⋅ ( n − 1) ∑ ⎟ i =1 ⎝ ⎠ Die T-Verteilung ist eine symmetrische, unimodale Verteilung, die der Standardnormalvereilung sehr ähnlich ist, aber eine größere Varianz hat und insbesondere an den Enden der Verteilung größere Dichten aufweist. Dies hat zur Folge, dass die Quantilwerte der T-Verteilung bei gleicher Quantilwahrscheinlichkeit weiter vom Nullpunkt entfernt sind als die entsprechenden Quantilwerte der Standardnormalverteilung. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 300 T-Verteilung df = ∞ 0.40 Wahrscheinlichkeitsdichte 0.35 df =10 0.30 df =1 0.25 0.20 0.15 0.10 0.05 0.00 0 1 2 3 4 5 6 T Mit steigender Zahl von Freiheitsgraden nähert sich die T-Verteilung asymptotisch der Standardnormalverteilung an, so dass tdf=∞ = N(0;1) -6 -5 -4 Statistik 1 (Vorlesung SoSe 06, 6.6.06) -3 -2 -1 301 Quantile der T-Verteilung In Tabellen werden Quantilwerte von T-Verteilungen für wichtige Quantilwahrscheinlichkeiten und unterschiedliche Freiheitsgrade tabelliert: df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 75.0% 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 90.0% 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 95.0% 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 Statistik 1 (Vorlesung SoSe 06, 6.6.06) 97.5% 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 99.0% 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 99.5% 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 99.9% 318.3 22.33 10.21 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 99.95% 636.6 31.60 12.92 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 302 Quantile der T-Verteilung df 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 75.0% 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674 90.0% 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282 95.0% 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645 97.5% 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 99.0% 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326 99.5% 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 99.9% 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.232 3.160 3.090 99.95% 3.819 3.792 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291 Aus der Tabelle ist ersichtlich, dass das 95%-Quantil der T-Verteilung mit 60 Freiheitsgraden den Quantilwert 1.671 aufweist. Die unterste Zeile enthält die Quantile der Standardnormalverteilung, d.h. einer T-Verteilung mit ∞ Freiheitsgraden. Da T-Verteilungen um 0 symmetrisch verteilt sind, können aus der Tabelle auch Quantile mit Wahrscheinlichkeiten <50% abgelesen werden. So ist das 5%-Quantil der t-Verteilung mit df=60 minus eins mal dem 95%-Quantil (5% = 100% – 95%) und daher gleich -1.671. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 303 Konfidenzintervalle für Mittelwerte aus normalverteilten Populationen Die T-Verteilung wird für die Berechnung des (1−α/2)-Konfidenzintervallen für Mittelwerte aus normalverteilten Populationen herangezogen. Bei Irrtumswahrscheinlichkeit α berechnet und unbekannter Standardabweichung berechnet sich das (1–α)-Konfidenzintervall nach: c.i.(μ X ) = x ± σˆ ( x ) ⋅ t1−α / 2,df = n −1; σˆ X ⋅ t1−α / 2,df = n −1 n s = x ± X ⋅ t1−α / 2,df = n −1 n −1 =x± In der Stichprobe des Allbus 1996 beträgt der Mittelwert der Befragten 46.117 Jahren, die Stichprobenvarianz ist 281.112 und die Fallzahl beträgt 3510 Personen. Gesucht ist das 95%-Konfidenintervall für den Populationsmittelwert: Quantile von T df s 2X 281.112 ⋅ t 0.975,df =3509 = 46.117 ± ⋅ 1.96 = 46.117 ± 0.555 120 c.i.(μ X ) = x ± n −1 3509 ∞ 97.5% 1.980 1.960 Da nur Personen ab 18 Jahren befragt wurden ist zu schließen, dass 1996 das durchschnittliche Alter von volljährigen Personen in Deuschland vermutlich zwischen 45.562 und 46.672 Jahren lag. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 304 Asymptotische Konfidenzintervalle für Mittelwerte bei beliebiger Verteilung Wenn die Variable X in der Gundgesamtheit nicht normalverteilt ist, kann anstelle eines exakten Konfidenzintervall ein asymptotisches Konfidenzintervall berechnet werden. Die Berechnung des asymptotischen (1−α/2)-Konfidenzintervall des Mittelwerts mit der Irrtumswahrscheinlichkeit von ungefähr α berechnet sich dann nach: c.i.(μ X ) = x ± σˆ ( x ) ⋅ z1−α / 2 σˆ X ⋅ z1−α / 2 n s = x ± X ⋅ z1−α / 2 n −1 =x± Die Annäherung ist hinreichend genau, wenn n>30. Da Konfidenzintervalle, die über die T-Verteilung berechnet werden, länger sind als Konfidenzintervalle mit gleicher Irrtumswahrscheinlichkeit, die auf der Standardnormalverteilung beruhen, wird üblicherweise auch dann die T-Verteilung verwendet, wenn die Verteilung von X in der Population unbekannt oder nicht normalverteilt ist. Es besteht dann eine größere Chance, dass die Konfidenzintervalle den zu schätzenden Populationsmittelwert tatsächlich überdecken. Dieses vorsichtigere Vorgehen wird als konservatives Schätzen bezeichnet. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 305 Schätzung von Populationsvarianzen und Standardabweichungen Zur Schätzung einer Populationsvarianz kann die Stichprobenvarianz verwendet werden. Diese ist zwar konsistent, allerdings kein erwartungstreuer Schätzer. Der Erwartungswert der Stichprobenvarianz ist bei einfachen Zufallsauswahlen (ohne Zurücklegen) nämlich: 2⎞ σ X2 ⎛1 n ⎛ n −1 ⎞ 2 μ ( s ) = μ ⎜ ⋅ ∑ ( Xi − X ) ⎟ = σX − = σ X2 ⋅ ⎜ ⎟ n ⎝ n ⎠ ⎝ n i =1 ⎠ 2 X Die Höhe des Verzerrungsfaktors (n-1)/n nähert sich 1, wenn die Stichprobenfallzahl n ansteigt. Der Schätzer ist daher nur asymptotisch erwartungstreu. Zur Schätzung einer Populationsvarianz wird i.a. ein bei jeder Fallzahl erwartungstreuer Schätzer verwendet, der sich aus der Stichprobenvarianz mal dem Kehrwert des Verzerrungsfaktors ergibt. Der erwartungstreue Schätzer der Populationsvarianz ist daher: n n SSX 1 2 σˆ = s ⋅ = = ⋅ ∑ ( xi − x ) n − 1 n − 1 n − 1 i =1 2 X 2 X Statistik 1 (Vorlesung SoSe 06, 6.6.06) 306 Schätzung von Populationsvarianzen und Standardabweichungen Der Standardfehler des erwartungstreuen Schätzers der Populationsvarianz hängt von der Verteilung in der Population ab. Ist diese (annähernd) normalverteilt, gilt: σ ( σˆ 2X ) = σ X2 ⋅ 2 n −1 Die Kennwerteverteilung ist bei normalverteilten Populationen proportional zur sogenannten Chiquadratverteilung. Konfidenztintervalle werden aber meistens nicht berechnet. Für die Schätzung der Populationsstandardabweichung wird die Wurzel aus der geschätzten Populationsvarianz benutzt n 1 2 σˆ X = σˆ = ⋅ ∑ ( xi − x ) n − 1 i =1 2 X Die geschätze Populationsstandardabweichung ist im Unterschied zur geschätzten Varianz nur konsistent, aber nicht erwartungstreu. Statistik 1 (Vorlesung SoSe 06, 6.6.06) 307 Statistik I im Sommersemester 2006 Themen am 13.6.2006: Statistische Hypothesentests • Die Logik statistischen Testens • Prüfung von Hypothesen über Anteile und Mittelwerte Lernziele: 1. 2. 3. 4. 5. 6. Unterschiedung zwischen Nullhypothese, Alternativhypothese und Forschungshypothese Irrtumswahrcheinlichkeit, Fehler erster Art, Fehler zweiter Art Teststärkefunktion und Trennschärfe eines Tests Einseitige und zweiseitige Tests Z-Test von Anteilen und deren Anwendungsvoraussetzung Z-Test und T-Test von Mittelwerten und deren Voraussetzungen Statistik 1 (Vorlesung SoSe 06, 13.6.06) 308 Wiederholung Schätzer und Schätzung Erwünschte Eigenschaften von Schätzern: Konsistenz, Erwartungstreue und (relative) Effizienz Die Bedeutung von Standardfehlern Punktschätzung und Intervallschätzung Konfidenzintervalle für Anteile Konfidenzintervalle für Mittelwerte Die T-Verteilung Schätzung von Varianzen und Standardabweichungen Statistik 1 (Vorlesung SoSe 06, 13.6.06) 309 Die Logik statistischen Testens In vielen sozialwissenschaftlichen Fragestellungen sollen Vermutungen über Eigenschaften einer Population überprüft werden. Es soll z.B. geprüft werden, ob in einer Stadt eine Mehrheit der Bürger für die Einrichtung einer Ganztagsschule ist. In einer einfachen Zufallsauswahl von n=100 Bürgern sprechen sich 60% für die Einrichtung der Schule aus. Aus dem Ergebnis wird geschlossen, dass es tatsächlich eine Mehrheit für die Einrichtung der Ganztagsschule gibt. Das Beispiel weist auf die Ähnlichkeit der Fragestellung beim statistischen Schätzen und beim statistischen Testen hin: - Beim Schätzen wird aufgrund von Stichprobendaten in einem Induktionsschluss auf eine Eigenschaft der Population geschlossen; - beim Testen wird anhand von Stichprobendaten entschieden, ob eine Vermutung über eine Eigenschaft der Population zutrifft oder nicht zutrifft. Beim statistischen Testen wird also immer eine Entscheidung getroffen. Als Entscheidungsgrundlage werden Informationen aus einer Stichprobe verwendet. ⇒ Statistischer Test sind Entscheidungsregeln, die Stichprobendaten nutzen. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 310 Nullhypothese und Alternativhypothese Die zu treffende Entscheidung bezieht sich darauf, ob eine postulierte Eigenschaft in der Population vorhanden ist oder nicht vorhanden ist. Formal gesehen gibt es somit genau zwei Zustände, die in der Realität auftreten können: 1. Die postulierte Eigenschaft liegt vor 2. Die postulierte Eigenschaft liegt nicht vor Enstprechend diesen beiden Zuständen werden formal zwei Hypothesen unterschieden: 1. Die Nullhypothese H0 behauptet, dass die potulierte Eigenschaft vorliegt, 2. Die Alternativhypothese H1behauptet, dass die postulierte Eigenschaft nicht vorliegt Ein statistischer Test ist dann eine Entscheidung darüber, ob die Nullypothese richtig und die Alternativhypothese falsch ist, oder ob die Alternativhypothese richtig und die Nullhypothese falsch ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 311 Fehler erster und zweiter Art In Abhängikeit von den Stichprobendaten wird die Nullhypothese akzeptiert oder verworfen. Insgesamt gesehen gibt es dann vier unterscheidbare Situationen: H0 ist richtig (= H1 ist falsch) H0 ist falsch (= H1 ist richtig) Akzeptanz von H0 (= Verwerfen von H1) richtige Entscheidung falsche Entscheidung = β-Fehler (Fehler zweiter Art) Verwerfen von H0 (= Akzeptanz von H1) falsche Entscheidung = α-Fehler (Fehler erster Art) richtige Entscheidung Wünschenswert sind statistische Tests, bei denen sowohl die Wahrscheinlichkei eines α-Fehler als auch die Wahrscheinlickeit eines β-Fehlers möglichst klein ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 312 Fehler erster und zweiter Art H0 ist richtig (= H1 ist falsch) H0 ist falsch (= H1 ist richtig) Akzeptanz von H0 (= Verwerfen von H1) richtige Entscheidung falsche Entscheidung = β-Fehler (Fehler zweiter Art) Verwerfen von H0 (= Akzeptanz von H1) falsche Entscheidung = α-Fehler (Fehler erster Art) richtige Entscheidung Für die Entscheidung wird aus den Stichprobendaten eine Teststatistik berechnet. In Abhängigkeit vom Wert der Teststatistik wird dann die Nullhypothese akzeptiert oder verworfen. Es hängt dann a) von der Kennwerteverteilung der Teststatistik ab und b) von der Korrektheit der Nullhypothese, wie wahrscheinlich Fehlentscheidungen sind. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 313 Fehler erster und zweiter Art Für die Prüfung einer Hypothese über einen Populationsanteil kann z.B. der Stichprobenanteil als Teststatistik herangezogen werden. f(p1|π1=0.1) f(p1|π1=0.2) f(p1|π1=0.9) π1 > 0.5 π1 ≤ 0.5 f(p1|π1=0.3) f(p1|π1=0.8) f(p1|π1=0.7) f(p1|π1=0.4) f(p1|π1=0.6) f(p1|π1=0.5) π1; p1 0.0 0.1 0.2 0.3 0.4 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 0.5 0.6 0.7 0.8 0.9 1.0 314 Festlegung von Null- und Alternativhypothese über die Forschungshypothese Formal sind Null- und Altrernativhypothese symmetrisch: Ist die Nullhypothese richtig, dann ist die Alternativhypothese falsch; ist die Nullhypothese falsch, dann ist die Alternativhypothese richtig. 0.3 0.4 0.5 0.6 0.7 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.8 Die eigentliche Forschungsfrage korrespondiert jedoch nur mit einer der beiden Hypothesen. Diese theoretische Forschungsfrage ist die Forschungshypothese Im Sinne eines möglichst strengen Testens soll die Wahrscheinlichkeit der fälschlichen Akzeptanz der Forschungshypothese einen Maximalwert nicht überschreiten. Im Beispiel postuliert die Forschungshypothese, dass in der Population eine für die Ganztagesschule ist: π1 > 0.5. Wenn möglich, wird die Forschungshypothese als Alternativhypothese H1, ihr Gegenteil als Nullhypothese H0 formuliert. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 315 Festlegung der (maximalen) Irrtumswahrscheinlichkeit AnnahmeAblehnungsbereich von H0 bereich von H0 p1 < 0.58225 ⇒ H0 0.3 0.4 0.5 kritischer Wert p1 ≥ 0.58225 ⇒ H1 0.6 0.7 0.8 Durch diese Zuordnung ist es möglich, die Forderung zu erfüllen, dass die fälschliche Akzeptanz der Forschungshypothese einen Maximalwert nicht überschreitet. Dazu wird der Wertebereich der Kennwerteverteilung der Teststatistik in einen Ablehnungs- und einen Annahmebereich zerlegt. Der Ablehnungsbereich wird dabei so festgelegt, dass die Wahrscheinlichkeit (maximal) α ist, in diesen Bereich zu fallen, wenn die Nullhypothese (gerade noch) richtig ist. H0: π1 ≤ 0.5 H1: π1 > 0.5 Soll im Beispiel die maximalen Fehlerwahrscheinichkeit, die Forschungshypothese fälschlicherweise zu akzeptieren, 5% betragen, dann wird der Ablehnungsbereich durch das 95%Quantil der Kennwerteverteilung des Stichprobenanteils bei einem Populationsanteil von π1 = 0.5 festgelegt: Qα=.95,π1=0.5 ≈ 1.645 · 0.5·/10 + 0.5) = 0.58225 Nur wenn ein Stichprobenanteil mindestens diesen Wert erreicht, wird die Nullhypothese H0 abgelehnt und die Alterrnativhypothese H1 (Forschungshypothese) als vermutlich richtig akzeptiert. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 316 Festlegung der (maximalen) Irrtumswahrscheinlichkeit AnnahmeAblehnungsbereich von H0 bereich von H0 Wahrscheinlichkeit eines β-Fehlers Wenn der kritische Wert erreicht oder überschritten wird, obwohl H0 richtig ist, liegt ein α-Fehler vor. Wahrscheinlichkeit eines α-Fehlers Wenn der kritische Wert nicht überschritten wird, obwohl die H0 falsch ist, liegt ein βFehler vor. In allen anderen Situationen ist die Entscheidung richtig. 0.3 0.4 0.5 0.6 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.7 0.8 Die Höhe der Fehlerwahrscheinlichkeiten hängt von dem unbekannten Populationswert ab, über den die Forschungshypothese eine Vermutung postuliert. Da die Forschungshypothese die Alternativhypothese H1 ist, ist die maximale Wahrscheinlichkeit, fälschlicherweise die Forschungshypothese abzulehnen, gleich der maximalen α-Fehlerwahrscheinlichkeit. Diese Wahrscheinlichkeit wird auch als Irrtumswahrscheinlichkeit oder als Signifikanzniveau eines Tests bezeichnet. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 317 Teststärkefunktion 1.0 AblehnungsAnnahmebereich von H0 bereich von H0 Prob(β-Fehler) 0.9 0.8 0.7 0.6 βmax =95% 0.5 0.4 0.3 0.2 0.1 αmax =5% Prob(α-Fehler) 1-Prob(β-Fehler) 0.0 0.3 0.4 0.5 0.6 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.7 0.8 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 zutreffende unzutreffende Nullhypothese Nullhypothese 0.9 Nachdem der Ablehnungsbereich festgelegt ist, kann für jeden möglichen Populationswert die Wahrscheinlichkeit berechnet werden, dass die Teststatistik in den Ablehnungsbereich fällt. Die so berechnete Funktion heißt Teststärkefunktion (eng. power function). Trifft die Nullhypothese zu, gibt der Wert der Teststärkefunktion die α-Fehlerwahrscheinlichkeit an; anderenfalls gibt der Wert der Teststärkefunktion die Wahrscheinlichkeit an, eine falsche Nullhypothese korrekt zu entdecken (=1–β-Fehler). Statistik 1 (Vorlesung SoSe 06, 13.6.06) 318 1.0 π1 Trennschärfe 1.0 Wenn π1 ≤ 0.5, wird die (dann zutreffende) Nullhypothese mit einer Irrtumswahrscheinlichkeit von maximal α = 5% entdeckt. Wenn π1 ≥ 0.62 wird eine (dann falsche) Nullhypothese mit einer Wahrscheinlichkeit von 1–β ≥ 78.2% entdeckt. Bei einem Wert von π1 zwischen 0.5 und 0.62 liegt die (β-) Fehlerwahrscheinlichkeit zwischen 95% und 21.8 %. Der Test ist in diesem Bereich nicht trennscharf. 0.9 Prob(β-Fehler)=21.8% 0.8 π1=0.62 0.7 0.6 0.5 0.4 0.3 0.2 1-Prob(β-Fehler) αmax =5% 0.1 π1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 zutreffende unzutreffende Nullhypothese Nullhypothese 0.9 1.0 Die Teststärkefunktion sollte im Bereich der Nullhypothese möglichst geringe Werte nahe 0 und im Bereich der Alternativhypothese möglichst große Werte nahe 1 aufweisen. Es gibt jedoch immer einen Bereich, in dem ein Test sehr hohe Fehlerwahrscheinlichkeiten aufweist. In diesem nicht trennscharfen Bereich kann der Test nur schlecht zwischen H0 und H1 diskriminieren. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 319 Einfluss des Stichprobenumfangs auf die Teststärkefunktion Bei gegebener Irrtumswahrscheinlichkeit hängt die Trennschärfe (Teststärke) von der Stichprobengröße ab: je größer die Stichprobe, desto kleiner der Standardschätzfehler und desto steiler und damit trennschärfer verläuft die Teststärkefunktion. n=200 1.0 0.9 Bei einer Fallzahl von nur n=50 ist der Test im Bereich zwischen π1 > 0.5 und etwa π1 < 0.68 nicht trennschaft n=100 0.8 0.7 n=50 Bei einer Fallzahl von nur n=200 ist der Test im Bereich zwischen π1 > 0.5 und etwa π1 < 0.57 nicht trennschaft 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ist die Teststärke nicht hoch genug, sollte - wenn möglich - die Fallzahl erhöht werden. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 320 Einfluss des maximalen Irrtumswahrscheinlichkeit α auf die Teststärkefunktion Die Teststärkefunktionverläuft steiler, wenn die maximale α-Fehlerwahrscheinlichkeit heraufgesetzt wird. 1.0 0.9 Bei einer Irrtumswahrscheinlichkeit von α ≤ 10 % ist der Bereich, in dem der Test nicht trennscharf ist, kleiner als bei einer Irrtumswahrscheinlichkeit von α ≤ 10 %. Der „Preis“ für die steilere Funktion bei zutreffender Alternativhypothese ist allerdings, dass eher eine richtige Nullhypothese fälschlicherweise abgelehnt wird. 0.8 0.7 0.6 0.5 α =5 % 0.4 0.3 0.2 α =10% 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Bei gegebener Fallzahl und zu geringer Trennschärfe muss daher gegebenenfalls die Irrtumswahrscheinlichkeit α heraufgesetzt werden. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 321 Generelle Vorgehensweise beim statistischen Testen Schritt 1: Formulierung von Null- und Alternativhypothese Im Sinne eines strengen Testens ist die Nullhypothese H0 möglichst das Gegenteil der eigentlich interessierenden Forschungshypothese, der Alternativhypothese H1. Schritt 2: Auswahl der statistischen Prüfgröße (Teststatistik) Die Prüfgröße muss bei richtiger und falscher Nullhypothese unterschiedliche Kennwerteverteilungen aufweisen. Die Kennwerteverteilung und deren Parameter müssen (zumindest bei Gültigkeit der Nullhypothese) bekannt sein! Im Beispiel: Prüfgröße ist Stichprobenanteil, der asymptotisch normalverteilt ist. Schritt 3: Festlegung der (maximalen) Irrtumswahrscheinlichkeit (α) und damit des kritischen Wertes Im Beispiel ist der kritischer Wert ein Quantilwert der Normalverteilung mit Erwartungswert 0.5 und Standardabweichung 0.05. Bei einem maximalen α von 5% ist der kritische Wert 0.58225 Schritt 4: Berechnung der Prüfgröße und Entscheidung Im Beispiel: In Stichproben, in denen p1 ≥ 0.58225 wird die Nullhypothese verworfen, anderenfalls beibehalten. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 322 Generelle Vorgehensweise beim statistischen Testen In der Regel wird eine Teststatistik so ausgewählt, dass ihre Kennwerteverteilung bei (gerade noch) zutreffender Nullhypothese leicht zu berechnen ist. Schritt 2: Auswahl der statistischen Prüfgröße Beim Test eines Anteils wird daher anstelle des Stichprobenanteils die standardnormalverteilte Prüfgröße Z verwendet, die sich durch Z-Transformation des Stichprobenanteils an der Stelle π1 = 0. 5 (also wenn die Nullhypothese gerade noch richtig ist) berechnet p1 − π1 max . H0 0.58225 − 0.5 Z= ⇒ z10% = = 1.645 0.5 ⋅ (1 − 0.5 ) π1 max . H0 ⋅ 1 − π1 max. H0 100 n ( Schritt 3: Schritt 4: ) Festlegung der Irrtumswahrscheinlichkeit (α) und damit des kritischen Wertes Bei einer maximalen Irrtumswahrscheinlichkeit von 5% ist der kritische Wert dann das 95%-Quantil der Standardnormalverteilung, also 1.645. Berechnung der Prüfgröße und Entscheidung Wenn Z ≥ 1.645, dann H1, sonst H0 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 323 Einseitige und zweiseitige Tests Im Beispiel des Tests der Forschungshypothese, dass eine Mehrheit für die Einführung einer Ganztagesschule sei, ist die Nullhypothese falsch, wenn ein Populationswert einen vorgegebenen Wert (im Beispiel: π1 > 0.5) erreicht oder überschreitet. Ein solcher Test heißt einseitige Hypothesentest, da der von der Nullhypothese postulierte Wertebereich eines Populationsparameters entweder gegen ein Überschreiten (wie im Beispiel) oder gegen ein Unterschreiten geprüft wird. In einem zweiseitigen Hypothesentest postuliert die Nullhypothese dagegen, dass der zu testende Populationsparameter einen bestimmten Wert aufweist. Die Nullhypothese ist dann falsch, sowohl wenn dieser Wert überschritten, als auch wenn er unterschritten wird. Die generelle Vorgehensweise unterscheidet sich in der Schrittfolge nicht von der Vorgehensweise bei einem einseitigen Test. Schritt 1: Formulierung von Null- und Alternativhypothese Bei zweiseitigen Forschungshypothesen ist es nicht immer möglich, dass die Nullhypothese H0 das Gegenteil der Forschungshypothese ist. Beispiel: Es wird vemutet, dass 75% der Bevölkerung Niedersachsesn über ein eigenes Einkommen verfügen: H0: π1 = 0.75 versus H1: π1 ≠ 0.75 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 324 Zweiseitige Tests Schritt 2: Auswahl der statistischen Prüfgröße: Der Stichprobenanteil ist bei einer einfachen Zufallsauswahl um den Populationsanteil normalverteilt. Wenn π1 = 0.75, dann ist Z = p1 − π1 π1 ⋅ (1 − π1 ) n = p1 − 0.75 0.75 ⋅ (1 − 0.75 ) 180 standardnormalverteilt. Wenn die Nullhypothese falsch ist, π1 ≠ 0.75, dann ist entweder eher mit kleinen Werten (wenn π1 < .75) oder aber eher mit großen Werten (wenn π1 > .75) der Teststatistik zu rechnen. Wenn die Nullhypothese zutrifft, ist dagegen mit Werten um 0.0 zu rechnen. Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten: Die Irrtumswahrscheinlichkeit soll α = 5% betragen. Die Nullhypothese ist daher abzulehnen, wenn die Teststatistik kleiner als das 2.5%-Quantil oder aber größer als das 97.5%-Quantil der Standardnormalverteilung ist. Bei einem zweiseitigen Hypothesentest gibt es auch zwei kritische Werte, die den Bereich der Akzeptanz der Nullhypothese gegen die Teilbereiche der Ablehnung der Nullhypothese abgrenzen. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 325 Zweiseitige Tests Schritt 4: Berechnung der Teststatistik und Entscheidung Aus dem Allbus 1998 liegen folgende Daten über Befragte aus Niedersachsen vor: OWNINCOM Eigenes Einkommen Gültig Fehlend Gesamt .00 nein 1.00 ja Gesamt System Häufigkeit 40 140 180 83 263 Prozent 15.2 53.2 68.4 31.6 100.0 Gültige Prozente 22.2 77.8 100.0 Kumulierte Prozente 22.2 100.0 Angaben zum Einkommen liegen von 180 der 263 Befragten vor. Davon verfügen 140 oder 77.8% über ein eigenes Einkommen. Der Wert der Teststatistik Z beträgt in der Stichprobe: 140 − 0.75 0.0278 180 z= = = 0.86 0.75 ⋅ (1 − 0.75) 0.0323 180 Da -1.96 < 0.86 < 1.96, ist die Nullhypothese nicht zu verwerfen. Mit einer Irrtumswahrscheinlichkeit von 5% kann nicht ausgeschlossen werden, dass in Niedersachsen 75% der Bürger über ein eigenes Einkommen verfügen. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 326 Zweiseitige Tests: Teststärkefunktion Kennwerteverteilung der Teststatistik Teststärkefunktion im zweiseitigen Test 1.0 π1=.75 1-Prob(β-Fehler) 0.9 π1=.7 π1=.8 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Z -4 -3 -2 -1 0 1 2 3 4 Prob(Z<-1.96| π1=.75)=2.5% Prob(Z>1.96| π1=.75)=2.5% Statistik 1 (Vorlesung SoSe 06, 13.6.06) Prob(α-Fehler)=5% 0.1 0.0 π1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 327 Empirisches Signifikanzniveau In Statistikprogrammen wird neben dem Wert der Teststärkestatistik in der Regel das empirische Signifikanzniveau (bezogen auf einen zweiseitigen Hypothesentest) berichtet. Das empirische Singifikanzniveau gibt die Wahrscheinlichkeit an, dass eine Teststatistik bei zutreffender Nullhypothese den beobachteten Wert annimt oder einen Wert, der noch stärker gegen die Nullhypothes spricht. .40 .35 .30 –0.86 .25 Z=0.86 .20 .15 .10 .05 .00 19.5% -4 -3 -2 -1 19.5% 0 1 2 3 4 Z Im Beispiel des zweiseitigen Tests der Nullhypothese H0: π1 = 0.75 beträgt der Wert der Teststatistik 0.86. Diesem Wert entspricht im zweiseitigen Test ein empirisches Signifikanzniveau von 39.0%. Pr(Z ≥ 0.86) = 1 –Φ(0.86) = 19.5% Pr(Z ≤ –0.86) = Φ(–0.86) = 19.5% Pr(–0.86 ≥ Z ≥ 0.86) = 39% Ist das empirische Signifikanzniveau kleiner als die maximale Irrtumswahrscheinlichkeit α, dann ist die Nullhypothese zu verwerfen; ist das empirische Signifikanzniveau größer oder gleich der maximale Irrtumswahrscheinlichkeit α, dann ist die Nullhypothese beizubehalten. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 328 Statistische Test über Konfidenzintervalle Als Alternative zum zweiseitigen Hypothesentest über die Teststatistik Z bietet sich die Berechnung eines Konfidenzintervalls an. Wenn der Wert der Nullhypothese innerhalb des Konfidenzintervalls mit der Irrtumswahrscheinlichkeit α bzw. dem Vertrauen 1- α liegt, dann wird die Nullhypothese beibehalten, ansonsten verworfen. Im Beispiel der Prüfung von H0: π1 = 0.75 versus H1: π1 ≠ 0.75 berechnen sich die Grenzen des 95%-Konfidenzintervalls nach: c.i.(p1) = 140/180 ± 1.96 ·(140 ·40 /1803)0.5 = 0.78 ± 0.06 = [0.72 , 0.84] Da der von der Nullhypothese postulierte Wert 0.75 innerhalb des 95%-Konfidenzintervalls liegt, kann die Nullhypothese bei einer Irrtumswahrscheinlichkeit von 5% nicht verworfen werden. Ein Vorteil des Testens über Konfidenzintervalle ist, dass die Länge des Konfdenzintervalls Informationen über die Trennschärfe liefert: Je länger das Konfidenzintervall ist, desto geringer ist die Trennschärfe. Auf der anderen Seite nutzt ein Konfidenzintervall nicht die Informationen der Nullhypothese bei der Berechnung des Standardfehlers aus. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 329 Statistische Test über Konfidenzintervalle Beim Konfidenzintervall wird von der Stichprobenschätzung p1 ausgegangen und um diesen Wert mit Hilfe des geschätzten Standardfehlers und der Irrtumswahrscheinlichkeit ein Intervall berechnet in dem der durch die H0 postulierte Wert π1 liegt oder nicht liegt. c.i.( p1 ) = p1 ± z1−α / 2 ⋅ p1 ⋅ (1 − p1 ) n Beim zweseitigen Hypothesentest wird dagegen vom durch die H0 postulierten Wert π1 ausgegangen und um diesen Wert mit Hilfe des Standardfehlers bei gültiger H0 das Intervall des Annahmebereichs berechnet, in dem die Stichprobenschätzung p1 liegt oder nicht liegt. Z= p1 − π1 π1 ⋅ (1 − π1 ) n ⇒ Annahmebereich = π1 ± z1−α / 2 ⋅ Statistik 1 (Vorlesung SoSe 06, 13.6.06) π1 ⋅ (1 − π1 ) n 330 Hypothesentests über Anteile und Mittelwerte Bei der Darstellung der Logik des statistsichen Hypothsentestens wurden Hypothesen über Anteile formuliert. Generell lassen sich bei solchen Tests über den vermuteten Wert eines Populationsanteils drei verschiedene Paare von Null- und Alternativhypothese formulieren: a) H0: π1 = π versus H1: π1 ≠ π b) H0: π1 ≤ π versus H1: π1 > π c) H0: π1 ≥ π versus H1: π1 < π Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist, wenn der Populationsantreil kleiner oder aber größer ist als der durch die Nullhypothese postulierten Wert. Die zweite und dritte Hypothesenpaar führen zu einseitigen Tests, da hier die Nullhypothese falsch ist, wenn der Populationswert größer (Fall b) oder kleiner (Fall c) als ein von der Nullhypothese postulierter Wert ist. Die Vorgehensweise ist bei allen drei Tests identisch und beginnt in Schritt 1 mit der Formulierung des Hypothesenpaares der Form a), b) oder c), wobei in konkreten Anwendungen anstelle von π der jeweils konkrete Wert einzusetzen ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 331 Hypothesentests über Populationsanteile Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen auf der asymptotischen Annäherung der Kennwerteverteilung eines Stichprobenanteils bei einfachen Zufallsauswahlen an die Normalverteilung. Bei allen drei Nullhypothesen wird die Teststatistik p1 − π p1 − π Z= bzw. Z = π ⋅ (1 − π ) π ⋅ (1 − π ) N − n ⋅ n n N −1 berechnet, wobei p1 der Stichprobenanteil ist, der dem zu testenden Anteil in der Population entspricht, n der Stichprobenumfang und π der in der Nullhypothese a) bis c) formulierte Wert des Populationsanteils. Die rechte Formel wird bei einfachen Zufallsauswahlen ohne Zurücklegen aus kleinen Populationen verwendet, wenn N/n ≤ 20, wobei N der Populationsumfang ist. Weist der interessierende Populationsanteil π1 den Wert π auf: π1 = π, dann ist die Teststatistik Z standardnormalverteilt. Trifft dies nicht zu, ist die Teststatistik Z normalverteilt, aber nicht standardnormalverteilt. Der Erwartungswert µZ ist dann proportional zur Differenz des tatsächlichen Ppulationsanteils vom Wert π: n μ Z = ( π1 − π ) ⋅ π ⋅ (1 − π ) Statistik 1 (Vorlesung SoSe 06, 13.6.06) 332 Hypothesentests über Populationsanteile Ist π1 < π, so ist der Erwartungswert negativ und daher eher mit Z-Werten kleiner null zu rechnen, ist π1 > π, so ist der Erwartungswert positiv und daher eher mit Z-Werten größer null zu rechnen. Dies wird in Schritt 3 bei der Festlegung der Irrtumswahrscheinlichkeit und der kritischen Werte ausgenutzt. In den Sozialwissenschaften wird üblicherweise von einer maximalen Irrtumswahrscheinlichkeit von α = 5% oder α = 1% ausgegangen. Bei kleinen Stichproben kann die Irrtumswahrscheinlichkeit auch 10% betragen, um hinreichende Trennschärfe zu erreichen. Die Irrtumswahrscheinlichkeit α sollte auch eher größer sein, wenn die eigentlich interessierende Forschungshypothese nicht als Alternativhypothese H1 formuliert werden kann, sondern als Nullhypothese H0 formuliert werden muss. Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z ungleich null ist, liegt der Annahmebereich um null und der Ablehnungsbereich an den Enden der Kennwerteverteilung. Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 333 Hypothesentests über Populationsanteile Ablehnungsbereich bei H0: π1 = π α/2 α/2 Ablehnungsbereich bei H0: π1 ≤ π α Z 0.0 0.0 Z Ablehnungsbereich bei H0: π1 ≥ π α Z 0.0 Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4: Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: π1 = π gilt: Z ≤ zα/2 oder Z ≥ z1−α/2, (b) beim Test von H0: π1 ≤ π gilt: Z ≥ z1−α bzw. (c) beim Test von H0: π1 ≥ π gilt: Z ≤ zα. Da die Test nur asymptotisch gültig sind, muss jeweils die Anwendungsvoraussetzung geprüft werden. Die Annäherung an die Normalverteilung ist hinreichend genau, wenn gilt: n·π1/(1−π1) > 9 und n·(1−π1) / π1 > 9 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 334 Hypothesentests über Populationsmittelwerte Anteile können als Mittelwerte einer dichotomen Variablen mit den beiden Ausprägungen 0 und 1 aufgefasst werden, wobei der Wert 1 mit der interessierenden Eigenschaft korrespondiert. Die Vorgehensweise beim Testen von Mittelwerten entspricht der des Test von Anteilen. Zu beachten ist allerdings, dass bei mehr als zwei Ausprägungen die Standardabweichung in der Population keine Funktion des Mittelwerts ist und daher ein separater Populationsparameter ist. Auch bei Tests von Mittelwerten lassen sich in Schritt 1 drei verschiedene Paare von Null- und Alternativhypothese formulieren: a) H0: µ1 = µ versus H1: µ1 ≠ µ b) H0: µ1 ≤ µ versus H1: µ1 > µ c) H0: µ1 ≥ µ versus H1: µ1 < µ Der Wert µ ist ein in der Nullhypothese postulierter Wert für den Populationsmittelwert. Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist, wenn der Populationsmittelwert kleiner oder aber größer ist als der durch die Nullhypothese postulierten Wert µ. Die zweite und dritte Hypothesenpaar fühen demgengenüber zu eindeitigen Tests, da hier die Nullhypothese falsch ist, wenn der Populationsmittelwert größer (Fall b) oder kleiner (Fall c) als der von der Nullhypothese postulierter Wert ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 335 Hypothesentests über Populationsmittelwerte Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen auf der (asymptotischen) Normalverteilung von Stichprobenmittelwerten bei einfachen Zufallsauswahlen. Allerdings sind hier zwei Situationen zu unterscheiden: 1. Bekannte Populationsvarianz Ist die Populationsvarianz bzw. die Standardabweichung in der Population bekannt, berechnet sich der Standardfehler des Stichprobenmittelwert nach: σ 2X σ X2 N − n σ(X) = bzw. σ ( X ) = ⋅ n n N −1 wobei die rechte Formel bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ zum Stichprobenumfang kleinen Populationen verwendet wird, wenn N/n ≤ 20. 2. Unbekannte Populationsvarianz Ist die Populationsvarianz bzw. die Standardabweichung in der Population unbekannt, wird der Standardfehler des Stichprobenmittelwert aus den Sichprobendaten gecshätzt nach: n σˆ 2X σ(X) = = n ∑ ( xi − x ) i =1 n ⋅ ( n − 1) n 2 σ X2 N − n = bzw. σ ( X ) = ⋅ = n N −1 Statistik 1 (Vorlesung SoSe 06, 13.6.06) ∑ ( xi − x ) i =1 n ⋅ ( n − 1) 2 ⋅ N−n N −1 336 Hypothesentests über Populationsmittelwerte Die rechte Formel wird wiederum bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ zum Stichprobenumfang kleinen Populationen verwendet, wenn N/n ≤ 20. Die statistischen Prüfgröße ist stets der Qotient aus der Differenz des Stichprobenmittelwerts vom in der Nullhypothese postulierten Wert µ geteilt durch den (geschätzten) Standardfehler: X −μ X −μ bzw. σ(X) σˆ ( X ) Zu unterscheiden ist, ob die interessierende Größe in der Population normalverteilt ist oder ob dies nicht der Fall ist. (1) Wenn die Variable X in der Population normalverteilt ist und die Populationsvarianz bekannt ist, dann ist die Teststatistik N−n X n − μ ⋅ ⋅ ( ) X − μ X − μ (X − μ) ⋅ n X −μ X−μ N −1 = = = = Z= bzw. Z = σX σX σ(X) σ(X) σ 2X σ X2 N − n ⋅ n n N −1 bei beliebigen Fallzahlen n in der Stichprobe standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 337 Hypothesentests über Populationsmittelwerte (2) Wenn die Variable X in der Population normalverteilt ist, aber die Populationsvarianz unbekannt ist, dann ist die Teststatistik N−n X n − μ ⋅ ⋅ ( ) X − μ X − μ (X − μ) ⋅ n X −μ X −μ N −1 = = = = T= bzw. T = σˆ X σˆ X σˆ ( X ) σ(X) σˆ 2X σˆ X2 N − n ⋅ n n N −1 bei beliebigen Fallzahlen n in der Stichprobe t-verteilt mit df = n–1Freiheitsgraden, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. (3) Wenn die Variable X in der Population nicht normalverteilt ist und die Populationsvarianz unbekannt ist, dann ist die Teststatistik N−n X n − μ ⋅ ⋅ ( ) X − μ X − μ (X − μ) ⋅ n X −μ X−μ N −1 = = = = Z= bzw. Z = σˆ X σˆ X σˆ ( X ) σ(X) σˆ 2X σˆ X2 N − n ⋅ n n N −1 asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Die Annäherung ist i.a. hinreichend genau, wenn n > 30. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 338 Hypothesentests über Populationsmittelwerte (4) Ist die Variable X in der Population nicht normalverteilt, aber die Populationsvarianz bekannt, wird der korrekte Standardfehler verwendet: X − μ X − μ (X − μ) ⋅ n X −μ = = = Z= bzw. Z = 2 σ σ(X) σ X ( ) σX X n X−μ σ N−n ⋅ n N −1 2 X = (X − μ) ⋅ n ⋅ N−n N −1 σX Die Teststatistk ist asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Die Annäherung ist i.a. hinreichend genau, wenn n > 30. Ist der Populationsmittelwert ungleich µ, dann ist auch der Erwartungswert der Teststatistik ungleich null. Beim T-Test ist die Kennwerteverteilung dann nichtzentral t-verteilt, beim Z-Test ist sie (asymptotisch) normalverteilt mit Erwartungswert ungleich 0. Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T ungleich null ist, wird in Schritt 3 der Annahmebereich um null und der Ablehnungsbereich an die Enden der Kennwerteverteilung gelegt. Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 339 Hypothesentests über Populationsmittelwerte Ablehnungsbereich bei H0: µ1 = µ α/2 α/2 0.0 Ablehnungsbereich bei H0: µ1 ≤ µ Z bzw. T α 0.0 Z bzw. T Ablehnungsbereich bei H0: µ1 ≥ µ α 0.0 Z bzw. T Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststa-tistik Z bzw. größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4: Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: µ1 = µ gilt: Z ≤ zα/2 oder Z ≥ z1−α/2 , bzw. T ≤ tα/2;df=n-1 o. T ≥ t1−α/2;df=n-1 (b) beim Test von H0: µ1 ≤ µ gilt: Z ≥ z1−α bzw. T ≥ t1−α;df=n-1 (c) beim Test von H0: µ1 ≥ µ gilt: Z ≤ zα bzw. T ≤ t1−α;df=n-1 Im Sinne eines vorsichtigen Testens wird die T-Verteilung in der Regel auch dann verwendet, wenn die Variable X nicht normalverteilt ist und die Popualtionsvarianz unbekannt ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 340 Statistik I im Sommersemester 2006 Themen am 20.6.2006: Zusammenhangsanalyse in der Vierfeldertabelle • Von der Anteilsdifferenz zur Vierfeldertabelle • Prüfung von Hypothesen über Anteile und Mittelwerte Probeklausur 2 Lernziele: 1. 2. 3. 4. 5. 6. Aufbau einer Kreuztabelle: Zeilen- und Spaltenvariable Unterschied zwischen gemeinsamen und bedingten Verteilungen Univariate Verteilungen und Randverteilungen in einer Kreuztabelle Interpretation einer Prozentsatzdifferen Kennwerteverteilung und Konfidenzintervalle von Proezntsatzdifferenzen Hypothesentests über Prozentsatzdifferenzen Statistik 1 (Vorlesung SoSe 06, 20.6.06) 341 Wiederholung Satistische Tests als Entscheidungsregel auf der Basis von Teststatistiken Forschungshypothese, Null- und Alternativhypothese Fehler erster und zweiter Art Empirisches Signifikanzniveau Teststärkefunktion und Trennschärfe eines Tests Irrtumswahrscheinlichkeit u. kritische Werte Z-Tests über Populationsanteile Z-Tests über Populationsmittelwerte T-Tests über Populationsmittelwerte Statistik 1 (Vorlesung SoSe 06, 20.6.06) 342 Von der Anteilsdifferenz zur Vierfeldertabelle Eine der wichtigsten Aufgaben der Statistik in den Sozialwissenschaften besteht in der Analyse von Zusammenhängen. So mag sich z.B. ein Sozialwissenschaftler dafür interessieren, ob die Einstellung vom Schwangerschaftsabbruch bei Männern und Frauen unterschiedlich ist. Als empirische Datenbasis findet sich im Allbus 1996 die Antworten von Befragten auf die Frage, ob Schwangerschaftsabbruch bei finanzieller Notlage erlaubt oder verboten sein sollte. Um diese Fragen zu beantworten, müssen die Antworten der Männer auf diese Frage mit den Antworten der Frauen auf diese Frage verglichen werden. Berechnet man getrennt die Häufigkeitsverteilung von Männern und Frauen ergibt sich folgendes Bild: Antworten männlicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk - sollte erlaubt sein 908 - sollte verboten sein 624 Summe 1532 pk cpk 0.593 0.593 0.407 1.000 1.000 (Quelle: Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 20.6.06) Antworten weiblicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 962 0.614 0.614 - sollte verboten sein 606 0.386 1.000 Summe 1568 1.000 (Quelle: Allbus 1996) 343 Von der Anteilsdifferenz zur Vierfeldertabelle Antworten männlicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk - sollte erlaubt sein 908 - sollte verboten sein 624 Summe 1532 pk cpk 0.593 0.593 0.407 1.000 1.000 (Quelle: Allbus 1996) Antworten weiblicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 962 0.614 0.614 - sollte verboten sein 606 0.386 1.000 Summe 1568 1.000 (Quelle: Allbus 1996) Der Vergleich der beiden Verteilungen zeigt, dass die weiblichen Befragten in der AllbusStichprobe sich zu einem geringfügig größeren Anteil für die Erlaubnis des Schwangerschaftsabbruchs aussprechen als die männlichen Befragten: Die Differenz der entsprechenden Anteile beträgt 0.614 – 0.593 = 0.021. Die Darstellung der Häufigkeitsverteilungen der Antworten in zwei getrennten Tabellen für Männer und Frauen erscheint nicht sehr sinnvoll, wenn die Zahlen für die Interpretation wieder zusammengestellt werden müssen. Tatsächlich kann in der bivariaten Zusammenhangsanalyse die gemeinsame Häufigkeitsverteilung von zwei Variablen in einer Kreuztabelle analysiert werden. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 344 Von der Anteilsdifferenz zur Vierfeldertabelle Antworten männlicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk - sollte erlaubt sein 908 - sollte verboten sein 624 Summe 1532 pk cpk 0.593 0.593 0.407 1.000 1.000 Antworten weiblicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 962 0.614 0.614 - sollte verboten sein 606 0.386 1.000 Summe 1568 1.000 Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht: Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 908 962 624 606 1532 1568 Summe 1870 1230 3100 Die Daten in der Kreuztabelle enthalten die gleichen Zahlen wie die getrennten univariaten Häufigkeitstabellen. So ist erkennbar, dass von den 1532 männlichen Befragten 908 für eine Erlaubnis und 624 für ein Verbot des Schwangerschaftsabbruchs bei finanzieller Notlage sind und von den 1568 Frauen 962 für eine Erlaubnis und 606 für ein Verbot. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 345 Von der Anteilsdifferenz zur Vierfeldertabelle Antworten männlicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk - sollte erlaubt sein 908 - sollte verboten sein 624 Summe 1532 pk cpk 0.593 0.593 0.407 1.000 1.000 Antworten weiblicher Befragter Schwangerschaftsabbruch bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 962 0.614 0.614 - sollte verboten sein 606 0.386 1.000 Summe 1568 1.000 Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht: Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 908 962 624 606 1532 1568 Summe 1870 1230 3100 Zusätzlich enthält die Kreuztabelle aber auch in der unteren Zeile bzw. der rechten Randspalte Informationen über die univariaten Häufigkeitsverteilungen der beiden betrachteten Variablen X (“Geschlecht”) und Y (“Schwangerschaftsabbruch”). Statistik 1 (Vorlesung SoSe 06, 20.6.06) 346 Von der Anteilsdifferenz zur Vierfeldertabelle Schwangerschaftsabbruch (Y) bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 1870 0.603 0.603 - sollte verboten sein 1230 0.397 1.000 Summe 3100 1.000 Geschlecht des Befragten - männlich - weiblich Summe (X) nk pk cpk 1532 0.494 0.49.4 1568 0.506 1.000 3100 1.000 Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 908 962 624 606 1532 1568 Summe 1870 1230 3100 Die Variable, deren Ausprägungen die Zeilen der Kreuztabelle festlegen, heißt Zeilenvariable. Im Beispiel ist die Variable Y “Haltung zum Schwangerschaftsabbruch” Zeilenvariable. Die Variable, deren Ausprägungen die Spalten der Kreuztabelle festlegen, heißt Spaltenvariable. Im Beispiel ist die Variable X “Gechlecht” Spaltenvariable. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 347 Von der Anteilsdifferenz zur Vierfeldertabelle Schwangerschaftsabbruch (Y) bei finanzieller Notlage nk pk cpk - sollte erlaubt sein 1870 0.603 0.603 - sollte verboten sein 1230 0.397 1.000 Summe 3100 1.000 Geschlecht des Befragten - männlich - weiblich Summe (X) nk pk cpk 1532 0.494 0.49.4 1568 0.506 1.000 3100 1.000 Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 908 962 624 606 1532 1568 Summe 1870 1230 3100 Entsprechend der Zahl der Ausprägungen der Zeilen- und der Spaltenvariable spricht man von I×J-Tabellen (engl. r by c-tables), wenn die Zeilenvariable I Ausprägungen und die Spaltenvariable J Ausprägungen hat. Im Beispiel liegt eine “2 mal 2”-Tabelle vor, da beide Variablen dichotom sind, also nur 2 Ausprägungen haben. Die 2×2-Tabelle ist die kleinstmögliche Kreuztabelle von zwei Variablen. Sie hat 2×2 = 4 (innere) Zellen. Man bezeichnet solche Kreuztabellen auch als Vierfeldertabelle (oder Vierfeldertafel). Statistik 1 (Vorlesung SoSe 06, 20.6.06) 348 Von der Anteilsdifferenz zur Vierfeldertabelle Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich n11 908 n12 962 n21 624 n22 606 n•1 1532 n•2 1568 Summe n1• 1870 n2• 1230 3100 Um die einzelnen Zellen einer Kreuztabelle eindeutig zu identifizieren, werden Indizes verwendet, die die Nummer der Ausprägung der Zeilen- und Spaltenvariablen angeben. Im Beispiel gibt es 908 Fälle mit der Ausprägungskombination “männlich” und “sollte erlaubt sein”, d.h. n11 = 908 An erster Stelle steht immer der Zeilenindex, an zweiter Stelle der Spaltenindex. n21 ist daher die gemeinsame Häufigkeit der zweiten Ausprägung der Zeilenvariable und der ersten Ausprägung der Spaltenvariable. n12 ist dagegen die gemeinsame Häufigkeit der ersten Ausprägung der Zeilenvariable und der zweiten Ausprägung der Spaltenvariable. Die univariaten Verteilungen am rechten und unteren Rand, die sich auch durch Aufsummieren der inneren Tabellenzellen ergeben, werden dadurch gekennzeichnet, dass ein “•” oder ein “+” für den Index steht, über den aufsummiert wird. n1• oder n1+ ist daher die Häufigkeit der ersten Ausprägung der Zeilenvariable; n•1 oder n+1 ist daher die Häufigkeit der ersten Ausprägung der Spaltenvariable Statistik 1 (Vorlesung SoSe 06, 20.6.06) 349 Von der Anteilsdifferenz zur Vierfeldertabelle Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich n11 908 n12 962 n21 624 n22 606 n•1 1532 n•2 1568 Summe n1• 1870 n2• 1230 n•• 3100 n In der untersten rechten Zelle steht dann die Gesamtfallzahl n•• (oder einfach n) . Im Beispiel ist n=3100. In der Regel werden in einer Kreuztabelle Ausprägungen für ungültige Fäle (missing values) nicht aufgeführt. Wenn es keine ungültigen Fälle gibt, ist die Gesamtfallzahl gleich dem Stichprobenumfang. Geschlecht nk Tatsächlich enthält der Allbus 1996 3518 Fälle, von denen 1738 männlich und 1780 weiblich sind. - männlich 1738 - weiblich 1780 - k. A. 0 Summe 3518 Bei der Frage nach dem Schwangerschaftsabbruch bei finanzieller Notlage gibt es jedoch 418 ungültige Angaben, wobei 396 Befragte mit “weiß nicht” antworteten und von 22 Befragten keine Angabe vorliegt. Statistik 1 (Vorlesung SoSe 06, 20.6.06) Abtreibung nk - erlaubt 1870 - verboten 1230 - w. n. 396 - k. A. 22 Summe 3518 350 Von der Anteilsdifferenz zur Vierfeldertabelle Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich a 908 b 962 c 624 d 606 a+c 1532 b+d 1568 Summe 1870 a+b 1230 c+d 3100 n In Vierfeldertabellen gibt es die Besonderheit, dass die vier inneren Tabellenzellen auch durch die ersten vier kleinen Buchstaben des Alphabets bezeichnet werden. Im Beispiel ist a=908, b=962, c=623 und d=606. Wenn wie im Beispiel die Zellen einer Kreuztabelle die absoluten Auftretenshäufigkeiten enthalten, dann zeigt die Tabelle die gemeinsame oder bivariate Häufigkeitsverteilung der Zeilen- und der Spaltenvariable. Da die univariate Häufigkeitsverteilungen der beiden Variablen in den rechten bzw. unteren Randzellen der Tabelle wiedergegeben werden, werden die univariaten Verteilungen in diesem Kontext auch als Randverteilungen bezeichnet. Formal ergeben sich Randverteilungen durch Aggregation über die Ausprägungen anderer Variablen. Die Randverteilung der ZeilenvariableGeschlechts ergibt sich im Beispiel durch Aufsummieren über die Ausprägungen der Spaltenvariable. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 351 Zusammenhangsanalyse in der Vierfeldertabelle Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht: Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 908 962 624 606 1532 1568 Summe 1870 1230 3100 Ziel der Betrachtung einer bivariaten Verteilung ist die Beantwortung der Frage, ob, und wenn, welcher Zusammenhang zwischen den beiden Variablen besteht. Im Beispiel sollte der Frage nachgegangen werden, ob sich die Einstellung zum Schwangerschaftsabbruch bei Männern und Frauen unterscheidet. Dazu wurden die relativen Häufigkeiten von Männern und Frauen verglichen. Statistisch gesehen ist der Vergleich der relativen Antworthäufigkeiten der Männern mit der der Frauen ein Vergleich von bedingten (konditionalen) Verteilungen. Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 0.593 (908) 0.614 (962) 0.407 (624) 0.386 (606) 1.000 (1532) 1.000 (1568) Summe 0.603 (1870) 0.397 (1230) 1.000 (3100) (Quelle: Allbus 1996 Statistik 1 (Vorlesung SoSe 06, 20.6.06) 352 Zusammenhangsanalyse in der Vierfeldertabelle Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 0.593 (908) 0.614 (962) 0.407 (624) 0.386 (606) 1.000 (1532) 1.000 (1568) Summe 0.603 (1870) 0.397 (1230) 1.000 (3100) (Quelle: Allbus 1996 Bei der Berechnung werden die Zellenhäufigkeiten in jeder Spalte durch die Spaltensumme in der unteren Zeile geteilt: n pi( j) = ij n• j Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich p1(1) = n11/n•1 p1(2) = n12/n•2 p2(1) = n21/n•1 p2(2) = n22/n•2 1.000 (n•1) 1.000 (n•2) Summe p1• = n1•/n p2• = n2•/n 1.000 (n) Um die bedingende Variable von der bedingten zu unterscheiden, wird der Index der bedingenden Variable - Beispiel die Spaltenvariable Geschlecht - in Klammern gesetzt. pi(j) steht also für die (konditionale) relative Häufigkeit der i-ten Ausprägung der Zeilenvariable, wenn die Spaltenvariable die j-te Ausprägung aufweist. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 353 Zusammenhangsanalyse in der Vierfeldertabelle Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% 0.593 (908) (908) 61.4% 0.614 (962) (962) - sollte verboten sein 40.7% 0.407 (624) (624) 38.6% 0.386 (606) Summe 100.0% 1.000 (1532) (1532) 100.0% 1.000 (1568) (1568) Summe 0.603 60.3% (1870) (1870) 0.397 39.7% (1230) (1230) 100.0% 1.000 (3100) (3100) (Quelle: Allbus 1996) 1996 Anstelle der Anteile werden oft Prozentwerte angegeben. Wärend 59.3% der Männer der Ansicht sind, Schwangerschaftsabbruch bei finanzieller Notlage sollte erlaubt sein, sind es 61.4% der Frauen, die diese Ansicht teilen. Zwei Zufallsvariablen sind statistisch unabhängig voneinander, wenn bedingte und unbedingte Verteilungen gleich sind. Bei Unabhängigkeit sollten daher in der Kreuztabelle die relativen Häufigkeiten der konditionalen Verteilungen gleich den Randverteilungen sein. Im Beispiel müssten dann die Prozentwerte in der ersten Zeile stets 60.3% betragen und in der zweiten Zeile 39.7%. Da sich relative Häufigkeiten und absolute Häufigkeiten ineinander umrechnen lassen, lässt sich berechnen, welche absoluten Häufigkeiten zu erwarten wären, wenn Unabhängigkeit zwischen den Variablen bestünde, indem die relativen Häufigkeiten mit der jeweiligen Bezugszahl multipliziert wird. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 354 Zusammenhangsanalyse in der Vierfeldertabelle Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Bei Unabhängigkeit ergäbe sich für a = 0.603 ·1532 = 923.8, b = 0.603 ·1568 = 945.5, c = 0.397 ·1532 = 608.2 und d = 0.397 ·1568 = 622.5 Bei Unabhängigkeit erwartete Häufigkeiten Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 60.3% (923.8) 60.3% (945.5) - sollte verboten sein 39.7% (608.2) 39.7% (622.5) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) In der Realität sind keine Häufigkeiten mit Nachkommastellen zu beobachten. Tatsächlich sind die bei Unabhängigkeit erwarteten Häufigkeiten als Erwartungswerte von Zufallsvariablen zu interpretieren: Wenn es in einer Population sowohl unter den Männern wie den Frauen 60.3% gibt, die für die Erlaubnis des Schwangerschaftsabbruchs sind, und in einfachen Zufallsauswahlen jeweils 1532 Männer und 1568 Frauen ausgewählt werden, dann wäre der Erwartungswert der Männer 923.8 (= n · π1 = 1532 · 0.603) und der der Frauen 945.5. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 355 Zusammenhangsanalyse in der Vierfeldertabelle Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Neben dem einem Extrem statistischer Unabhängigkeit (kein Zusammenhang) kann auch der umgekehrte Fall eines maximalen (perfekten) Zusammenhangs interessieren. Im Beispiel wäre das der Fall, wenn entweder alle Männer für Erlaubnis und alle Frauen für ein Verbot wären oder umgekehrt alle Männer für ein Verbot und alle Frauen für Erlaubnis. Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 100% (1532) 0% (0) 0% (0) 100% (1568) 100% (1532) 100% (1568) Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 0% (0) 100% (1568) 100% (1532) 0% (0) 100% (1532) 100% (1568) Statistik 1 (Vorlesung SoSe 06, 20.6.06) Summe 49.4% (1532) 50.6% (1568) 100.0% (3100) Summe 50.6% (1568) 49.4% (1532) 100.0% (3100) 356 Prozentsatzdifferenz Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Als Maß für die Stärke des Zusammenhang bietet es sich daher an, die Differenz der Prozentwerte der Ausprägungen der Haltung zum Schwangerschaftsabruch zwischen den beiden Gechlechtern als Zusammenhangsmaß zu verwenden. Dieses Zusammenhangsmaß heißt Prozentsatzdifferenz dYX% und gibt die Differenz der bedingten relativen Häufigkeiten in Prozentpunkten an: ⎛n n ⎞ b ⎞ ⎛ a − d YX % = 100 ⋅ ( p1(1) − p1(2) ) = 100 ⋅ ⎜ 11 − 11 ⎟ = 100 ⋅ ⎜ ⎟ + + n n a c b d ⎝ ⎠ ⎝ •1 •2 ⎠ Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich a 908 b 962 c 624 d 606 a+c 1532 b+d 1568 Summe 1870 a+b 1230 c+d 3100 n Im Beispiel beträgt die Prozentsatzdifferenz 100 ·(908/1532 – 962/1568) = –2.08 Prozentpunkte. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 357 Prozentsatzdifferenz Der Wertebereich der Prozentsatzdifferenz liegt zwischen –100 Prozentpunkten und +100 Prozentpunkten. Besteht kein Zusammenhang, beträgt der Wert 0 Prozentpunkte. Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht (X) männlich weiblich 60.3% 60.3% 39.7% 39.7% (1532) (1568) Summe Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht (X) männlich weiblich 100% 0% 0% 100% (1532) (1568) Summe Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht (X) männlich weiblich 0% 100% 100% 0% (1532) (1568) Summe Statistik 1 (Vorlesung SoSe 06, 20.6.06) 60.3% 39.7% (3100) 49.4% 50.6% (3100) 50.6% 49.4% (3100) dYX = 0.0% kein Zusammenhang dYX = + 100.0% perfekter positiver Zusammenhang dYX = – 100.0% perfekter negativer Zusammenhang 358 Prozentsatzdifferenz Als Faustregel für die Interpretation einer Prozentsatzdifferenz wird der Wertebereich in Regionen eingeteilt: praktisch kein Zusammenhang −5% < dYX% < +5% +5% ≤ dYX% < +10% bzw. −10% < dYX% ≤ −5% geringer Zusammenhang +10% ≤ dYX% < +25% mittlerer Zusammenhang bzw. −25% < dYX% ≤ −10% +25% ≤ dYX% bzw. –25% ≤ dYX% starker Zusammenhang Das Vorzeichen ist ab ordinalem Skalenniveau interpretierbar. Bei der Interpretation des Vorzeichens ist allerdings Vorsicht angebracht, da es von der Kodierung der Variablen abhängt, ob eine Prozentsatzdifferenz positiv oder negativ ist. Interpretierbar ist das Vorzeichen nur, wenn die erste Ausprägung sowohl der Spalten- wie auch der Zeilenvariablen entweder für ein “mehr” oder für ein “weniger” einer Eigenschaft stehen als die jeweils zweiten Ausprägungen. Im Zweifelsfall sollte nur der Absolutbetrag der Prozentsatzdifferenz berichtet werden. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 359 Prozentsatzdifferenz Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Stärke eines Zusammenhangs praktisch kein 0 ≤ | dYX% | < 5 geringer 5 ≤ | dYX% | < 10 mittlerer 10 ≤ | dYX% | < 25 starker 25 ≤ | dYX% | Die Prozentsatzdifferenz von nur 2.1 Prozentpunkten weist darauf hin, dass es praktisch keinen Unterschied zwischen Männern und Frauen bei der Frage gibt, ob ein Schwangerschaftsabbruch bei finanzieller Notlage erlaubt oder verboten sein sollte. Das negative Vorzeichen (59.3 – 61.4 = –2.1) besagt aufgrund der Kodierung , dass bei Frauen ein höherer Wert steht als bei Männern. Wären die Werte für weibliche Befragte in der ersten Spalte oder wären in der ersten Zeile der ersten Zeile die Werte derjenigen aufgetragen, die für ein Verbot sind, dann wäre die Prozentsatzdifferenz positiv. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 360 Kennwerteverteilung der Prozentsatzdifferenz Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Die Prozentsatzdifferenz ist eine Linearkombination von zwei Anteilen p1(1) und p1(2) in einer Kreuztabelle. In einer einfachen Zufallsauswahl sind die beiden Anteile jeweils asymptotisch normalverteilt und statistisch unabhängig voneinander, wenn entweder getrennte Stichproben für die beiden Ausprägungen der Spaltenvariable gezogen werden, oder aber es dem Zufalls der Auswahl überlassen bleibt, welche Ausprägung bei der Spaltenvariable realisiert wird. Die Kennwerteverteilung ist dann ebenfalls asymptotisch normalverteilt, wobei sich Erwartungswert und Varianz nach den Regeln für Linearkombinationen berechnen lassen: dYX% = 100 ·p1(1) + (–100) ·p1(2) ⎛ π ⋅ π2(1) π1(2) ⋅ π2(2) ⎞ ⎞ 2 ⎛ 1(1) f ( d YX % ) = N ⎜ 100 ⋅ ( π1(1) − π1(2) ) ;100 ⋅ ⎜ + ⎟⎟ n n •1 •2 ⎝ ⎠⎠ ⎝ Statistik 1 (Vorlesung SoSe 06, 20.6.06) 361 Kennwerteverteilung der Prozentsatzdifferenz Spaltenvariable Geschlecht des Befragten (X) Summe Zei- Schwangerschaftsabbruch männlich weiblich len- bei finanzieller Notlage (Y) 59.3% a (908) 61.4% b (962) 60.3% (1870) var - sollte erlaubt sein 40.7% c (624) 38.6% d(606) 39.7% (1230) ria- - sollte verboten sein Summe 100.0% (1532) 100.0% (1568) 100.0% (3100) ble (Quelle: Allbus 1996) Da die Populationsanteile π1(1), π2(1), π1(2) und π2(2) unbekannt sind, werden sie durch die Stichprobenanteile p1(1), p2(1), p1(2) und p2(2) geschätzt. Der Standardfehler der Prozentsatzdifferenz beträgt dann: σˆ ( d YX % ) = 100 ⋅ p1(1) ⋅ p 2(1) n •1 + p1(2) ⋅ p 2(2) n •2 = 100 ⋅ a ⋅c (a + c) 3 + b⋅d (b + d) 3 Die Annäherung an die Normalverteilung ist hinreichend genau, wenn (a) n•1 · p1(1)/p2(1) = (a+c) · a/c > 9 bzw. n•1 · p2(1)/p1(1) = (a+c) · c/a > 9, (b) n•2 · p1(2)/p2(2) = (b+d) · b/d > 9 bzw. n•2 · p2(2)/p1(2) = (b+d) · d/b > 9, (c) n•1 > 60 und (c) n•2 > 60 Statistik 1 (Vorlesung SoSe 06, 20.6.06) 362 Konfidenzintervall für die Prozentsatzdifferenz Spaltenvariable Geschlecht des Befragten (X) Summe Zei- Schwangerschaftsabbruch männlich weiblich len- bei finanzieller Notlage (Y) 59.3% a (908) 61.4% b (962) 60.3% (1870) var - sollte erlaubt sein - sollte verboten sein 40.7% c (624) 38.6% d(606) 39.7% (1230) riaSumme 100.0% (1532) 100.0% (1568) 100.0% (3100) ble (Quelle: Allbus 1996) Für das Beispiel des Zusammenhangs zwischen Haltung zum Schwangerschaftsabbruch und Geschlecht ergibt sich anhand der Allbus-Daten ein Standardfehler von: σˆ ( d YX % ) = 100 ⋅ 908 ⋅ 624 (1532 ) 3 + 962 ⋅ 606 (1568) 3 = 1.76 Analog zum Vorgehen bei Anteilen lässt sich das (1–α)-Konfidenzintervall für die Prozentsatzdifferenz berechnen nach: a ⋅c b⋅d c.i.( δ YX % ) = d YX % ± z1−α / 2 ⋅ σˆ ( d YX % ) = d YX % ± z1−α / 2 ⋅ 100 ⋅ + 3 3 (a + c) ( b + d ) Die Grenzen des 95%-Konfidenzintervalls berechnen sich für das Beispiel nach: –2.08 ± 1.96 ·1.76 = [–5.64 ; 1.48 ] Statistik 1 (Vorlesung SoSe 06, 20.6.06) 363 Hypothesentests über Prozentsatzdifferenzen Die Kennwerteverteilung lässt sich auch für Hypothesentests über Prozentsatzdifferenzen nutzen. Schritt 1: Formulierung von Null- und Alternativhypothese Wie bei einfachen Anteilen lassen sich drei Hypothesenpaare unterscheiden: (a) H0: δYX% = d% versus H1: δYX% ≠ d% (b) H0: δYX% ≤ d% versus H1: δYX% > d% (c) H0: δYX% ≥ d% versus H1: δYX% < d% In den Hypothesen steht d% für einen vorgegebenen Wert, den die Prozentsatzdifferenz nach der Nullhypothese einnimmt (a), nicht überschreitet (b) oder nicht unterschreitet (c). Das erste Hypothesenpaar führt zu einem zweiseitigen, das zweite und dritte zu einseitigen Tests. Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung Für die Teststatistik wird die asymptotische Normalverteilung der Kennwerteverteilung ausgenutzt und die Prozentsatzdifferenz in der Stichprobe unter der Annahme, dass dYX% = d% ist, standardisiert: b ⎞ d% ⎛ a X − − ⎜ ⎟ d % − d% ⎝ a + c b + d ⎠ 100 Y 1 2 ∑ = Z = YX 1 a b a+b σˆ ( d YX % ) a ⋅c b⋅d ⋅ 3 3 2 c d c+d (a + c) ( b + d ) ∑ a+c b+d n Statistik 1 (Vorlesung SoSe 06, 20.6.06) 364 Hypothesentests über Prozentsatzdifferenzen Wenn die Prozentsatzdifferenz dYX% tatsächlich gleich d% ist, dann ist die Test-Statistik asymptotisch standardnormalverteilt. Trifft diese Annahme nicht zu, ist die Teststatistik normalverteilt mit einem Erwartungswert größer Null, wenn die Prozentsatzdifferenz δYX% in der Population größer d% ist, bzw. mit einem Erwartungswert kleiner Null, wenn die Prozentsatzdifferenz δYX% in der Population kleiner d% ist. Ein Wert von d% = 0 korrespondiert mit Nullhypothesen, nach denen die Prozentsatzdifferenz in der Population 0 ist, 0 nicht überschreitet oder unterschreitet. Falls tatsächlich δYX% = 0, dann sind in der Population bedingte und unbedingte relative Häufigkeiten gleich. Dies kann bei der Berechnung des Standardfehlers ausgenutzt werden, in dem bei der Berechnung anstelle der bedingten Anteile aus den beiden Tabellenspalten jeweils der Standardfehler des unbedingten Anteils aus der Randverteilung herangezogen wird. Der Standardfehler der Teststatistik berechnet sich dann also nach: p ⋅p p ⋅p σˆ ( Z δYX % = 0 ) = 1• 2• + 1• 2• = n •1 n •2 Statistik 1 (Vorlesung SoSe 06, 20.6.06) (a + b) ⋅ (c + d) ⋅ ⎛ n X 1 1 ⎞ + ∑ ⎜ ⎟ Y 1 2 ⎝a+c b+d⎠ 1 a b a+b 2 c d c+d ∑ a+c b+d n 365 Hypothesentests über Prozentsatzdifferenzen Die Teststatistik ergibt sich nun nach: Z= p1(1) − p 2(1) ⎛ 1 1 ⎞ + p1• ⋅ p 2 i ⋅ ⎜ ⎟ ⎝ n •1 n •2 ⎠ = X a b − a+c b+d (a + b) ⋅ (c + d) ⋅ ⎛ 1 + 1 ⎞ ⎜ ⎟ n ⎝a+c b+d⎠ Y 1 1 a 2 c ∑ a+c 2 ∑ b a+b d c+d b+d n Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergeben sich die kritischen Werte wie beim Testen eines einfachen Anteils. Bei Test a) sind die kritischen Werte das (α/2)- und das (1–α/2)-Quantil, beim Test b) das (1–α)-Quantil und beim Test c) das α-Quantil der Standardnormalverteilung. Schritt 4: Berechnung der Teststatistik und Entscheidung Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die Nullhypothese beibehalten bzw. verworfen. Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: δYX% = d% gilt: Z ≤ zα/2 oder Z ≥ z1−α/2, (b) beim Test von H0: δYX% ≤ d% gilt: Z ≥ z1−α bzw. (c) beim Test von H0: δYX% ≥ d% gilt: Z ≤ zα. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 366 Statistik I im Sommersemester 2006 Themen am 27.6.2006: Zusammenhangsanalyse in Kreuztabellen II • Symmetrische und asymmetrische Beziehungen • Bivariate Zusammenhänge in der Mehrfeldertabelle - Zusammenhang zwischen zwei nominalskalierten Variablen Lernziele: 1. 2. 3. 4. 5. 6. Unterscheidung von symmetrischen und asymmetrischen Zusammenhangsanalysen Symmetrische Zusammenhangsmaße in der Vierfeldertabelle: Phi und Q Chiquadrat-Test auf statistische Unabhängigkeit Interpretation einer Kreuztabelle mit mehreren Zeilen und Spalten Nominale Zusammenhangsmaße: V, λYX, UYX, LR-Test auf statistische Unabhängigkeit Statistik 1 (Vorlesung SoSe 06, 20.6.06) 367 Wiederholung Vierfelder-Tabellen: Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Spaltenvariable Geschlecht des Befragten (X) männlich weiblich n11 908 n12 962 n21 624 n22 606 n•1 1532 n•2 1568 Summe n1• 1870 n2• 1230 n•• 3100 n Spaltenvariable Zeilenvar riable pi( j) = n ij n• j Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich a 908 b 962 c 624 d 606 a+c 1532 b+d 1568 Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 1870 a+b 1230 c+d 3100 n Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 20.6.06) 368 Wiederholung; Prozentsatzdifferenz: Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) ⎛n n ⎞ b ⎞ ⎛ a d YX % = 100 ⋅ ( p1(1) − p1(2) ) = 100 ⋅ ⎜ 11 − 11 ⎟ = 100 ⋅ ⎜ − ⎟ n n a c b d + + ⎝ ⎠ ⎝ •1 •2 ⎠ Stärke eines Zusammenhangs praktisch kein 0 ≤ | dYX% | < 5 geringer 5 ≤ | dYX% | < 10 mittlerer 10 ≤ | dYX% | < 25 starker 25 ≤ | dYX% | ⎛ π ⋅π ⎞⎞ ⎛ π ⋅π f ( d YX % ) = N ⎜ 100 ⋅ ( π1(1) − π1(2) ) ;10000 ⋅ ⎜ 1(1) 2(1) + 1(2) 2(2) ⎟ ⎟ n •2 ⎝ n •1 ⎠⎠ ⎝ Statistik 1 (Vorlesung SoSe 06, 20.6.06) 369 Wiederholung; Prozentsatzdifferenz: Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% (908) 61.4% (962) - sollte verboten sein 40.7% (624) 38.6% (606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) σˆ ( d YX % ) = 100 ⋅ p1(1) ⋅ p 2(1) n •1 + p1(2) ⋅ p 2(2) n •2 = 100 ⋅ a ⋅c (a + c) 3 + b⋅d (b + d) 3 Die Annäherung an die Normalverteilung ist hinreichend genau, wenn (a) n•1 · p1(1)/p2(1) = (a+c) · a/c > 9 bzw. n•1 · p2(1)/p1(1) = (a+c) · c/a > 9, (b) n•2 · p1(2)/p2(2) = (b+d) · b/d > 9 bzw. n•2 · p2(2)/p1(2) = (b+d) · d/b > 9, (c) n•1 > 60 und (c) n•2 > 60 c.i.( δ YX % ) = d YX % ± z1−α / 2 ⋅ σˆ ( d YX % ) = d YX % ± z1−α / 2 ⋅ 100 ⋅ Statistik 1 (Vorlesung SoSe 06, 20.6.06) a ⋅c (a + c) 3 + b⋅d (b + d) 3 370 Wiederholung: Test der Prozentsatzdifferenz Schritt 1: Formulierung von Null- und Alternativhypothese Wie bei einfachen Anteilen lassen sich drei Hypothesenpaare unterscheiden: (a) H0: δYX% = d% versus H1: δYX% ≠ d% (b) H0: δYX% ≤ d% versus H1: δYX% > d% (c) H0: δYX% ≥ d% versus H1: δYX% < d% Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung b ⎞ d% ⎛ a − − d YX % − d% ⎜⎝ a + c b + d ⎟⎠ 100 = Z= σˆ ( d YX % ) a ⋅c b⋅d ⋅ 3 3 (a + c) ( b + d ) X Y 1 1 a 2 c ∑ a+c 2 ∑ b a+b d c+d b+d n Wenn der von H0 postulierte Wert: d% = 0: Z= p1(1) − p 2(1) ⎛ 1 1 ⎞ + p1• ⋅ p 2 i ⋅ ⎜ ⎟ n n •2 ⎠ ⎝ •1 Statistik 1 (Vorlesung SoSe 06, 20.6.06) = a b − a+c b+d (a + b) ⋅ (c + d) ⋅ ⎛ 1 + 1 ⎞ ⎜ ⎟ n ⎝a+c b+d⎠ 371 Wiederholung: Test der Prozentsatzdifferenz Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten Schritt 4: Berechnung der Teststatistik und Entscheidung Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: δYX% = d% gilt: Z ≤ zα/2 oder Z ≥ z1−α/2, (b) beim Test von H0: δYX% ≤ d% gilt: Z ≥ z1−α bzw. (c) beim Test von H0: δYX% ≥ d% gilt: Z ≤ zα. Statistik 1 (Vorlesung SoSe 06, 20.6.06) 372 Symmetrische und asymmetrische Beziehungen Haltung zum Schwangerschaftsabbruch nach Geschlecht Schwangerschaftsabbruch Geschlecht des Befragten (X) bei finanzieller Notlage (Y) männlich weiblich - sollte erlaubt sein 59.3% a (908) 61.4% b (962) - sollte verboten sein 40.7% c (624) 38.6% d(606) Summe 100.0% (1532) 100.0% (1568) Summe 60.3% (1870) 39.7% (1230) 100.0% (3100) (Quelle: Allbus 1996) dYX% = –2.08 Prozentpunkte Bei der Betrachtung des Zusammenhangs zwischen der Haltung zur Erlaubnis oder Verbot eines Schwangerschaftsabbruchs bei finanzieller Notlage und Gechlecht wurde Geschlecht als bedingende und die Haltung zum Schwangrschaftsabbruch als bedingte Variable betrachtet. Formal möglich ist auch, das Geschlecht als bedingte und die Haltung als bedingende Variable zu betrachten: Geschlecht nach Haltung zum Schwangerschaftsabbruch Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Statistik 1 (Vorlesung SoSe 06, 27.6.06) 373 Symmetrische und asymmetrische Beziehungen Geschlecht nach Haltung zum Schwangerschaftsabbruch Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Aufgrund der Vertauschung von bedingender und bedingter Variable ändert sich die Interpretation: Während unter denen, die für die Erlaubnis des Schwangerschaftsabbruchs sind, 48.6% Männer sind, sind unter denen, die für ein Verbot eintreten, 50.7% Männer. Die Prozentsatzdifferenz beträgt 2.18 Prozentpunkte. Was bedingende und was bedingte Verteilung ist, ist in der Regel eine Frage der Zielsetzung der Analyse: Wird der Zusammenhang im Sinne einer kausalen Beziehung interpretiert, ist die bedingende Variable die Ursachenvariable und die bedingte Variable die kausal abhängige Effektvariable. Generell wird bei asymmetrischen Beziehungen unterschieden zwischen der abhängigen Variablen, deren Verteilung in Abhängigkeit von der unabhängigen oder erklärenden Variablen betrachtet wird. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 374 Symmetrische und asymmetrische Beziehungen Geschlecht nach Haltung zum Schwangerschaftsabbruch Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Da das Geschlecht kaum durch die Haltung zum Schwangerschaftsabbruch kausal beeinflusst werden kann, liegt es nahe, Geschlecht als erklärende und die Haltung als unabhängige Variable aufzufassen. Tatsächlich sind Kreuztabellen in der Regel so aufgebau, dass die Spaltenvariable die erkläredene Variable, oft auch durch X symbolisiert, und die Zeilenvariable die abhängige Variable, oft durch Y symbolisiert, kennzeichnet. “Erklärend” bedeutet jedoch nicht notwendigerweise “kausal verursachend”. So dürfte auch im Beispiel weniger das biologische Geschlecht, sondern die Unterschiede in der sozialen Situation und möglicherweise unterschiedliche Wertorientierungen zwischen den sozialen Geschlechtern den (kaum sichtbaren und praktisch zu vernachlässigenden Effekt) verursacht haben. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 375 Symmetrische und asymmetrische Beziehungen Geschlecht nach Haltung zum Schwangerschaftsabbruch Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Darüber hinaus kann es auch rein praktische Gründe haben, eine Variable als abhängige und die andere als erklärende Variable aufzufassen. Ein Grund liegt oft darin, dass die Ausprägung einer Variable eher bekannt oder leichter zu messen ist und dies genutzt wird, um - ohne jede kausale Interpretation - die Ausprägung der anderen Variable vorherzusagen. Die prognostizierende Variable ist dann unabhängige Variable, die abhängige die prognostizierte Variable. An diese Betrachtungsweise erinnert die alternative Bezeichnung Prädiktorvariable für die unabhängige und Kriteriumsvariable für die abhängige Variable. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 376 Symmetrische und asymmetrische Beziehungen Geschlecht nach Haltung zum Schwangerschaftsabbruch Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Wenn die Spaltenvariable die abhängige Variable und die Zeilenvariable die erklärende Variable ist, müssen bei allen Berechnungsformeln jeweils Spalten- und Zeilenindizes vertauscht werden. So berechnet sich die Prozentsatzdifferenz dXY% nach: c ⎞ ⎛ a d XY % = 100 ⋅ ⎜ − ⎟ ⎝a+b c+d⎠ Auf zusätzliche Formeln kann verzichtet werden, wenn einfach die Position der Variablen vertauscht wird, im Beispiel also Geschlecht zur Zeilen- und die Haltung zum Schwangerschaftsabbruch Spaltenvariable wird. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 377 Symmetrische und asymmetrische Beziehungen Zeilenvariable als unabhängige Variable: Spaltenvariable Zeilenvar riable Schwangerschaftsabbruch bei finanzieller Notlage (Y) - sollte erlaubt sein - sollte verboten sein Summe Geschlecht des Befragten (X) männlich weiblich 48.6% a (908) 51.4% b (962) 50.7% c (624) 49.3% d(606) 49.4% (1532) 50.6% (1568) Summe 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dXY% = –2.18 Prozentpunkte Spaltenvariable als unabhängige Variable: Spaltenvariable Zeilenvar riable Geschlecht des Befragten - männlich - weiblich Summe Schwangerschaftsabbruch sollte Summe erlaubt sein verboten sein 48.6% a (908) 50.7% b (624) 49.4% (1532) 51.4% c (962) 49.3% d(606) 50.6% (1568) 100.0% (1870) 100.0% (1230) 100.0% (3100) (Quelle: Allbus 1996) dYX% = –2.18 Prozentpunkte Statistik 1 (Vorlesung SoSe 06, 27.6.06) 378 Symmetrische und asymmetrische Beziehungen Im Unterschied zu einer asymmetrischen Beziehung wird bei einer symmetrischen Beziehung nicht zwischen abhängiger und unabhängiger Variable unterschieden, weil z.B. davon ausgegangen wird, dass sich die beiden Variablen gegenseitig beeinflussen, oder weder eine Kausalrichtung untersucht noch eine Prognose einer Variablen durch die andere angestrebt wird. So kann z.B. vermutet werden, dass die Beurteilung der eigenen wirtschaftlichen Lage (EWL) die Beurteilung der allgemeinen Wirtschaftlage im Staat (AWL) beeinflusst, aber umgekehrt auch die Beurteilung der eigenen Lage durch die (medienvermittelte) Beurteilung der allgemeinen wirtschaftlichen Lage beeinflusst wird. Ausgangspunkt der Analyse kann in dieser Situation die Betrachtung der auf die Gesamttabelle bezogenen relativen Häufigkeiten pij bzw. die korrespondierenden Prozentwerte sein: n ij pij = n Auf die Gesamttfallzahl bezogenen relativen Häufigkeiten in Prozent Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Statistik 1 (Vorlesung SoSe 06, 27.6.06) 379 Symmetrische und asymmetrische Beziehungen Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Da nach dem Multiplikationssatz der Wahrscheinlichkeitstheorie statistische Unabhängigkeit vorliegt, wenn die gemeinsame Auftretenswahrscheinlichkeit gleich dem Produkt der Ausgangswahrscheinlichkeiten ist, können analog zur asymmetrischen Betrachtung auch bei symmetrischer Betrachtung die bei Unabhängigkeit erwarteten relativen und absoluten Häufigkeiten berechnet werden: nii ⋅ n i j nii n i j bzw. eij = n ⋅ πˆ ij = πˆ ij = pi i ⋅ pi j = ⋅ n n n In den Formeln steht π̂ij für die bei statistischer Unabhängigkeit erwarteten relativen Häufigkeiten (geschätzten Populationsanteile) und eij für die bei Unabhängigkeit erwarteten absoluten Häufigkeiten. Für die erste Zelle (a) berechnet sich so die bei Unabhängigkeit erwarteten Häufigkeit als: πˆ 11 = 0.133 ⋅ 0.488 = 464 ⋅1703 464 ⋅1703 = 0.065 bzw. e = 3489 ⋅ 0.065 = = 226.5 11 34892 3489 Statistik 1 (Vorlesung SoSe 06, 27.6.06) 380 Symmetrische und asymmetrische Beziehungen Beobachtete erwartete auf die Gesamtfallzahl bezogenen relative Häufigkeiten in Prozent: Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Bei Unabhängigkeit erwartete auf die Gesamtfallzahl bezogenen relative Häufigkeiten in Prozent: Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage gut nicht gut 6.5% ( 226.5) 6.8% ( 237.5) 42.3% (1476.5) 44.4% (1548.5) 48.8% (1703.0) 51.2% (1786.0) πˆ ij = pi i ⋅ pi j = Statistik 1 (Vorlesung SoSe 06, 27.6.06) Summe 13.3% ( 464) 86.7% (3025) 100.0% (3489) nii ⋅ n i j nii n i j ˆ bzw. eij = n ⋅ πij = ⋅ n n n 381 Pearsons Chiquadrat-Statistik Residuen Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 3.2% ( 111.5) -3.2% (-111.5) 13.3% ( 464) -3.2% (-111.5) 3.2% ( 111.5) 86.7% (3025) 48.8% (1703.0) 51.2% (1786.0) 100.0% (3489) Die Differenzen aus den tatsächlichen und den bei Unabhängigkeit erwarteten (relativen) Häufigkeiten werden als Residuen bezeichnet: n −e rij = n ij − eij bzw. rij % = 100 ⋅ ij ij = 100 ⋅ ( pij − πˆ ij ) n Es gibt mehr Befragte, die sowohl die eigene wie die allgemeine Lage für gut oder aber für nicht gut halten, als bei Unabhängigkeit zu erwarten wären. Umgekehrt gibt es weniger Personen als bei Unabhängigkeit erwartet, die die eigene Lage für gut und die allgemeine Lage für nicht gut bzw. die allgemeine Lage für gut und die eigene Lage für nicht gut halten. Nach dem Statistiker Pearson ist ein Maß beannt, dass alle Abweichungen zwischen beobachteten und erwarteten Häufigkeiten in einer Tabelle in eine Statistik zusammenfasst. Dieses Maß wird als Pearsons Chiquadrat-Statistik bezeichnet und berechnet sich nach: I J χ 2 = ∑∑ i =1 j=1 Statistik 1 (Vorlesung SoSe 06, 27.6.06) (n ij − eij ) 2 eij 382 Phi-Quadrat und Phi Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) i j 1 1 1 2 2 1 2 2 ∑ ( 338 − 226.5) χ2 = nij eij (nij–eij)2/eij 338 226.5 54.9 126 237.5 52.3 1365 1476.5 8.4 1660 1548.5 8.0 3489 3489 123.6 2 226.5 (126 − 237.5) + 2 237.5 (1365 − 1476.5) + 1476.5 2 (1660 − 1548.5) + 2 1548.5 = 123.6 Werden statt der absoluten, die relativen Häufigkeiten bei der Berechnung herangezogen, ergibt sich der Kennwert Φ2 (Phi-Quadrat): Φ2 = χ = ∑∑ n i =1 j=1 2 I J ( pij − πˆ ij ) 2 πˆ ij Bei den Beispieldaten beträgt χ2 = 123.6 und Φ2 = 123.6/3489 = 0.035 Statistik 1 (Vorlesung SoSe 06, 27.6.06) 383 Phi-Quadrat und Phi Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Die Formel zur Berechnung von χ2 gilt für Tabellen beliebiger Größe. In der Vierfeldertabelle gibt es eine alternative Berechnungsformel: (a ⋅ d − b ⋅ c) Φ2 = (a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d ) 2 (a ⋅ d − b ⋅ c) bzw. χ 2 = n ⋅ (a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d ) 2 Bei den Beispieldaten ergeben sich: Φ2 = (338·1660 – 126·1365)2 / (464·3025·1703·1786) = 0.035 χ2 = 3489 · (338·1660 – 126·1365)2 / (464·3025·1703·1786) = 123.726 Abweichungen bei den alternativen Berechnungswegen ergeben sich dadurch, dass bei den erwarteten Häufigkeiten nur mit einer Nachkommastelle gerechnet wurde. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 384 Phi-Quadrat und Phi Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Der Wertebereich von Φ2 liegt in einer Vierfeldertabelle zwischen 0 und 1, wobei 0 bei statistischer Unabhängigkeit und 1 bei einem perfekten Zusammenhang erreicht wird. Anstelle von Φ2 wird jedoch meisten dessen Quadratwurzel Φ (Phi) verwendet: Φ= a ⋅d − b⋅c (a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d ) Im Beispiel beträgt Φ = +0.188. Ein Vorteil dieses Maßes ist, dass der Wertebereich von –1 bis +1 läuft, so dass (ab ordinalem Messniveau) zwischen positiven und negativen Beziehungen unterschieden werden kann. Darüber hinaus kann Φ auch als geometrisches Mittel der beiden asymmetrischen Anteilsdifferenzen in einer Vierfeldertabelle definiert werden: Φ = Statistik 1 (Vorlesung SoSe 06, 27.6.06) d YX % d XY % ⋅ 100 100 385 Phi-Quadrat und Phi Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Dabei wird das Vorzeichen der Prozentsatzdifferenzen übernommen. Im Beispiel ergibt sich: dYX% / 100 = 338/1703 – 126/1786 = 0.1279 dXY% / 100 = 338/464 – 1365/3025 = 0.2772 Φ = √(0.1279·0.2772) = 0.188 Stärke eines Zusammenhangs praktisch kein 0.00 ≤ | Φ | < 0.05 geringer 0.05 ≤ | Φ | < 0.10 mittlerer 0.10 ≤ | Φ | < 0.25 starker 0.25 ≤ | Φ | Aufgrund dieser Eigenschaft kann Φ analog zur Prozentsatzdifferenz interpretiert werden. Der Wert von 0.188 weist somit auf einen mittelstarken Zusammenhang zwischen der Beurteilung der eigenen und der allgemeinen wirtschaftlichen Lage hin. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 386 Yules‘ Q Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Eine Alternativ zu Φ ist das nach dem Statistiker Yules benannte Yules‘ Q: a ⋅d − b⋅c Q= a ⋅d + b⋅c Für die Beispieldaten beträgt Q = (338·1660 – 126·1365) / (338·1660 + 126·1365) = 0.531. Obwohl Q in der Regel deutlich höhere Werte aufweist als Φ, ist der Wertebereich gleich. Bei einem pefekten negativen Zusammenhang ist der Wert –1, bei Unabhängigkeit 0 und bei perfektem positiven Zusammenhang +1. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 387 Chiquadrattest auf statistische Unabhängigkeit Ähnlich wie bei der Prozentsatzdifferenz lassen sich auch für Φ und Q asymptotisch gültige Standardfehler berechnen. Die Berechnungsformeln sind allerdings komplex, so dass sie i.a nur durch Statistikprogramme berechnet werden. Es gibt auch keine Faustregeln, unter welchen Bedingungen eine asymptotische Annäheung an die Normalverteilung hinreichend genau ist. Möglich sind allerdings Tests der Nullhypothese, dass die Werte in der Population null sind gegen die Alternativhypothese, dass sie ungleich null sind. Als Teststatistik wird bei beiden Zusammenhangsmaßen Pearsons Chiquadrat-Statistik herangezogen. Es kann gezeigt werden, dass bei einfachen Zufallsauswahlen (mit Zurücklegen) die Teststatistik χ2 (zentral) chiquadratverteilt ist, wenn in der Population tatsächlich statistische Unabhängigkeit zwischen Zeilen- und Spaltenvariable besteht. Die Chiquadratverteilung ist wie die T-Verteilung eine Verteilungsfamilie, wobei sich die einzelnen Verteilungen entsprechend ihren Freiheitsgraden unterscheiden. Formal lässt sich zeigen, dass die Summe der Quadrate von n statistisch unabhängigen Standardnormalverteilungen einer Chiquadratverteilung mit k-Freiheitsgraden folgt: ⎛ n 2⎞ f ⎜ ∑ z i ⎟ = χ df2 = n ⎝ i =1 ⎠ Statistik 1 (Vorlesung SoSe 06, 27.6.06) 388 Chiquadratverteilung μ (χ 0.40 0.35 df = 1 2 df Quantile von χ2: α 90% 95% df=1 2.706 3.481 df=2 4.605 5.991 df=3 6.251 7.815 df=4 7.779 9.488 df=5 9.236 11.07 df=6 10.64 12.59 df=7 12.02 14.07 df=8 13.36 15.51 df=9 14.68 16.92 df=10 15.99 18.31 ) = df σ 2 ( χ df2 ) = 2 ⋅ df 0.30 0.25 0.20 df = 3 0.15 df = 5 0.10 df = 10 0.05 99% 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 Quantile von χ2: α 90% 95% df=11 17.28 19.68 df=12 18.55 21.03 df=13 19.81 22.36 df=14 21.03 23.68 df=15 22.31 25.00 df=16 23.54 26.30 df=17 24.77 27.59 df=18 25.99 28.87 df=19 27.20 30.14 df=20 28.41 31.41 99% 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Chiquadratverteilungen sind rechtsschiefe Verteilungen, wobei die Schiefe mit steigender Zahl an Freiheitsgraden abnimmt. Tatsächlich folgt aus dem zentralen Grenzwertsatz, dass sich die Chiquadratverteilung asymptotisch einer Normalverteilung annähert. Bei mehr als 30 Freiheitsgraden lassen sich die α-Quantile der Chqiadratverteilung recht gut über die Quantile der Standardnormalverteilung annähern, wenn folgende Näherungsformel verwendet wird: χα2 ;df ≈ 0.5 ⋅ z α + 2 ⋅ df − 1 ( Statistik 1 (Vorlesung SoSe 06, 27.6.06) ) 389 Chiquadrattest auf statistische Unabhängigkeit in der Vierfeldertabelle Die Vorgehensweise beim Chiquadratest folgt der generellen Vorgehensweise beim statistischen Hypothesentesten. Schritt 1: Formulierung von Null- und Alternativhypothese Getestet wird bei Pearsons Chiquadratest, dass bei einer einfachen Zufallsauswahl Zeilen- und Spaltenvariable in der Grundgesamtheit statistisch unabhängig voneinander sind: H0: πij = πi• · π•j für alle i, j versus H1: πij ≠ πi• · π•j für mindestens ein i,j πij ist die relative Häufigkeit der Ausprägungskombination der i-ten Ausprägung der Zeilenund der j-ten Ausprägung der Spaltenvariablen in der Population. Da bei statistischer Unabhängigkeit alle Zusammenhangsmaße null sind, können alternative Hypothesenpaare formuliert werden: H0: Φ = 0 versus H1: Φ ≠ 0; H0: Q = 0 versus H1: Q ≠ 0; H0: δYX% = 0 versus H1: δYX% ≠ 0; H0: δXY% = 0 versus H1: δXY% ≠ 0 Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung Als Teststatistik wird für alle Hypothesentests Pearsons Chiquadrat-Statistik herangezogen: (a ⋅ d − b ⋅ c) χ2 = n ⋅ (a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d ) 2 Statistik 1 (Vorlesung SoSe 06, 27.6.06) 390 Chiquadrattest auf statistische Unabhängigkeit Bei gültiger Nullhypothese ist die Teststatistik asymptotisch chiquadratverteilt mit df=1 Freiheitsgraden. DieZahl der Freiheitsgrade ergibt sich aus der Differenz der inneren Tabellenzellen und der Anzahl der empirischen Informationen, die zur Berechnung der erwarteten Häufigkeiten herangezogen werden. In einer Vierfeldertabelle ist df=1, da die Tabelle vier Zellen hat und die beobachteten relative Randhäufigkeiten der jeweils ersten Ausprägungen von Zeilen- und Spaltenvariable und die Gesamtfallzahl zur Berechnung der erwarteten Häufigkeiten herangezogen werden. Wenn die Nulhypothese nicht zutrifft, also keine statistische Unabhängigkeit zwischen Zeilenund Spaltenvariable besteht, dann ist die Teststatistik nichtzentral chiquadratverteilt. Da eine nichtzentrale Chiquadratverteilung einen größeren Erwartungswert hat als eine zentrale Chiquadratverteilung, ist in diesem Fall mit größeren Werten als bei Gültigkeit der Nullhypothese zu rechnen. Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergibt sich der kritische Wert als das (1–α)-Quantil der Chiquadratverteilung mit df=1 Freiheitsgraden. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 391 Chiquadrattest auf statistische Unabhängigkeit Eigene wirtschaftliche Lage des Befragten - gut - nicht gut Summe Allgemeine Wirtschaftslage Summe gut nicht gut 9.7% (338) 3.6% (126) 13.3% (464) 39.1% (1365) 47.6% (1660) 86.7% (3025) 48.8% (1703) 51.2% (1786) 100.0% (3489) (Quelle: Allbus 1996) Schritt 4: Berechnung der Teststatistik und Entscheidung Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die Nullhypothese beibehalten bzw. verworfen. Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn gilt: χ2 ≥ χ21−α;df =1. Für das Beispiel hatte sich ein Wert vom χ2 = 123.7 ergeben. Bei einer Irrtumswahrscheinlichkeit von 5%, beträgt der Wert des 95%-Quantils der Chiquadratverteilung mit df=1 Freiheitsgraden 3.841. Da 123.7 > 3.481, ist die Nullhypothese zu verwerfen. Bei einer Irrtumswahrscheinlichkeit von 5% kann davon ausgegangen werden, dass ein Zusammenhang zwischen der Beurteilung der allgemeinen wirtschaftlichen Lage und der Beurteilung der eigenen Lage besteht. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 392 Bivariate Zusammenhänge in der Mehrfeldertabelle Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Die Vierfeldertabelle ergibt sich bei der Kreuztabellierung von zwei dichotomen Variablen. Hat eine Variable mehr als zwei Ausprägungen, so hat die resultierende Kreuztabelle mehr als vier Zellen. Das Beispiel zeigt die 5×3-Tabelle der Wahlabsicht (abhängige Zeilenvariable) nach Konfession (unabhängige Spaltenvariable). Die Interpretation kann analog zur Vierfeldertabelle erfolgen, es sind jedoch mehr Prozentwertvergleiche notwendig. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 393 Bivariate Zusammenhänge in der Mehrfeldertabelle Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Verglichen werden wiederum die relativen Häufigkeiten bzw. Prozentwerte einer Ausprägung der abhängigen Variablen zwischen den Ausprägungen der unabhängigen Variablen. Sichtbar wird, dass Katholiken zu einem höheren Anteil CDU wählen als Protestanten und diese mehr als Konfessionslose. Die SPD wird von Protestanten am häufigsten gewählt, dicht gefolgt von Konfessionslosen und dann von Katholiken. Die Prozentwertunterschiede sind hier aber nicht sehr groß. Die FDP wird vor allem von Protestanten gewählt, die Grünen und die PDS von Konfessionslosen. Aufgrund der disproportionalen Schichtung nach alten und neuen Bundesländern lassen sich die Ergebnisse nicht einfach auf die Bundesrepublik insgesamt verallgemeinern. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 394 Bivariate Zusammenhänge in der Mehrfeldertabelle 100% PDS 80% B.90/Grüne 60% F.D.P. 40% SPD 20% CDU/CSU 0% katholisch evangelisch (n=676) (n=860) keine (n=632) Konfessionszugehörigkeit Eine grafische Darstellung über Säulendiagramme der bedingten Verteilungen ist meist übersichtlicher, solange die abhängige Variable nicht sehr viele Ausprägungen hat. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 395 Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle Pearsons Chiquadrattest auf Unabhängigkeit der Zeilen- und Spaltenvariablen in der Population kann auch bei Mehrfeldertabellen angewendet werden. Der einzige Unterschied zur Vierfeldertabelle besteht darin, dass sich die Berechnung der Teststatistik über mehr Zellen erstreckt und die Zahl der Freiheitsgrade größer ist. Dies kann am Beispiel des Zusammehangs zwischen Wahlabsicht und Konfession verdeutlich werden. Schritt 1: Formulierung von Null- und Alternativhypothese H0: πij = πi• · π•j für i=1 bis 5, j =1 bis 3 versus H1: πij ≠ πi• · π•j für mindestens ein i,j Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung Als Teststatistik wird für alle Hypothesemtests Pearsons Chiquadrat-Statistik herangezogen: I J χ 2 = ∑∑ i =1 j=1 (n ij − eij ) 2 eij Bei gültiger Nullhypothese ist die Teststatistik asymptotisch chiquadratverteilt. Die Zahl der Freiheitsgrade ist bei einer Kreuztabelle mit I Zeilen und J Spalten df=(I–1)·(J–1). Wenn die Nulhypothese nicht zutrifft, also eine statistische Abhängigkeit zwischen Zeilen- und Spaltenvariable besteht, dann ist die Teststatistik nichtzentral chiquadratverteilt. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 396 Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergibt sich der kritische Wert als das (1–α)-Quantil der Chiquadratverteilung mit df=(I–1)·(J–1) Freiheitsgraden. Im Beispiel ist df=(5–1)·(3–1) = 8. Bei einer Irrtumswahrscheinlichkeit von 5%, beträgt der Wert des 95%-Quantils der Chiquadratverteilung mit df=8 Freiheitsgraden 15.51. Schritt 4: Berechnung der Teststatistik und Entscheidung Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die Nullhypothese beibehalten bzw. verworfen. Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn gilt: χ2 ≥ χ21−α; df=(I–1)·(J–1). Im Anwendungsbeispiel ist die Nullhypothese als vermutlich falsch zu verwerfen, wenn die Teststatistik einen Wert von mindestens 15.51 ereicht. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 397 Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle Bei Unabhängigkeit erwartete und tatsächlich beobachtete Häufigkeiten Wahlabsicht CDU SPD FDP Grüne PDS Summe Konfession evangelisch 307.0 (306) 283.2 (300) 78.9 (109) 140.8 (129) 50.0 (16) (860) katholisch 241.3 (327) 222.6 (198) 62.0 (49) 110.7 (92) 39.3 (10) (676) keine 225.6 (141) 208.1 (216) 58.0 (41) 103.5 (134) 36.7 (100) (632) Summe (774) (714) (199) (355) (126) (2168) (beobachtete Häufigkeiten in Klammen) 2 2 2 2 2 ⎛ 327 241.3 306 307.0 141 225.6 198 222.6 300 283.2 − − − − − ( ) ( ) ( ) ( ) ( ) χ2 = ⎜ + + + + ⎜ 241.3 307.0 225.6 222.6 283.2 ⎝ ( 216 − 208.1) + 2 208.1 (129 − 140.8) + 140.8 2 ( 49 − 62.0 ) + 2 62.0 (134 − 103.5) + (109 − 78.9 ) + 2 78.9 2 103.5 Statistik 1 (Vorlesung SoSe 06, 27.6.06) (10 − 39.3) + 39.3 ( 41 − 58.0 ) + 2 58.0 2 (16 − 50.0 ) + 50.0 ( 92 − 110.7 ) + 2 110.7 2 (100 − 36.7 ) + 36.7 2 ⎞ ⎟ = 252.4 ⎟ ⎠ 398 Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle Für das Beispiel hatte sich ein Wert vom χ2 = 252.4 ergeben. Da 252.4 > 15.51, ist die Nullhypothese zu verwerfen. Bei einer Irrtumswahrscheinlichkeit von 5% kann davon ausgegangen werden, dass ein Zusammenhang zwischen der Wahlabsicht und der Konfession besteht. Prüfung der Anwendungsvoraussetzungen Der Chiquadrattest ist nur asymptotisch gültig. Die Annäherung ist hinreichend genau, wenn die erwarteten Häufigkeiten größer 5 sind. Als Faustregel gilt bei größeren Tabellen, dass a) eij > 1 für alle i, j und b) eij > 5 für mindestens 80% (4/5) aller Zellen. Da im Beispiel die kleinste erwartete Häufigkeit 36.7 ist, ist die Anwendungsvoraussetzung erfüllt. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 399 Standardisierte Residuen Standardisierte Residuen Wahlabsicht CDU SPD FDP Grüne PDS katholisch 5.5 –1.7 –1.7 –1.8 –4.7 Konfession evangelisch –0.1 1.0 3.4 –1.0 –4.8 keine –5.6 0.5 –2.2 3.0 10.4 Wird der Chiquadratanteil jeder Tabellenzelle berechnet, die Wurzel daraus gezogen und als Vorzeichen die Differenz zwischen beobachteter und erwarteter Häufigkeit verwendet, dann ergeben sich die standardisierten Residuen: n −e srij = ij ij eij Die Werte sind bei gültiger H0 asymptotisch standardnormalverteilt. Werte ≥1.96 oder ≤–1.96 weisen also darauf hin, dass es bei einer Irrtumswahrscheinlichkeit von 5% überzufällige Abweichungen von Unabhängigkeit in der entsprechenden Tabellenzelle gibt. Im Beispiel zeigt, sich, dass es unter den CDU-Wählern überzufällig viele Katholiken und zu wenig Konfessionslose gibt. Bei der PDS sind beide Konfession unter- und die Konfessionslosen überrerepräsentiert. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 400 Cramérs V Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Analog der Berechnung von Φ kann auch bei größeren Tabellen aus der Chiquadrat-Statistik ein symmetrisches Zusammenhangsmaß konstruiert werden. Dabei wird die Teststatistik wiederum durch ihren Maximalwert geteilt und aus dem Quotienten die Quadratwurzel gezogen. Dieses Zusammenhangsmaß heißt nach dem Statistiker Cramér Cramérs V. In einer I×J-Kreuztabelle ist der Maximalwert von χ2 gleich dem Produkt aus der Fallzahl und dem Maximum der Spalten- oder Zeilenzahl minus eins: χ2 ≤ n·min(I–1,J–1) Im Beispiel mit 5 mal 3 Tabellenzellen ist das Maximum von Chiquadrat 2168 ·2 = 4336. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 401 Cramérs V Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Die Berechnungsformel für Cramérs V ist dann: χ2 χ2 V= = 2 n ⋅ min ( I − 1, J − 1) χ max ImBeispiel ergibt sich ein Wert von √(252,4/4336) = 0.24 Die Interpretation ist wie bei Φ. Es besteht somit eine mittelstarke Beziehung zwischen Wahlabsicht und Konfession. Im Unterschied zu Φ hat V kein Vorzeichen, da das Maß für nominalskalierte Variablen mit mehr als zwei Ausprägungen konstruiert ist. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 402 Die Logik von PRE-Maßen: Lambda und relative Devianzreduktion Die Voraussage der Realisationen einer Variable kann fehlerhaft sein. Die Anzahl der Fehler sollte sich reduzieren, wenn die Zielvariable mit einer Prädiktorvariable zusammenhängt und die Wert der Prädiktorvariablen bei den Fällen bekannt sind. Auf dieser Idee basiert die Logik von Zusammenhangsmaßen, die die Vorhersagefehlerreduktion erfassen, sogenannte PRE-Maße. (PRE steht für proportional reduction in error). E0 soll das Ausmaß der Fehler bezeichnen, mit denen zu rechnen ist, wenn keine Zusatztinformationen vorliegen. E1 ist das Ausmaß der Fehler, wenn bekannt ist, welchen Wert eine Prädiktorvariable aufweist. Das Ausmaß, indem sich die Fehler bei Kenntnis einer erklärenden Variable reduzieren, ergibt sich dann über die Formel E − E1 E PRE = 0 =1− 1 E0 E0 Der resultierende Wert lässt sich leicht interpretieren, da er den Anteil der Fehlerreduktion angibt. Ein Wert von 0 bedeutet keinerlei Reduktion, ein Wert von 0.5 oder 50% eine Halbierung der Fehler und ein Wert von 1 bzw. 100% eine maximale Fehlerreduktion, also perfekte Vorhersagen. Um ein PRE-Maß zu konstruieren, muss zunächst festgelegt werden, was Vorhersagefehler sind. Bei nominalskalierten Variablen liegt es nahe, den Modalwert als Vorhersagewert zu verwenden und als Fehler zu zählen, mit welcher Häufigkeit Abweichungen vom Modalwert auftreten. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 403 Lambda Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Wenn die Zeilenvariable abhängige Variable ist, ergibt sich die Höhe der Fehler ohne Kenntnis der erklärenden Variable aus der Fallzahl in der Tabelle minus dem Modalwert der abhängigen Zeilenvariablen, also dem Maximalwert in der rechten Randspalte: E 0 = n − max ( n i i ) i Analog berechnen sich die Fehler für alle Ausprägungen der erklärenden Variablen, also der Spalten durch die Differenz der jeweiligen Spaltensumme minus dem Maximum der Spalte: ( E1 = ∑ n i j − max ( n ij ) J j=1 i ) Das resultierende Zusammenhangsmaß heißt λYX (lambda-YX): ∑(n J λ YX Statistik 1 (Vorlesung SoSe 06, 27.6.06) E = 1− 1 = 1− E0 j=1 ij − max ( n ij ) i ) n − max ( n i i ) i 404 Lambda Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Für das Beispiel ergibt sich; λ YX E = 1− 1 = 1− E0 = 1− ∑(n J j=1 •j ) − max (n ij ) in Spalte j i n •• − max(n i• ) i E1 ( 676 − 327 ) + ( 860 − 306 ) + ( 632 − 216 ) = 1 − 1319 = 0.054 = 1− E0 2168 − 774 1394 Bei Kenntnis der Konfession lässt sich die Wahlabsicht mit einer um 5.4% geringeren Fehlerquote voraussagen als ohne Kenntnis der Konfession. Der Wert scheint sehr gering. Tatsächlich ergeben sich oft eher geringe Werte, wenn die abhängige Variable nicht gleich verteilt ist, da dann der Modus bei bedingten und unbedingten Verteilungen oft in die gleiche Kategorie fällt. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 405 Devianzreduktion Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Ein Nachteil von λ ist, dass der Modalwert nur eine sehr ungenaue Prognose erlaubt. Daher kann λ selbst dann null sein, wenn nach dem Chiquadrattest ein signifikanter Zusammenhang besteht. Die Konzeption der proportionalen Fehlerreduktion kann aber auch bei anderen Fehlerdefinitionen angewendet werden. So kann die Devianz, d.h. die Streuung nominalskalierter Variablen, als Maß für den Vorhersagefehler verwendet werden. Der Fehler E0 ist dann die Devianz DY der Zeilenvariablen: I ⎛n ⎞ D Y = −2∑ n i • ⋅ 1n ⎜ i • ⎟ i =1 ⎝ n •• ⎠ 774 ⎞ ⎛ ⎛ 714 ⎞ + 199 ⋅ ln ⎛ 199 ⎞ + 355 ⋅ ln ⎛ 355 ⎞ + 126 ⋅ ln ⎛ 126 ⎞ ⎞ = −2 ⋅ ⎜ 774 ⋅ ln ⎛⎜ + ⋅ 714 ln ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎟ ⎝ 2168 ⎠ ⎝ 2168 ⎠ ⎝ 2168 ⎠ ⎝ 2168 ⎠ ⎝ 2168 ⎠ ⎠ ⎝ = 6132.71 Statistik 1 (Vorlesung SoSe 06, 27.6.06) 406 Devianzreduktion Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 E1 ist dann die Summe der Devianzen bei Kenntnis der Werte der erklärenden Variablen: J D YX = −2∑ j=1 D YX ⎛ n ij ⎞ n ij ⋅ ln ⎜ ⎟ ∑ ⎜n ⎟ i =1 ⎝ •j ⎠ I ⎛ ⎞ ⎛ 327 ⎞ + 198 ⋅ ln ⎛ 198 ⎞ + 49 ⋅ ln ⎛ 49 ⎞ + 92 ⋅ ln ⎛ 92 ⎞ + 10 ⋅ ln ⎛ 10 ⎞ ⋅ 327 ln ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ 676 ⎠ ⎝ 676 ⎠ ⎝ 676 ⎠ ⎝ 676 ⎠ ⎝ 676 ⎠ ⎜ ⎟ 306 300 109 129 16 ⎞ + 300 ⋅ ln ⎛ ⎞ + 109 ⋅ ln ⎛ ⎞ + 129 ⋅ ln ⎛ ⎞ + 16 ⋅ ln ⎛ ⎞⎟ = −2 ⋅ ⎜⎜ +306 ⋅ ln ⎛⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ 860 ⎠ ⎝ 860 ⎠ ⎝ 860 ⎠ ⎝ 860 ⎠ ⎝ 860 ⎠ ⎟ ⎜ ⎟ 216 41 134 100 141 ⎞ + 216 ⋅ ln ⎛ ⎞ + 41 ⋅ ln ⎛ ⎞ + 134 ⋅ ln ⎛ ⎞ + 100 ⋅ ln ⎛ ⎞⎟ ⎜ +141 ⋅ ln ⎛ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎟ ⎜ ⎝ 632 ⎠ ⎝ 632 ⎠ ⎝ 632 ⎠ ⎝ 632 ⎠ ⎝ 632 ⎠ ⎠ ⎝ = 5895.04 Statistik 1 (Vorlesung SoSe 06, 27.6.06) 407 Devianzreduktion Konfession evangelisch keine 35.6% (306) 22.3% (141) 34.9% (300) 34.2% (216) 12.7% (109) 6.5% (41) 15.0% (129) 21.2% (134) 1.9% (16) 15.8% (100) 100.0% (860) 100.0% (632) Wahlabsicht katholisch CDU 48.4% (327) SPD 29.3% (198) FDP 7.2% (49) Grüne 13.6% (92) PDS 1.5% (10) Summe 100.0% (676) Summe 35.7% (774) 32.9% (714) 9.2% (199) 16.4% (355) 5.8% (126) 100.0% (2168) Quelle: Allbus 1996 Das resultierende PRE-Maß wird als relative Deviranzreduktion, Likelihood-Ratio-Index oder Pseudo-R-Quadrat P2 bezeichnet. In einer bivariaten Kreuztabelle heißt das Maß auch Unsicherheitskoeffizient. ⎛ n ij ⎞ −2∑∑ n ij ⋅ 1n ⎜ ⎟ ⎜n ⎟ j=1 i =1 ⎝ •j ⎠ = 1− I ⎛n ⎞ −2∑ n i • ⋅ 1n ⎜ i • ⎟ i =1 ⎝ n ⋅⋅ ⎠ J PYX = 1 − 2 D YX DY I 5895.04 = 0.038 6132.71 Im Beispiel reduziert sich die Devianz der Wahlabsicht bei Kenntnis der Konfession um 3.8%. = 1− Statistik 1 (Vorlesung SoSe 06, 27.6.06) 408 LR-Test auf statistische Unabhängigkeit Zur Prüfung der statistischen Unabhängigkeit von Zeilen- und Spaltenvariablen kann anstelle von Pearsons Chiquadrattest auch geprüft werden, ob die relative Devianzreduktion signifikant von null verschieden ist. Dieser Test wird als Likelihood-Ratio-Test bezeichnet. Die Teststatistik wird durch L2 symbolisiert. Die Teststatistik L2 ist die Differenz der bedingten Devianz DYX von der unbedingten Devianz DY. Alternativ kann die Teststatistik ähnlich wie Pearsons Chiquadratstatistik über die beobachteten Zellenhäufigkeiten nij und die bei Unabhängigkeit erwarteten Häufigkeiten eij berechnet werden: I J ⎛ n ij ⎞ 2 L = D Y − D YX = 2 ⋅ ∑∑ n ij ⋅ ln ⎜ ⎟ ⎜e ⎟ i =1 j=1 ⎝ ij ⎠ Im Beispiel ergibt sich ein Wert von L2 = DY – DYX = 6132.71 – 5895.04 = 237.67. Wenn die Nullhypothese zutrifft, dass kein Zusammenhang besteht, dann ist die LR-Statistik asymptotisch chiquadratverteilt. Die Zahl der Freiheitsgrade berechnet sich wie bei Pearsons Chiquadrat: df=(I–1)·(J–1). Ist die Nullhypothese falsch, ist L2 nichtzentral chiquadratverteilt. Pearsons Test und der LR-Test sind asymptotisch äquivalent, so dass beide Teststatistiken i.a sehr ähnliche Werte aufweisen. Große Abweichungen können ein Hinweis sein, dass die asymptotische Annäherung nicht hinreichend ist. Statistik 1 (Vorlesung SoSe 06, 27.6.06) 409