Statistik II im Wintersemester 2006/2007 Themen am 17.10.2006: • Überblick über die Vorlesung Statistik II (Module 3a) • Zusammenfassende Wiederholung aus Statistik I • Datenmatrix, Häufigkeitstabellen und univariate Statistik • Stichprobe und Grundgesamtheit Lernziele: 1. Beurteilung des Lernaufwands 2. Auffrischen der Grundkenntnisse der Wahrscheinlichkeitstheorie 3. Auffrischen der Grundkenntnisse der univariaten Statistik Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 1 Klassische Einteilung der Statistik Univariate Verteilungen Bivariate Verteilungen Deskriptive Statistik Verteilungsparameter (Quantile, Lagemaße, Streuungsmaße) Induktive Statistik / Inferenzstatistik Wahrscheinlichkeitstheorie, Schätzen und Testen Beschreibung und Prüfung von bivariaten Zuammenhängen MultivariateVerteilungen Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) Drittvariablenkontrolle Konditionale u. Partielle Effekte Prüfung der Angemessenheit statistischer Modelle 2 Methoden-Modul 3: Statistik in den Sozialwissenschaften (M3: Statistik II) M3 beinhaltet 2 Veranstaltungen: 1. Vorlesung Statistik II (2. SWS, Workload: 4 LP) dazu Tutorien (60 Minuten) → Abschlussklausur (90 Minuten) Zwischendrin: 2 Übungsklausuren (jeweils 15 Minuten) 10% der Punktzahl der Abschlussklausur anrechenbar für Abschlussklausur 2. Proseminar Wirtschafts- und Sozialstatistik (2. SWS, Workload: 4 LP) dazu Tutorien → Referat u. Abschlussklausur Studierende im Magister- und Diplomstudiengang müssen nur eine der beiden Veranstaltungen besuchen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 3 Veranstaltungsplan (Vorlesung) 17.10.06: • Einführung • Wiederholung: Datenmatrix, Häufigkeitstabellen und univariate Statistik • Wiederholung: Stichprobe und Grundgesamtheit 24.10.06: • Wiederholung: Logik von Hypothesentests • Tests von Mittelwert- und Anteilsdifferenzen bei unabhängigen Stichproben 31.10.06: • Tests von Mittelwert- und Anteilsdifferenzen bei abhängigen Stichproben • Wiederholung: Bivariate Tabellenanalyse • Drittvariablenkontrolle: Scheinkausalität, Intervention, Konfundierung, Suppression und Interaktion 07.11.06: • Hypothesentests in trivariaten Kreuztabellen 14.11.06: • Wiederholung: Grundkonzepte und OLS-Schätzung im bivariaten Regressionsmodell Übungsklausur 1 (15 Minuten) Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 4 Veranstaltungsplan (Vorlesung) 21.11.06: • Tests von Regressionskoeffizienten und Vorhersagewerten im bivariaten Regressionsmodell • Test von unabhängigen Mittelwertdifferenzen im Regressionsmodell • Überprüfung der Modellannahmen 28.11.06: • Trivariate Regression und partielle Effekte • Multiple Regression und Interaktionseffekte 05.12.06: • Tests von partiellen Regressionskoeffizienten und des Zuwachses an Erklärungskraft • Varianzanalyse als multiple Regression auf Designvariablen 12.12.06: • Nichtlineare Regression über Transformation von Variablen • Logistische Regression Übungsklausur 2 (15 Minuten) Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 5 Veranstaltungsplan (Vorlesung) 19.12.06: • Multivariate Regression • Pfadanalyse 10.01.07: • Konfirmatorische Faktorenanalyse • Hauptkomponentenanalyse und exploratorische Faktorenanalyse 16.01.07: • Log-lineare Modelle als multiple Regression • Hierarchische log-lineare Modelle • Nicht-hierarchische log-lineare Modelle 23.01.07: • Lösung der Probeklausur • Wiederholung 30.01.07: Abschlussklausur (90 Minuten) Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 6 Basisliteratur 3. Auflage, 2006 ISBN: 3 499 55639 1 Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 1. Auflage, 2003 ISBN: 3 499 55655 3 7 Beispielfragebogen für eine Datenerhebung FRAGE 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen ... ANTWORT Code ... sehr zufrieden,................................. ... eher zufrieden,................................. ... eher unzufrieden,............................. ... oder völlig unzufrieden?................. ___________________ weiß nicht 1 keine Angabe 4 3 2 1 8 9 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit... stimme eher zu stimme weiß eher nicht nicht zu keine Angabe 1 2 8 9 1 2 8 9 einem Mann.............................. einer Frau................................. 1 2 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! 1943 Statistik. Sagen Sie mir bitte, in ___________________ welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) Die Ergebnisse der Datenerhebung werden für alle Fällen in einer Tabelle, der Datenmatrix zusammengefasst. 8 Die Datenmatrix Untersuchungseinheiten (Fälle) Beispiel einer Datenmatrix Merkmale der Untersuchungseinheiten (Variablen) FallAntwort Antwort Antwort GeGeburtsnummer Frage 1 Frage 2a Frage 2b schlecht jahr ID F1 F2A F2B F3 F4 1 3 2 2 1 1943 2 2 8 1 2 1960 3 4 1 2 2 1957 4 9 8 1 1 1939 5 2 2 1 2 9999 6 8 8 1 1 1956 7 8 9 10 4 1 3 4 2 1 2 2 alle Realisierungen der Variablen F1: Univariate Verteilung von F1 Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 2 2 1 2 2 1 2 2 1970 1920 1956 1966 In einer Datenmatrix sind die Informationen i.a. so angeordnet, dass jede Zeile die gesamten verfügbaren Informationen (Realisierungen aller Variablen) bei einem Fall enthält, und dass jede Spalte alle Realisierungen einer Variablen über alle Fälle enthält. Information über den ersten Fall 9 Häufigkeitstabellen: Konventionen xk k=1 k=2 k=3 k=4 k=5 k=6 nk Zufrieden mit Demokratie Ausprägung Code Häufigkeit völlig unzufrieden 1 1 eher unzufrieden 2 2 eher zufrieden 3 2 sehr zufrieden 4 3 weiß nicht 8 1 keine Angabe 9 1 Summe 10 (gültige Fälle: 8; fehlende Fälle 2) pk Anteile insgesamt nur gültige 0.100 0.125 0.200 0.250 0.200 0.250 0.300 0.375 0.100 0.100 1.000 1.000 Variable Ausprägung Anzahl der Fälle Realisation des i-ten Falles (i=1,2,...,n) der Variablen X Realisation des i-ten sortierten Falles (Rangplatz) Ausprägung k (k=1,2,...,K) der Variablen X Anzahl der Fälle mit der Ausprägung xk Anteil der Fälle mit der Ausprägung xk Prozent der Fälle mit der Ausprägung xk Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) pk cpk = ∑pk kumulierte Anteile 0.125 0.375 0.625 1.000 X, Y, Z, V2 x, y, z, v2 n xi x(i) xk nk pk pk% = pk ⋅ 100 10 Häufigkeitsverteilungen: Verteilungsfunktion ( i i =1 n k k nk F̂ ( X ≤ x k ) = ∑ = ∑ p k j=1 n j=1 Anstieg um p5=0.066 Anstieg um p4=0.311 1.0 Kumulierte Häufigkeiten 0.9 0.8 Anstieg um p3=0.489 0.7 0.6 0.5 0.4 Anstieg um p2=0.124 0.3 0.2 ) n F̂ X ≤ x ( i ) = ∑ Verteilungsfunktion X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 Anstieg um p1=0.009 0.1 0.0 0 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 6 11 Quantile: Quantilwert und Quantilanteil Der Quantilwert Q gibt die Trennstelle an, an der die Teilung erfolgt. α = 13.3% Q =2 X 1 2 3 4 5 Gültige Prozente .9 12.4 48.9 31.1 6.6 Kumulierte Prozente .9 13.3 62.2 93.4 100.0 1.0 Kumulierte Häufigkeiten 0.9 0.8 0.7 0.6 0.5 0.4 Q =2 0.3 13.3%-Quantil: Q13.3% = Q0.133 = 2 0.2 0.1 α = 13.3% 0.0 0 Der Quantilanteil α gibt den Anteil an, der im unteren Teilbereich liegt. 1 2 3 4 5 Bewertung der allgemeinen Wirtschaftslage (X) Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 6 12 Univariate Statistik: Parameter oder Kenngrößen von Verteilungen Empirische Dichte Kern-Dichte-Schätzer .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Anstelle alle Realisierungen einer Verteilung etwa in Häufigkeitstabellen oder durch eine Grafik zu betrachten, benötigt man in der Statistik oft eine einzige Kenngröße, einen Verteilungsparameter, der charakteristisch für die ganze Verteilung ist. Eine solche Zahl, die gewissermaßen repräsentativ oder typisch für eine Verteilung sein soll, wird auch als typischer Wert bezeichnet. Da ein typischer Wert bei metrischen Verteilungen den Ort oder die Lage der Verteilung auf der Achse der Zahlen angibt, spricht man auch von einem Lagemaß. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 13 Lagemaße: Modus Empirische Dichte Modus .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer Verteilung bezeichnet. Sinnvoll ist die Wahl des Modus nur dann, wenn es nur einen Wert gibt, der am häufigksten vorkommt. Bei bi- oder multimodalen (mehrgipfligen) Verteilungen muss daher ein Gipfel besonders herausragen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 14 Lagemaße: Median Empirische Dichte Median .025 .020 .015 .010 50% 50% .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Ein alternativer charakteristischer Wert einer Verteilung ist der Median, das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt. Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder gleich dem Median. Bei ungerader Fallzahl ist der Median der Wert der Realisierung auf dem Rangplatz (n+1)/2 bei einer nach Größe geordneten Reihung der Datenpunkte, bei z.B. n=101 Fällen, der Wert mit dem Rangplatz (100+1)/2 = 51. Bei gerader Fallzahl ist der Median der Mittelwert der Realisierungen der Rangplatze n/2 und n/2+1, bei n=200 Fällen also der Mittelwert der Ralisierungen mit den Rangplätzen 200/2 = 50 und 200/2 +1 = 51. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 15 Lagemaße: arithmetisches Mittel Empirische Dichte Arithmetisches Mittel .025 1 n x + x2 +… + xn x = ∑ xi = 1 n i=1 n .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Der vermutlich am häufigsten berechnete typische Wert einer Verteilung ist das arithmetische Mittel (engl: mean), das auch als Mittelwert oder Durchschnitt bezeichnet wird. Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit gültigen Werten) geteilt durch die Anzahl dieser Realisierungen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 16 Streuungsmaße Neben einem typischen Wert, der eine Verteilung repräsentieren kann, ist von besonderer Bedeutung auch die Frage, wie repräsentativ dieser Wert ist, d.h., ob eher mit großen oder mit kleinen Abweichungen zu rechnen ist. 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X 2 3 Y 4 5 1 2 3 4 5 W So gilt für alle drei Verteilungen in den Abbildungen, dass das arithmetische Mittel und der Median jeweils den Wert 3 aufweisen. Während bei der Variablen X die Realisierungen relativ eng um diesen Wert streuen, kommen bei der Gleichverteilung Y alle fünf Ausprägungen mit gleicher Häufigkeit vor. In der uförmigen Verteilung W werden Mittelwert und Median überhaupt nicht realisiert. Bei gleichem Lagemaß können die Realisierungen also sehr unterschiedlich um dieses Maß streuen. Die Unterschiedlichkeit der Realisationen wird durch Streuungsmaße erfasst. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 17 Variation 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 2 3 X ( 4 1 5 2 3 Y ( 4 5 W ( SSX = 10 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 40 ⋅ ( 3 − 3) SSY = 20 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 20 ⋅ ( 3 − 3) SSW = 40 ⋅ (1 − 3) + 10 ⋅ ( 2 − 3) + 0 ⋅ ( 3 − 3) 2 2 +20 ⋅ ( 4 − 3) + 10 ⋅ ( 5 − 3) 2 2 2 ) = 120 2 2 +20 ⋅ ( 4 − 3) + 20 ⋅ ( 5 − 3) 2 2 2 ) = 200 2 2 +10 ⋅ ( 4 − 3) + 40 ⋅ ( 5 − 3) 2 2 2 ) = 340 Bei jeder Verteilung gilt, dass die Summe der quadrierten Abweichungen vom Mittelwert ein absoluter Minimalwert ist. Dieser Wert wird Variation oder mittelwertbereinigte Quadrat-summe (engl: sum of squares) genannt: n ⎛ n 2⎞ 2 SSx = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − n ⋅ x 2 i =1 ⎝ i =1 ⎠ Die Variation ist Ausgangsgröße für die in der Statistik am häufigsten verwendeten Streuungsmaße. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 18 Stichprobenvarianz 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 2 X SSX = 120 ; s X2 = 1.2 3 4 5 1 2 3 4 Y W SSY = 200 ; s X2 = 2.0 SSW = 340 ; s 2X = 3.4 5 Die (Stichproben-) Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert: 1 n ⎛ 1 n 2 ⎞ 2 SSX 2 2 sX = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − x = n i =1 n ⎝ n i =1 ⎠ Hinweis: In Statistikprogrammen, Taschenrechnern und manchen Statistikbüchern wird bei der Berechnung der Varianz die Variation nicht durch die Fallzahl n, sondern durch die Zahl der Freiheitsgrade n – 1 geteilt. Dieser Quotient ist eine Schätzung der Populationsvarianz auf der Basis von Stichprobendaten (geschätzte Populationsvarianz). Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 19 Standardabweichung 45 45 45 40 40 40 35 35 35 30 30 30 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 1 2 3 4 5 1 X s 2X = 1.2 ; s x = 1.095 2 3 4 5 1 2 3 4 Y W s 2X = 2.0 ; s x = 1.414 s 2X = 3.4 ; s X =1.844 5 Da die Einheit der Varianz das Quadrat der Einheit der betrachteten Verteilung ist, wird meistens die Standardabweichung (engl: standard deviation) als Maß für die Streuung verwendet, die die positive Quadratwurzel aus der Varianz ist: 1 n SSX 2 − = sX = s = x x ( ) ∑ i n i =1 n 2 X Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 20 Rechenschema für Variation und Varianz Die Berechnung der Variation und daraus abgeleiteter Streuungsmaße per Hand wird durch die Anwendung eines einfachen Rechenschemas erleichtert. Diesem liegt zugrunde, dass für die Berechnung neben der Fallzahl nur die Summe und die 2 Quadratsumme über alle Realisierungen benötigt werden: ⎛ n ⎞ ⎜ ∑ xi ⎟ n n ⎛ n 2⎞ ⎛ ⎞ 2 SSX = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − n ⋅ x 2 = ⎜ ∑ x i2 ⎟ − ⎝ i =1 ⎠ n i =1 ⎝ i =1 ⎠ ⎝ i =1 ⎠ Die Kenngrößen berechnen sich dann nach: Beispiel für die 9 Altersangaben: Alter (X) 55 38 41 59 42 28 78 42 32 ∑ 415 X2 3025 1444 1681 3481 1764 784 6084 1764 1024 21051 X−x 8.89 –8.11 –5.11 12.89 –4.11 –18.11 31.89 –4.11 –14.11 0.01 n (X − x) 79.01 65.79 26.12 166.12 16.90 328.01 1016.90 16.90 199.12 1914.87 Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) ∑x i Variation: 415 = 46.1 n 9 n ⎛ n ⎞ 2 SSX = ∑ x i − ⎜ ∑ x i ⎟ / n i =1 ⎝ i =1 ⎠ = 21051 − 4152 / 9 = 1914.89 Varianz: s 2X = SSx / n = 1914.89 / 9 = 212.76 2 Mittelwert: x= i =1 = Standardabw.: s X = s X2 = 212.765 = 14.59 21 Rechenschema für Häufigkeitstabellen Das Rechenschema lässt sich leicht auf Häufigkeitstabellen verallgemeinern. X 1 2 3 4 5 ∑ nk 10 20 40 20 10 100 nk·X 10 40 120 80 50 300 nk·X2 10 80 360 320 250 1020 K x= ∑n k =1 k ⋅ xk K ∑n k =1 = 2 ⎛ K ⎞ 2 SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n k =1 ⎝ k =1 ⎠ = 1020 − 3002 /100 = 120 K 300 =3 100 k s 2X = SSx /100 = 120 /100 = 1.2; s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5% Werden relative Häufigkeiten verwendet, ergit sich folgendes Schema: X 1 2 3 4 5 ∑ pk 0.1 0.2 0.4 0.2 0.1 1.0 pk·X 0.1 0.4 1.2 0.8 0.5 3.0 pk·X2 0.1 0.8 3.6 3.2 2.5 10.2 K x = ∑ pk ⋅ x k = 3 k =1 ⎛ K ⎞ s = ∑ pk ⋅ x − ⎜ ∑ pk ⋅ x k ⎟ k =1 ⎝ k =1 ⎠ = 10.2 − 32 = 1.2 K 2 X 2 2 k SSx = s 2X ⋅ n = 1.2 ⋅100 = 120; s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5% Bei gruppierten Daten werden in den Schemata statt der Ausprägungen xk die Klassenmitten mk eingesetzt. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 22 Stichprobe und Grundgesamtheit Viele Anwendungen der Statistik beziehen sich auf Stichprobendaten, mit deren Hilfe auf Eigenschaften der Grundgesamtheiten rückgeschlossen werden soll, aus denen die Stichprobe kommt. Beispiel: In der Stichprobe des ALLBUS 1996 gaben 13.3 % von 3494 Befragten mit gültigen Antworten an, dass Sie die Wirtschaftslage in Deutschland für sehr gut oder gut hielten. → Daraus wird geschlossen, dass gut 13% der Wohnbevölkerung in Deutschland 1996 die Wirtschaftslage für gut oder sehr gut hielten. Aber: Die Verallgemeinerung von den Ergebnisse einer Teilmenge auf eine größere Gesamtmenge ist ein Induktionsschluss, bei dem sich prinzipiell nicht ausschließen lässt, dass er unzutreffend ist. Möglicherweise hielten 1996 95% oder auch nur 5% die Wirtschaftslage für gut oder sehr gut. Bei 3494 Befragten von vielen Millionen Personen, über die eine Aussage gemacht wird, sind nahezu alle Ergebnisse möglich. Sicher ist nur, dass es 1996 mindestens 465 (= 13.3% von 3494) Befragten gab, die die Wirtschaftslage für gut oder sehr gut hielten. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 23 Stichprobe und Grundgesamtheit Auch mit Hilfe der Statistik kann die logische Möglichkeit eines falschen Induktionsschlusses nicht vermieden werden. Aber: Die Statistik • kann Hinweise dazu geben, wie die Fälle einer Stichprobe ausgewählt werden sollten, damit die Wahrscheinlichkeit korrekter Schlüsse von einer Stichprobe auf die Grundgesamtheit (Population) möglichst hoch ist, • und das Risiko von Fehlschlüssen berechenbar machen. Voraussetzung: • Wahrscheinlichkeitsauswahlen: In einer Wahrscheinlichkeitsauswahl (oder Zufallsauswahl) besteht für jedes Element einer Grundgesamtheit eine prinzipiell angebbare Wahrscheinlichkeit größer null, dass das Element in die Stichprobe aufgenommen wird. Eine Zufallsauswahl kann als Ergebnis eines Zufallsexperiments verstanden werden. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 24 Stichprobe und Grundgesamtheit Beispiel: In einem entlegendem Dorf leben 6 Familien, die ein monatliches Haushaltseinkommen von 1000, 2000, 3000, 4000, 5000 und 6000 Euro haben. Ein Statistiker wählt mit Hilfe eines Würfels zufällig genau eine Familie aus, um diese zu befragen. Dazu nummeriert er die Haushalte mit Zahlen von 1 bis 6 durch. Wenn beim Würfeln eine 1 resultiert, wird der erste Haushalt ausgewählt, wenn eine 2 resuliert, der zweite, usw.. Unsicher, ob die Befragung eines Haushalts Aussagen über das gesamte Dorf ermöglicht, wiederholt der Statistiker eine Woche später diesen Auswahlprozess und befragt ein weiteres Mal genau einen der sechs Haushalte. Der Einfachheit halber wird angenommen, dass die Nummer des Haushalts gerade dem Haushaltseinkommen entspricht, also Haushalt Nr. 1 über 1000€ pro Monat verfügt, Haushalt Nr. 2 über 2000€, Nr. 3 über 3000E, Nr. 4 über 4000€, Nr. 5 über 5000 € und Nr. 6 über 6000€. Die Gesamtheit aller möglichen Ergebnisse der zweimaligen Befragung von jeweils einem Haushalt lässt sich dann grafisch als Punkte in einem Koordinatensystem visualiseren. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 25 Haushaltsnummer der zweiten Befragung Stichprobe und Grundgesamtheit 6 5 4 3 2 1 0 0 1 2 3 4 5 Haushaltsnummer der ersten Befragung 6 Elemente in RealisierungswahrMittleres Stichprobe scheinlichkeit Einkommen {1,1} 1/36 1000 € {2,1} 2/36 1500 € {3,1}{2,2} 3/36 2000 € {4,1}{3,2} 4/36 2500 € {5,1}{4,2}{3,3} 5/36 3000 € {6,1}{5,2}{4,3} 6/36 3500 € {6,2}{5,3}{4,4} 5/36 4000 € {6,3}{5,4} 4/36 4500 € {6,4}{5,5} 3/36 5000 € {6,5} 2/36 5500 € {6,6} 1/36 6000 € Summe: 36/36 Die bei Berücksichtigung der Anordnung unterscheidbaren 36 Stichproben ergeben 11 unterschiedliche Werte, wenn jeweils der Stichprobenmittelwert der Haushaltseinkommen der beiden Fälle berechnet wird. Da jede Stichprobe eine angebbare Auswahlwahrscheinlichkeit hat, lassen sich auch für die unterscheidbaren Werte der mittleren Haushaltseinkommen Realisierungswahrscheinlichkeiten berechnen. Sie ergeben sich jeweils aus der Summe der Auswahlwahrscheinlichkeiten der Stichproben, die zum gleichen mittleren Einkommen führen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 26 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Populationsverteilung: Haush. einkom. nk pk cpk 1000 1 1/6 1/6 2000 1 1/6 2/6 3000 1 1/6 3/6 4000 1 1/6 4/6 5000 1 1/6 5/6 6000 1 1/6 6/6 Summe: 6 6/6 Kennwerteverteilung: X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Stichprobenverteilung 1 Haush. {1,1} einkom. nk pk cpk 1000 1 0.5 0.5 1000 1 0.5 1.0 Summe: 2 1.0 Stichprobenverteilung 2 Haush. {1,2} einkom. nk pk cpk 1000 1 0.5 0.5 2000 1 0.5 1.0 Summe: 2 1.0 Auf die Populationsverteilung bzw. deren Parameter ist das Forschungsinteresse gerichtet; sie ist jedoch der direkten Beobachtung nicht (oder nur mit sehr großem Aufwand) zugänglich. Beobachtet werden kann dagegen die Verteilung in einer Stichprobe. Von den aus den Stichprobendaten berechneten Kennwerten wird in einem Induktionsschluss auf die Werte der Populationsparameter geschlossen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 27 Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter Populationsverteilung: Haush. einkom. nk pk cpk 1000 1 1/6 1/6 2000 1 1/6 2/6 3000 1 1/6 3/6 4000 1 1/6 4/6 5000 1 1/6 5/6 6000 1 1/6 6/6 Summe: 6 6/6 Kennwerteverteilung: X (mittleres Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion funktion 1000 1/36 1/36 1500 2/36 3/36 2000 3/36 6/36 2500 4/36 10/36 3000 5/36 15/36 3500 6/36 21/36 4000 5/36 26/36 4500 4/36 30/36 5000 3/36 33/36 5500 2/36 35/36 6000 1/36 36/36 Summe: 36/36 Stichprobenverteilung 1 Haush. {1,1} einkom. nk pk cpk 1000 1 0.5 0.5 1000 1 0.5 1.0 Summe: 2 1.0 Stichprobenverteilung 2 Haush. {1,2} einkom. nk pk cpk 1000 1 0.5 0.5 2000 1 0.5 1.0 Summe: 2 1.0 Die Aussagen über die Stichprobengüte beziehen sich also stets auf die Kennwerteverteilung. Eine konkreter Stichprobenmittelwert kann vom gesuchten Populationsparameter sehr stark abweichen. So sind in den beiden rechts wiedergegebenen Stichproben die Stichprobenmittewerte mit Werten von 1000€ und 1500€ deutlich vom Populationsmittelwert mit 3500€ entfernt. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 28 Schätzer und Schätzung Für eine einzelne Schätzung lässt sich grundsäzlich nicht angeben, ob ihr Wert mit dem zuschätzenden Populationswert übereinstimmt oder ob sie sehr vom gesuchten Wert abweicht. Bei Zufallsauswahlen ist jede Schätzung ein Zufallsexperiment und jede Schätzung ein mögliches Ereignis dieses Zufallsexperiments. Eine Schätzung kann dann als Realisierung einer Zufallsvariable aufgefasst werden. Zufallsvariablen, die für Schätzungen verwendet werden, heißen Schätzer. Eine Schätzung ist also eine von vielen möglichen Realisierungen eines Schätzers. Die Kennwerteverteilung des Schätzers, d.h. die Wahrscheinlichkeits(dichte)verteilung der Zufallsvariable erlaubt Aussagen darüber, wie wahrscheinlich Schätzungen sind, die nahe beim zu schätzenden Populationswert liegen. Die Statistik versucht Schätzer zu finden, die möglichst gute Eigenschaften aufweisen. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 29 Eigenschaften von Schätzern Erwartungstreue oder Unverzerrtheit Ein Schätzer ist unverzerrt oder erwartungstreu (engl. unbiased), wenn der Erwartungswert der Kennwerteverteilung des Schätzers mit dem zu schätzenden Populationswert übereinstimmt; () μ θˆ = θ In der Statistik wird das griechische kleine Theta („θ“) oft als allgemeinses Symbol für einen Parameter verwendet. Ein kleines Dach („^“) über dem Symbol kennzeichnet dann einen Schätzer oder eine Schätzung. Bei einfachen Zufallsauswahlen lässt sich die Kennwerteverteilung des Stichprobenanteils aus der Binomialverteilung oderder hypergeometrischen Verteilung berechnen. In beiden Fällen ist der Erwartungswert der Kennwerteverteilung genau der Anteil π1 = N1/N der Elemente in der Population, die die betrachtete Eigenschaft aufweisen. Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen ein erwartungstreuer Schätzer. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 30 Eigenschaften von Schätzern Konsistenz Ein Schätzer ist konsistent, wenn bei steigender Stichprobenfallzahl die Wahrscheinlichkeit gegen eins geht, dass der Abstand zwischen dem zu schätzenden Parameter und dem Stichprobenkennwert gegen null geht. ( ( )) lim Pr θˆ − θ = 0 = 1 n →∞ Aus dem Gesetz der großen Zahl folgt, dass die Wahrscheinlichkeit einer beliebig kleinen Abweichung zwischen Stichprobenanteil und Populationsanteil bei einfachen Zufallsauswahlen gegen eins geht, wenn die Fallzahl über alle Grenzen wächst. Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen mit Zurücklegen ein konsistenter Schätzer des Populationsanteils. Bei einfachen Zufallsauswahlen ohne Zurücklegen ist der Anteil der ausgewählten Fälle ebenfalls gleich dem Populationsanteil, wenn im Extremfall alle Fälle ausgewählt werden. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 31 Eigenschaften von Schätzern Effizienz Die Realisationen der Kennwerteverteilung sollen möglichst gering um den zu schätzenden Populationsparameter streuen. Ein Kennwert ist effizient, wenn es keinen anderen Schätzer gibt, der mit einer geringeren Streuung um den zu schätzenden Parameter streut. Als Maß für die Effizienz wird üblicherweise der Erwartungswert der quadrierten Abstände vom zu schätzenden Parameterwert herangezogen, der nach der englischen Bezeichnung mean squared error (MSE) heißt: 2 2 2 ˆ ⎛ ⎞ ˆ ˆ MSE = μ ⎜ θ − θ ⎟ = σ θ + μ θ − θ ⎝ ⎠ ( ) () ( () ) Die Gleichung zeigt, dass MSE auch als Summe der Varianz der Kennwerteverteilung eines Schätzers plus der quadrierten Verzerrung (engl. bias), das ist der quadrierte Abstand zwischen dem Erwartungswert des Schätzers und dem zu schätzendem Parameter dargestellt werden kann. Zur Schätzung des Populationsmittelwertes kann bei einer symmetrischen, unimodalen Verteilung sowohl der Stichprobenmittelwert als auch der Stichprobenmedian herangezogen werden. Effizienter ist die Kenngröße, deren Kennwerteverteilung mit einer geringeren Streuung um den Populationsmittelwert variiert. Welche das ist, hängt von Verteilung ab. Bei einfachen Zufallsstichproben aus normalverteilten Populationen ist der Stichprobenmittelwert ein effizienterer Schätzer des Erwartungswert als der Stichprobenmedian. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 32 Standardfehler Bei unverzerrten Schätzern ist die quadrierte Verzerrung definitionsgemäß null, so dass die Effizienz in diesem Fall über die Varianz der Kennwerteverteilung gemessen werden kann. Anstelle der Varianz wird meist die Standardabweichung einer Kennwerteverteilung als Streuungsmaß verwendet. Die Standardabweichung eines Schätzers wird als Standardschätzfehler oder Standardfehler bezeichnet. Da bei einfachen Zufallsauswahlen ohne Zurücklegen der Stichprobenanteil ein unverzerrter Schätzer des Populationsanteils ist, ist der Standardfehler die Quadratwurzel aus dem MSE. Sie ist aus der Standardabweichung der hypergeometrischen Verteilung berechenbar: σ ( p1 ) = 1 ⎛ N1 ⎞ ⎛ N1 ⎞ N − n ⋅ ⎜ ⎟ ⋅ ⎜1 − ⎟⋅ n ⎝ N⎠ ⎝ N ⎠ N −1 Üblicherweise wird neben der Schätzung eines Populationsparameters auch der Standardfehler der Kennwerteverteilung aus den Stichprobendaten geschätzt. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 33 Punktschätzung und Intervallschätzung Von Punktschätzung spricht man, wenn die Realisation eines Schätzers als konkrete Schätzung des unbekannten Wertes eines Populationsparameters verwendet wird. Es ist allerdings sehr unwahrscheinlich, dass eine einzelne Schätzung exakt mit dem unbekannten Populationsparameter übereinstimmt. So ist die Wahrscheinlichkeit, dass ein Stichprobenanteil p1=0.6 (=60/100) bei einer Population von N=100000 und einer Stichprobengröße von n=100 einem Populationsanteil π1=0.60 entspricht nur etwa 8%: ⎛ ⎜ 60 + 0.5 − 0.6 ⋅100 Pr(p1 = 0.6) ≈ Φ ⎜ 100000 − 100 ⎜ 100 ⋅ 0.6 ⋅ 0.4 ⋅ ⎜ 100000 − 1 ⎝ = Φ (0.102) − Φ (−0.102) ≈ 0.08 ⎞ ⎛ ⎟ ⎜ 60 − 0.5 − 0.6 ⋅100 ⎟ − Φ⎜ 100000 − 100 ⎟ ⎜ 100 ⋅ 0.6 ⋅ 0.4 ⋅ ⎟ ⎜ 100000 − 1 ⎠ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ In 92% aller Stichproben ist also mit Abweichungen zu rechnen. Da der gesuchte Wert vermutlich nur in der Nähe der Schätzung liegt, ist es oft sinnvoller, statt eines exakten Wertes ein Intervall anzugeben, in dem der gesuchte Wert vermutlich liegt. Statt von Punktschätzung spricht man dann von Intervallschätzung. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 34 Vorgehensweise bei Intervallschätzung Schritt 1: Im ersten Schritt ist ein Stichprobenkennwert auszuwählen, dessen Kennwerteverteilung bekannt ist, wobei der zu schätzende Populationsparameter ein Parameter der Verteilungsfunktion ist und ansonsten die Verteilung berechenbar sein muss. Schritt 2: Im zweiten Schritt wird die Irrtumswahrscheinlichkeit bzw. umgekehrt die Vertrauenswahrscheinlichkeit festgelegt. In der Sozialforschung werden üblicherweise Irrtumswahrscheinlichkeiten von 5% oder 1% akzeptiert und entsprechend 95%- oder 99%-Konfidenzintervalle berechnet. Je kleiner die Irrtumswahrscheinlichkeit, desto größer sind die Längen der Konfidenzintervalle. Wenn ein Konfidenzintervall zu lang ist, hat es kaum Aussagekraft. Schritt 3: Nach der Festlegung der Irrtumswahrscheinlichkeit α kann das Intervall berechnet werden. Dazu werden Quantile der Kennwerteverteilung benötigt. In der Regel wird das Intervall nach der Formel c.i = Schätzer ± (1−α/2)-Quantil · (geschätzer) Standardfehler berechnet. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 35 Interpretation von Konfidenzintervallen Das Konfidenzintervall selbst ist bzw. seine Intervallgrenzen sind Zufallsvariablen. Mit einer vorgegebenen Wahrscheinlichkeit, im Beispiel 90%, liegen die Intervallgrenzen so, dass der zu schätzende Populationsmittelwert innerhalb der Intervallgrenzen liegt. Die Wahrscheinlichkeitsaussage bezieht sich nicht auf den unbekannten Parameter, sondern auf die Zufallsvariable „Konfidenzintervall“ Die Behauptung, dass der unbekannte Populationsparameter mit bekannter Wahrscheinlichkeit in einem berechneten Intervall liegt, wäre daher falsch. Wenn die Realisationen von Konfidenzintervallen mit einer bekannten Wahrscheinlichkeit den zu schätzenden Parameter überdecken, dann ist die Wahrscheinlichkeit, dass dies nicht der Fall ist, gleich eins minus dieser Wahrscheinlichkeit, im Beispiel also 100%-90% = 10%. Die Wahrscheinlichkeit eines Fehlers wird als Irrtumswahrscheinlichkeit bezeichnet und durch den kleinen griechischen Buchstaben α (alpha) gekennzeichnet. Die Berechnungsart von Konfidenzintervallen führt also dazu, dass der Anteil aller Konfidenzintervalle, die den Populationsparameter überdecken, gleich der vorgegebenen Wahrscheinlichkeit ist. Wenn diese Vertrauenswahrscheinlichkeit hoch bzw. die Irrtumswahrscheinlichkeit klein ist, dann ist das Vertrauen berechtigt, dass auch ein konkret berechnetes Intervall den zu schätzenden Wert tatsächlich enthält, auch wenn unbekannt bleibt, ob dies tatsächlich der Fall ist. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 36 Mittelwerte und Intevallgrenzen Interpretation von Konfidenzintervallen 5.2 5.1 5.0 4.9 4.8 Zufallsstichproben vom Umfang n=500 aus N(5;1) Die Abbildung zeigt 90%-Konfidenintervalle um die Stichprobenmittelwerte von 100 Stichproben des Umfangs n=500 aus einer normalverteilten Population mit dem Populationsmittelwert 5 und einer Varianz von 1. Von den 100 Intervallen enthalten 91 den Populationswert 5.0, neun dagegen nicht. Statistik 2 (Vorlesung WiSe 06/07, 17.10.06) 37