Gliederung bisher: • Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen • Mittelwerte (ab Intervallskala) • Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe Gliederung Schlüsse von Stichprobe auf Grundgesamtheit (Mittelwerte, Anteile, Zusammenhänge) • 1. Beispiel: Ein Anteilswert in der Stichprobe (7% FDPWähler) dient als Schätzung für den Anteil θ in der GG. • 2. Beispiel: Ein Mittelwert in der Stichprobe (Alter: xquer = 37) dient als Schätzung für den Mittelwert in der GG. • 3. Beispiel: Ein Zusammenhang zwischen zwei Variablen (Chi² zwischen Geschlecht und Wahlabsicht) soll dahingehend überprüft werden, ob er auch in der GG angenommen werden kann. Gliederung Solche Aussagen macht man in folgender Weise: • 1. Beispiel: Mit 95%iger Wahrscheinlichkeit werden zwischen 6 und 8% die FDP wählen. • 2. Beispiel: Der Mittelwert des Alters in der Grundgesamtheit liegt mit 95%iger Wahrscheinlichkeit zwischen 35 und 39. • 3. Beispiel: Mit 95%iger Wahrscheinlichkeit kann man ausschließen, dass Geschlecht und Wahlabsicht in keinem Zusammenhang stehen. • daraus folgt: Wir brauchen Kenntnisse zu Stichprobenziehung und Wahrscheinlichkeitsrechnung! Gliederung Inhalte der Vorlesung • Stichprobenziehung • Wahrscheinlichkeitsrechnung – kombinierte Ereignisse • Tabellen: z, Chi², T • Konfidenzintervalle für Mittelwerte und Anteile • Chi²-Test, T-Test, F-Test • multiple Regression Grundgesamtheit • Personen (bzw. Haushalte, Zeitschriftenartikel, Orte…), auf die sich Aussagen beziehen sollen • werden sachlich, räumlich und zeitlich definiert (z.B. Wahlberechtigte in Deutschland vor der Bundestagswahl 2005) • Befragung aller: Totalerhebung (bei kleinen Grundgesamtheiten); in der Regel zu aufwändig • Parameter: N, , σ, θ • Meist wird nur ein Teil der Grundgesamtheit (GG) befragt (Stichprobe, Sp), von dem dann auf die GG geschlossen werden soll. Leistungsfähigkeit von stichprobenartigen Befragungen Stichprobe • Man kann nur von der Sp auf die GG schließen, wenn die Sp repräsentativ ist, also ein verkleinertes genaues Abbild der GG darstellt. • Beispiel: Eine Befragung über die Wahlabsicht am Siegfriedplatz würde möglicherweise 40% Zustimmung zu den Grünen ergeben. • Nur Zufallsstichproben sind repräsentativ. Diese sind so definiert, dass jedes Element der GG die gleiche (bzw. zumindest eine bekannte) Wahrscheinlichkeit hat, in die Stichprobe zu gelangen. • Parameter von Stichproben: xquer, s, p, n (manchmal auch N) • Erster Schritt: Erstellung der Auswahlgesamtheit Techniken der Stichprobenziehung Einfache Zufallsauswahl • Aus allen Elementen der Auswahlgesamtheit werden so viele gezogen, wie für die Stichprobe gewünscht sind. Jedes Element hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen. Man braucht Listen, in denen die komplette Auswahlgesamtheit aufgeführt ist. • Verfahren: Losen, Zufallszahlen Techniken der Stichprobenziehung Systematische Zufallsauswahl • Man braucht eine Liste, in der die komplette Auswahlgesamtheit aufgeführt ist. • Nur das erste Element wird per Zufall bestimmt, anschließend wird jedes k-te Element gezogen. • k = Stichprobenintervall = Auswahlgesamtheit / Stichprobengröße Techniken der Stichprobenziehung Mehrstufige Zufallsauswahl • Zunächst werden z.B. Stimmbezirke gezogen, dann Haushalte, dann Personen. • Zum Ziehen der Haushalte: random route. Von einer zufälligen Startadresse wird eine Anweisung gegeben, wie z.B. „Gehen Sie bis zur Kreuzung, dann links, dann rechts und ermitteln Sie auf dem Weg jeden 6. Haushalt auf der linken Straßenseite“. • Zum Ziehen der Personen: Schwedenschlüssel: wohnt eine Person im Haushalt, wird diese befragt, wohnen zwei Personen dort, wird eine Zahl zwischen 1 und 2 gezogen und entspr. die älteste oder zweitälteste Person befragt usw. Techniken der Stichprobenziehung Geschichtete Stichprobe • Es werden verschiedene Bevölkerungsteile unterschieden. Aus jeder Schicht werden getrennt Zufallsstichproben gezogen. • Beispiele Ost/Westdeutsche; Homo/Heterosexuelle • Dies macht man dann, wenn die Schichten unterschiedlich groß sind und man für jede Schicht eine genügende Fallzahl erreichen will, d.h. bei einer einfachen Zufallsauswahl wären Untergruppen mit so geringer Zahl vertreten, dass man über sie keine Aussagen machen kann. Daher überrepräsentiert man absichtlich kleine Bevölkerungsgruppen (dysproportionale Schichtung). Für Berechnungen mit der Gesamtstichprobe müssen daher Gewichtungsfaktoren eingesetzt werden. Techniken der Stichprobenziehung Klumpenstichprobe • Wie bei der mehrstufigen Zufallsauswahl geschieht der erste Auswahlschritt nicht gleich auf der Ebene der Untersuchungseinheit (z.B. Person), sondern auf höherer Ebene, diese wird als Klumpen bezeichnet (z.B. Stadtteil, Schulklasse, Zeitung). Dies Klumpen enthalten also jeweils mehrere Untersuchungseinheiten (Haushalte, Schüler, Zeitungsartikel). Untersucht werden alle Untersuchungseinheiten des Klumpens, also der ganze Klumpen. • Problem: Erwischt man einen oder mehrere untypische Klumpen, ist die Stichprobe nicht mehr repräsentativ. Techniken der Stichprobenziehung Quotenstichprobe (bewusste Auswahl) • Weiß man im voraus, wie bestimmte Merkmale (Alter, Geschlecht, Schulabschluss) in der Grundgesamtheit verteilt sind, macht man einen Quotenplan, wie viele Personen welcher Art befragt werden sollen (z.B. 35 Frauen unter 40 Jahren mit Abitur), der proportional die Verhältnisse in der GG abbildet. Derartige Personen müssen dann befragt werden, es ist jedoch gleichgültig, welche Personen das sind, solange die Quotenvorgaben eingehalten werden. • In vielen Lehrbüchern wird die Meinung vertreten, dass dies keine repräsentative Stichprobe ergibt; der Interviewer befragt vorwiegend Bekannte, die vermutlich bestimmte Eigenschaften haben, die sie von anderen unterscheiden (z.B. er befragt nur Sportler aus seinem Verein). Techniken der Stichprobenziehung Anfallende bzw. Gelegenheitsstichprobe (willkürliche Auswahl) • Ist nicht repräsentativ • Darf nicht angewendet werden, um Anteile oder Mittelwerte in der Grundgesamtheit zu schätzen • Wird jedoch (v.a. in der Psychologie) in der Regel angewendet, um Zusammenhänge zwischen Variablen zu ermitteln und auch auf Signifikanz zu testen, obwohl man dies streng genommen nicht darf. • Beispiel: Studie in Statistik I: Zusammenhang zwischen Wahlabsicht und Geschlecht. • Wird fast immer in Experimenten verwendet. Ausschöpfung • Die beste Stichprobe nutzt nichts, wenn viele Personen die Teilnahme an der Befragung verweigern. • Stichprobenneutrale / unsystematische Ausfälle verzerren nicht das Ergebnis (falsche Adresse etc.) • Systematische Ausfälle dagegen sind problematisch. Beispiele: Nichterreichbarkeit, Teilnahmeverweigerung. • Man unterscheidet den Ausfall eines kompletten Interviews (unit nonresponse) und den Ausfall bei einzelnen Items (item nonresponse) • Ausschöpfungsquote: der Anteil realisierter Befragungen an der bereinigten Gesamtstichprobe * • (* = Gesamtstichprobe – stichprobenneutrale Ausfälle) Beschäftigung mit • diskreten Variablen (nur bestimmte Ausprägungen, z.B. Anzahl der Kinder) • kontinuierlichen / stetigen Variablen (alle Ausprägungen, z.B. Alter, Größe) zunächst: diskrete Variablen Grundidee • Das Ziehen einer Zufallsstichprobe aus einer Grundgesamtheit entspricht einem Zufallsexperiment, vergleichbar mit 10 x Würfeln bei bekannter Wahrscheinlichkeit des Auftretens bestimmter Ziffern in der Grundgesamtheit. • Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt. • Davon ausgehend kann man berechnen, wie wahrscheinlich es ist, bei einer Stichprobe von Würfen ein bestimmtes Ergebnis zu erzielen. • Ziel: der umgekehrte Schluss von der Stichprobe auf die Grundgesamtheit. • • • • Wahrscheinlichkeit: günstige Ereignisse / alle denkbaren Ereignisse z.B. eine 6 würfeln p(6) = 1 / 6 = 0.166 (liegt immer zwischen 0 und 1) • Wahrscheinlichkeit, hintereinander 2 Sechsen zu würfeln • p(6 und 6) = p (6) * p (6) = 1/6 * 1/6 = 1 /36 = 0.027 • Wahrscheinlichkeit, eine gerade Zahl zu würfeln • p (2 oder 4 oder 6) = p (2) + p (4) + p (6) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5 Fall mit und ohne Zurücklegen • eine Stichprobe ist „ohne Zurücklegen“, jede Person in der Stichprobe wird nicht noch einmal befragt • Karten ziehen ist ohne Zurücklegen • mehrfaches Würfeln ist „mit Zurücklegen“, eine schon gewürfelte Zahl kann erneut auftreten. • Unsere Statistiken basieren auf Modellen „mit Zurücklegen“, obwohl die Datenerhebung „ohne Zurücklegen“ stattfindet. Fehler ist gering bei großen Grundgesamtheiten (Auswahlsatz kleiner als 5%). Additionssatz (Vereinigungsmenge) • allgemein: • p (A oder B) = p (A) + p (B) – p (A und B) • disjunkt (Ereignisse schließen einander aus): • p (A oder B) = p (A) + p (B) Multiplikationssatz (Schnittmenge) • allgemein: • p (A und B) = p (A) p (B A) • unabhängig: • p (A und B) = p (A) p (B) Bernoulli-Theorem • Die Wahrscheinlichkeit entspricht der relativen Häufigkeit bei unendlichen Wiederholungen eines Zufallsexperiments • z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln ist 16.6 Prozent. • Bei unendlichem Würfeln tritt die 6 in 16.6 Prozent der Würfe auf. • Anmerkung: relative Häufigkeit ist die Häufigkeit des Auftretens geteilt durch die Anzahl der Versuche. • Dies simuliert das Ziehen einer Stichprobe! • Der wahre Anteil in der Grundgesamtheit () entspricht beim Würfeln der Wahrscheinlichkeit eines Ereignisses p bei größer werdenden Stichproben immer mehr. • (gilt eigentlich nur bei unendlich großen Grundgesamtheiten) 2. Zufallsexperiment • mehrere Stichproben gleichen Umfangs werden gezogen • Die Anteile der Würfe „6“ variieren um 16.6 Prozent Erweiterung auf 1000 Stichproben mit je 100 Würfen Binomialverteilung • (eine Wahrscheinlichkeitsfunktion) • Verteilungsmodell für diskrete Zufallsvariablen mit 2 Ausprägungen (hier 6 bzw. nicht 6) mit Zurücklegen • Allgemeiner Fall: gibt an, mit welcher Wahrscheinlichkeit die Ausprägung a x-mal vorkommt • Z.B. Wie groß ist die Wahrscheinlichkeit, dass von 10 Frauen in einer Stichprobe 3 Frauen sind, wenn der Frauenanteil in der GG 60% beträgt? • Die Binomialverteilung ist abhängig von (charakterisiert durch) n und dem Anteil in der GG, Wertebereich 0 bis n. • Wir betrachten jetzt aber den speziellen Fall, dass mehrere Stichproben gezogen werden: Binomialverteilung geht bei großen Stichproben in eine Normalverteilung über; • Faustregel n * θ * (1-θ) > 9 Erwartungswert und Varianz einer Binomialverteilung • E (x) ist der Wert, der bei unendlich vielen Wiederholungen des Experiments im Durchschnitt für jede Stichprobe zu erwarten ist. • Var (x) sagt aus, wie stark die Werte um den Erwartungswert schwanken. • E (x) = n * p • Var (x) = n * p * q, wobei q = 1-p Im Würfelbeispiel Achtung!! • Wenn wir ein Würfelexperiment mit 100 Würfen 1000 mal wiederholen, ist n=100, nicht 1000. Die Anzahl der Wiederholungen ist irrelevant. Der Erwartungswert (hier 16.6) gilt für jede einzelne Stichprobe von 100 Würfen. • Eine Binomialverteilung geht nur dann in eine Normalverteilung über, wenn es sich um verschiedene Stichproben handelt, nicht um einzelne Verteilungen, z.B. die Anzahl von Frauen bei einem Frauenanteil von 90% in der GG (vgl. Tafelbild) Stetige Zufallsvariablen • Beispiel: Es existiert eine Grundgesamtheit von Personen, die im Mittel 37.268 Jahre alt sind. • Zufallsexperiment: Wir ziehen 1000 Stichproben mit je 1000 Personen Normalverteilung • (eine Wahrscheinlichkeitsdichtefunktion) • symmetrisch, eingipflig • Mittelwert, Modalwert und Median sind identisch • nähert sich links und rechts asymptotisch der x-Achse an • geht von minus unendlich bis plus unendlich • je 50% Personen befinden sich links bzw. rechts vom Mittelwert • Charakterisiert durch Mittelwert und Varianz • Im folgenden wird der Fall betrachtet, dass nicht eine Variable (z.B. die Intelligenz) normalverteilt ist, sondern die Mittelwerte einer Anzahl von Stichproben. Mittelwert und Varianz einer Stichprobenmittelwerteverteilung Erwartungswert = Varianz = ² / n Standardabweichung = / n diese nennt man auch Standardfehler des Mittelwerts xquer Merke: Es handelt sich um die Verteilung der Stichprobenmittelwerte, nicht um einzelne Werte von Personen • • • • Zentraler Grenzwertsatz • Mittelwerte aus beliebigen Verteilungen verteilen sich mit zunehmendem Stichprobenumfang normal mit dem Mittelwert und der Varianz ² / n • Faustregel: ab N > 30 • Merke: Das gilt auch für schiefe Verteilungen, Unterscheidung zwischen der Verteilung der einzelnen Werte und der Stichprobenmittelwerte!! Standardnormalverteilung • hat Mittelwert 0 und Standardabweichung 1 • jede (Normal-) Verteilung von Stichprobenmittelwerten kann in eine Standardnormalverteilung umgewandelt werden. • Fläche = 1 Standardisierung im üblichen Fall Standardisierung im Fall von Stichprobenmittelwerten σ xquer = σ / √n Wahrscheinlichkeit von Stichprobenmittelwerten • Möchte man berechnen, wie wahrscheinlich es ist, dass eine Stichprobe höchstens einen bestimmten Mittelwert erhält, steht also bei der Standardisierung σ / √ n im Nenner. Begriffe • Die Binomialverteilung ist eine Wahrscheinlichkeitsfunktion (diese gibt die Wahrscheinlichkeit für jede Ausprägung an) • Die Normalverteilung ist eine Wahrscheinlichkeitsdichtefunktion (da bei stetigen Variablen die Wahrscheinlichkeit jedes Werts praktisch 0 ist) • Eine Verteilungsfunktion ist eine kumulierte Wahrscheinlichkeits- oder Dichtefunktion. Sie gibt an, wie wahrscheinlich es ist, höchstens einen bestimmten Wert zu erhalten. • Eine Dichtefunktion ist damit die Ableitung einer Verteilungsfunktion. • Tabellenwerke (z, T, Chi², F) beziehen sich auf Verteilungsfunktionen, auch wenn das in der folgenden Abbildung nicht so aussieht. Den Tabellen kann man entnehmen, wie wahrscheinlich es ist, dass eine Zufallsvariable höchstens einen bestimmten Wert annimmt. • Inverse Verteilungsfunktion: Umgekehrte Fragestellung – Wahrscheinlichkeit ist gegeben, gesucht ist der Wert • Die z-Tabelle repräsentiert die Standardnormalverteilung. • Die Wahrscheinlichkeit von Wertebereichen (z.B. zWerte zwischen 0 und 1 zu erhalten) ermittelt man, indem man die Wahrscheinlichkeit einer Ausprägung bis 1 bzw. bis 0 nachschlägt und den letzteren Wert subtrahiert. • Wahrscheinlichkeit, mindestens einen bestimmten Wert zu erzielen, ergibt sich aus 1- nachgeschlagener Wert. • Ist eine Variable nur normalverteilt, muss man sie erst standardisisieren. Für die Stichprobenmittelwerte χ² - Verteilung • Verteilungsmodell für kontinuierliche Zufallsvariablen, und zwar für Summen (normalverteilter) quadrierter Zufallsvariablen, • z.B. beim χ² - Unabhängigkeitstest • Bekannt aus Statistik I ist der χ² - Wert (Maß für Zusammenhang zweier nominalskalierter Variablen), der annähernd χ² - verteilt ist, wenn keine erwartete Häufigkeit kleiner als 5 ist. • Man kann ermitteln (Tabelle), wie wahrscheinlich es wäre, den erhaltenen χ² - Wert oder einen größeren zu bekommen, wenn der Zusammenhang in der GG Null ist. Χ2 = ( fb f e ) fe 2 Verteilungsfunktion • χ² ist immer positiv, weil es sich um eine Summe quadrierter Werte handelt, reicht also von 0 bis unendlich. • Der Graph sieht aus, als hätte der Wind einen Sandhaufen gegen die y-Achse geblasen, nähert sich aber mit steigenden Freiheitsgraden der Normalverteilung an. • Die Verteilungsform ist ausschließlich abhängig von den Freiheitsgraden. Freiheitsgrade • Notation: df • Anzahl frei variierbarer Daten bzw. Anzahl voneinander unabhängiger Informationen • bei der Varianz: n-1 da die Summe der einfachen Abweichungen 0 ist, lässt sich der letzte Wert aus allen anderen berechnen. • beim Konfidenzintervall: n-1 • bei χ²: (r-1) * (c-1) z.B. hat eine 2*2-Tabelle einen Freiheitsgrad, da man alle anderen Werte erschließen kann, wenn man die Randhäufigkeiten kennt • beim T-Test n1 + n2 - 2 T-Verteilung • Verteilungsmodell für kontinuierliche Zufallsvariablen, bei denen im Zähler eine normalverteilte, im Nenner eine χ² - verteilte Zufallsvariable steht • Z.B. bei Konfidenzintervallen und Tests für Mittelwertunterschiede • Fragestellungen: Zwischen welchen Werten liegt das Alter in der Grundgesamtheit mit 95% Wahrscheinlichkeit, wenn es in der Stichprobe 24 Jahre beträgt (σ unbekannt)? Unterscheiden sich Mädchen und Jungen signifikant in der Lesekompetenz? T-Verteilung • geht von minus unendlich bis plus unendlich • sieht aus wie eine Normalverteilung, ist aber breiter • abhängig von den Freiheitsgraden • Je weniger Freiheitsgrade (df), desto breiter ist die Dichtefunktion (ungenauere Schätzung) • Ab 30 df kann man näherungsweise die Normalverteilung verwenden. F-Verteilung • Verteilungsmodell für Zufallsvariablen aus einem Quotienten zweier χ² - verteilter Zufallsvariablen • sieht ähnlich aus wie die χ² - Dichtefunktion • reicht von 0 bis unendlich • abhängig von Zähler - df und Nenner – df • z.B. für Tests auf Varianzhomogenität (sind zwei Varianzen statistisch gleich oder unterschiedlich?) und für Varianzanalyse (unterscheiden sich CDU-, SPD- und Grüne-Wähler in ihrer Einstellung zum EU-Beitritt der Türkei?) Schluss mit der grauen Theorie: Praxisteil Schätzverfahren • Wir schließen von der (repräsentativen) Stichprobe auf die Grundgesamtheit, z.B. einen Anteilswert (Anteil Frauen) oder einen Mittelwert (Alter) • Punktschätzung: Wir schätzen genau den Stichprobenwert in der GG • Intervallschätzung: Wie ermitteln einen Bereich, in dem der Wert der Grundgesamtheit mit 95% bzw. 99% Wahrscheinlichkeit liegt • Die Irrtumswahrscheinlichkeit beträgt dann 5% bzw. 1% und wird mit α bezeichnet. Interpretation eines Konfidenzintervalls • Würde man unendlich viele Stichproben gleichen Umfangs ziehen, läge der wahre Wert der Grundgesamtheit in 5% der Fälle außerhalb des Konfidenzintervalls (unpraktisch, da man nur eine Stichprobe hat) • Mit 95% Wahrscheinlichkeit liegt der wahre Wert der Grundgesamtheit innerhalb des Konfidenzintervalls (unpräzise, denn der Wert liegt entweder innerhalb oder außerhalb des Konfidenzintervalls) Konfidenzintervalle • Die Breite des Konfidenzintervalls (Vertrauensintervalls) ist von mehreren Parametern abhängig: • gewünschte Genauigkeit der Schätzung (95% oder 99%) • Standardfehler der Stichprobenstatistik (Maß für die Streuung einer Stichprobenstatistik), der wiederum wird kleiner, je größer die Stichprobe ist Standardfehler Standardfehler eines Stichprobenmittelwerts σ/√n geschätzt aus der Stichprobe s/√n (auch als σ Dach bezeichnet) Standardfehler eines Anteilswerts in der Stichprobe √ θ * (1 – θ) / n geschätzt aus der Stichprobe √ p * (1 – p) / n Konfidenzintervall für Stichprobenmittelwerte • Wollen wie mit 95% Genauigkeit schätzen, liegen α / 2, also 2.5% der Werte am linken Ende der Normalverteilung, und 2.5% am rechten. • Aus der z-Tabelle kann man entnehmen, dass zwischen -1.96 und +1.96 95% der Werte liegen. • Nachschlagen muss man nur z 1- α/2 der andere Wert ergibt sich durch das negative Vorzeichen Konfidenzintervall für Stichprobenmittelwerte, σ bekannt Beispiel (Seite zuvor) • Eine Stichprobe von 1000 Befragten hat einen Altersdurchschnitt von xquer = 38.11 Jahren. Die Standardabweichung in der Grundgesamtheit beträgt σ = 22.46. • In welchem Bereich liegt das Alter der GG mit 95% Wahrscheinlichkeit? In 5% der Stichproben liegt μ nicht im Konfidenzintervall Genauere Schätzung mit 99% Wahrscheinlichkeit Konfidenzintervall für Stichprobenmittelwerte, σ unbekannt • Hier muss man die Standardabweichung aus der Stichprobe schätzen. Wegen dieser zusätzlichen Ungenauigkeit verwendet man die (breitere) TVerteilung. • Beispiel (nächste Seite): In einer Stichprobe von 81 Personen beträgt das Durchschnittsalter 38.57 Jahre. Die Standardabweichung in der Stichprobe ist 20.7 Jahre. In welchem Bereich liegt das Alter in der Grundgesamtheit zu 95%? • Nicht verwirren lassen durch die Varianzberechnung in Gehring und Weins. Wir hatten bei Stichproben schon immer n-1 im Nenner! • Bei sehr großen Stichproben nähert sich die TVerteilung der Normalverteilung an und man darf die z-Tabelle benutzen. Zur Vermeidung von Verwirrung lassen wir das. Zusammenfassung Konfidenzintervall für Mittelwerte • Bei bekanntem σ in der Grundgesamtheit wird die z-Tabelle verwendet. • Bei unbekanntem σ in der Grundgesamtheit wird σ durch die Standardabweichung s in der Stichprobe geschätzt. Aufgrund der zusätzlichen Ungenauigkeit wird die TVerteilung verwendet. • Allgemein hängt das KI ab von der gewünschten Genauigkeit (95 / 99%) und dem Standardfehler des Stichprobenmittelwerts. Konfidenzintervall für Anteilswerte • Damit schätzt man, in welchem Bereich ein Anteilswert (z.B. 7% FDP-Wähler in einer Stichprobe) mit 95% Wahrscheinlichkeit in der Grundgesamtheit auftritt. • Solche Variablen sind binomialverteilt. Die Binomialverteilung geht in eine Normalverteilung über, wenn n hinreichend groß ist, Faustregel: wenn gilt • N * p * (1-p) > 9 (hier ab n=139) Konfidenzintervall für einen Anteilswert Standardfehler und geschätzter Standardfehler für Anteilswerte Eingesetzt in die Formel: Beispiel (vorige Seite) • In einer Stichprobe von 1250 Personen geben 7% an, FDP wählen zu wollen. • Wie groß ist das 95% - Konfidenzintervall für den FDP-Wähleranteil in der Grundgesamtheit?