PowerPoint-Präsentation - Uni

Werbung
Gliederung
bisher:
• Häufigkeitsverteilungen (bei nominalskalierten
Variablen) mit Prozenten bzw. Anteilen
• Mittelwerte (ab Intervallskala)
• Zusammenhänge zwischen 2 Variablen; Verfahren in
Abhängigkeit vom Skalenniveau (z.B. Chi²,
Korrelation, T-Test)
Problem: nur Aussagen über die Stichprobe
Gliederung
Schlüsse von Stichprobe auf Grundgesamtheit
(Mittelwerte, Anteile, Zusammenhänge)
• 1. Beispiel: Ein Anteilswert in der Stichprobe (7% FDPWähler) dient als Schätzung für den Anteil θ in der GG.
• 2. Beispiel: Ein Mittelwert in der Stichprobe (Alter: xquer =
37) dient als Schätzung für den Mittelwert  in der GG.
• 3. Beispiel: Ein Zusammenhang zwischen zwei Variablen
(Chi² zwischen Geschlecht und Wahlabsicht) soll dahingehend
überprüft werden, ob er auch in der GG angenommen werden
kann.
Gliederung
Solche Aussagen macht man in folgender Weise:
• 1. Beispiel: Mit 95%iger Wahrscheinlichkeit werden zwischen
6 und 8% die FDP wählen.
• 2. Beispiel: Der Mittelwert des Alters in der Grundgesamtheit
liegt mit 95%iger Wahrscheinlichkeit zwischen 35 und 39.
• 3. Beispiel: Mit 95%iger Wahrscheinlichkeit kann man
ausschließen, dass Geschlecht und Wahlabsicht in keinem
Zusammenhang stehen.
• daraus folgt: Wir brauchen Kenntnisse zu Stichprobenziehung
und Wahrscheinlichkeitsrechnung!
Gliederung
Inhalte der Vorlesung
• Stichprobenziehung
• Wahrscheinlichkeitsrechnung – kombinierte
Ereignisse
• Tabellen: z, Chi², T
• Konfidenzintervalle für Mittelwerte und Anteile
• Chi²-Test, T-Test, F-Test
• multiple Regression
Grundgesamtheit
• Personen (bzw. Haushalte, Zeitschriftenartikel, Orte…), auf
die sich Aussagen beziehen sollen
• werden sachlich, räumlich und zeitlich definiert (z.B.
Wahlberechtigte in Deutschland vor der Bundestagswahl
2005)
• Befragung aller: Totalerhebung (bei kleinen
Grundgesamtheiten); in der Regel zu aufwändig
• Parameter: N, , σ, θ
• Meist wird nur ein Teil der Grundgesamtheit (GG) befragt
(Stichprobe, Sp), von dem dann auf die GG geschlossen
werden soll.
Leistungsfähigkeit von stichprobenartigen Befragungen
Stichprobe
• Man kann nur von der Sp auf die GG schließen, wenn die Sp
repräsentativ ist, also ein verkleinertes genaues Abbild der GG
darstellt.
• Beispiel: Eine Befragung über die Wahlabsicht am
Siegfriedplatz würde möglicherweise 40% Zustimmung zu den
Grünen ergeben.
• Nur Zufallsstichproben sind repräsentativ. Diese sind so
definiert, dass jedes Element der GG die gleiche (bzw.
zumindest eine bekannte) Wahrscheinlichkeit hat, in die
Stichprobe zu gelangen.
• Parameter von Stichproben: xquer, s, p, n (manchmal auch N)
• Erster Schritt: Erstellung der Auswahlgesamtheit
Techniken der Stichprobenziehung
Einfache Zufallsauswahl
• Aus allen Elementen der Auswahlgesamtheit werden so viele
gezogen, wie für die Stichprobe gewünscht sind. Jedes
Element hat die gleiche Wahrscheinlichkeit, in die Stichprobe
zu gelangen. Man braucht Listen, in denen die komplette
Auswahlgesamtheit aufgeführt ist.
• Verfahren: Losen, Zufallszahlen
Techniken der Stichprobenziehung
Systematische Zufallsauswahl
• Man braucht eine Liste, in der die komplette
Auswahlgesamtheit aufgeführt ist.
• Nur das erste Element wird per Zufall bestimmt, anschließend
wird jedes k-te Element gezogen.
• k = Stichprobenintervall
= Auswahlgesamtheit / Stichprobengröße
Techniken der Stichprobenziehung
Mehrstufige Zufallsauswahl
• Zunächst werden z.B. Stimmbezirke gezogen, dann Haushalte,
dann Personen.
• Zum Ziehen der Haushalte: random route. Von einer zufälligen
Startadresse wird eine Anweisung gegeben, wie z.B. „Gehen
Sie bis zur Kreuzung, dann links, dann rechts und ermitteln Sie
auf dem Weg jeden 6. Haushalt auf der linken Straßenseite“.
• Zum Ziehen der Personen: Schwedenschlüssel: wohnt eine
Person im Haushalt, wird diese befragt, wohnen zwei Personen
dort, wird eine Zahl zwischen 1 und 2 gezogen und entspr. die
älteste oder zweitälteste Person befragt usw.
Techniken der Stichprobenziehung
Geschichtete Stichprobe
• Es werden verschiedene Bevölkerungsteile unterschieden. Aus
jeder Schicht werden getrennt Zufallsstichproben gezogen.
• Beispiele Ost/Westdeutsche; Homo/Heterosexuelle
• Dies macht man dann, wenn die Schichten unterschiedlich
groß sind und man für jede Schicht eine genügende Fallzahl
erreichen will, d.h. bei einer einfachen Zufallsauswahl wären
Untergruppen mit so geringer Zahl vertreten, dass man über
sie keine Aussagen machen kann. Daher überrepräsentiert man
absichtlich kleine Bevölkerungsgruppen (dysproportionale
Schichtung). Für Berechnungen mit der Gesamtstichprobe
müssen daher Gewichtungsfaktoren eingesetzt werden.
Techniken der Stichprobenziehung
Klumpenstichprobe
• Wie bei der mehrstufigen Zufallsauswahl geschieht der erste
Auswahlschritt nicht gleich auf der Ebene der
Untersuchungseinheit (z.B. Person), sondern auf höherer
Ebene, diese wird als Klumpen bezeichnet (z.B. Stadtteil,
Schulklasse, Zeitung). Dies Klumpen enthalten also jeweils
mehrere Untersuchungseinheiten (Haushalte, Schüler,
Zeitungsartikel). Untersucht werden alle
Untersuchungseinheiten des Klumpens, also der ganze
Klumpen.
• Problem: Erwischt man einen oder mehrere untypische
Klumpen, ist die Stichprobe nicht mehr repräsentativ.
Techniken der Stichprobenziehung
Quotenstichprobe (bewusste Auswahl)
• Weiß man im voraus, wie bestimmte Merkmale (Alter,
Geschlecht, Schulabschluss) in der Grundgesamtheit verteilt
sind, macht man einen Quotenplan, wie viele Personen
welcher Art befragt werden sollen (z.B. 35 Frauen unter 40
Jahren mit Abitur), der proportional die Verhältnisse in der GG
abbildet. Derartige Personen müssen dann befragt werden, es
ist jedoch gleichgültig, welche Personen das sind, solange die
Quotenvorgaben eingehalten werden.
• In vielen Lehrbüchern wird die Meinung vertreten, dass dies
keine repräsentative Stichprobe ergibt; der Interviewer befragt
vorwiegend Bekannte, die vermutlich bestimmte
Eigenschaften haben, die sie von anderen unterscheiden (z.B.
er befragt nur Sportler aus seinem Verein).
Techniken der Stichprobenziehung
Anfallende bzw. Gelegenheitsstichprobe (willkürliche
Auswahl)
• Ist nicht repräsentativ
• Darf nicht angewendet werden, um Anteile oder Mittelwerte in
der Grundgesamtheit zu schätzen
• Wird jedoch (v.a. in der Psychologie) in der Regel
angewendet, um Zusammenhänge zwischen Variablen zu
ermitteln und auch auf Signifikanz zu testen, obwohl man dies
streng genommen nicht darf.
• Beispiel: Studie in Statistik I: Zusammenhang zwischen
Wahlabsicht und Geschlecht.
• Wird fast immer in Experimenten verwendet.
Ausschöpfung
• Die beste Stichprobe nutzt nichts, wenn viele Personen die
Teilnahme an der Befragung verweigern.
• Stichprobenneutrale / unsystematische Ausfälle verzerren nicht
das Ergebnis (falsche Adresse etc.)
• Systematische Ausfälle dagegen sind problematisch.
Beispiele: Nichterreichbarkeit, Teilnahmeverweigerung.
• Man unterscheidet den Ausfall eines kompletten Interviews
(unit nonresponse)
und den Ausfall bei einzelnen Items
(item nonresponse)
• Ausschöpfungsquote: der Anteil realisierter Befragungen an
der bereinigten Gesamtstichprobe *
• (* = Gesamtstichprobe – stichprobenneutrale Ausfälle)
Beschäftigung mit
• diskreten Variablen (nur bestimmte
Ausprägungen, z.B. Anzahl der Kinder)
• kontinuierlichen / stetigen Variablen (alle
Ausprägungen, z.B. Alter, Größe)
zunächst: diskrete Variablen
Grundidee
• Das Ziehen einer Zufallsstichprobe aus einer
Grundgesamtheit entspricht einem Zufallsexperiment,
vergleichbar mit 10 x Würfeln bei bekannter
Wahrscheinlichkeit des Auftretens bestimmter Ziffern
in der Grundgesamtheit.
• Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt.
• Davon ausgehend kann man berechnen, wie
wahrscheinlich es ist, bei einer Stichprobe von
Würfen ein bestimmtes Ergebnis zu erzielen.
• Ziel: der umgekehrte Schluss von der Stichprobe auf
die Grundgesamtheit.
•
•
•
•
Wahrscheinlichkeit:
günstige Ereignisse / alle denkbaren Ereignisse
z.B. eine 6 würfeln p(6) = 1 / 6 = 0.166
(liegt immer zwischen 0 und 1)
• Wahrscheinlichkeit, hintereinander 2 Sechsen
zu würfeln
• p(6 und 6) = p (6) * p (6) = 1/6 * 1/6 = 1 /36 =
0.027
• Wahrscheinlichkeit, eine gerade Zahl zu
würfeln
• p (2 oder 4 oder 6) = p (2) + p (4) + p (6) = 1/6
+ 1/6 + 1/6 = 3/6 = 0.5
Fall mit und ohne Zurücklegen
• eine Stichprobe ist „ohne Zurücklegen“, jede Person
in der Stichprobe wird nicht noch einmal befragt
• Karten ziehen ist ohne Zurücklegen
• mehrfaches Würfeln ist „mit Zurücklegen“, eine
schon gewürfelte Zahl kann erneut auftreten.
• Unsere Statistiken basieren auf Modellen „mit
Zurücklegen“, obwohl die Datenerhebung „ohne
Zurücklegen“ stattfindet. Fehler ist gering bei großen
Grundgesamtheiten (Auswahlsatz kleiner als 5%).
Additionssatz (Vereinigungsmenge)
• allgemein:
• p (A oder B) = p (A) + p (B) – p (A und B)
• disjunkt (Ereignisse schließen einander aus):
• p (A oder B) = p (A) + p (B)
Multiplikationssatz (Schnittmenge)
• allgemein:
• p (A und B) = p (A) p (B  A)
• unabhängig:
• p (A und B) = p (A) p (B)
Bernoulli-Theorem
• Die Wahrscheinlichkeit entspricht der
relativen Häufigkeit bei unendlichen
Wiederholungen eines Zufallsexperiments
• z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln
ist 16.6 Prozent.
• Bei unendlichem Würfeln tritt die 6 in 16.6
Prozent der Würfe auf.
• Anmerkung: relative Häufigkeit ist die
Häufigkeit des Auftretens geteilt durch die
Anzahl der Versuche.
• Dies simuliert das Ziehen einer Stichprobe!
• Der wahre Anteil in der Grundgesamtheit ()
entspricht beim Würfeln der
Wahrscheinlichkeit eines Ereignisses p bei
größer werdenden Stichproben immer mehr.
• (gilt eigentlich nur bei unendlich großen
Grundgesamtheiten)
2. Zufallsexperiment
• mehrere Stichproben gleichen Umfangs
werden gezogen
• Die Anteile der Würfe „6“ variieren um 16.6
Prozent
Erweiterung auf 1000 Stichproben mit je 100 Würfen
Binomialverteilung
• (eine Wahrscheinlichkeitsfunktion)
• Verteilungsmodell für diskrete Zufallsvariablen mit 2
Ausprägungen (hier 6 bzw. nicht 6) mit Zurücklegen
• Allgemeiner Fall: gibt an, mit welcher
Wahrscheinlichkeit die Ausprägung a x-mal
vorkommt
• Z.B. Wie groß ist die Wahrscheinlichkeit, dass von 10
Frauen in einer Stichprobe 3 Frauen sind, wenn der
Frauenanteil in der GG 60% beträgt?
• Die Binomialverteilung ist abhängig von
(charakterisiert durch) n und dem Anteil in der GG,
Wertebereich 0 bis n.
• Wir betrachten jetzt aber den speziellen Fall,
dass mehrere Stichproben gezogen werden:
Binomialverteilung geht bei großen
Stichproben in eine Normalverteilung über;
• Faustregel n * θ * (1-θ) > 9
Erwartungswert und Varianz einer Binomialverteilung
• E (x) ist der Wert, der bei unendlich vielen
Wiederholungen des Experiments im
Durchschnitt für jede Stichprobe zu erwarten
ist.
• Var (x) sagt aus, wie stark die Werte um den
Erwartungswert schwanken.
• E (x) = n * p
• Var (x) = n * p * q, wobei q = 1-p
Im Würfelbeispiel
Achtung!!
• Wenn wir ein Würfelexperiment mit 100 Würfen
1000 mal wiederholen, ist n=100, nicht 1000. Die
Anzahl der Wiederholungen ist irrelevant. Der
Erwartungswert (hier 16.6) gilt für jede einzelne
Stichprobe von 100 Würfen.
• Eine Binomialverteilung geht nur dann in eine
Normalverteilung über, wenn es sich um
verschiedene Stichproben handelt, nicht um
einzelne Verteilungen, z.B. die Anzahl von Frauen
bei einem Frauenanteil von 90% in der GG (vgl.
Tafelbild)
Stetige Zufallsvariablen
• Beispiel: Es existiert eine Grundgesamtheit
von Personen, die im Mittel 37.268 Jahre alt
sind.
• Zufallsexperiment: Wir ziehen 1000
Stichproben mit je 1000 Personen
Normalverteilung
• (eine Wahrscheinlichkeitsdichtefunktion)
• symmetrisch, eingipflig
• Mittelwert, Modalwert und Median sind
identisch
• nähert sich links und rechts asymptotisch der
x-Achse an
• geht von minus unendlich bis plus unendlich
• je 50% Personen befinden sich links bzw.
rechts vom Mittelwert
• Charakterisiert durch Mittelwert und Varianz
• Im folgenden wird der Fall betrachtet, dass
nicht eine Variable (z.B. die Intelligenz)
normalverteilt ist, sondern die Mittelwerte
einer Anzahl von Stichproben.
Mittelwert und Varianz einer Stichprobenmittelwerteverteilung
Erwartungswert = 
Varianz = ² / n
Standardabweichung =  /  n
diese nennt man auch Standardfehler des
Mittelwerts  xquer
Merke: Es handelt sich um die Verteilung der
Stichprobenmittelwerte, nicht um einzelne
Werte von Personen
•
•
•
•
Zentraler Grenzwertsatz
• Mittelwerte aus beliebigen Verteilungen
verteilen sich mit zunehmendem
Stichprobenumfang normal mit dem
Mittelwert  und der Varianz ² / n
• Faustregel: ab N > 30
• Merke: Das gilt auch für schiefe Verteilungen,
Unterscheidung zwischen der Verteilung der
einzelnen Werte und der
Stichprobenmittelwerte!!
Standardnormalverteilung
• hat Mittelwert 0 und Standardabweichung 1
• jede (Normal-) Verteilung von
Stichprobenmittelwerten kann in eine
Standardnormalverteilung umgewandelt
werden.
• Fläche  = 1
Standardisierung im üblichen Fall
Standardisierung im Fall von Stichprobenmittelwerten
σ xquer = σ / √n
Wahrscheinlichkeit von Stichprobenmittelwerten
• Möchte man berechnen, wie wahrscheinlich es
ist, dass eine Stichprobe höchstens einen
bestimmten Mittelwert erhält, steht also bei der
Standardisierung σ / √ n im Nenner.
Begriffe
• Die Binomialverteilung ist eine
Wahrscheinlichkeitsfunktion (diese gibt die
Wahrscheinlichkeit für jede Ausprägung an)
• Die Normalverteilung ist eine
Wahrscheinlichkeitsdichtefunktion (da bei
stetigen Variablen die Wahrscheinlichkeit jedes
Werts praktisch 0 ist)
• Eine Verteilungsfunktion ist eine kumulierte
Wahrscheinlichkeits- oder Dichtefunktion. Sie gibt
an, wie wahrscheinlich es ist, höchstens einen
bestimmten Wert zu erhalten.
• Eine Dichtefunktion ist damit die Ableitung einer
Verteilungsfunktion.
• Tabellenwerke (z, T, Chi², F) beziehen sich
auf Verteilungsfunktionen, auch wenn das in
der folgenden Abbildung nicht so aussieht.
Den Tabellen kann man entnehmen, wie
wahrscheinlich es ist, dass eine
Zufallsvariable höchstens einen bestimmten
Wert annimmt.
• Inverse Verteilungsfunktion: Umgekehrte
Fragestellung – Wahrscheinlichkeit ist
gegeben, gesucht ist der Wert
• Die z-Tabelle repräsentiert die
Standardnormalverteilung.
• Die Wahrscheinlichkeit von Wertebereichen (z.B. zWerte zwischen 0 und 1 zu erhalten) ermittelt man,
indem man die Wahrscheinlichkeit einer Ausprägung
bis 1 bzw. bis 0 nachschlägt und den letzteren Wert
subtrahiert.
• Wahrscheinlichkeit, mindestens einen bestimmten
Wert zu erzielen, ergibt sich aus 1- nachgeschlagener
Wert.
• Ist eine Variable nur normalverteilt, muss man sie erst
standardisisieren.
Für die Stichprobenmittelwerte
χ² - Verteilung
• Verteilungsmodell für kontinuierliche
Zufallsvariablen, und zwar für Summen
(normalverteilter) quadrierter Zufallsvariablen,
• z.B. beim χ² - Unabhängigkeitstest
• Bekannt aus Statistik I ist der χ² - Wert (Maß für
Zusammenhang zweier nominalskalierter Variablen),
der annähernd χ² - verteilt ist, wenn keine erwartete
Häufigkeit kleiner als 5 ist.
• Man kann ermitteln (Tabelle), wie wahrscheinlich es
wäre, den erhaltenen χ² - Wert oder einen größeren zu
bekommen, wenn der Zusammenhang in der GG Null
ist.
Χ2 =

( fb  f e )
fe
2
Verteilungsfunktion
• χ² ist immer positiv, weil es sich um eine
Summe quadrierter Werte handelt, reicht also
von 0 bis unendlich.
• Der Graph sieht aus, als hätte der Wind einen
Sandhaufen gegen die y-Achse geblasen,
nähert sich aber mit steigenden Freiheitsgraden
der Normalverteilung an.
• Die Verteilungsform ist ausschließlich
abhängig von den Freiheitsgraden.
Freiheitsgrade
• Notation: df
• Anzahl frei variierbarer Daten
bzw. Anzahl voneinander unabhängiger Informationen
• bei der Varianz: n-1
da die Summe der einfachen Abweichungen 0 ist,
lässt sich der letzte Wert aus allen anderen berechnen.
• beim Konfidenzintervall: n-1
• bei χ²: (r-1) * (c-1)
z.B. hat eine 2*2-Tabelle einen Freiheitsgrad, da man
alle anderen Werte erschließen kann, wenn man die
Randhäufigkeiten kennt
• beim T-Test n1 + n2 - 2
T-Verteilung
• Verteilungsmodell für kontinuierliche
Zufallsvariablen, bei denen im Zähler eine
normalverteilte, im Nenner eine χ² - verteilte
Zufallsvariable steht
• Z.B. bei Konfidenzintervallen und Tests für
Mittelwertunterschiede
• Fragestellungen:
Zwischen welchen Werten liegt das Alter in der
Grundgesamtheit mit 95% Wahrscheinlichkeit, wenn
es in der Stichprobe 24 Jahre beträgt (σ unbekannt)?
Unterscheiden sich Mädchen und Jungen signifikant
in der Lesekompetenz?
T-Verteilung
• geht von minus unendlich bis plus unendlich
• sieht aus wie eine Normalverteilung, ist aber
breiter
• abhängig von den Freiheitsgraden
• Je weniger Freiheitsgrade (df), desto breiter ist
die Dichtefunktion (ungenauere Schätzung)
• Ab 30 df kann man näherungsweise die
Normalverteilung verwenden.
F-Verteilung
• Verteilungsmodell für Zufallsvariablen aus einem
Quotienten zweier χ² - verteilter Zufallsvariablen
• sieht ähnlich aus wie die χ² - Dichtefunktion
• reicht von 0 bis unendlich
• abhängig von Zähler - df und Nenner – df
• z.B. für Tests auf Varianzhomogenität (sind zwei
Varianzen statistisch gleich oder unterschiedlich?)
und für Varianzanalyse (unterscheiden sich CDU-,
SPD- und Grüne-Wähler in ihrer Einstellung zum
EU-Beitritt der Türkei?)
Schluss mit der grauen Theorie:
Praxisteil
Schätzverfahren
• Wir schließen von der (repräsentativen)
Stichprobe auf die Grundgesamtheit, z.B.
einen Anteilswert (Anteil Frauen) oder einen
Mittelwert (Alter)
• Punktschätzung: Wir schätzen genau den
Stichprobenwert in der GG
• Intervallschätzung: Wie ermitteln einen
Bereich, in dem der Wert der Grundgesamtheit
mit 95% bzw. 99% Wahrscheinlichkeit liegt
• Die Irrtumswahrscheinlichkeit beträgt dann
5% bzw. 1% und wird mit α bezeichnet.
Interpretation eines Konfidenzintervalls
• Würde man unendlich viele Stichproben
gleichen Umfangs ziehen, läge der wahre Wert
der Grundgesamtheit in 5% der Fälle
außerhalb des Konfidenzintervalls
(unpraktisch, da man nur eine Stichprobe hat)
• Mit 95% Wahrscheinlichkeit liegt der wahre
Wert der Grundgesamtheit innerhalb des
Konfidenzintervalls (unpräzise, denn der Wert
liegt entweder innerhalb oder außerhalb des
Konfidenzintervalls)
Konfidenzintervalle
• Die Breite des Konfidenzintervalls
(Vertrauensintervalls) ist von mehreren
Parametern abhängig:
• gewünschte Genauigkeit der Schätzung (95%
oder 99%)
• Standardfehler der Stichprobenstatistik (Maß
für die Streuung einer Stichprobenstatistik),
der wiederum wird kleiner, je größer die
Stichprobe ist
Standardfehler
Standardfehler eines Stichprobenmittelwerts
σ/√n
geschätzt aus der Stichprobe
s/√n
(auch als σ Dach bezeichnet)
Standardfehler eines Anteilswerts in der
Stichprobe
√ θ * (1 – θ) / n
geschätzt aus der Stichprobe
√ p * (1 – p) / n
Konfidenzintervall für Stichprobenmittelwerte
• Wollen wie mit 95% Genauigkeit schätzen,
liegen α / 2, also 2.5% der Werte am linken
Ende der Normalverteilung, und 2.5% am
rechten.
• Aus der z-Tabelle kann man entnehmen, dass
zwischen -1.96 und +1.96 95% der Werte
liegen.
• Nachschlagen muss man nur z 1- α/2
der andere Wert ergibt sich durch das negative
Vorzeichen
Konfidenzintervall für Stichprobenmittelwerte, σ bekannt
Beispiel (Seite zuvor)
• Eine Stichprobe von 1000 Befragten hat einen
Altersdurchschnitt von xquer = 38.11 Jahren.
Die Standardabweichung in der
Grundgesamtheit beträgt σ = 22.46.
• In welchem Bereich liegt das Alter der GG mit
95% Wahrscheinlichkeit?
In 5% der Stichproben liegt μ nicht im Konfidenzintervall
Genauere Schätzung mit 99% Wahrscheinlichkeit
Konfidenzintervall für Stichprobenmittelwerte, σ unbekannt
• Hier muss man die Standardabweichung aus der
Stichprobe schätzen. Wegen dieser zusätzlichen
Ungenauigkeit verwendet man die (breitere) TVerteilung.
• Beispiel (nächste Seite): In einer Stichprobe von 81
Personen beträgt das Durchschnittsalter 38.57 Jahre.
Die Standardabweichung in der Stichprobe ist 20.7
Jahre. In welchem Bereich liegt das Alter in der
Grundgesamtheit zu 95%?
• Nicht verwirren lassen durch die Varianzberechnung
in Gehring und Weins. Wir hatten bei Stichproben
schon immer n-1 im Nenner!
• Bei sehr großen Stichproben nähert sich die TVerteilung der Normalverteilung an und man
darf die z-Tabelle benutzen. Zur Vermeidung
von Verwirrung lassen wir das.
Zusammenfassung Konfidenzintervall für Mittelwerte
• Bei bekanntem σ in der Grundgesamtheit wird
die z-Tabelle verwendet.
• Bei unbekanntem σ in der Grundgesamtheit
wird σ durch die Standardabweichung s in der
Stichprobe geschätzt. Aufgrund der
zusätzlichen Ungenauigkeit wird die TVerteilung verwendet.
• Allgemein hängt das KI ab von der
gewünschten Genauigkeit (95 / 99%) und dem
Standardfehler des Stichprobenmittelwerts.
Konfidenzintervall für Anteilswerte
• Damit schätzt man, in welchem Bereich ein
Anteilswert (z.B. 7% FDP-Wähler in einer
Stichprobe) mit 95% Wahrscheinlichkeit in der
Grundgesamtheit auftritt.
• Solche Variablen sind binomialverteilt. Die
Binomialverteilung geht in eine
Normalverteilung über, wenn n hinreichend
groß ist, Faustregel: wenn gilt
• N * p * (1-p) > 9
(hier ab n=139)
Konfidenzintervall für
einen Anteilswert
Standardfehler und geschätzter Standardfehler für Anteilswerte
Eingesetzt in die Formel:
Beispiel (vorige Seite)
• In einer Stichprobe von 1250 Personen geben
7% an, FDP wählen zu wollen.
• Wie groß ist das 95% - Konfidenzintervall für
den FDP-Wähleranteil in der
Grundgesamtheit?
Herunterladen