Lerneinheit 18: Zufallsauswahlen Unverzerrtheit und Standardfehler von Schätzungen in Zufallsauswahlen Zufallsauswahlen werden in der quantitativen Sozialforschung gegenüber willkürlichen und bewussten Auswahlen bevorzugt, da sie statistische Repräsentativität garantieren können. Darüber hinaus kann bei Zufallsauswahlen sichergestellt werden, dass die Schätzungen aus den Stichprobendaten im Durchschnitt über alle möglichen Stichproben genau die zu schätzende Populationseigenschaft erfassen. Möglich sind zudem Aussagen darüber, wie genau eine Schätzung im Durchschnitt ist. Als Beispiel soll von folgender Situation ausgegangen werden: Ein Bildungsforscher interessiert sich dafür, wie hoch der Anteil der Schüler in den Schulen ist, die die Schule ohne Abschluss verlassen. Um das Beispiel einfach zu halten, wird davon ausgegangen, dass es insgesamt 6 Schulen gibt, wobei der Forscher jedoch aus Kostengründen nur 2 Schulen untersuchen kann. Jede Schule hat gleich viele Schüler. In Schule 1 verlassen 10% die Schule ohne Abschluss, in Schule 2 20% usw. bis zur Schule 6, in der 60% die Schule ohne Abschluss verlassen. In der Population der 6 Schulen verlassen daher insgesamt 35% =(10%+20%+ 30%+40%+50%+60%)/6 die Schule ohne Abschluss. In der statistischen Theorie der Zufallsauswahlen spricht man von einer einfachen Zufallsauswahl, wenn alle denkbaren Stichproben gleicher Fallzahl die gleiche Chance (Wahrscheinlichkeit) haben, ausgewählt zu werden. Empirie: Quantitative Methoden L18-1 Unverzerrtheit und Standardfehler von Schätzungen in Zufallsauswahlen Bei einfachen Zufallsauswahlen hat auch jedes Element der Population die gleiche Chance, in eine Stichprobe aufgenommen zu werden. Wenn im Beispiel der n=2 Schulen aus N=6 Schulen eine einfache Zufallsauswahl gezogen wird, wobei eine Schule nicht zweimal ausgewählt werden kann, dann gibt es genau 15 Stichproben, die mit jeweils gleicher Wahrscheinlichkeit von jeweils 1/15 ausgewählt werden: Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Schulen % ohne Abschluss 1,2 10% , 20% 1,3 10% , 30% 1,4 10% , 40% 1,5 10% , 50% 1,6 10% , 60% 2,3 20% , 30% 2,4 20% , 40% 2,5 20% , 50% 2,6 20% , 60% 3,4 30% , 40% 3,5 30% , 50% 3,6 30% , 60% 4,5 40% , 50% 4,6 40% , 60% 5,6 50% , 60% Empirie: Quantitative Methoden Mittelwert 15% 20% 25% 30% 35% 25% 30% 35% 40% 35% 40% 45% 45% 50% 55% In Stichprobe Nr. 1 werden die Schulen 1 und 2 aufgenommen. Der Durchschnittswert der Schüler ohne Abschluss beträgt in dieser Stichprobe 15% (=10%/2 +20%/2). Entsprechend berechnen sich die Werte in den anderen Stichproben. Von den 15 Stichproben ist in 3 Stichproben der Mittelwert mit dem Populationswert von 35% identisch, in 7 Stichproben weicht der Stichprobenmittelwert um maximal 5% vom Populationswert ab und in 11 Stichproben um maximal 10%. L18-2 Unverzerrtheit und Standardfehler von Schätzungen in Zufallsauswahlen Nr. Schulen % ohne Abschluss 1 1,2 10% , 20% 2 1,3 10% , 30% 3 1,4 10% , 40% 4 1,5 10% , 50% 5 1,6 10% , 60% 6 2,3 20% , 30% 7 2,4 20% , 40% 8 2,5 20% , 50% 9 2,6 20% , 60% 10 3,4 30% , 40% 11 3,5 30% , 50% 12 3,6 30% , 60% 13 4,5 40% , 50% 14 4,6 40% , 60% 15 5,6 50% , 60% Summe Durchschnittswert Mittelwert Stichprobenfehler quadrierter Fehler 15% –20 400 20% –15 225 25% –10 100 30% –5 25 35% 0 0 25% –10 100 30% –5 25 35% 0 0 40% 5 25 35% 0 0 40% 5 25 45% 10 100 45% 10 100 50% 15 225 55% 20 400 525.0% 0 1750 35.0% 0 116.667 Der Durchschnittswert über alle 15 möglichen Stichproben beträgt 35%, was genau gleich dem Populationswert ist. Infolgedessen ist der durchschnittliche Stichprobenfehler 0. Zufallsauswahlen, deren Durchschnittswert über alle Stichproben gleich dem Populationswert sind, werden als unverzerrt (engl.: unbiased) bezeichnet. Empirie: Quantitative Methoden L18-3 Unverzerrtheit und Standardfehler von Schätzungen in Zufallsauswahlen Nr. Schulen % ohne Abschluss 1 1,2 10% , 20% 2 1,3 10% , 30% 3 1,4 10% , 40% 4 1,5 10% , 50% 5 1,6 10% , 60% 6 2,3 20% , 30% 7 2,4 20% , 40% 8 2,5 20% , 50% 9 2,6 20% , 60% 10 3,4 30% , 40% 11 3,5 30% , 50% 12 3,6 30% , 60% 13 4,5 40% , 50% 14 4,6 40% , 60% 15 5,6 50% , 60% Summe Durchschnittswert Mittelwert Stichprobenfehler quadrierter Fehler 15% –20 400 20% –15 225 25% –10 100 30% –5 25 35% 0 0 25% –10 100 30% –5 25 35% 0 0 40% 5 25 35% 0 0 40% 5 25 45% 10 100 45% 10 100 50% 15 225 55% 20 400 525.0% 0 1750 35.0% 0 116.667 Der Durchschnittswert der quadrierten Stichprobenfehler beträgt 116.667. Bei unverzerrten Auswahlen wird die positive Quadratwurzel aus diesem Wert, 10.801 als Standardfehler (SE) bezeichnet. Je kleiner der Standardfehler ist, desto genauer ist im Durchschnitt die Schätzung einer Populationseigenschaft aus Stichprobendaten einer Zufallsstichprobe. Empirie: Quantitative Methoden L18-4 Einfache und Komplexe Zufallsauswahlen Über ein geeignetes Auswahlverfahren soll erreicht werden, dass Stichproben zu unverzerrten Schätzungen von Populationseigenschaften mit möglichst kleinen Standardfehlern führen. Bei einfachen Zufallsauswahlen ist garantiert, dass Populationsmittelwerte unverzerrt geschätzt werden. Außerdem gilt dann, dass die Höhe des Standardfehlers nur von der Unterschiedlichkeit der Werte in der Population und der Anzahl der Elemente in der Population und in der Stichprobe abhängt, wobei die Anzahl der Elemente in der Population bei relativ zur Stichprobe großen Populationen praktisch irrelevant ist. Die Stichprobenfallzahl ist dagegen von Bedeutung: Je größer die Stichprobenfallzahl, desto kleiner ist der Standardfehler. In der Praxis der quantitativen Sozialforschung ist es oft nicht möglich, einfache Zufallsauswahlen durchzuführen. Stattdessen werden meist geschichtete (stratifizierte, engl. stratified) und/oder (mehrstufige) Klumpenstichproben (engl. cluster sampling) gezogen. In beiden Situationen ist die Grundgesamtheit in eine (in der Regel sehr große) Zahl von Teilgruppen (Subpopulationen) zerteilt. Mehrstufige Auswahlen In einer Klumpenstichprobe wird in einem mehrstufigen Auswahlverfahren zunächst eine Anzahl von Teilgruppen, die „Klumpen“ (engl. Cluster), zufällig ausgewählt. Innerhalb dieser Teilgruppen werden dann in einer weiteren zufälligen Auswahl die eigentlich interessierenden Elemente ausgewählt. Empirie: Quantitative Methoden L18-5 Mehrstufige Auswahlen Dieses Vorgehen kann sich auch über mehr als zwei Stufen erstrecken. So werden bei persönlichen Interviews oft in einem ersten Schritt Orte (sample points) ausgewählt, innerhalb derer im zweiten Schritt Haushalte ausgewählt werden, innerhalb derer dann im dritten Schritt eine „Zielperson“ ausgewählt wird. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Schulen % ohne Abschluss Mittelwert 1,2 10% , 20% 15% 1,3 10% , 30% 20% 1,4 10% , 40% 25% 1,5 10% , 50% 30% 1,6 10% , 60% 35% 2,3 20% , 30% 25% 2,4 20% , 40% 30% 2,5 20% , 50% 35% 2,6 20% , 60% 40% 3,4 30% , 40% 35% 3,5 30% , 50% 40% 3,6 30% , 60% 45% 4,5 40% , 50% 45% 4,6 40% , 60% 50% 5,6 50% , 60% 55% Empirie: Quantitative Methoden Angenommen, im Beispiel der Schulauswahl gibt es zwei Teilgruppen, wobei die Schulen 1 bis 3 die ersten und die Schulen 4 bis 6 die zweite Gruppe bilden. Wird eine zweistufige Klumpenstichprobe gezogen, wobei in der ersten Stufe eines der beiden Cluster ausgewählt wird und in der Stufe innerhalb des ausgewählten Clusters zwei Schulen, dann reduziert sich die Zahl der möglichen Stichproben auf 6. Zur Kennzeichnung sind die bei diesem Vorgehen nicht realisierbaren Stichproben ausgestrichen. L18-6 Mehrstufige Auswahlen Nr. Schulen % ohne Abschluss 1 1,2 10% , 20% 2 1,3 10% , 30% 6 2,3 20% , 30% 13 4,5 40% , 50% 14 4,6 40% , 60% 15 5,6 50% , 60% Summe Durchschnittswert Mittelwert Stichprobenfehler quadrierter Fehler 15% –20 400 20% –15 225 25% –10 100 45% 10 100 50% 15 225 55% 20 400 210.0% 0 1450 35.0% 0 241.667 Auch bei der mehrstufigen Auswahl ist die Schätzung des Populationsmittelwerts mit einem Wert von 35% unverzerrt. Der Standardfehler der zweistufigen Klumpenstichprobe beträgt im Beispiel 15.546 = (241.667) und ist damit deutlich größer als der Standardfehler der einfachen Zufallsauswahl, der nur 10.801 beträgt. Der Grund für den größeren Standardfehler liegt darin, dass sich die Fälle (im Beispiel Schulen) innerhalb eines Clusters ähnlicher sind als die Fälle zwischen unterschiedlichen Clustern. So beträgt der Mittelwert der Schüler ohne Abschluss im ersten Cluster 20%, im zweiten Cluster dagegen 50%, im ersten Cluster sind also die erfolgreicheren, im zweiten die erfolgloseren Schulen. Dadurch, dass in den realisierbaren Stichproben jeweils ähnlichere Fälle sind als bei einer einfachen Zufallsauswahl, geht gewissermaßen relativ zur einfachen Zufallsauswahl Information verloren, was nur durch eine größere Stichprobe ausgeglichen werden kann. Empirie: Quantitative Methoden L18-7 Geschichtete Auswahlen Das Gegenteil zu mehrstufigen Klumpenauswahlen sind geschichtete Auswahlen. Kennzeichen einer geschichteten Auswahl ist, dass sich wiederum die Population aus Teilgruppen zusammensetzt, wobei bei einer geschichteten Auswahl in jeder Teilgruppe eine eigene Teilstichprobe gezogen wird. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Schulen % ohne Abschluss 1,2 10% , 20% 1,3 10% , 30% 1,4 10% , 40% 1,5 10% , 50% 1,6 10% , 60% 2,3 20% , 30% 2,4 20% , 40% 2,5 20% , 50% 2,6 20% , 60% 3,4 30% , 40% 3,5 30% , 50% 3,6 30% , 60% 4,5 40% , 50% 4,6 40% , 60% 5,6 50% , 60% Empirie: Quantitative Methoden Mittelwert 15% 20% 25% 30% 35% 25% 30% 35% 40% 35% 40% 45% 45% 50% 55% Für das Beispiel der Auswahl von zwei Schulen wird wiederum angenommen, dass es zwei Teilgruppen gibt, wobei die Schulen 1 bis 3 die ersten und die Schulen 4 bis 6 die zweite Gruppe bilden. Für die geschichtete Stichprobe wird aus jeder der beiden Gruppen jeweils eine Schule ausgewählt. Dann gibt es insgesamt 9 realisierbare Stichproben. Zur Kennzeichnung sind die bei diesem Vorgehen nicht realisierbaren Stichproben wiederum ausgestrichen. L18-8 Geschichtete Auswahlen Nr. Schulen % ohne Abschluss 3 1,4 10% , 40% 4 1,5 10% , 50% 5 1,6 10% , 60% 7 2,4 20% , 40% 8 2,5 20% , 50% 9 2,6 20% , 60% 10 3,4 30% , 40% 11 3,5 30% , 50% 12 3,6 30% , 60% Summe Durchschnittswert Mittelwert Stichprobenfehler quadrierter Fehler 25% –10 100 30% –5 25 35% 0 0 30% –5 25 35% 0 0 40% 5 25 35% 0 0 40% 5 25 45% 10 100 315.0% 0 300 35.0% 0 33.333 Wiederum ist die Schätzung des Populationsmittelwerts mit einem Wert von 35% unverzerrt. Der Standardfehler der geschichteten Auswahl beträgt im Beispiel 5.774 = (33.333) und ist damit kleiner als der Standardfehler von 10.801 bei einer einfachen Zufallsauswahl. Grund für den kleineren Standardfehler ist wiederum die Ähnlichkeit der Fälle innerhalb der Gruppen. Dadurch dass sichergestellt ist, dass in der Stichprobe alle Gruppen vertreten sind, ist garantiert, dass in jeder Stichprobe Schulen mit hohen und niedrigen Erfolgsquoten enthalten sind, was zum geringeren Standardfehler führt. Wenn sich die Elemente in den Teilgruppen allerdings genau so unterscheiden wie zwischen den Teilgruppen, dann führen einfache Zufallsauswahlen, Klumpenauswahlen und geschichtete Auswahlen zu gleichen Standardfehlern. Empirie: Quantitative Methoden L18-9 Zufallsauswahlen bei ungleichen Gruppengrößen In der Praxis weisen die Teilgruppen, die als Schichten bzw. Klumpen dienen, oft unterschiedlich große Fallzahlen aus. Um die Konsequenz unterschiedlich großer Klumpen oder Schichten zu verdeutlichen, wird das Schulbeispiel so abgeändert, dass die erste Gruppe aus den Schulen 1 bis 4 und die zweite aus den Schulen 5 und 6 besteht. Nr. Schulen % ohne Abschluss 1 1,2 10% , 20% 2 1,3 10% , 30% 3 1,4 10% , 40% 4 1,5 10% , 50% 5 1,6 10% , 60% 6 2,3 20% , 30% 7 2,4 20% , 40% 8 2,5 20% , 50% 9 2,6 20% , 60% 10 3,4 30% , 40% 11 3,5 30% , 50% 12 3,6 30% , 60% 13 4,5 40% , 50% 14 4,6 40% , 60% 15 5,6 50% , 60% Summe Durchschnittswert Empirie: Quantitative Methoden Mittelwert 15% 20% 25% 30% 35% 25% 30% 35% 40% 35% 40% 45% 45% 50% 55% 525% 35% Klumpenausw. x 15% x 20% x 25% x x x x geschicht. Ausw. x x 30% 35% x x 35% 40% x x x x 40% 45% 45% 50% 25% 30% 35% 55% 205% 29.286% 320% 40% L18-10 Zufallsauswahlen bei ungleichen Gruppengrößen Das Beispiel zeigt, dass bei ungleichen Gruppengrößen sowohl Klumpenstichprobe wie auch geschichtete Auswahlen zu verzerrten Schätzungen des Populationsmittelwerts führen. Dies tritt dann auf, wenn die Auswahlwahrscheinlichkeit ungleich großer Gruppen gleich groß sind. Da im Beispiel die erste Gruppe doppelt so groß ist wie die zweite Gruppe, steht auch ein ausgewählter Fall in der ersten Gruppe für doppelt so viele Fälle in der Population wie in der zweiten Gruppe. Um dies auszugleichen, sollte die Wahrscheinlichkeit, die erste Gruppe statt der zweiten auszuwählen, doppelt so hoch ein wie die Wahrscheinlichkeit, die zweite statt der ersten Gruppe auszuwählen. Die Auswahlwahrscheinlichkeit einer Gruppe ist dann proportional zur Gruppengröße. Erst dadurch wird sichergestellt, dass bei mehrstufigen Auswahlverfahren selbstgewichtende Stichproben resultieren, bei dem jeder Fall der Stichprobe für die gleiche Zahl von Fällen in der Population steht, bzw. jeder Fall der Population die gleiche Wahrscheinlichkeit hat, in die Stichprobe zu gelangen. Um eine selbstgewichtende Stichprobe im Schulbeispiel zu realisieren, haben die 6 Stichproben der ersten Gruppe also eine doppelt so hohe Auswahlwahrscheinlichkeit wie die einzig mögliche Stichprobe der zweiten Gruppe. Die Auswahlwahrscheinlichkeit einer Stichprobe aus der ersten Gruppe beträgt daher 2/31/6 = 2/18, die aus der zweiten Gruppe 1/31/1 = 1/3 = 6/18. Für die Berechnung des Durchschnittswertes müssen dann die Stichprobenmittelwerte und quadrierten Fehler mit den Auswahlwahrscheinlichkeiten multipliziert werden. Empirie: Quantitative Methoden L18-11 Zufallsauswahlen bei ungleichen Gruppengrößen Nr. Schulen % ohne Abschluss 1 1,2 10% , 20% 2 1,3 10% , 30% 3 1,4 10% , 40% 6 2,3 20% , 30% 7 2,4 20% , 40% 10 3,4 30% , 40% 15 5,6 50% , 60% Durchschnittswert Mittelwert Wahrsch. Mittelw.Wahrsch. quad. FehlerWahrsch. 15% 2/18 30/18 4002/18 20% 2/18 40/18 2252/18 25% 2/18 50/18 1002/18 25% 2/18 50/18 1002/18 30% 2/18 60/18 252/18 35% 2/18 70/18 02/18 55% 6/18 330/18 4006/18 18/18 630/18 = 35% 4100/18 = 227.778 Dadurch, dass die Ziehungswahrscheinlichkeiten proportional zur Größe der beiden Gruppen sind (und innerhalb der Cluster die Auswahlwahrscheinlichkeit gleich dem Kehrwert der möglichen Stichproben ist), sind die Schätzungen des Populationsmittelwerts unverzerrt. Der Standardfehler der zweistufigen Klumpenstichprobe ist 15.092 = (227.778) und damit etwas kleiner als bei zwei gleich großen Gruppen, aber immer noch deutlich größer als bei der einfachen Zufallsauswahl mit einem Wert von 10.801. Bei geschichteten Auswahlen wird die ungleiche Größen der Schichten dadurch berücksichtigt, dass bei der Berechnung der Mittelwerts in der Stichprobe die relative Schichtgröße einfließt. Um im Beispiel zu berücksichtigen, dass die zweite Schicht (Gruppe) halb so groß ist wie die erste Schicht, ist bei der Berechnung des Mittelwerts in den Stichproben der Wert der ersten Gruppe mit 2 zu multiplizieren und die Summe dann durch 3 (=2+1) zu teilen. Empirie: Quantitative Methoden L18-12 Zufallsauswahlen bei ungleichen Gruppengrößen Nr. Schulen % ohne Abschluss 4 1,5 10% , 50% 5 1,6 10% , 60% 8 2,5 20% , 50% 9 2,6 20% , 60% 11 3,5 30% , 50% 12 3,6 30% , 60% 13 4,5 40% , 50% 14 4,6 40% , 60% Summe Durchschnittswert Mittelwert . quadrierter Fehler 102/3+501/3 = 70/3 1225/9 102/3+601/3 = 80/3 625/9 202/3+501/3 = 90/3 225/9 202/3+601/3 = 100/3 25/9 302/3+501/3 = 110/3 25/9 302/3+601/3 = 120/3 225/9 402/3+501/3 = 130/3 625/9 402/3+601/3 = 140/3 1225/9 840/3 = 280 4200/9 = 466.667 35% 58.333 Durch die Berücksichtigung der ungleichen Schichtgrößen (Gruppengrößen) sind die Schätzungen des Populationsmittelwerts wiederum unverzerrt. Der Standardfehler beträgt nun 7.638 = (58.333). Er ist größer als der Standardfehler bei gleich großen Gruppen aber kleiner als der Standardfehler bei einer einfachen Zufallsauswahl. Empirie: Quantitative Methoden L18-13 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung In der Praxis der quantitativen Sozialforschung werden meist mehrstufige geschichtete Auswahlen gezogen, wobei innerhalb von Schichten zwei- oder dreistufige Klumpenauswahlen gezogen werden. Dabei ist zu unterscheiden, ob es eine Liste oder Kartei aller Elemente der interessierenden Population gibt, oder ob das nicht der Fall ist. • Im ersten Fall ist eine Karteiauswahl möglich: jedem Element der Population ist eine Karteikarte oder ein Datensatz in einer Datei zugeordnet. Ein Beispiel sind zufällige Auswahlen von Adressen aus dem Einwohnermeldeamt oder von Telefonnummern aus Telefonverzeichnissen, aus denen zufällig Elemente ausgewählt werden. • Wenn es keine Datei mit allen Elementen gibt, erfolgt in der Regel eine Gebietsauswahl: Auswahleinheiten sind geographisch definiert (Flächen), wobei die Gebiete oft so festgelegt werden dass die Zahl der Elemente pro Gebiet gleich groß ist. Gebietsauswahlen sind stets Klumpenauswahlen. Auf der ersten Stufe werden zufällig die Gebiete (sog. sample-points) ausgewählt. Innerhalb eines Sample-Points erfolgt dann oft ein sogenannter Random-Walk, d.h. ausgehend von einem festen Startpunkt wird nach Zufallsregeln ein Weg durch das Gebiet ausgewählt und die Stichprobenelemente auf diesem Weg aufgesucht. Bei einer Befragung ergibt für den Interviewer etwa folgende Vorschrift „Gehe zunächst nach links bis zur nächsten Kreuzung. Dann rechts, dann wieder links ... . Jeder 6. Haushalt ist zu notieren.“ Empirie: Quantitative Methoden L18-14 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung Bei allgemeinen Bevölkerungsumfragen über persönliche Interviews werden in der Praxis beide Strategien angewendet: • Karteiauswahlen erfolgen über Adressen aus Einwohnermeldeämtern. Da es in der BRD kein zentrales (öffentliches) Adressregister gibt, werden dabei zweistufige Klumpenauswahlen realisiert. Im ersten Schritt werden zufällig (mit Ziehungswahrscheinlichkeiten proportional zur Zahl der jeweiligen Einwohner) und innerhalb von Schichten Orte ausgewählt und in diesen Orten dann im zweiten Schritt aus den Einwohnermeldeamtsregistern Adressen gezogen. Letzteres erfolgt oft über eine systematische Zufallsauswahl. Von den ersten n Elementen einer Datei wird eines zufällig ausgewählt und von diesem Element ausgehend dann jedes nte Element in die Stichprobe aufgenommen. Formal handelt es sich hier um eine Clusterauswahl, bei der alle Elemente eines einzigen von insgesamt n Clustern ausgewählt werden. Sinnvoll ist dies nur, wenn die Adressdatei nicht systematisch sortiert ist, da anderenfalls die Chance steigt, dass die Eigenschaften in der realisierten Stichprobe deutlich von den interessierenden Populationseigenschaften abweichen. • Gebietsauswahlen professioneller Befragungsinstitute nutzen das sogenannte ADM-Design (ADM steht für „Arbeitskreis deutscher Marktforschungsinstitute“). In einer dreistufigen Klumpenauswahl werden auf der ersten Stufe Sample-Points aus synthetischen (künstlichen) Wahlkreisen gezogen, wobei sich diese Wahlkreise von den realen Wahlkreisen dadurch unterscheiden, dass sie hinsichtlich der Bevölkerungsgröße und -zusammensetzung stärker standardisiert sind. Empirie: Quantitative Methoden L18-15 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung Die Gesamtheit der synthetischen Wahlkreise ist in sog. Netze aufgeteilt, wobei jedes Netz eine geografisch stratifizierte Zufallsauswahl aus der Gesamtheit ist. Die Mitglieder des ADM haben jeweils eine Reihe dieser Netze erworben. Ausgehend von einer Startadresse im Wahlkreis erfolgt die zweite Stufe der Auswahl von Haushalten über einem Random-Walk. Dabei werden drei unterschiedliche Methoden angeboten: • Random-Walk mit Adressvorlauf: In einem Random-Walk werden zunächst nur die Adressen aufgeschrieben. Erst in nachfolgenden Kontaktversuchen (möglichst durch andere Personen) werden die Adressen für die Interviews kontaktiert. • Random-Walk ohne Adressvorlauf mit Brutto-Vorgabe: Bereits bei der Adressermittlung im Random-Walk wird erstmals versucht, die ausgewählten Adressen zu kontaktieren. Pro Sample-Point wird eine vorgegebene Anzahl von Adressen (z.B. 10 oder 20) ermittelt. Wenn eine ermittelte Adresse bzw. Zielperson nicht kontaktiert werden kann, erfolgen später weitere Kontaktversuche. • Random-Walk ohne Adressvorlauf mit Netto-Vorgabe: Im Unterschied zum Random-Walk mit Brutto-Vorgabe ist nicht die Zahl der zu kontaktierenden Adressen pro Sample-Point begrenzt. Stattdessen ist festgelegt, wie viele Interviews in einem Sample-Point realisiert werden sollen (z.B. 10). Empirie: Quantitative Methoden L18-16 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung Innerhalb eines Haushalts erfolgt auf der dritten Stufe die Auswahl eines Haushaltsmitglieds, die sogenannte Zielperson, wiederum zufällig. Dazu wird oft der sogenannte Schwedenschlüssel genutzt, das ist eine Zufallsliste, über die aus der zunächst erfragten Anzahl aller in Frage kommenden Haushaltsmitglieder eine Person ausgewählt wird. Alternativ wird über die „last birthday“- bzw. „next birthday“-Methode die Person ausgewählt, die als letztes bzw. nächstes Geburtstag hat. Obwohl die zweistufige Karteiauswahl stärker geklumpt ist, als die Auswahl über das ADMDesign, hat sich die Stichprobenqualität bei Karteiauswahlen empirisch als besser erwiesen. Ursache hierfür ist vermutlich, dass bei der Auswahl der Zielpersonen Interviewer bzw. Adressermittler keinen Spielraum haben. Beim Random-Walk können dagegen bei der Adressermittlung eher Adressen notiert werden, die evtl. mehr Erfolg versprechen. Dies gilt vor allem, wenn kein unabhängiger Adressvorlauf erfolgt. Wenn zudem nur die Zahl der Nettoadressen festgelegt ist, hat es ein Interviewer leichter, wenn er bereit im ersten Versuch möglichst viele Haushalte kontaktiert. Auch bei der Auswahl der Zielperson kann der Interviewer eher als bei der Karteiauswahl versuchen, zugunsten leichter zu realisierender Interviews von den vorgegebenen Auswahlregeln abzuweichen. Auf der anderen Seite ist bereits die Adressermittlung bei der Karteiauswahl in Deutschland sehr kostspielig. Deutlich preiswerter sind Random-Walks im ADM-Design, insbesondere, wenn kein getrennter Adressvorlauf erfolgt. Empirie: Quantitative Methoden L18-17 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung Beim ADM-Design gibt es institutsspezifische Abweichungen. So fassen einige Erhebungsinstitute ihre Netze zusammen und generieren daraus neue Teilnetze. Nicht unüblich ist es zudem, ganze Sample-Points auszutauschen, wenn sich im Feld zeigt, dass die Zahl der Interviews in einem ursprünglich ausgewählten Sample-Point zu gering ist. Das Allensbacher Institut für Demoskopie verzichtet nach eigenen Angaben innerhalb der Sample-Points auf Zufallsauswahlen und realisiert stattdessen Quotenauswahlen. Die Zufälligkeit der Auswahl soll dadurch sichergestellt sein, dass die Interviewerzusammensetzung der der Bevölkerung entspricht. Bei allgemeinen Bevölkerungsumfragen über Telefoninterviews werden zweistufige Auswahlen eingesetzt. Auf der ersten Stufe erfolgt die Auswahl einer Telefonnummer • zufällig aus einem Verzeichnis von Telefonnummern • oder durch zufällige Generierung von Zahlen, die als Telefonnummern dienen. • Beim Random-Digit-Verfahren: erzeugt ein Zufallszahlengenerator die vollständige Nummer. • Beim Random-Last-Digits-Verfahren (RLD) werden aus einer Telefonnummerndatei zufällig Nummern gezogen. Dann werden die letzten Ziffern durch mit einen Zufallszahlengenerator erzeugte Ziffern ersetzt. Empirie: Quantitative Methoden L18-18 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung • Bei der zufälligen Auswahl aus dem Universum gültiger Blöcke (in der BRD nach den Propagisten dieses Verfahrens auch als Gabler-Häder-Verfahren bezeichnet) werden zunächst alle Telefonnummern aus Verzeichnissen in eine Datei geschrieben. Anschließend werden die letzten Ziffern entfernt und Dubletten (d.h. Nummern mit gleichen ersten Ziffern) entfernt. Die so gebildeten Blöcke werden zu einem vollständigen Universum möglicher Telefonnummern ergänzt, aus denen zufällig Nummern angewählt werden. Die letzten beiden Methoden werden verwendet, weil die Telefonbücher wegen fehlender Einträge nicht alle Nummern enthalten und das rein zufällige Generieren von vollständigen Telefonnummern zu viele nicht existente Nummern erzeugt. Auf der zweiten Auswahlstufe wird dann eine Zielperson in der Regel nach der „last birthday“oder der „next birthday“-Methode ermittelt. Bevölkerungsumfragen beziehen sich i.a. auf die in Privathaushalten lebende Wohnbevölkerung ab einem vorgegebenen Alter. Personen, die hierunter nicht fallen, z.B. Obdachlose oder die Anstaltsbevölkerung in Heimen, Gefängnissen oder Kasernen werden so von vornherein ausgeschlossen. Allgemeine Bevölkerungsumfragen werden in der BRD zudem i.a. nur auf Deutsch geführt. Dies führt dazu, dass auch Personen ohne hinreichende Deutschkenntnisse ausgeschlossen werden. Empirie: Quantitative Methoden L18-19 Realisierung von Zufallsauswahlen in der quantitativen Sozialforschung Schwierig ist oft die Auswahl einer Spezialpopulation, etwa die Auswahl von Vätern, die von ihren Kindern getrennt leben. Eine Möglichkeit besteht darin, Kontaktinterviews mit der Wohnbevölkerung zu führen und nur bei Vorliegen des interessierenden Merkmals (im Beispiel Väter, die von ihren Kindern getrennt leben) ein vollständiges Interview zu führen. Eine andere Möglichkeit besteht darin, zunächst in anderen Umfragen Adressen bzw. Telefonnummern von Zielpersonen zu sammeln und diese in einem zweiten Schritt erneut zu kontaktieren. Markt- und Meinungsforschungsinstitute bieten seit einiger Zeit Befragungen in einem sogenannten Access-Panel an. Die Institute haben dazu Adressdateien mit einer sehr großen Anzahl von Personen zusammengestellt, die sich bereit erklärt haben, an Umfragen teilzunehmen. Es wird behauptet, dass (einfache) Zufallsauswahlen aus diesen Dateien zu Stichproben führen, die die gleiche Qualität haben wie Zufallsauswahlen aus der Wohnbevölkerung. Stichproben der Sozialforschung beziehen sich nicht nur auf Personen. So können auch Stichproben aus Organisationen und Einrichtungen, etwa Schulen, Krankenhäuser oder Unternehmen gezogen werden. Schwierig werden Auswahlen immer dann, wenn keine Karteiauswahlen möglich sind. Empirie: Quantitative Methoden L18-20 Literaturhinweise: • Schnell u.a., 6. • Diekmann, B. IX. Empirie: Quantitative Methoden L18-21