310 Beiträge aus der Statistik Das Korrekturverfahren beim Zensus 2011 Dipl.-Geogr. Katrin Hofmeister, Dr. Michael Fürnrohr Beim Zensus 2011 wurde in Gemeinden mit 10 000 oder mehr Einwohnern eine Haushaltsstichprobe durchgeführt. Zweck dieser Stichprobe war neben der Erhebung von nicht in Registern verfügbaren Daten primär die gemeindeweise Gewinnung von demographischen und haushaltsstatistischen Informationen zu Über- und Untererfassungen (Karteileichen und Fehlbestände) in den Melderegistern. Mit diesen Informationen sollen die potenziellen Fehler einer unkontrollierten Registerauszählung vermieden werden. Um einen qualitativ hochwertigen, fachlich und regional flexibel auswertbaren Zensuseinzeldatensatz zu erhalten, muss eine Bereinigung der Karteileichen und Fehlbestände auf der Basis der Einzeldaten vorgenommen werden. Zu diesem Zwecke war es erforderlich, ein Verfahren zu entwickeln, welches die gemeindeweise aggregierten Vorgaben aus der Haushaltsstichprobe möglichst genau umsetzt. Es ist zu berücksichtigen, dass eine solche Korrektur der Einzeldaten nur statistisch erfolgen konnte, d. h. nicht die buchhalterisch betrachtete „Richtigkeit“ des Einzelfalls war relevant und auch realisierbar, sondern die strukturelle Qualität der Zensusergebnisse. 1. Einführung kalen Finanzausgleich und dient der Berechnung der Ein Zensus oder eine Volkszählung ist eine Inventur, Stimmen der Länder im Bundesrat sowie der Sitze in die Bestands- und Strukturdaten zu Bevölkerung, den kommunalen Vertretungskörperschaften. Ange- Wohnen und Erwerbstätigkeit auch kleinräumig er- sichts ihrer Bedeutung für das demokratische Staats- hebt und damit im Rahmen des statistischen Gesamt- wesen und der Finanzbeziehungen zwischen Bund, systems neue Basiszahlen für Fortschreibungen und Ländern und Gemeinden kommt der Genauigkeit der Stichprobenerhebungen ermittelt. ermittelten Zahlen eine herausragende Bedeutung zu. Beispielsweise fällt jeder Einwohner beim Länderfi- Amtliche Einwohnerzahlen nanzausgleich mit ca. 2 000 Euro ins Gewicht. An die Insbesondere dient ein Zensus der Feststellung der Feststellung der amtlichen Einwohnerzahlen sind da- amtlichen Einwohnerzahlen (Zahl der Personen mit her besondere Anforderungen zu stellen, die über die Hauptwohnsitz) für Bund, Länder und Kommunen. üblichen Anforderungen an die statistischen Verfahren Diese haben eine Vielzahl von unmittelbaren Auswir- und Ergebnisse hinausgehen. kungen auf die einzelnen Gebietskörperschaften, auch mit direkten finanziellen Folgen, z. B. beim kommu- Erkenntnisse des Zensustests 2001 nalen Finanzausgleich. Außerdem besitzen die amt- Im Rahmen des registergestützten Zensus 2011 bil- lichen Einwohnerzahlen eine hohe Bedeutung über den die Melderegister die Grundlage für die Ermitt- den Zensusstichtag hinaus. Sie bilden die Grundlage lung der Einwohnerzahlen und der demographischen für die Bevölkerungsfortschreibung, mit der zwischen Grunddaten zu Alter, Geschlecht, Familienstand und den Zensus in regelmäßigen Abständen die amtlichen Staatsangehörigkeit. Zur Vorbereitung des Zensus Einwohnerzahlen für Bund, Länder und Gemeinden 2011 wurde im Jahr 2001 ein umfangreicher Zen- nachgewiesen werden. Die amtliche Einwohnerzahl sustest durchgeführt. Hierbei hat sich herausgestellt, wird in rund 50 Rechtsvorschriften als eine wichtige dass die Melderegister Fehler hinsichtlich ihrer Voll- Bemessungsgrundlage verwendet. Sie ist unter an- zähligkeit aufweisen. Sie beinhalten sowohl Kartei- derem die Richtgröße für den horizontalen und verti- leichen (Personen, die an einer Anschrift gemeldet, Bayern in Zahlen 6|2014 Beiträge aus der Statistik dort aber tatsächlich nicht wohnhaft sind) als auch dieser Haushaltebefragung auf Stichprobenbasis ist Fehlbestände (Personen, die an einer Anschrift nicht es, den Umfang der Karteileichen und Fehlbestän- gemeldet, dort aber tatsächlich wohnhaft sind). Die de im Melderegister je Gemeinde zu schätzen und Ursachen sind im Wesentlichen auf das Meldever- darauf basierend die Zahl der im Melderegister ver- halten der Bürgerinnen und Bürger zurückzuführen. zeichneten Personen zu korrigieren. Damit folgt der Beispiele sind Studentinnen und Studenten, die am deutsche Zensus methodisch Vorbildern aus ver- Studienort leben, aber noch bei den Eltern gemeldet schiedenen Ländern, u. a. auch Israel.1 311 sind, ältere Menschen in Heimen, die noch bei ihren Nachkommen gemeldet sind oder Ausländer, die oh- Problemstellung: Umsetzung der ermittelten Re- ne Abmeldung in ihre Heimatländer zurückgekehrt gisterfehler in den Einzeldatensatz sind. Defizite im Verwaltungsvollzug, z. B. Personen, Zur Gewinnung eines qualitativ hochwertigen Einzel- die mehrfach mit Hauptwohnung gemeldet sind, ma- datenbestandes sind je Gemeinde die aus den Mel- chen nach den Erkenntnissen des Zensustests hin- deregistern gewonnenen Datensätze um die Ergeb- gegen nur rund ein Fünftel des Registerfehlers aus. nisse zu den Registerfehlern aus der Stichprobe zu korrigieren. Diese Umsetzung der Stichprobenergeb- Ferner hat sich im Zensustest gezeigt, dass die Hö- nisse kann letztlich nur dadurch erfolgen, dass die he der Registerfehler abhängig von der Größe der Zahl der Personendatensätze im Melderegisterbe- Gemeinde ist. Wie aus der Tabelle 1 ersichtlich wird, stand einer Gemeinde durch Löschungen bzw. Im- weisen Gemeinden mit weniger als 10 000 Einwoh- putationen um den aus der Stichprobe geschätzten nern deutlich geringere Karteileichen- und Fehlbe- Wert an Karteileichen und Fehlbeständen reduziert standsraten auf als dies bei größeren Gemeinden bzw. erhöht wird. Im Ergebnis dieser Maßnahmen – vor allem aber bei Großstädten – der Fall ist. entspricht dann die Zahl der Personendatensätze einer Gemeinde der korrigierten Einwohnerzahl. Hier- Haushaltsstichprobe zur Qualitätssicherung bei ergeben sich jedoch vier Probleme: Der Zensustest hat letztlich gezeigt, dass die Melderegister grundsätzlich zur Ermittlung der amtlichen •Nach den Ergebnissen des Zensustests weisen Einwohnerzahlen und demographischer Basisdaten Karteileichen und Fehlbestände eine signifikant an- in einem Zensus geeignet sind. Er hat aber auch ver- dere demographische und haushaltsstatistische deutlicht, dass Maßnahmen zur Qualitätssicherung Struktur auf als die Grundgesamtheit der Bevöl- unumgänglich sind, um die erforderliche Qualität der kerung einer Gemeinde. Ein rein zufälliges Lö- Ergebnisse zu erreichen. Als wichtigste Maßnahmen schen oder Hinzufügen von Personendatensätzen für den Zensus 2011 hat der Gesetzgeber in § 7 Ge- in den Melderegisterdaten würde implizit unterstel- setz über den registergestützten Zensus im Jahre len, dass die Verteilung der Merkmale bei den Kar- 2011 (Zensusgesetz 2011 – ZensG 2011) die Durch- teileichen bzw. Fehlbeständen der Verteilung der führung einer primärstatistischen Haushaltebefra- Grundgesamtheit entspräche. Ein solches Vorge- gung auf Stichprobenbasis in Gemeinden mit min- hen würde zwar zu einer korrekten amtlichen Ein- destens 10 000 Einwohnern im Umfang von knapp wohnerzahl führen, hätte aber je nach Umfang der 10 % der Gesamtbevölkerung angeordnet. Hauptziel Registerfehler eine mehr oder weniger starke Ver- Tab. 1 Karteileichen- und Fehlbestandsraten aus dem Zensustest 2001 Bevölkerung am Ort der Hauptwohnung im Zensustest 2001 Personen im Melderegister Bundesland bzw. Gemeindegrößenklasse 1 000 Bayern .............................................................. 11 957,5 Karteileichen 1 000 307,9 Fehlbestände % 2,6 1 000 % 211,6 1,8 Gemeinden mit Einwohnern von … bis unter … unter 10 000 ..................................................... 10 000 bis 50 000 ............................................ 50 000 bis 800 000 .......................................... 800 000 oder mehr .......................................... Deutschland Bayern in Zahlen 6|2014 22 26 23 6 947,5 112,7 944,5 980,2 459,5 643,4 801,6 416,3 2,0 2,5 3,4 6,0 303,6 384,4 509,3 207,1 1,3 1,3 2,1 3,0 79 984,9 2 320,8 2,9 1 368,4 1,7 1 Weitere Informationen können in dem Artikel „The 2008 Israel Integrated Census of Population and Housing – Basic conception and procedure“ von Charles S. Kamen nachgelesen werden (veröffentlicht unter www.cbs.gov.il/mifkad/census2008_e.pdf). 312 Beiträge aus der Statistik zerrung der demographischen und haushaltsstatis tischen Ergebnisse zur Folge. •Die Haushaltsstichprobe liefert nur eingeschränkte Informationen zu den Registerfehlern. So sind neben den bivariaten Verteilungen Geschlecht/ Grundstruktur der Korrektur der Registerfehler Abb. Abb. 4 Abb. Stichprobe weiteren Merkmalen nur die Randverteilungen der Einzeldaten (z. B. nur Altersklassen und keine Einzelaltersjahre) mit einem vertretbaren Stichprobenfehler ermittelbar. Für eine fachlich vollständig verzerrungsfreie Korrektur wäre aber die unbekannte vollständige multivariate Verteilung der Karteileichen und Fehlbestände erforderlich. •Darüber hinaus treten Karteileichen und Fehlbe- Korrektur der Stichprobenanschriften Abb. Abb. 7 Statistische Korrektur der Nicht-StichprobenAbb. 8 anschriften Abb Abb. 9 Die Korrektur bewirkt die Herstellung vollzähliger Zensuseinzeldatensätze, die flexible Abb. 10 Auswertungen ermöglichen. Bei den verbleibenden rund 90 % der Anschriften in getrennten Korrektur der Karteileichen und der Gemeinden mit mindestens 10 000 Einwohnern sind Fehlbestände durch Löschungen bzw. Imputati- die tatsächlichen Registerfehler im Sinne von Einzel- onen. fällen unbekannt. Bekannt sind lediglich die aus der •Ferner hätte eine rein durch Zufallsverfahren ge- Haushaltsstichprobe (geschätzte) Summe der Fälle steuerte Korrektur die Entstehung unplausibler sowie deren Randverteilungen zu demographischen Haushaltsergebnisse zur Folge. und haushaltsstatistischen Merkmalen. Aufgrund dieser unvollständigen Information ist es weder möglich Zur Gewinnung qualitativ hochwertiger Zensuser- eine buchhalterisch betrachtete „richtige“ Korrektur gebnisse benötigte man also ein sehr viel komple- der Einzeldaten vorzunehmen, noch eine statistisch xeres Verfahrens als das bloße Löschen und Hinzu- „optimale“ Korrektur durchzuführen, da hierfür die fügen von Datensätzen. Im Zuge der Vorbereitung Kenntnis der vollständigen multivariaten Verteilung des Zensus 2011 hat das Bayerische Landesamt für aller Merkmale erforderlich wäre. Unter diesen Prä- Statistik und Datenverarbeitung ein Verfahren ent- missen ist eine statistisch hinreichende Korrektur wickelt, das eine weitgehend verzerrungsfreie Kor- der Registerfehler dann gegeben, wenn die Rand- rektur ermöglicht. Die Grundzüge dieses Verfahrens verteilungen der korrigierten, also der gelöschten werden im Folgenden vorgestellt. bzw. imputierten Einzeldaten den aus der Stichprobe geschätzten Randverteilungen dieser Merkmale 2. Modell und Ablauf des Korrekturverfahrens entsprechen. Eine optimale Lösung im Sinne völlig verzerrungsfreier demographischer und haushaltsstatistischer Exkurs Ranking Abb. Hochgerechnete Abb. 5 Ergebnisse Abb. 6 stände nur in sehr seltenen Fällen in einem Haushaltszusammenhang auf. Es bedarf daher einer Abb. 1 Abb. 2 Korrektur der Melderegisterdaten anhand der Ergebnisse der Stichprobe Abb. 3 Staatsangehörigkeit und Geschlecht/Alter von den Merkmale mit eingeschränkten Ausprägungen Abb. 1 Ergebnisse ist nur bei vollständiger Information über Eine wichtige Hilfsgröße bei der näherungswei- alle Karteileichen und Fehlbestände gegeben. Im sen Bestimmung der Verteilung von Karteileichen Modell des Zensus ist diese Information aber nur bildet das aus der Haushaltegenerierung gewon- für die im Rahmen der Haushaltsstichprobe primär- nene Merkmal „Ranking“. In der Haushaltegenerie- statistisch erhobenen knapp 10 % der Anschriften rung werden in der sog. Phase A – vereinfacht dar- in Gemeinden mit mindestens 10 000 Einwohnern gestellt – Haushalte anhand von Verzeigerungen des verfügbar und wird auch unmittelbar genutzt. Dies Melderegisters (Nachweise von Ehepaaren und Kin- bedeutet, dass hier eine anschriftenscharfe Korrek- dern) sowie sog. harten Generierungskriterien gebil- tur der festgestellten Karteileichen und Fehlbestände det und über die in der Gebäude- und Wohnungs- stattfindet (vgl. Abbildung 1). zählung (GWZ) erhobenen Namen von Bewohnern Bayern in Zahlen 6|2014 Abb Abb Abb Abb. Beiträge aus der Statistik von Wohnungen mit den Wohnungsdaten verknüpft.2 tenheimen untergebracht sind, aber noch bei ihren Nach dieser Phase der Haushaltegenerierung ist das Nachkommen gemeldet sind), während es kaum Merkmal Ranking bei jeder Person gefüllt und weist Fälle gab, bei denen über 60-Jährige an Anschriften eine der folgenden Ausprägungen auf: lebten, an denen sie nicht gemeldet waren. 313 1. Person wurde über die Wohnungsnutzeranga ben mit der Wohnung (Modul 2 der Phase A) verknüpft. 2. Person wurde über eine andere Person mit der Wohnung (Modul 4 der Phase A) verknüpft. 3. Unverknüpfte Person mit deutscher Staatsangehörigkeit. 4. Unverknüpfte Person mit ausländischer Staats- Aufgrund dieser signifikanten Verteilungsunter- schiede würde eine saldierte Korrektur von Karteileichen und Fehlbeständen zu erheblichen demographischen Verzerrungen führen. Es bedarf also eines zweigleisigen Verfahrensansatzes. In Abbildung 2 kann man die beiden Komponenten des Korrekturverfahrens erkennen. angehörigkeit. Verknüpft bzw. unverknüpft zeigt dabei an, ob eine Person bereits mit einer Wohnung zusammengeführt werden konnte (verknüpft mit einer Wohnung) oder Korrekturverfahren für Gemeinden mit 10 000 oder mehr Einwohnern nicht (unverknüpft). Nach den Erkenntnissen des Zensustests weist das MODUL 5 Korrektur von Karteileichen Ranking, also der Status nach Phase A „verknüpft“ oder „unverknüpft“, in Hinblick auf das Vorkommen von Karteileichen bemerkenswerte Unterschiede auf. So waren im Zensustest nur etwa 1 % der ver- Abb. 11 Abb. 21 Abb. 2 Abb. 12 Abb. 22 Abb. 3 Abb. 13 Abb. 23 Abb. 4 Abb. 14 Abb. 24 Zweigleisige Korrektur der KarteileichenAbb. 1 und Fehlbestände MODUL 6 Imputation von Fehlbeständen knüpften Personen Karteileichen, während bei den unverknüpften Personen insgesamt rund 17 % und Abb. 5 Abb. 15 Abb. 25 Abb. 6 Abb. 16 Abb. 26 Abb. 7 Abb. 17 Abb. 27 Abb. 8 Abb. 18 Abb. 28 Abb. 9 Abb. 19 Abb. 29 Abb. 10 Abb. 20 Abb. 30 bei den unverknüpften ausländischen Personen so- Um eine Löschung/Imputation einzelner Personenda- gar etwa 33 % Karteileichen waren. Aufgrund dieser tensätze so zu realisieren, dass die Randverteilungen erheblichen Unterschiede kann man sich bei Kennt- der Gesamtzahl der Löschungen/Imputationen den nis dieser Werte der vollständigen multivariaten Ver- aus der Stichprobe geschätzten Randverteilungen teilung von Karteileichen sehr viel besser annähern entsprechen, bedarf es der Kenntnis der vollstän- als bei alleiniger Kenntnis der Randverteilungen digen multivariaten Verteilung. Da diese, wie ein- der rein demographischen Merkmale. Aus diesem gangs erwähnt, nicht vorliegt, bedarf es vor der ei- Grund erfolgt im Rahmen der Haushaltsstichprobe gentlichen Korrektur der Schätzung der multivariaten neben der Schätzung der demographischen Struk- Verteilung mittels eines Näherungsverfahrens. tur der Karteileichen in einer Gemeinde auch die Schätzung des Rankings. Approximation der multivariaten Verteilung Das hierzu verwendete Verfahren lehnt sich an die Getrennte Behandlung von Karteileichen und aus dem Operations Research bekannte Monte-Car- Fehlbeständen lo-Methode an, die auf einer Zufallsauswahl basiert. Die Ergebnisse des Zensustests haben auch ge- Ausgangspunkt bildet zunächst die Annahme, dass zeigt, dass Karteileichen und Fehlbestände sehr die demographischen Merkmale statistisch unab- unterschiedliche demographische Strukturen auf- hängig und somit die Wahrscheinlichkeiten multipli- weisen. So sind Fehlbestände im Durchschnitt deut- kativ verknüpfbar sind. Dies erscheint zunächst nicht lich jünger als Karteileichen, ein Indiz für eine mo- sinnvoll, da Fälle entstehen, die zwar rechnerisch ei- bile Bevölkerungsgruppe. Demgegenüber wurden ne Wahrscheinlichkeit größer Null aufweisen, real im Zensustest Karteileichen in der Gruppe der über aber nicht existieren. So sei beispielsweise die Wahr- 60-Jährigen nachgewiesen (z. B. Personen, die in Al- scheinlichkeit für die Altersklasse unter sechs Jah- Bayern in Zahlen 6|2014 2 Weitere Informationen zu diesem Verfahren können in dem Artikel von Ingrid Kreuzmair und Marco Reisch „Zensus 2011: Ablauf der Haushaltegenerierung“ in Bayern in Zahlen 9/2012 nachgelesen werden. 314 Beiträge aus der Statistik re gleich p1 und die Wahrscheinlichkeit für verwitwet Bei der Allokation der reinen Fehlbestandshaushalte p2. Dann ergäbe sich bei Unabhängigkeit die posi- (ganze Haushalte werden in noch nicht belegte Woh- tive Wahrscheinlichkeit p1 x p2, obgleich verwitwete nungen imputiert) werden neben der Wohnungsgrö- Kinder unter sechs Jahren real nicht vorkommen. Um ße Anschrifteninformationen genutzt, um eine mög- diese Unzulänglichkeit der Unabhängigkeitsannah- lichst genaue Zuordnung zu Wohnungen möglich me auszugleichen, wird in dem iterativen Prozess je- zu machen. Hierbei wird vor allem die Relation von de Merkmalskombination dahingehend überprüft, ob momentan vorhandenen Wohnungen zu momen- es in der Grundgesamtheit eine Person gibt, die diese tan vorhandenen Haushalten pro Anschrift betrach- Merkmalskombination aufweist. Letztlich können nur tet, um potentielle Anschriften für die Imputation zu Personendatensätze gelöscht oder gedoppelt wer- identifizieren. den, die in der Realität auch existieren. Auf diese Weise werden die unbekannten Kovarianzen zwischen Werden gemischte Fehlbestandshaushalte imputiert den Merkmalen näherungsweise modelliert. Dieser (einzelne Personen bzw. Teilhaushalte), so werden Verfahrensteil wird in Kapitel 3 näher erläutert. diese mit bestehenden Haushalten zusammengeführt. Dabei wird versucht, möglichst die Informati- Löschung der Karteileichen/Doppelung der zu im- onen des „Herkunftshaushaltes“ zu nutzen, um eine putierenden Fehlbestände möglichst gute Nachbildung zu erlangen. Bei der eigentlichen Löschung der Karteileichen werden die Karteileichen anhand der Ergebnisse der In Abbildung 3 wurden an der Anschrift „Hauptstraße Approximation und des haushaltsstatistischen An- 2“ zwei (Teil)Haushalte gedoppelt: passungsrahmens durch ein iteratives Verfahren • Ein kompletter Dreipersonenhaushalt statistisch ausfindig gemacht und gelöscht. Metho- • Zwei Personen aus einem Vierpersonenhaushalt disch analog dazu erfolgt die Doppelung der zu imputierenden Datensätze. Hierbei werden real in dem Die Haushalte an der Anschrift „Hauptstraße 2“ blei- Datensatz existierende Personen gedoppelt und in ben erhalten. Für die beiden duplizierten Haushalte einem späteren Verfahrensschritt an eine bestehen- werden nun geeignete Anschriften gesucht und an- de Anschrift in der Gemeinde imputiert. schließend erfolgt die Imputation. In diesem Beispiel wird der komplette Dreipersonenhaushalt in eine Im Gegensatz zur Löschung der Karteileichen ist es noch nicht durch einen Haushalt belegte, jedoch in bei der Korrektur der Fehlbestände notwendig, wie- der GWZ als bewohnt gemeldete Wohnung imputiert. der eine geeignete Wohnung bzw. einen geeigneten Die zwei Personen aus dem Vierpersonenhaushalt Teilhaushalt im Datenbestand ausfindig zu machen. werden an einem bestehenden Zweipersonenhaus- Doppelung und Allokation der Fehlbestandshaushalte Doppelung der Fehlbestände aus dem Ausgangsbestand Hauptstraße 2 Wohnung 1 Gedoppelte (Teil-)Haushalte Allokation und Imputation der Fehlbestände Abb. 1 Abb. 1 Abb. 2 Abb. Abb. 3 Abb. Abb. 4 Abb. Abb. 5 Abb. Abb. 6 Abb Ahornweg 5Abb. 7 Abb Abb. Wohnung 1 8 Abb Abb. 9 Abb Abb. 10 Abb. Einsteinstraße 12 Wohnung 2 Wohnung 1 Wohnung 2 Bayern in Zahlen 6|2014 Beiträge aus der Statistik halt im Ahornweg 5 angefügt. Damit wird die Struktur le 2 dargestellt. Die Darstellung des Verfahrens der des Herkunftshaushaltes nachgebildet. Approximation erfolgt anhand der HauptwohnungsKarteileichen. Im Folgenden wird der Schwerpunkt des Artikels auf die Methodik der Approximation gelegt. 3.2 Approximation Definition der Merkmalsklassen 3.Darstellung des Verfahrensablaufs der Appro- Die Approximation hat die Aufgabe, aus den in Tabel- ximation der multivariaten Verteilungen an einem le 2 dargestellten uni- und bivariaten Merkmalen die Beispiel multivariaten Merkmale zu ermitteln. Betrachtet man 3.1 Ausgangsdaten aus der Haushaltsstichprobe in unserem Beispiel die Ausprägungen der fünf demo- Zur verständlicheren Darstellung des Verfahrens graphischen Merkmale und des Merkmals Ranking, wird eine fiktive Gemeinde („Beispielgemeinde“) ge- so besteht die vollständige multivariate Verteilung un- wählt. Die Daten der Beispielgemeinde sind in Tabel- ter der Annahme der Unabhängigkeit theoretisch aus Tab. 2 Demographischer Anpassungsrahmen und Ranking in der Beispielgemeinde Merkmale Bevölkerung am Ort der Hauptwohnung aus dem Melderegister In der Stichprobe ermittelte Karteileichen am Ort der Hauptwohnung Anzahl Personen insgesamt .............................................................. Geschlecht/Staatsangehörigkeit Männer deutsch .................................................................................... nicht-deutsch .......................................................................... Frauen deutsch .................................................................................... nicht-deutsch .......................................................................... 29 461 1 813 11 632 2 772 626 431 12 706 2 351 509 247 12 809 12 435 1 772 2445 1 030 542 85 156 1 550 941 1 372 1 195 2 748 2 058 1 322 1 562 1 656 50 71 140 170 281 131 76 80 58 1 111 1 285 1 464 1 126 2 369 2 072 1 453 1 466 2 711 41 60 150 105 148 70 44 45 93 Erwerbstätigkeit sozialversicherungspflichtig Beschäftigte .................................. Beamte, Richter und Soldaten ................................................... Arbeitslose und Personen in Umschulung ................................. sonstige Personen ...................................................................... 18 231 2 850 2 625 5 755 650 30 750 383 Ranking vor Modul 4 verknüpft ................................................................. in Modul 4 verknüpft .................................................................... unverknüpfte Deutsche ............................................................... unverknüpfte Nicht-Deutsche ..................................................... 24 440 1 286 2 598 1 137 536 173 639 465 Familienstand ledig bzw. unbekannt .................................................................. verheiratet bzw. Lebenspartnerschaft ........................................ verwitwet bzw. Lebenspartner verstorben ................................. geschieden bzw. Lebenspartnerschaft aufgehoben ................. Geschlecht/Alter Männer unter 6 Jahre .............................................................. 6 bis unter 18 Jahre .............................................................. 18 bis unter 25 Jahre .............................................................. 25 bis unter 30 Jahre .............................................................. 30 bis unter 40 Jahre .............................................................. 40 bis unter 50 Jahre .............................................................. 50 bis unter 60 Jahre .............................................................. 60 bis unter 65 Jahre .............................................................. 65 Jahre oder älter .................................................................. Frauen unter 6 Jahre .............................................................. 6 bis unter 18 Jahre .............................................................. 18 bis unter 25 Jahre .............................................................. 25 bis unter 30 Jahre .............................................................. 30 bis unter 40 Jahre .............................................................. 40 bis unter 50 Jahre .............................................................. 50 bis unter 60 Jahre .............................................................. 60 bis unter 65 Jahre .............................................................. 65 Jahre oder älter .................................................................. Bayern in Zahlen 6|2014 315 316 Beiträge aus der Statistik 2 (Geschlecht) x 4 (Familienstand) x 9 (Alter) x 2 (Staatsangehörigkeit) x 4 (Erwerbstätigkeit) vorliegen, unabhängig voneinander eine entsprechende Zufallsauswahl zu treffen. x 4 (Ranking) = 2 304 Werten. Schritt 2.1: Berechnung der ZiehungswahrscheinDiese Werte werden nachfolgend als Klassen be- lichkeit zeichnet. Jede Klasse lässt sich numerisch als sechs- Es seien nun GG die Grundgesamtheit und M1, ..., M5 stellige Zahlenkombination darstellen. Die Klasse die in Tabelle 2 aufgeführten Merkmale bzw. Merk- 113111 bei Hauptwohnsitz bedeutet zum Beispiel malskombinationen für Hauptwohnungspersonen. Mit männlich, ledig, 18 bis unter 25 Jahre, deutsch, so- mij sei die Anzahl der Einheiten in der Grundgesamt- zialversicherungspflichtig Beschäftigter, vor Modul 4 heit und als kij die zu löschenden Einheiten (Anzahl der verknüpft. Auf diese Weise lässt sich jeder Personen- Karteileichen) eines Merkmals i mit der Ausprägung j satz in den Registerdaten durch eine Merkmalskom- bezeichnet. Die Gesamtheit aller zu löschenden Sätze bination eindeutig charakterisieren. (Karteileichen) wird mit KL bezeichnet. Tatsächlich ist die Zahl der Klassen deutlich geringer. Bei zufälligem (gleichverteilten) Ziehen in der Grund- Zum einen, weil sich bestimmte Kombinationen aus- gesamtheit beläuft sich die relative Häufigkeit hij(GG) schließen (z. B. Staatsangehörigkeit deutsch und un- einer zu ziehenden Merkmalsausprägung auf: verknüpfter Nicht-Deutscher), zum anderen, weil be- hij(GG)=mij /GG stimmte Kombinationen extrem selten sind und ggf. in dem jeweiligen Datenbestand gar nicht vorkom- Für die relative Häufigkeit einer Merkmalsausprä- men (z. B. verwitwete Person zwischen 6 und unter gung in den Karteileichen hij(KL) gilt: 18 Jahren). hij(KL)=kij/KL Verfahrensablauf Somit gilt für den Anpassungsfaktor aij, der angibt, Schritt 1: um wie viel häufiger (oder auch seltener) als in der Für die Registerdaten in der Beispielgemeinde wer- Grundgesamtheit vorhanden eine bestimmte Merk- den für die fünf demographischen Merkmale und das malsausprägung ausgewählt werden soll: Merkmal Ranking die Häufigkeiten aller Klassen er- aij=hij(KL)/hij(GG)=(kij/KL)/(mij/GG)=(kij/mij) * (GG/KL) mittelt. Die Anzahl der für jede Klasse im Register festgestellten Personen (Grundgesamtheit) bilden im D. h. der Anpassungsfaktor ergibt sich aus der merk- weiteren Verfahrensablauf Grenzwerte, da nur maxi- malsspezifischen Karteileichenrate einer Merkmals- mal so viele Personen gelöscht werden können, wie ausprägung multipliziert mit dem Quotienten aus in der jeweiligen Grundgesamtheit vorkommen. Grundgesamtheit und Karteileichenzahl. Schritt 2: Für die Merkmalsausprägung m11 „Männer, deutsch“ Es soll nun zufällig eine der Klassen gezogen wer- der Merkmalskombination „Geschlecht/Staatsange- den. Ausschlaggebend hierbei ist, dass die Wahr- hörigkeit“ ergibt sich in unserem Beispiel: scheinlichkeit für die Ziehung einer Klasse nicht der h11(GG) = 11 632/29 461 = 0,39 Häufigkeit in der Grundgesamtheit, sondern der h11(KL) = 626/1 813 = 0,35 Häufigkeit in den Karteileichen entsprechen soll. Da a11 = h11(KL)/h11(GG) = 0,87 diese allerdings nicht bekannt ist, wird davon ausgegangen, dass die aus der Stichprobe bekannten Deutsche Männer sind also 0,87 mal so oft (und da- uni- oder bivariaten Verteilungen der Merkmalsaus- mit um den Faktor 0,13 seltener) auszuwählen, als es prägungen voneinander statistisch unabhängig und ihrem Anteil in der Grundgesamtheit entspricht. folglich multiplikativ verknüpfbar sind. Besonders prägnant ist der Anpassungsfaktor bei Ausgehend von dieser Annahme ist es nun möglich, der Merkmalsausprägung m44 „unverknüpfte Nicht- für jedes Merkmal bzw. jede Merkmalskombination, Deutsche“: für das bzw. die aus der Stichprobe Informationen Bayern in Zahlen 6|2014 Beiträge aus der Statistik geführt, ist die potenziell in Frage kommende Klas- h44 (GG) = 1 137/29 461 = 0,04 se bestimmt. h44(KL) = 465/1 813 = 0,26 a44 = h44(KL)/h44(GG) = 6,65 Schritt 2.3: Prüfung auf Zulässigkeit Unverknüpfte Nicht-Deutsche sind demnach um den Nach der Zufallsziehung einer Klasse ist die ausge- Faktor 6,65 und damit häufiger auszuwählen, als es wählte Klasse hinsichtlich ihrer Zulässigkeit zu prüfen. ihrem Anteil in der Grundgesamtheit entspricht. Diese Prüfung enthält u. a. die Kontrolle, ob die gezogene Klasse unter Berücksichtigung der bereits gezo- Schritt 2.2: Zufallsziehung genen Fallzahlen in der Grundgesamtheit überhaupt Sind aus der Stichprobe nur die Randverteilungen existiert, sowie die Kontrolle, ob die Zahl der ausge- bekannt, so kann nun für jedes Merkmal einzeln eine wählten Einheiten mit der Ausprägung „ledig“ des Zufallsziehung der Merkmalsausprägung vorgenom- Merkmals Familienstand die Zahl der ausgewählten men werden. Hierzu werden die Anpassungsfakto- Personen unter 18 Jahren nicht unterschreitet. Die- ren aij für alle Ausprägungen j eines Merkmals i er- se Einschränkung hat sich als notwendig erwiesen, rechnet. Zur Erläuterung soll das Merkmal Familien- weil die unter 18-Jährigen nahezu alle ledig sind und stand herangezogen werden. In Tabelle 3 sind Bei- aufgrund der Auswahl zu vieler Lediger über 17 Jah- spieldaten für den Familienstand aufgeführt. re die Anzahl der zu löschenden unter 18-Jährigen nicht mehr erreicht werden kann. Tab. 3 Anpassungsfaktoren für die Ausprägungen des Familienstands der Beispieldaten Familienstand Anzahl Grundgesamt- AnpassungsKarteileichen heit faktor 1 2 Ledig ................. Verheiratet ......... Verwitwet ........... Geschieden ...... 1 030 542 85 156 12 809 12 435 1 772 2 445 Insgesamt 1 813 29 461 3 1,31 0,71 0,78 1,04 Ebenfalls in Tabelle 3 sind die Daten für die Grund- Ist eine Klasse nicht gültig, erfolgt eine neue Zufallsauswahl. Durch diese einschränkenden Bedingungen werden – wie bereits erwähnt – die Kovarianzen näherungsweise in dem Modell berücksichtigt. Schritt 2.4: Neuberechnung der Auswahlwahrscheinlichkeiten Die Auswahl einer Klasse wird als potenzielle Lö- gesamtheit und die Karteileichen nach den Familien- schung einer Person aus den Registerdaten betrach- ständen aufgelistet. In Spalte 3 sind die Faktoren ent- tet und damit reduziert sich für die ausgewählten halten, die angeben, um wieviel mal häufiger oder Merkmalsausprägungen sowohl die Zahl der zu lö- geringer ein Familienstand als Karteileiche auftritt. schenden Einheiten als auch die Zahl der jeweiligen Die Zahlen wurden nach der oben angeführten Formel berechnet. Sind, wie im oben angeführten Beispiel, auch bi- Tab. 4 Auszugsweises Ergebnis einer Approximation der Klassenbesetzungen für Hauptwohnsitzkarteileichen variate Verteilungen der Karteileichen bekannt, er- Approximierte Karteileichen folgt die Ziehung sukzessive, d. h. es wird zunächst aus der Merkmalskombination Geschlecht/Staatsangehörigkeit eine Ausprägung entsprechend der Klasse Grundgesamtheit Registerdaten Besetzung der Klassen = zu löschende Personen in dieser Klasse 1 2 30 34 12 69 12 13 23 99 10 6 1 28 12 5 14 4 errechneten Verteilung zufällig gezogen und damit zwei der Klassenziffern bestimmt. Das Ziehungsergebnis determiniert, ob aus der Kombination Männer/Alter oder Frauen/Alter die nächste Zufallsziehung vorgenommen wird. Sind für alle Merkmale/Merkmalskombinationen anhand der Anpassungsfaktoren die Ziehungen durch- Bayern in Zahlen 6|2014 113221 ................. 115211 ................. 126222 ................. 126242 ................. 144241 ................. 147133 ................. 223132 ................. 237131 ................. 317 318 Beiträge aus der Statistik Einheiten in der Grundgesamtheit um jeweils Eins. gisterfehler in einer Gemeinde, an das der Einzelda- Aufgrund dieses dynamischen Effekts (Ziehen ohne tenbestand angepasst wird. Dieser ist letztlich durch Zurücklegen) muss nach jeder Auswahl einer Klasse das Zensusmodell bedingt und nicht durch das Ver- für den erneuten Ziehungsvorgang eine Neuberech- fahren per se verursacht. Die zweite Fehlerkompo- nung der Anpassungsfaktoren stattfinden. nente, der eigentliche Verfahrensfehler, resultiert aus der nur näherungsweise ermittelbaren unbekannten Diese Schritte werden solange durchgeführt, bis vollständigen multivariaten Verteilung der Register- für alle Merkmalsausprägungen die Zahl der zu lö- fehler. schenden Einheiten erfüllt ist. In Tabelle 4 wird auszugsweise das Ergebnis einer Approximation Während der Stichprobenfehler durch entspre- gezeigt. Die sechsstellige Zahlenkombination be- chende Fehlerrechnungen quantifizierbar ist, ist eine schreibt die jeweilige Klasse. analytische Quantifizierung des Verfahrensfehlers nicht möglich. Beide Fehlerkomponenten sind aber In der Klasse 113 221 existieren demnach 30 Per- nicht unabhängig. Bei Gemeinden mit vergleichswei- sonen in der Grundgesamtheit. Die approximierte se großen Registerfehlern steigt – bedingt durch die Besetzung dieser Klasse beläuft sich auf zehn Per- höheren Fallzahlen in der Stichprobe – die Qualität sonen; damit müssen letztlich zehn Personen dieser der Stichprobenergebnisse zu den Registerfehlern. Klasse aus dem Datensatz gelöscht werden. Demgegenüber verursacht das höhere Lösch- bzw. Imputationsvolumen zwangsläufig höhere strukturelle 4. Zusammenfassung und Bewertung des Abweichungen zur realen demographischen Struktur. Verfahrens Kurz gesagt: je höher der Registerfehler, desto kleiner Mit dem vorliegenden Verfahren, das eher als Heuris- der Stichproben- und desto größer der Verfahrens- tik bezeichnet werden kann, ist es im Rahmen des fehler und vice versa. Zensus möglich, die aus der Haushaltsstichprobe geschätzten Umfänge der Registerfehler in den Einzel- Anhand des Zensustestdatenmaterials wurde eine datenbestand des Zensus zu integrieren, um so einen Reihe von empirischen Untersuchungen zur Güte fachlich und regional in beliebiger Tiefe auswert- des Verfahrens vorgenommen. Im Ergebnis hat sich baren Zensuseinzeldatenbestand zu erhalten. Das gezeigt, dass die Auswirkungen auf die demogra- Verfahren gewährleistet hierbei, dass die aus Melde- phischen Ergebnisse einer Gemeinde insgesamt ge- register und Stichprobe ermittelte Einwohnerzahl un- ring ausfallen. Nennenswerte relative Abweichungen verändert bleibt. waren erwartungsgemäß nur bei schwach besetzten In Hinblick auf die Güte des Verfahrens, im Sinne von ter 65 Jahre festzustellen. Etwas stärker fielen die Ab- Tabellenfeldern, wie z. B. verwitweten Ausländern unAbweichungen der aus dem erzeugten Zensusdaten- weichungen bei den haushaltsstrukturellen Ergeb- bestand gewonnenen demographischen und haus- nissen ins Gewicht. haltsstrukturellen Ergebnisse zu den „wahren“ demographischen und haushaltsstrukturellen Ergebnissen Die Haushaltegenerierung einschließlich des Korrek- einer Gemeinde, ist Folgendes zu bemerken. turverfahrens konnten Ende des Jahres 2013 erfolgreich abgeschlossen werden. Anschließend erfolgt Der Gesamtfehler setzt sich aus zwei Komponenten nun eine intensive Evaluationsphase, in der die Ver- zusammen: Die erste Komponente ist der Stichpro- fahren in Hinblick auf eine Verwendung im Zensus benfehler aus den geschätzten Strukturdaten der Re- 2021 geprüft und weiterentwickelt werden müssen. Literaturverzeichnis: Hillier, Frederick; Lieberman, Gerald (1996), Opera- Kamen, Charles (2005), The 2008 Israel Integrated tions Research. Einführung. 5. Auflage, München. Census of Population and Housing – Basic con- Kreuzmair, Ingrid; Reisch, Marco (2012), Ablauf der ception and procedure. www.cbs.gov.il/mifkad/ Haushaltegenerierung. In: Bayern in Zahlen, Aus- census2008_e.pdf (28.02.2014). gabe 9/2012. S. 615-624. Bayern in Zahlen 6|2014