Das Korrekturverfahren beim Zensus 2011

Werbung
310 Beiträge aus der Statistik
Das Korrekturverfahren beim Zensus 2011
Dipl.-Geogr. Katrin Hofmeister, Dr. Michael Fürnrohr
Beim Zensus 2011 wurde in Gemeinden mit 10 000 oder mehr Einwohnern eine Haushaltsstichprobe durchgeführt. Zweck dieser Stichprobe war neben der Erhebung von nicht in Registern verfügbaren Daten primär die gemeindeweise Gewinnung von demographischen
und haushaltsstatistischen Informationen zu Über- und Untererfassungen (Karteileichen und
Fehlbestände) in den Melderegistern. Mit diesen Informationen sollen die potenziellen Fehler einer unkontrollierten Registerauszählung vermieden werden. Um einen qualitativ hochwertigen, fachlich und regional flexibel auswertbaren Zensuseinzeldatensatz zu erhalten,
muss eine Bereinigung der Karteileichen und Fehlbestände auf der Basis der Einzeldaten
vorgenommen werden.
Zu diesem Zwecke war es erforderlich, ein Verfahren zu entwickeln, welches die gemeindeweise aggregierten Vorgaben aus der Haushaltsstichprobe möglichst genau umsetzt. Es
ist zu berücksichtigen, dass eine solche Korrektur der Einzeldaten nur statistisch erfolgen
konnte, d. h. nicht die buchhalterisch betrachtete „Richtigkeit“ des Einzelfalls war relevant
und auch realisierbar, sondern die strukturelle Qualität der Zensusergebnisse.
1. Einführung
kalen Finanzausgleich und dient der Berechnung der
Ein Zensus oder eine Volkszählung ist eine Inventur,
Stimmen der Länder im Bundesrat sowie der Sitze in
die Bestands- und Strukturdaten zu Bevölkerung,
den kommunalen Vertretungskörperschaften. Ange-
Wohnen und Erwerbstätigkeit auch kleinräumig er-
sichts ihrer Bedeutung für das demokratische Staats-
hebt und damit im Rahmen des statistischen Gesamt-
wesen und der Finanzbeziehungen zwischen Bund,
systems neue Basiszahlen für Fortschreibungen und
Ländern und Gemeinden kommt der Genauigkeit der
Stichprobenerhebungen ermittelt.
ermittelten Zahlen eine herausragende Bedeutung zu.
Beispielsweise fällt jeder Einwohner beim Länderfi-
Amtliche Einwohnerzahlen
nanzausgleich mit ca. 2 000 Euro ins Gewicht. An die
Insbesondere dient ein Zensus der Feststellung der
Feststellung der amtlichen Einwohnerzahlen sind da-
amtlichen Einwohnerzahlen (Zahl der Personen mit
her besondere Anforderungen zu stellen, die über die
Hauptwohnsitz) für Bund, Länder und Kommunen.
üblichen Anforderungen an die statistischen Verfahren
Diese haben eine Vielzahl von unmittelbaren Auswir-
und Ergebnisse hinausgehen.
kungen auf die einzelnen Gebietskörperschaften, auch
mit direkten finanziellen Folgen, z. B. beim kommu-
Erkenntnisse des Zensustests 2001
nalen Finanzausgleich. Außerdem besitzen die amt-
Im Rahmen des registergestützten Zensus 2011 bil-
lichen Einwohnerzahlen eine hohe Bedeutung über
den die Melderegister die Grundlage für die Ermitt-
den Zensusstichtag hinaus. Sie bilden die Grundlage
lung der Einwohnerzahlen und der demographischen
für die Bevölkerungsfortschreibung, mit der zwischen
Grunddaten zu Alter, Geschlecht, Familienstand und
den Zensus in regelmäßigen Abständen die amtlichen
Staatsangehörigkeit. Zur Vorbereitung des Zensus
Einwohnerzahlen für Bund, Länder und Gemeinden
2011 wurde im Jahr 2001 ein umfangreicher Zen-
nachgewiesen werden. Die amtliche Einwohnerzahl
sustest durchgeführt. Hierbei hat sich herausgestellt,
wird in rund 50 Rechtsvorschriften als eine wichtige
dass die Melderegister Fehler hinsichtlich ihrer Voll-
Bemessungsgrundlage verwendet. Sie ist unter an-
zähligkeit aufweisen. Sie beinhalten sowohl Kartei-
derem die Richtgröße für den horizontalen und verti-
leichen (Personen, die an einer Anschrift gemeldet,
Bayern in Zahlen 6|2014
Beiträge aus der Statistik
dort aber tatsächlich nicht wohnhaft sind) als auch
dieser Haushaltebefragung auf Stichprobenbasis ist
Fehlbestände (Personen, die an einer Anschrift nicht
es, den Umfang der Karteileichen und Fehlbestän-
gemeldet, dort aber tatsächlich wohnhaft sind). Die
de im Melderegister je Gemeinde zu schätzen und
Ursachen sind im Wesentlichen auf das Meldever-
darauf basierend die Zahl der im Melderegister ver-
halten der Bürgerinnen und Bürger zurückzuführen.
zeichneten Personen zu korrigieren. Damit folgt der
Beispiele sind Studentinnen und Studenten, die am
deutsche Zensus methodisch Vorbildern aus ver-
Studienort leben, aber noch bei den Eltern gemeldet
schiedenen Ländern, u. a. auch Israel.1
311
sind, ältere Menschen in Heimen, die noch bei ihren
Nachkommen gemeldet sind oder Ausländer, die oh-
Problemstellung: Umsetzung der ermittelten Re-
ne Abmeldung in ihre Heimatländer zurückgekehrt
gisterfehler in den Einzeldatensatz
sind. Defizite im Verwaltungsvollzug, z. B. Personen,
Zur Gewinnung eines qualitativ hochwertigen Einzel-
die mehrfach mit Hauptwohnung gemeldet sind, ma-
datenbestandes sind je Gemeinde die aus den Mel-
chen nach den Erkenntnissen des Zensustests hin-
deregistern gewonnenen Datensätze um die Ergeb-
gegen nur rund ein Fünftel des Registerfehlers aus.
nisse zu den Registerfehlern aus der Stichprobe zu
korrigieren. Diese Umsetzung der Stichprobenergeb-
Ferner hat sich im Zensustest gezeigt, dass die Hö-
nisse kann letztlich nur dadurch erfolgen, dass die
he der Registerfehler abhängig von der Größe der
Zahl der Personendatensätze im Melderegisterbe-
Gemeinde ist. Wie aus der Tabelle 1 ersichtlich wird,
stand einer Gemeinde durch Löschungen bzw. Im-
weisen Gemeinden mit weniger als 10 000 Einwoh-
putationen um den aus der Stichprobe geschätzten
nern deutlich geringere Karteileichen- und Fehlbe-
Wert an Karteileichen und Fehlbeständen reduziert
standsraten auf als dies bei größeren Gemeinden
bzw. erhöht wird. Im Ergebnis dieser Maßnahmen
– vor allem aber bei Großstädten – der Fall ist.
entspricht dann die Zahl der Personendatensätze einer Gemeinde der korrigierten Einwohnerzahl. Hier-
Haushaltsstichprobe zur Qualitätssicherung
bei ergeben sich jedoch vier Probleme:
Der Zensustest hat letztlich gezeigt, dass die Melderegister grundsätzlich zur Ermittlung der amtlichen
•Nach den Ergebnissen des Zensustests weisen
Einwohnerzahlen und demographischer Basisdaten
Karteileichen und Fehlbestände eine signifikant an-
in einem Zensus geeignet sind. Er hat aber auch ver-
dere demographische und haushaltsstatistische
deutlicht, dass Maßnahmen zur Qualitätssicherung
Struktur auf als die Grundgesamtheit der Bevöl-
unumgänglich sind, um die erforderliche Qualität der
kerung einer Gemeinde. Ein rein zufälliges Lö-
Ergebnisse zu erreichen. Als wichtigste Maßnahmen
schen oder Hinzufügen von Personendatensätzen
für den Zensus 2011 hat der Gesetzgeber in § 7 Ge-
in den Melderegisterdaten würde implizit unterstel-
setz über den registergestützten Zensus im Jahre
len, dass die Verteilung der Merkmale bei den Kar-
2011 (Zensusgesetz 2011 – ZensG 2011) die Durch-
teileichen bzw. Fehlbeständen der Verteilung der
führung einer primärstatistischen Haushaltebefra-
Grundgesamtheit entspräche. Ein solches Vorge-
gung auf Stichprobenbasis in Gemeinden mit min-
hen würde zwar zu einer korrekten amtlichen Ein-
destens 10 000 Einwohnern im Umfang von knapp
wohnerzahl führen, hätte aber je nach Umfang der
10 % der Gesamtbevölkerung angeordnet. Hauptziel
Registerfehler eine mehr oder weniger starke Ver-
Tab. 1 Karteileichen- und Fehlbestandsraten aus dem Zensustest 2001
Bevölkerung am Ort der Hauptwohnung im Zensustest 2001
Personen im
Melderegister
Bundesland bzw. Gemeindegrößenklasse
1 000
Bayern ..............................................................
11 957,5
Karteileichen
1 000
307,9
Fehlbestände
%
2,6
1 000
%
211,6
1,8
Gemeinden mit Einwohnern von … bis unter …
unter 10 000 .....................................................
10 000 bis 50 000 ............................................
50 000 bis 800 000 ..........................................
800 000 oder mehr ..........................................
Deutschland
Bayern in Zahlen 6|2014
22
26
23
6
947,5
112,7
944,5
980,2
459,5
643,4
801,6
416,3
2,0
2,5
3,4
6,0
303,6
384,4
509,3
207,1
1,3
1,3
2,1
3,0
79 984,9
2 320,8
2,9
1 368,4
1,7
1 Weitere Informationen können in dem
Artikel „The 2008 Israel
Integrated Census of
Population and Housing
– Basic conception and
procedure“ von Charles
S. Kamen nachgelesen
werden (veröffentlicht
unter www.cbs.gov.il/mifkad/census2008_e.pdf).
312 Beiträge aus der Statistik
zerrung der demographischen und haushaltsstatis tischen Ergebnisse zur Folge.
•Die Haushaltsstichprobe liefert nur eingeschränkte
Informationen zu den Registerfehlern. So sind
neben den bivariaten Verteilungen Geschlecht/
Grundstruktur der Korrektur der
Registerfehler
Abb.
Abb. 4
Abb.
Stichprobe
weiteren Merkmalen nur die Randverteilungen der
Einzeldaten
(z. B. nur Altersklassen und keine Einzelaltersjahre)
mit einem vertretbaren Stichprobenfehler ermittelbar. Für eine fachlich vollständig verzerrungsfreie
Korrektur wäre aber die unbekannte vollständige
multivariate Verteilung der Karteileichen und Fehlbestände erforderlich.
•Darüber hinaus treten Karteileichen und Fehlbe-
Korrektur der
Stichprobenanschriften
Abb.
Abb. 7
Statistische Korrektur
der Nicht-StichprobenAbb. 8
anschriften
Abb
Abb. 9
Die Korrektur bewirkt die Herstellung vollzähliger
Zensuseinzeldatensätze, die flexible
Abb. 10
Auswertungen ermöglichen.
Bei den verbleibenden rund 90 % der Anschriften in
getrennten Korrektur der Karteileichen und der
Gemeinden mit mindestens 10 000 Einwohnern sind
Fehlbestände durch Löschungen bzw. Imputati-
die tatsächlichen Registerfehler im Sinne von Einzel-
onen.
fällen unbekannt. Bekannt sind lediglich die aus der
•Ferner hätte eine rein durch Zufallsverfahren ge-
Haushaltsstichprobe (geschätzte) Summe der Fälle
steuerte Korrektur die Entstehung unplausibler
sowie deren Randverteilungen zu demographischen
Haushaltsergebnisse zur Folge.
und haushaltsstatistischen Merkmalen. Aufgrund dieser unvollständigen Information ist es weder möglich
Zur Gewinnung qualitativ hochwertiger Zensuser-
eine buchhalterisch betrachtete „richtige“ Korrektur
gebnisse benötigte man also ein sehr viel komple-
der Einzeldaten vorzunehmen, noch eine statistisch
xeres Verfahrens als das bloße Löschen und Hinzu-
„optimale“ Korrektur durchzuführen, da hierfür die
fügen von Datensätzen. Im Zuge der Vorbereitung
Kenntnis der vollständigen multivariaten Verteilung
des Zensus 2011 hat das Bayerische Landesamt für
aller Merkmale erforderlich wäre. Unter diesen Prä-
Statistik und Datenverarbeitung ein Verfahren ent-
missen ist eine statistisch hinreichende Korrektur
wickelt, das eine weitgehend verzerrungsfreie Kor-
der Registerfehler dann gegeben, wenn die Rand-
rektur ermöglicht. Die Grundzüge dieses Verfahrens
verteilungen der korrigierten, also der gelöschten
werden im Folgenden vorgestellt.
bzw. imputierten Einzeldaten den aus der Stichprobe geschätzten Randverteilungen dieser Merkmale
2. Modell und Ablauf des Korrekturverfahrens
entsprechen.
Eine optimale Lösung im Sinne völlig verzerrungsfreier demographischer und haushaltsstatistischer
Exkurs Ranking
Abb.
Hochgerechnete Abb. 5
Ergebnisse
Abb. 6
stände nur in sehr seltenen Fällen in einem Haushaltszusammenhang auf. Es bedarf daher einer
Abb. 1
Abb. 2
Korrektur der Melderegisterdaten anhand der
Ergebnisse der Stichprobe
Abb. 3
Staatsangehörigkeit und Geschlecht/Alter von den
Merkmale mit eingeschränkten Ausprägungen
Abb. 1
Ergebnisse ist nur bei vollständiger Information über
Eine wichtige Hilfsgröße bei der näherungswei-
alle Karteileichen und Fehlbestände gegeben. Im
sen Bestimmung der Verteilung von Karteileichen
Modell des Zensus ist diese Information aber nur
bildet das aus der Haushaltegenerierung gewon-
für die im Rahmen der Haushaltsstichprobe primär-
nene Merkmal „Ranking“. In der Haushaltegenerie-
statistisch erhobenen knapp 10 % der Anschriften
rung werden in der sog. Phase A – vereinfacht dar-
in Gemeinden mit mindestens 10 000 Einwohnern
gestellt – Haushalte anhand von Verzeigerungen des
verfügbar und wird auch unmittelbar genutzt. Dies
Melderegisters (Nachweise von Ehepaaren und Kin-
bedeutet, dass hier eine anschriftenscharfe Korrek-
dern) sowie sog. harten Generierungskriterien gebil-
tur der festgestellten Karteileichen und Fehlbestände
det und über die in der Gebäude- und Wohnungs-
stattfindet (vgl. Abbildung 1).
zählung (GWZ) erhobenen Namen von Bewohnern
Bayern in Zahlen 6|2014
Abb
Abb
Abb
Abb.
Beiträge aus der Statistik
von Wohnungen mit den Wohnungsdaten verknüpft.2
tenheimen untergebracht sind, aber noch bei ihren
Nach dieser Phase der Haushaltegenerierung ist das
Nachkommen gemeldet sind), während es kaum
Merkmal Ranking bei jeder Person gefüllt und weist
Fälle gab, bei denen über 60-Jährige an Anschriften
eine der folgenden Ausprägungen auf:
lebten, an denen sie nicht gemeldet waren.
313
1. Person wurde über die Wohnungsnutzeranga
ben mit der Wohnung (Modul 2 der Phase A) verknüpft.
2. Person wurde über eine andere Person mit der
Wohnung (Modul 4 der Phase A) verknüpft.
3. Unverknüpfte Person mit deutscher Staatsangehörigkeit.
4. Unverknüpfte Person mit ausländischer Staats-
Aufgrund
dieser
signifikanten
Verteilungsunter-
schiede würde eine saldierte Korrektur von Karteileichen und Fehlbeständen zu erheblichen demographischen Verzerrungen führen. Es bedarf also eines
zweigleisigen Verfahrensansatzes. In Abbildung 2
kann man die beiden Komponenten des Korrekturverfahrens erkennen.
angehörigkeit.
Verknüpft bzw. unverknüpft zeigt dabei an, ob eine
Person bereits mit einer Wohnung zusammengeführt
werden konnte (verknüpft mit einer Wohnung) oder
Korrekturverfahren für Gemeinden mit
10 000 oder mehr Einwohnern
nicht (unverknüpft).
Nach den Erkenntnissen des Zensustests weist das
MODUL 5
Korrektur von Karteileichen
Ranking, also der Status nach Phase A „verknüpft“
oder „unverknüpft“, in Hinblick auf das Vorkommen
von Karteileichen bemerkenswerte Unterschiede
auf. So waren im Zensustest nur etwa 1 % der ver-
Abb. 11
Abb. 21
Abb. 2
Abb. 12
Abb. 22
Abb. 3
Abb. 13
Abb. 23
Abb. 4
Abb. 14
Abb. 24
Zweigleisige Korrektur der KarteileichenAbb. 1
und Fehlbestände
MODUL 6
Imputation von Fehlbeständen
knüpften Personen Karteileichen, während bei den
unverknüpften Personen insgesamt rund 17 % und
Abb. 5
Abb. 15
Abb. 25
Abb. 6
Abb. 16
Abb. 26
Abb. 7
Abb. 17
Abb. 27
Abb. 8
Abb. 18
Abb. 28
Abb. 9
Abb. 19
Abb. 29
Abb. 10
Abb. 20
Abb. 30
bei den unverknüpften ausländischen Personen so-
Um eine Löschung/Imputation einzelner Personenda-
gar etwa 33 % Karteileichen waren. Aufgrund dieser
tensätze so zu realisieren, dass die Randverteilungen
erheblichen Unterschiede kann man sich bei Kennt-
der Gesamtzahl der Löschungen/Imputationen den
nis dieser Werte der vollständigen multivariaten Ver-
aus der Stichprobe geschätzten Randverteilungen
teilung von Karteileichen sehr viel besser annähern
entsprechen, bedarf es der Kenntnis der vollstän-
als bei alleiniger Kenntnis der Randverteilungen
digen multivariaten Verteilung. Da diese, wie ein-
der rein demographischen Merkmale. Aus diesem
gangs erwähnt, nicht vorliegt, bedarf es vor der ei-
Grund erfolgt im Rahmen der Haushaltsstichprobe
gentlichen Korrektur der Schätzung der multivariaten
neben der Schätzung der demographischen Struk-
Verteilung mittels eines Näherungsverfahrens.
tur der Karteileichen in einer Gemeinde auch die
Schätzung des Rankings.
Approximation der multivariaten Verteilung
Das hierzu verwendete Verfahren lehnt sich an die
Getrennte Behandlung von Karteileichen und
aus dem Operations Research bekannte Monte-Car-
Fehlbeständen
lo-Methode an, die auf einer Zufallsauswahl basiert.
Die Ergebnisse des Zensustests haben auch ge-
Ausgangspunkt bildet zunächst die Annahme, dass
zeigt, dass Karteileichen und Fehlbestände sehr
die demographischen Merkmale statistisch unab-
unterschiedliche demographische Strukturen auf-
hängig und somit die Wahrscheinlichkeiten multipli-
weisen. So sind Fehlbestände im Durchschnitt deut-
kativ verknüpfbar sind. Dies erscheint zunächst nicht
lich jünger als Karteileichen, ein Indiz für eine mo-
sinnvoll, da Fälle entstehen, die zwar rechnerisch ei-
bile Bevölkerungsgruppe. Demgegenüber wurden
ne Wahrscheinlichkeit größer Null aufweisen, real
im Zensustest Karteileichen in der Gruppe der über
aber nicht existieren. So sei beispielsweise die Wahr-
60-Jährigen nachgewiesen (z. B. Personen, die in Al-
scheinlichkeit für die Altersklasse unter sechs Jah-
Bayern in Zahlen 6|2014
2 Weitere Informationen
zu diesem Verfahren
können in dem Artikel
von Ingrid Kreuzmair
und Marco Reisch
„Zensus 2011: Ablauf
der Haushaltegenerierung“ in Bayern
in Zahlen 9/2012
nachgelesen werden.
314 Beiträge aus der Statistik
re gleich p1 und die Wahrscheinlichkeit für verwitwet
Bei der Allokation der reinen Fehlbestandshaushalte
p2. Dann ergäbe sich bei Unabhängigkeit die posi-
(ganze Haushalte werden in noch nicht belegte Woh-
tive Wahrscheinlichkeit p1 x p2, obgleich verwitwete
nungen imputiert) werden neben der Wohnungsgrö-
Kinder unter sechs Jahren real nicht vorkommen. Um
ße Anschrifteninformationen genutzt, um eine mög-
diese Unzulänglichkeit der Unabhängigkeitsannah-
lichst genaue Zuordnung zu Wohnungen möglich
me auszugleichen, wird in dem iterativen Prozess je-
zu machen. Hierbei wird vor allem die Relation von
de Merkmalskombination dahingehend überprüft, ob
momentan vorhandenen Wohnungen zu momen-
es in der Grundgesamtheit eine Person gibt, die diese
tan vorhandenen Haushalten pro Anschrift betrach-
Merkmalskombination aufweist. Letztlich können nur
tet, um potentielle Anschriften für die Imputation zu
Personendatensätze gelöscht oder gedoppelt wer-
identifizieren.
den, die in der Realität auch existieren. Auf diese Weise werden die unbekannten Kovarianzen zwischen
Werden gemischte Fehlbestandshaushalte imputiert
den Merkmalen näherungsweise modelliert. Dieser
(einzelne Personen bzw. Teilhaushalte), so werden
Verfahrensteil wird in Kapitel 3 näher erläutert.
diese mit bestehenden Haushalten zusammengeführt. Dabei wird versucht, möglichst die Informati-
Löschung der Karteileichen/Doppelung der zu im-
onen des „Herkunftshaushaltes“ zu nutzen, um eine
putierenden Fehlbestände
möglichst gute Nachbildung zu erlangen.
Bei der eigentlichen Löschung der Karteileichen werden die Karteileichen anhand der Ergebnisse der
In Abbildung 3 wurden an der Anschrift „Hauptstraße
Approximation und des haushaltsstatistischen An-
2“ zwei (Teil)Haushalte gedoppelt:
passungsrahmens durch ein iteratives Verfahren
• Ein kompletter Dreipersonenhaushalt
statistisch ausfindig gemacht und gelöscht. Metho-
• Zwei Personen aus einem Vierpersonenhaushalt
disch analog dazu erfolgt die Doppelung der zu imputierenden Datensätze. Hierbei werden real in dem
Die Haushalte an der Anschrift „Hauptstraße 2“ blei-
Datensatz existierende Personen gedoppelt und in
ben erhalten. Für die beiden duplizierten Haushalte
einem späteren Verfahrensschritt an eine bestehen-
werden nun geeignete Anschriften gesucht und an-
de Anschrift in der Gemeinde imputiert.
schließend erfolgt die Imputation. In diesem Beispiel
wird der komplette Dreipersonenhaushalt in eine
Im Gegensatz zur Löschung der Karteileichen ist es
noch nicht durch einen Haushalt belegte, jedoch in
bei der Korrektur der Fehlbestände notwendig, wie-
der GWZ als bewohnt gemeldete Wohnung imputiert.
der eine geeignete Wohnung bzw. einen geeigneten
Die zwei Personen aus dem Vierpersonenhaushalt
Teilhaushalt im Datenbestand ausfindig zu machen.
werden an einem bestehenden Zweipersonenhaus-
Doppelung und Allokation der Fehlbestandshaushalte
Doppelung der Fehlbestände
aus dem Ausgangsbestand
Hauptstraße 2
Wohnung 1
Gedoppelte
(Teil-)Haushalte
Allokation und Imputation der Fehlbestände
Abb. 1
Abb. 1
Abb. 2
Abb.
Abb. 3
Abb.
Abb. 4
Abb.
Abb. 5
Abb.
Abb. 6
Abb
Ahornweg 5Abb. 7
Abb
Abb.
Wohnung
1 8
Abb
Abb. 9
Abb
Abb. 10
Abb.
Einsteinstraße 12
Wohnung 2
Wohnung 1
Wohnung 2
Bayern in Zahlen 6|2014
Beiträge aus der Statistik
halt im Ahornweg 5 angefügt. Damit wird die Struktur
le 2 dargestellt. Die Darstellung des Verfahrens der
des Herkunftshaushaltes nachgebildet.
Approximation erfolgt anhand der HauptwohnungsKarteileichen.
Im Folgenden wird der Schwerpunkt des Artikels auf
die Methodik der Approximation gelegt.
3.2 Approximation
Definition der Merkmalsklassen
3.Darstellung des Verfahrensablaufs der Appro-
Die Approximation hat die Aufgabe, aus den in Tabel-
ximation der multivariaten Verteilungen an einem
le 2 dargestellten uni- und bivariaten Merkmalen die
Beispiel
multivariaten Merkmale zu ermitteln. Betrachtet man
3.1 Ausgangsdaten aus der Haushaltsstichprobe
in unserem Beispiel die Ausprägungen der fünf demo-
Zur verständlicheren Darstellung des Verfahrens
graphischen Merkmale und des Merkmals Ranking,
wird eine fiktive Gemeinde („Beispielgemeinde“) ge-
so besteht die vollständige multivariate Verteilung un-
wählt. Die Daten der Beispielgemeinde sind in Tabel-
ter der Annahme der Unabhängigkeit theoretisch aus
Tab. 2 Demographischer Anpassungsrahmen und Ranking in der Beispielgemeinde
Merkmale
Bevölkerung am Ort der
Hauptwohnung aus dem
Melderegister
In der Stichprobe ermittelte
Karteileichen am Ort der
Hauptwohnung
Anzahl
Personen insgesamt ..............................................................
Geschlecht/Staatsangehörigkeit
Männer
deutsch ....................................................................................
nicht-deutsch ..........................................................................
Frauen
deutsch ....................................................................................
nicht-deutsch ..........................................................................
29 461
1 813
11 632
2 772
626
431
12 706
2 351
509
247
12 809
12 435
1 772
2445
1 030
542
85
156
1 550
941
1 372
1 195
2 748
2 058
1 322
1 562
1 656
50
71
140
170
281
131
76
80
58
1 111
1 285
1 464
1 126
2 369
2 072
1 453
1 466
2 711
41
60
150
105
148
70
44
45
93
Erwerbstätigkeit
sozialversicherungspflichtig Beschäftigte ..................................
Beamte, Richter und Soldaten ...................................................
Arbeitslose und Personen in Umschulung .................................
sonstige Personen ......................................................................
18 231
2 850
2 625
5 755
650
30
750
383
Ranking
vor Modul 4 verknüpft .................................................................
in Modul 4 verknüpft ....................................................................
unverknüpfte Deutsche ...............................................................
unverknüpfte Nicht-Deutsche .....................................................
24 440
1 286
2 598
1 137
536
173
639
465
Familienstand
ledig bzw. unbekannt ..................................................................
verheiratet bzw. Lebenspartnerschaft ........................................
verwitwet bzw. Lebenspartner verstorben .................................
geschieden bzw. Lebenspartnerschaft aufgehoben .................
Geschlecht/Alter
Männer
unter 6 Jahre ..............................................................
6 bis unter 18 Jahre ..............................................................
18 bis unter 25 Jahre ..............................................................
25 bis unter 30 Jahre ..............................................................
30 bis unter 40 Jahre ..............................................................
40 bis unter 50 Jahre ..............................................................
50 bis unter 60 Jahre ..............................................................
60 bis unter 65 Jahre ..............................................................
65 Jahre oder älter ..................................................................
Frauen
unter 6 Jahre ..............................................................
6 bis unter 18 Jahre ..............................................................
18 bis unter 25 Jahre ..............................................................
25 bis unter 30 Jahre ..............................................................
30 bis unter 40 Jahre ..............................................................
40 bis unter 50 Jahre ..............................................................
50 bis unter 60 Jahre ..............................................................
60 bis unter 65 Jahre ..............................................................
65 Jahre oder älter ..................................................................
Bayern in Zahlen 6|2014
315
316 Beiträge aus der Statistik
2 (Geschlecht) x 4 (Familienstand) x 9 (Alter) x 2 (Staatsangehörigkeit) x 4 (Erwerbstätigkeit) vorliegen, unabhängig voneinander eine entsprechende Zufallsauswahl zu treffen.
x 4 (Ranking) = 2 304 Werten.
Schritt 2.1: Berechnung der ZiehungswahrscheinDiese Werte werden nachfolgend als Klassen be-
lichkeit
zeichnet. Jede Klasse lässt sich numerisch als sechs-
Es seien nun GG die Grundgesamtheit und M1, ..., M5
stellige Zahlenkombination darstellen. Die Klasse
die in Tabelle 2 aufgeführten Merkmale bzw. Merk-
113111 bei Hauptwohnsitz bedeutet zum Beispiel
malskombinationen für Hauptwohnungspersonen. Mit
männlich, ledig, 18 bis unter 25 Jahre, deutsch, so-
mij sei die Anzahl der Einheiten in der Grundgesamt-
zialversicherungspflichtig Beschäftigter, vor Modul 4
heit und als kij die zu löschenden Einheiten (Anzahl der
verknüpft. Auf diese Weise lässt sich jeder Personen-
Karteileichen) eines Merkmals i mit der Ausprägung j
satz in den Registerdaten durch eine Merkmalskom-
bezeichnet. Die Gesamtheit aller zu löschenden Sätze
bination eindeutig charakterisieren.
(Karteileichen) wird mit KL bezeichnet.
Tatsächlich ist die Zahl der Klassen deutlich geringer.
Bei zufälligem (gleichverteilten) Ziehen in der Grund-
Zum einen, weil sich bestimmte Kombinationen aus-
gesamtheit beläuft sich die relative Häufigkeit hij(GG)
schließen (z. B. Staatsangehörigkeit deutsch und un-
einer zu ziehenden Merkmalsausprägung auf:
verknüpfter Nicht-Deutscher), zum anderen, weil be-
hij(GG)=mij /GG
stimmte Kombinationen extrem selten sind und ggf.
in dem jeweiligen Datenbestand gar nicht vorkom-
Für die relative Häufigkeit einer Merkmalsausprä-
men (z. B. verwitwete Person zwischen 6 und unter
gung in den Karteileichen hij(KL) gilt:
18 Jahren).
hij(KL)=kij/KL
Verfahrensablauf
Somit gilt für den Anpassungsfaktor aij, der angibt,
Schritt 1:
um wie viel häufiger (oder auch seltener) als in der
Für die Registerdaten in der Beispielgemeinde wer-
Grundgesamtheit vorhanden eine bestimmte Merk-
den für die fünf demographischen Merkmale und das
malsausprägung ausgewählt werden soll:
Merkmal Ranking die Häufigkeiten aller Klassen er-
aij=hij(KL)/hij(GG)=(kij/KL)/(mij/GG)=(kij/mij) * (GG/KL)
mittelt. Die Anzahl der für jede Klasse im Register
festgestellten Personen (Grundgesamtheit) bilden im
D. h. der Anpassungsfaktor ergibt sich aus der merk-
weiteren Verfahrensablauf Grenzwerte, da nur maxi-
malsspezifischen Karteileichenrate einer Merkmals-
mal so viele Personen gelöscht werden können, wie
ausprägung multipliziert mit dem Quotienten aus
in der jeweiligen Grundgesamtheit vorkommen.
Grundgesamtheit und Karteileichenzahl.
Schritt 2:
Für die Merkmalsausprägung m11 „Männer, deutsch“
Es soll nun zufällig eine der Klassen gezogen wer-
der Merkmalskombination „Geschlecht/Staatsange-
den. Ausschlaggebend hierbei ist, dass die Wahr-
hörigkeit“ ergibt sich in unserem Beispiel:
scheinlichkeit für die Ziehung einer Klasse nicht der
h11(GG) = 11 632/29 461 = 0,39
Häufigkeit in der Grundgesamtheit, sondern der
h11(KL) = 626/1 813 = 0,35
Häufigkeit in den Karteileichen entsprechen soll. Da
a11 = h11(KL)/h11(GG) = 0,87
diese allerdings nicht bekannt ist, wird davon ausgegangen, dass die aus der Stichprobe bekannten
Deutsche Männer sind also 0,87 mal so oft (und da-
uni- oder bivariaten Verteilungen der Merkmalsaus-
mit um den Faktor 0,13 seltener) auszuwählen, als es
prägungen voneinander statistisch unabhängig und
ihrem Anteil in der Grundgesamtheit entspricht.
folglich multiplikativ verknüpfbar sind.
Besonders prägnant ist der Anpassungsfaktor bei
Ausgehend von dieser Annahme ist es nun möglich,
der Merkmalsausprägung m44 „unverknüpfte Nicht-
für jedes Merkmal bzw. jede Merkmalskombination,
Deutsche“:
für das bzw. die aus der Stichprobe Informationen
Bayern in Zahlen 6|2014
Beiträge aus der Statistik
geführt, ist die potenziell in Frage kommende Klas-
h44 (GG) = 1 137/29 461 = 0,04
se bestimmt.
h44(KL) = 465/1 813 = 0,26
a44 = h44(KL)/h44(GG) = 6,65
Schritt 2.3: Prüfung auf Zulässigkeit
Unverknüpfte Nicht-Deutsche sind demnach um den
Nach der Zufallsziehung einer Klasse ist die ausge-
Faktor 6,65 und damit häufiger auszuwählen, als es
wählte Klasse hinsichtlich ihrer Zulässigkeit zu prüfen.
ihrem Anteil in der Grundgesamtheit entspricht.
Diese Prüfung enthält u. a. die Kontrolle, ob die gezogene Klasse unter Berücksichtigung der bereits gezo-
Schritt 2.2: Zufallsziehung
genen Fallzahlen in der Grundgesamtheit überhaupt
Sind aus der Stichprobe nur die Randverteilungen
existiert, sowie die Kontrolle, ob die Zahl der ausge-
bekannt, so kann nun für jedes Merkmal einzeln eine
wählten Einheiten mit der Ausprägung „ledig“ des
Zufallsziehung der Merkmalsausprägung vorgenom-
Merkmals Familienstand die Zahl der ausgewählten
men werden. Hierzu werden die Anpassungsfakto-
Personen unter 18 Jahren nicht unterschreitet. Die-
ren aij für alle Ausprägungen j eines Merkmals i er-
se Einschränkung hat sich als notwendig erwiesen,
rechnet. Zur Erläuterung soll das Merkmal Familien-
weil die unter 18-Jährigen nahezu alle ledig sind und
stand herangezogen werden. In Tabelle 3 sind Bei-
aufgrund der Auswahl zu vieler Lediger über 17 Jah-
spieldaten für den Familienstand aufgeführt.
re die Anzahl der zu löschenden unter 18-Jährigen
nicht mehr erreicht werden kann.
Tab. 3 Anpassungsfaktoren für die Ausprägungen des Familienstands der Beispieldaten
Familienstand
Anzahl
Grundgesamt- AnpassungsKarteileichen
heit
faktor
1
2
Ledig .................
Verheiratet .........
Verwitwet ...........
Geschieden ......
1 030
542
85
156
12 809
12 435
1 772
2 445
Insgesamt
1 813
29 461
3
1,31
0,71
0,78
1,04
Ebenfalls in Tabelle 3 sind die Daten für die Grund-
Ist eine Klasse nicht gültig, erfolgt eine neue Zufallsauswahl. Durch diese einschränkenden Bedingungen werden – wie bereits erwähnt – die
Kovarianzen näherungsweise in dem Modell berücksichtigt.
Schritt 2.4: Neuberechnung der Auswahlwahrscheinlichkeiten
Die Auswahl einer Klasse wird als potenzielle Lö-
gesamtheit und die Karteileichen nach den Familien-
schung einer Person aus den Registerdaten betrach-
ständen aufgelistet. In Spalte 3 sind die Faktoren ent-
tet und damit reduziert sich für die ausgewählten
halten, die angeben, um wieviel mal häufiger oder
Merkmalsausprägungen sowohl die Zahl der zu lö-
geringer ein Familienstand als Karteileiche auftritt.
schenden Einheiten als auch die Zahl der jeweiligen
Die Zahlen wurden nach der oben angeführten Formel berechnet.
Sind, wie im oben angeführten Beispiel, auch bi-
Tab. 4 Auszugsweises Ergebnis einer Approximation der Klassenbesetzungen für Hauptwohnsitzkarteileichen
variate Verteilungen der Karteileichen bekannt, er-
Approximierte
Karteileichen
folgt die Ziehung sukzessive, d. h. es wird zunächst
aus der Merkmalskombination Geschlecht/Staatsangehörigkeit eine Ausprägung entsprechend der
Klasse
Grundgesamtheit
Registerdaten
Besetzung der
Klassen =
zu löschende
Personen
in dieser Klasse
1
2
30
34
12
69
12
13
23
99
10
6
1
28
12
5
14
4
errechneten Verteilung zufällig gezogen und damit
zwei der Klassenziffern bestimmt. Das Ziehungsergebnis determiniert, ob aus der Kombination Männer/Alter oder Frauen/Alter die nächste Zufallsziehung vorgenommen wird.
Sind für alle Merkmale/Merkmalskombinationen anhand der Anpassungsfaktoren die Ziehungen durch-
Bayern in Zahlen 6|2014
113221 .................
115211 .................
126222 .................
126242 .................
144241 .................
147133 .................
223132 .................
237131 .................
317
318 Beiträge aus der Statistik
Einheiten in der Grundgesamtheit um jeweils Eins.
gisterfehler in einer Gemeinde, an das der Einzelda-
Aufgrund dieses dynamischen Effekts (Ziehen ohne
tenbestand angepasst wird. Dieser ist letztlich durch
Zurücklegen) muss nach jeder Auswahl einer Klasse
das Zensusmodell bedingt und nicht durch das Ver-
für den erneuten Ziehungsvorgang eine Neuberech-
fahren per se verursacht. Die zweite Fehlerkompo-
nung der Anpassungsfaktoren stattfinden.
nente, der eigentliche Verfahrensfehler, resultiert aus
der nur näherungsweise ermittelbaren unbekannten
Diese Schritte werden solange durchgeführt, bis
vollständigen multivariaten Verteilung der Register-
für alle Merkmalsausprägungen die Zahl der zu lö-
fehler.
schenden Einheiten erfüllt ist. In Tabelle 4 wird
auszugsweise das Ergebnis einer Approximation
Während der Stichprobenfehler durch entspre-
gezeigt. Die sechsstellige Zahlenkombination be-
chende Fehlerrechnungen quantifizierbar ist, ist eine
schreibt die jeweilige Klasse.
analytische Quantifizierung des Verfahrensfehlers
nicht möglich. Beide Fehlerkomponenten sind aber
In der Klasse 113 221 existieren demnach 30 Per-
nicht unabhängig. Bei Gemeinden mit vergleichswei-
sonen in der Grundgesamtheit. Die approximierte
se großen Registerfehlern steigt – bedingt durch die
Besetzung dieser Klasse beläuft sich auf zehn Per-
höheren Fallzahlen in der Stichprobe – die Qualität
sonen; damit müssen letztlich zehn Personen dieser
der Stichprobenergebnisse zu den Registerfehlern.
Klasse aus dem Datensatz gelöscht werden.
Demgegenüber verursacht das höhere Lösch- bzw.
Imputationsvolumen zwangsläufig höhere strukturelle
4. Zusammenfassung und Bewertung des
Abweichungen zur realen demographischen Struktur.
Verfahrens
Kurz gesagt: je höher der Registerfehler, desto kleiner
Mit dem vorliegenden Verfahren, das eher als Heuris-
der Stichproben- und desto größer der Verfahrens-
tik bezeichnet werden kann, ist es im Rahmen des
fehler und vice versa.
Zensus möglich, die aus der Haushaltsstichprobe geschätzten Umfänge der Registerfehler in den Einzel-
Anhand des Zensustestdatenmaterials wurde eine
datenbestand des Zensus zu integrieren, um so einen
Reihe von empirischen Untersuchungen zur Güte
fachlich und regional in beliebiger Tiefe auswert-
des Verfahrens vorgenommen. Im Ergebnis hat sich
baren Zensuseinzeldatenbestand zu erhalten. Das
gezeigt, dass die Auswirkungen auf die demogra-
Verfahren gewährleistet hierbei, dass die aus Melde-
phischen Ergebnisse einer Gemeinde insgesamt ge-
register und Stichprobe ermittelte Einwohnerzahl un-
ring ausfallen. Nennenswerte relative Abweichungen
verändert bleibt.
waren erwartungsgemäß nur bei schwach besetzten
In Hinblick auf die Güte des Verfahrens, im Sinne von
ter 65 Jahre festzustellen. Etwas stärker fielen die Ab-
Tabellenfeldern, wie z. B. verwitweten Ausländern unAbweichungen der aus dem erzeugten Zensusdaten-
weichungen bei den haushaltsstrukturellen Ergeb-
bestand gewonnenen demographischen und haus-
nissen ins Gewicht.
haltsstrukturellen Ergebnisse zu den „wahren“ demographischen und haushaltsstrukturellen Ergebnissen
Die Haushaltegenerierung einschließlich des Korrek-
einer Gemeinde, ist Folgendes zu bemerken.
turverfahrens konnten Ende des Jahres 2013 erfolgreich abgeschlossen werden. Anschließend erfolgt
Der Gesamtfehler setzt sich aus zwei Komponenten
nun eine intensive Evaluationsphase, in der die Ver-
zusammen: Die erste Komponente ist der Stichpro-
fahren in Hinblick auf eine Verwendung im Zensus
benfehler aus den geschätzten Strukturdaten der Re-
2021 geprüft und weiterentwickelt werden müssen.
Literaturverzeichnis:
Hillier, Frederick; Lieberman, Gerald (1996), Opera-
Kamen, Charles (2005), The 2008 Israel Integrated
tions Research. Einführung. 5. Auflage, München.
Census of Population and Housing – Basic con-
Kreuzmair, Ingrid; Reisch, Marco (2012), Ablauf der
ception and procedure. www.cbs.gov.il/mifkad/
Haushaltegenerierung. In: Bayern in Zahlen, Aus-
census2008_e.pdf (28.02.2014).
gabe 9/2012. S. 615-624.
Bayern in Zahlen 6|2014
Herunterladen