Modellierung der Einflussfaktoren auf die Zufriedenheit mit einem

Werbung
Masterarbeit
Modellierung der Einflussfaktoren auf die
Zufriedenheit mit einem Wohnquartier
Verfasser: Markus Terhürne
Betreuer: Professor Dr. Christine Müller
Professor Dr. Michael Nadler
Statistik in den Ingenieurwissenschaften
Technische Universität Dortmund
Inhaltsverzeichnis
1 Einleitung
1
2 Problemstellung und Datenbeschreibung
4
3 Statistische Methoden
6
3.1
Korrespondenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.2
Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . .
9
3.3
Ordinale Zielvariable und Odds Ratio . . . . . . . . . . . . . . . . . . . . . .
11
3.4
Generalisierte lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.5
Kategoriale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.5.1
Kumulatives Modell . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.5.2
Sequentielles Modell . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.5.3
Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.6
Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.7
Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.8
Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.8.1
AIC und BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.9.1
Rückwärtsselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.9.2
Vorwärtsselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.9.3
Gemischte Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.9.4
Fehlklassifikationsrate . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.10 Kategoriale Regression verknüpft mit der Hauptkomponentenanalyse . . . . . .
23
3.11 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.12 Multiples Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.9
4 Statistische Auswertung
4.1
4.2
28
Analyse des BBSR-Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.1.1
Kumulative Regressionsanalyse . . . . . . . . . . . . . . . . . . . . .
31
4.1.1.1
Voller Modellansatz ohne Wechselwirkungen . . . . . . . . .
32
4.1.1.2
Modellansatz mit Wechselwirkungen . . . . . . . . . . . . .
38
4.1.1.3
Modellansatz mit transformierte Zielvariable . . . . . . . . .
41
4.1.1.4
Zweistufige Modelierung der Lebenszufriedenheit . . . . . .
46
4.1.2
Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . .
49
4.1.3
Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.1.4
Zusammenfassung des BBSR-Datensatzes . . . . . . . . . . . . . . . .
63
Analyse des ALLBUS-Datensatz . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.2.1
Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . .
65
4.2.2
Kumulatives Hauptkomponentenmodell . . . . . . . . . . . . . . . . .
68
4.2.3
Zusammenfassung des ALLBUS-Datensatzes . . . . . . . . . . . . . .
71
5 Zusammenfassung
72
Literaturverzeichnis
75
A Anhang
77
Tabellenverzeichnis
3.1
Kontingenztabelle vor der Standardisierung. . . . . . . . . . . . . . . . . . . .
3.2
Kontingenztabelle des Zeilenprofils, wobei die Einträge aus Tabelle 3.1 durch
die Zeilensumme normiert werden. . . . . . . . . . . . . . . . . . . . . . . . .
3.3
7
7
Kontingenztabelle des Spaltenprofils, wobei die Einträge aus 3.1 durch die
Spaltensumme normiert werden. . . . . . . . . . . . . . . . . . . . . . . . . .
7
4.1
Anzahl der Beobachtungen im BBSR-Datensatz für die Jahre 2000 bis 2011. . .
29
4.2
Variablen mit zu hoher Multikollinearität, die aus dem Datensatz zur Analyse
entfernt werden müssen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3
32
Variablen mit exponierten Schätzern und Varianzen die hinsichtlich ihres pWertes einen erhöhten Einfluss auf die Zielvariable besitzen. . . . . . . . . . .
36
4.4
Konfusionsmatrix des vollen Modells ohne Wechselwirkungen. . . . . . . . . .
38
4.5
Variablen der Wechselwirkungen mit exponierten Schätzern und Varianzen für
das Modell mit Wechselwirkung. . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.6
Konfusionsmatrix des Modells mit Wechselwirkungen. . . . . . . . . . . . . .
41
4.7
Vergleich der Klassenstärke der neu gebildeten Zielvariable. . . . . . . . . . .
41
4.8
Variablen mit exponierten Schätzern und Varianzen, die auf Basis des Konfidenzintervalls bzw. des p-Wertes einen erhöhten Einfluss haben im Modell ohne
4.9
Wechselwirkung mit geänderter Zielvariable. . . . . . . . . . . . . . . . . . .
44
Konfusionsmatrix des vollen Modells mit Transformation der Zielvariable. . . .
44
4.10 Konfusionsmatrix des Modells mit Transformation der Zielvariable und Wechselwirkungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.11 Neue Klasseneinteilung der Zielvariable Zufriedenheit mit dem Leben. . . . . .
47
4.12 Variablen mit exponierten Schätzern und Varianzen für die Modellierung der
Lebenszufriedenheit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.13 Konfusionsmatrix des Modells mit der Zielvariable Lebenszufriedenheit. . . . .
49
4.14 Cronbachs Alpha und Eigenwerte der kategorialen Hauptkomponentenanalyse.
51
4.15 Komponentenladung in den einzelnen Hauptkomponenten, wobei die Variablenbezeichnung im Anhang Tabelle A.6 auf Seite 101 zu finden ist. . . . . . . . .
58
4.16 Variablen mit exponierten Schätzern und Varianzen im Hauptkomponentenmodell. 61
4.17 Konfusionsmatrix des Hauptkomponentenmodells. . . . . . . . . . . . . . . .
61
4.18 Anzahl an Beobachtungen in den Jahren 1980 bis 2010. Die Befragung fand alle
zwei Jahre statt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.19 Anzahl Beobachtungen in den einzelnen Kategorien der Zielvariable. . . . . . .
65
4.20 Cronbachs Alpha und Eigenwert zur Hauptkomponentenbestimmung für den
ALLBUS-Datensatz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
4.21 Exponierte Schätzer der Hauptkomponenten und der Jahreszahl. . . . . . . . .
69
4.22 Konfusionsmatrix des Hauptkomponentenmodells im ALLUB-Datensatz. . . .
70
A.1 Variablen des BBSR-Datensatzes und ihre Bedeutung. . . . . . . . . . . . . .
79
A.2 Variablen mit exponierten Schätzern und Varianzen im vollen Modell des BBSRDatensatzes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
A.3 Variablen mit exponierten Schätzern und Varianzen im Modell mit Wechselwirkungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
A.4 Variablen mit exponierten Schätzern und Varianzen im Modell ohne Wechselwirkung mit transformierter Zielvariable. . . . . . . . . . . . . . . . . . . . .
95
A.5 Variablen mit exponiertem Schätzer im Hauptkomponentenmodell. . . . . . . .
98
A.6 Variablennummerierung für den BBSR-Datensatz, zur Erkennung in der Hauptkomponentenmatrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.7 Variablennummerierung für den ALLBUS-Datensatz, zur Erkennung in der
Hauptkomponentenmatrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
A.8 Hauptkomponentenladung des ALLBUS-Datensatzes. . . . . . . . . . . . . . . 119
A.9 Exponierte Schätzer der Originalvariablen im Hauptkomponentenmodell des
ALLBUS-Datensatzes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
1 Einleitung
Um neue Wohnquartiere, wie zum Beispiel dem Quartier um den Phoenixsee in Dortmund,
zukünftig besser planen zu können, ist es von Interesse, wie die Zufriedenheit der Bewohner
maximiert werden kann. Dies ist vor allem wichtig, damit ein attraktives Wohnquartier für
bestimmte Zielgruppen entsteht. Wünschenswert ist, dass diese Zielgruppe möglichst groß ist.
Bisher ist noch nicht bekannt welche Faktoren eine starke Auswirkungen auf die Wohnquartierszufriedenheit haben. Daher wurden neue Quartiere bis jetzt immer nach subjektivem Empfinden
geplant. In einer Studie von 2004 wurde aufgezeigt, dass vor allem eine unzureichende Nahversorgung die Zufriedenheit gefährdet, vgl. Steffen et al. (2004). Dafür wurden jedoch nur
einzelne Stadtquartiere betrachtet. Damit jedoch festgestellt werden kann, welche Faktoren
allgemein für eine höhere Zufriedenheit der Bewohner sorgen, müssen entsprechende Umfragen
durchgeführt werden. Dabei ist es immer eine Schwierigkeit latente Variablen, wie die Zufriedenheit, abzufragen. Sinnvollerweise werden dafür verschiedene Kategorien gewählt, in denen
sich die befragten Personen einsortieren können. Vor allem sind dabei jedoch die restlichen
erhobenen Fragen interessant. Mit diesen kann versucht werden, die Wohnquartierszufriedenheit
zu modellieren und so zu analysieren, mit welchen Merkmalen diese beeinflusst werden kann.
Dieser Einfluss kann sowohl positiv als auch negativ sein. Da die Zufriedenheit mit Hilfe von
Kategorien abgefragt wurden kann keine gewöhnliche Regression durchgeführt werden. Daher
kann stattdessen die Eintrittswahrscheinlichkeit der Kategorie modelliert werden.
Für die Analyse stehen zwei Datensätze zur Verfügung. Dafür wird zuerst ein Datensatz, genannt
BBSR-Datensatz, analysiert, der Informationen über die Wohngegend enthält. Dieser Datensatz
enthält als Variable die Zufriedenheit mit der unmittelbaren Wohnumgebung, die stellvertretend
für das Wohnquartier gewählt wird. Diese Variable teilt die Zufriedenheit in sieben verschiedene
Klassen ein, von sehr unzufrieden bis sehr zufrieden. Da der BBSR-Datensatz durch eine Befragung erhalten wurde, sind die vielen fehlenden Werte durchaus ein Problem bei der Modellierung.
Dafür werden verschiedenen Lösungen analysiert. Durch die kategorialen Variablen müssen
große Modelle aufgestellt werden, mit vielen Dummy-Variablen. Aufgrund der ordinalen Struktur in der Zielvariable, wird ein kumulatives Modell gewählt, dass diese Struktur ausnutzt und
gleichzeitig keine zu starken Annahmen stellt. Da die unabhängigen Variablen jedoch untereinander zu stark korreliert sind, ist es nicht möglich ein Modell aufzustellen. Hierzu werden zwei
1
1 Einleitung
unterschiedlichen Lösungsmöglichkeiten aufgezeigt. Zuerst wird die Korrelation der Variablen
manuell betrachtet und es werden die Variablen entfernt, die eine zu hohe Korrelation aufweisen
und für die Sachfrage nicht zwingend von Bedeutung sind. Mit dieser verringerten Anzahl an
Variablen wird eine Modellierung durchgeführt. Die Schätzer werden entsprechend interpretiert
und die Modellgüte betrachtet. Dabei wird jedoch festgestellt, dass diese nicht ausreichend ist.
Die Fehlklassifikationsrate ist, auch wenn sie deutlich über einer zufälligen Verteilung liegt, zu
hoch. Dazu ist es notwendig, die Klasseneinteilung zu verallgemeinern. Aus den vorherigen
sieben Klassen werden drei neue gebildet. Mit diesen gelingt die Modellierung deutlich besser
und die Fehlklassifikationsrate liegt in einem guten Bereich. Zusätzlich wird noch ein zweistufiger Modellansatz gewählt, da neben der Zufriedenheit mit dem Wohnquartier noch andere
Zufriedenheitsvariablen vorhanden sind. Zuerst wird die Zufriedenheit mit dem Wohnquartier
modelliert, jedoch ohne die anderen Zufriedenheitsvariablen. Danach wird mit demselben Modell
die Zufriedenheit mit dem Leben durch die anderen Zufriedenheiten dargestellt. Dies ist plausibel
und ermöglicht eine Verifizierung des Modellansatzes. Da sich sämtliche Zufriedenheiten positiv
auf die Lebenszufriedenheiten auswirken und auch die Fehlklassifikationsrate gering ist, wird
dieses Modell als geeignet betrachtet. Ein andere Lösungsansatz für die hohe Multikorrelation
ist die vorherige Durchführung der kategorialen Hauptkomponentenanalyse. Dazu werden die
unabhängigen Variablen zuerst mit Hilfe der Hauptkomponentenanalyse auf eine geringe Anzahl
an Dimensionen projiziert. Danach werden die daraus resultierenden Hauptkomponenten als
neue unabhängige Variablen aufgefasst und erneut ein Modell aufgestellt. Dabei wird versucht
die Hauptkomponenten zu interpretieren und die Schätzer können zum einen für die Hauptkomponenten berechnet werden, jedoch auch auf die Originalvariablen transformiert werden.
Diese Methodik hat den großen Vorteil, dass sie in jeder Datensituation anwendbar ist. Dies
zeigt sich im zweiten Datensatz. Die Schätzer zeigen im Datensatz, dass vor allem ein hoher
Ausländeranteil sich negativ auf die Zufriedenheit auswirkt. Verwunderlich ist zudem, dass
Neubaugebiete die Zufriedenheit senken. Daher müssen die Ergebnisse mit Hilfe eines weiteren
Datensatzes überprüft werden.
Für die weitere Analyse wird ein zweiter Datensatz, der ALLBUS-Datensatz, gewählt. Der
Vorteil dieses Datensatzes ist, dass dieser verschiedene Variablen enthält und so die Situation von
einer anderen Seite beleuchtet. Hier werden vor allem die sozialen Aspekte betrachtet anstelle
von Variablen die die Wohnsituation beschreiben. Da hier mehr Variablen vorhanden sind, ist eine
gewöhnliche Modellierung nicht möglich und es wird direkt auf die Möglichkeit der kategorialen
2
1 Einleitung
Hauptkomponentenanalyse zurückgegriffen. Als Zielvariable wird hier die Verbundenheit mit
dem Wohnquartier gewählt. Da eine hohe Verbundenheit oftmals mit einer großen Zufriedenheit
einhergeht. Auch diese Hauptkomponenten werden soweit möglich interpretiert und die Schätzer
des Modells für die Hauptkomponenten und für die Originalvariablen berechnet. Die Modellgüte
ist in diesem Datensatz höher als im vorherigen. Die Fehlklassifikationsrate ist dabei sehr gering,
obwohl in diesem Fall die Verbundenheit in fünf verschiedene Kategorien einsortiert wird. Diese
gute Modellierung könnte darauf hinweisen, dass soziale Aspekte bei der Zufriedenheit der
Bewohner eine höhere Rolle spielen als es zu vermuten ist. Zudem zeigen die Schätzer auch hier
erneut, dass ein hoher Ausländeranteil sich sehr negativ auswirkt. Hier wird dies jedoch differenziert und es zeigt sich, dass italienische Nachbarn die Zufriedenheit sogar stärken, während
vor allem türkische Nachbarn und Asylbewerber die Zufriedenheit senken. Zudem sind soziale
Interaktionen, wie Vereine und Gemeinschaften, für die Bewohner von großer Bedeutung für die
Verbundenheit. Dies könnte auch ein Grund im ersten Datensatz für das schlechte Abschneiden
der Neubaugebiete sein, da die soziale Anbindung in diesen noch nicht hergestellt werden kann.
Weiterhin wirken sich Fluglärm, industrielle Abfälle und auch Kernkraftwerke in der Umgebung
sehr negativ aus.
Zunächst werden in Kapitel 2 die verwendeten Datensätze beschrieben und die Problemstellung
vorgestellt. In Kapitel 3 wird ein Einblick in die Korrespondenzanalyse, sowie die kategoriale Hauptkomponentenanalyse gegeben. Außerdem wird das generalisierte lineare Modell und
darauf aufbauend die kategoriale Regression vorgestellt, die ein Spezialfall des generalisierten
linearen Modell ist. Bei der kategoriale Regression wird vor allem auf das kumulative und
sequentielle Modell und die Schätzung der Parameter eingegangen. Um die Signifikanz der
Parameter in einem Modell bestimmen zu können werden Konfidenzintervalle beschrieben. Mit
Hilfe eines Gütemaßes, wie beispielsweise dem AIC oder BIC, kann eine Variablenselektion
des Modells durchgeführt werden. Außerdem wird die kategoriale Regression mit der kategorialen Hauptkomponentenanalyse verknüft. Mit Hilfe dieser kann eine Dimensionsreduktion
statt finden. Eine weitere Möglichkeit stellt der Eintscheidungsbaum dar, welcher ebenfalls
beschrieben wird. In Kapitel 4 werden die Datensätze mit den zuvor vorgestellten Verfahren
analysiert. Dabei findet die Analyse der Datensätze in getrennten Abschnitten statt. In Kapitel
5 werden die Ergebnisse zusammengesasst, die Auswertung diskutiert und ein Ausblick auf
weitere Analysemöglichkeiten gegeben.
3
2 Problemstellung und Datenbeschreibung
Die zentrale Fragestellung ist die Auswirkung einzelner Merkmale auf die Zufriedenheit der
Bewohner mit ihrem Wohnquartier. Das Wohnquartier ist dabei nicht eindeutig definiert, vgl.
Feldmann (2009). Es kann aus dem französischen für Stadtviertel hergeleitet werden und gilt
seit den 60-er Jahren als sozialräumliches Wohnfeld. Hierbei ist es von Interesse, inwieweit die
Zufriedenheit der Bewohner beeinflusst werden kann. Die einzelnen Merkmale können sich dabei
sowohl positiv als auch negativ auswirken. Da zu erwarten ist, dass sich sehr viele Merkmale
auf die Zufriedenheit der Bewohner auswirken, sind vor allem die Merkmale interessant, die die
Zufriedenheit deutlich beeinflussen. Um einen Zusammenhang zwischen einzelnen Merkmalen
und der Quartierszufriedenheit herzustellen gibt es verschiedene statistische Möglichkeiten.
Eine deskriptiven Auswertung des Datensatzes ist für einen ersten Eindruck unverzichtbar. Der
tatsächliche Zusammenhang zwischen der Zufriedenheit und den Merkmalen kann dann über ein
Regressionsverfahren versucht werden zu modellieren. Mit Hilfe des gefundenen Modells kann
angegeben werden, welche Merkmale sich wie stark auf die Zufriedenheit auswirken, und mit
Hilfe eine Testverfahrens, ob diese Einflüsse signifikant zu einem globalen Niveau von 5% ist. Für
die Auswertung der Fragestellung wurden der BBSR-Datensatz und der ALLBUS-Datensatz verwendet. Der BBSR-Datensatz ist eine vom Bundesamt für Bauordnung und Raumwesen jährliche
Erhebung zur Wohnsituation in Deutschland, vgl. Ohder (2004). Diese Erhebung findet seit 1986
statt und wird seit 1990 auch im Osten Deutschlands, bedingt durch die Wende, durchgeführt. Für
die Erhebung wurden teilweise in den Jahren verschiedene Fragestellungen untersucht. Über die
Jahre hinweg können nur die Fragestellungen, die jährlich erhoben wurden für die Modellierung
verwendet werden. Im Datensatz befinden sich 110 Variablen bei 46 672 Beobachtungen. Die
Variablen des Datensatz sind hauptsächlich kategorial. Insgesamt sind 86 Variablen kategorial
und 24 Variablen können als kardinalskaliert aufgefasst werden. Zudem wird durch eine Variable
das Jahr der Befragung angegeben, wodurch auch ein zeitlicher Einfluss auf die Zufriedenheit
untersucht werden kann. Die Variablen beschreiben die vorliegende Wohnsituation zu einem
Großteil durch physische Variablen. So werden zum Beispiel Häusermerkmale oder Anzahl der
in der Wohnung lebenden Personen abgefragt. Zudem wird in der Erhebung die Zufriedenheit
der befragten Personen mit dem Wohnquartier, mit der Stadt, mit der eigenen Wohnung, mit den
Umweltbedingungen und dem Leben. Die jährliche Umfrage des Bundesamt für Bauordnung und
4
2 Problemstellung und Datenbeschreibung
Raumwesen ist repräsentativ für die Gesamtbevölkerung der Bundesrepublik Deutschland, da die
Grundgesamtheit der Untersuchung alle während des Befragungszeitraumes in Privathaushalten
lebenden deutsch sprechenden Personen ab 18 Jahren umfasst. Für das Auswahlverfahren wurde
eine mehrfach geschichtete, mehrstufige Zufallsstichprobe gewählt. Die Befragung der Personen
geschah entweder durch eine mündlich-persönliches oder ein telefonisches Interview. Die Art der
Befragung lässt sich mit Hilfe einer Variable im Datensatz nachvollziehen. Durch die Befragung
kann es zu persönlichen Effekten kommen, die die Beantwortung beeinflussen. Da nicht alle
Fragen beantwortet werden, existieren im Datensatz fehlende Werte, diese sind mit negativen
Ausprägungen versehen.
Der ALLBUS-Datensatz besitzt 1 569 Variablen bei 54 243 Beobachtungen, vgl. GESIS - LeibnizInstitut für Sozialwissenschaften (2010). Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften wird jährlich durch das GESIS-Leibniz-Institut für Sozialwissenschaften durchgeführt.
Da jedoch viele der Variablen für die zugrundeliegende Fragestellung irrelevant sind, wird
dieser Datensatz für die Auswertung auf 172 Variablen gekürzt. Die Umfrage wird seit 1980
in zweijährigem Abstand durchgeführt. Die Grundgesamtheit der ALLBUS-Umfragen bestand
bis einschließlich 1990 aus allen wahlberechtigten Personen in der alten Bundesrepublik und
West-Berlin, die in Privathaushalten leben. Seit 1991 umfasst die Grundgesamtheit, aufgrund der
Wiedervereinigung, auch die wahlberechtigten Personen der ehemaligen DDR. Die Erhebung der
Daten erfolgt hierbei durch persönliche Interviews, die bis zum Jahr 2000 auf Papierfragebögen
festgehalten wurden und seitdem mit Laptops unterstützt werden. Auch im ALLBUS-Datensatz
sind die meisten Variablen kategorial. Hierbei sind 164 Variablen kategorial, 8 Variablen können
als kardinalskaliert betrachtet werden. Das Jahr der Befragung ist erneut vorhanden, sodass ein
Einfluss über die Jahre untersucht werden kann. Im Gegensatz zum BBSR-Datensatz sind bei
der ALLBUS-Befragung hauptsächlich latente soziologische Fragen gestellt worden. Dadurch
können die Ergebnisse aus dem BBSR-Datensatz ergänzt werden oder neue Erkenntnisse gewonnen werden. Zudem kann dadurch ein Einblick gewonnen werden, durch welche Faktoren die
Zufriedenheit der Personen besser modelliert werden kann. Bei fehlenden Antworten wurden im
ALLBUS-Datensatz die Ausprägungen der Variablen auf negative Werte gesetzt. Anstelle der
Zufriedenheit mit dem Wohnquartier ist in diesem Datensatz die Verbundenheit mit dem Quartier
erhoben worden. Beide Datensätze sind bereits aufbereitet und enthalten keine unplausible Werte,
jedoch fehlende Werte, die mit negativer Ausprägung versehen wurden.
5
3 Statistische Methoden
Für die Analyse der Daten aus der Immobilienentwicklung werden verschiedene statistischen
Verfahren benötigt. Da die Zielvariablen der Datensätze und auch viele unabhängigen Variablen
über ein kategoriales Messniveau verfügen, werden entsprechende kategoriale Verfahren benötigt. Zuerst wird die Korrespondenzanalyse allgemein erklärt. Darauf aufbauend die kategoriale
Hauptkomponentenanalyse, die eine geeignete Methode darstellt um die hohen Dimensionen der
Datensätze zu reduzieren. Danach werden ordinale Zielvariablen und Odds Ratios beschrieben.
Darauf folgend das allgemeine generalisierte lineare Modell erläutert. Ein Spezialfall davon sind
kategoriale Regressionsmodelle. Dabei wird zwischen dem kumulativen und dem sequentiellen
Modell unterschieden. Das Schätzverfahren und die verschiedenen Gütekriterien werden zudem
erläutert. Auf den Gütekriterien aufbauend werden verschiedene Selektionsverfahren erklärt.
Zudem wird die kategoriale Hauptkomponentenanalyse mit der kategorialen Regression verknüpft und das multiple Testen beschrieben. Für die statistische Auswertung der Daten wird die
Statistik-Software R in der Version 3.0.1 (R Core Team, 2013) wie auch die Statistik-Software
SPSS in der Version 21.0.0.0 (IBM, 2012) verwendet. Für die Statistik-Software R wurde zudem
das Paket „MASS“ (Venables und Ripley, 2002) verwendet. Dadurch können die Ergebnisse in
beiden Programmen verifiziert werden und sind leichter reproduzierbar.
3.1 Korrespondenzanalyse
Mit Hilfe der Korrespondenzanalyse können qualitative Merkmale visualisiert werden, vgl.
Backhaus et al. (2011). Ähnlich wie die Hauptkomponentenanalyse und die Faktorenanalyse ist
dies eine Methode zur Dimensionsreduktion. Dadurch können komplexe Sachverhalte vereinfacht
dargestellt werden. Die qualitativen Merkmale können hierbei ein nominales oder ein ordinales
Skalenniveau besitzen. Ordinal skalierte Merkmale werden dabei jedoch wie nominal skalierte
behandelt.
Zuerst werden die einzelnen Merkmale standardisiert. Dafür können diese entsprechend einer
Kontingenztabelle dargestellt werden, vgl. Tabelle 3.1. Dazu wird die vorliegende Datenstruktur
genutzt. In den einzelnen Zeilen stehen die Beobachtungen, die zum Beispiel an befragten
Personen erhoben werden könnten. In den Spalten werden die Merkmale, wie zum Beispiel die
einzelnen Fragestellungen, abgetragen. Dabei ist n der Stichprobenumfang und p die Anzahl
6
3 Statistische Methoden
der Merkmale. Die einzelenen Einträge in der Kontingenztabelle 3.1 sind die Ausprägungen der
Merkmale in der entsprechenden Beobachtungsnummer.
Beobachtungen
1
..
.
n
P
Merkmale
M1 . . . Mp
l11 . . . l1p
..
..
..
.
.
.
ln1
l·1
...
...
lnp
l·p
P
l1·
..
.
ln·
l
Tabelle 3.1: Kontingenztabelle vor der Standardisierung.
Die einzelnen Werte der Merkmale und Beobachtungen werden entsprechend der Kontingenztabelle 3.2 neu berechnet. Bei dieser Berechnung ergibt die Summe einer Zeile immer den Wert
Eins, sodass auch der Gesamtwert, der unten Rechts in der Tabelle abzulesen ist, als Eins definiert
wird. Dementsprechend ist die Summe aller Merkmale pro Beobachtung Eins und der Wert eines
Merkmals, der an der unteren Summe abzulesen ist, gibt die entsprechende Gewichtung wieder.
Diese Kontingenztabelle wird auch das Zeilenprofil genannt.
Beobachtungen
1
..
.
n
P
Merkmale
M1 . . . Mp
l11
. . . ll1p
l1·
1·
..
..
..
.
.
.
ln1
ln·
l·1
l
...
...
lnp
ln·
l·p
l
P
1
..
.
1
1
Tabelle 3.2: Kontingenztabelle des Zeilenprofils, wobei die Einträge aus Tabelle 3.1 durch die
Zeilensumme normiert werden.
Die Berechnung des sogenannten Spaltenprofils kann Kontingenztabelle Tabelle 3.3 entnommen
werden.
Beobachtungen
1
..
.
n
P
Merkmale
M1 . . . Mp
l11
. . . ll1p
l·1
·p
..
..
..
.
.
.
ln1
l·1
1
...
...
P
l1·
l
..
.
lnp
l·p
ln·
l
1
1
Tabelle 3.3: Kontingenztabelle des Spaltenprofils, wobei die Einträge aus 3.1 durch die Spaltensumme normiert werden.
Die Masse der Zeile i lässt sich darstellen durch pi· =
p·j =
l·j
.
l
li·
l
und die Masse der Spalte j durch
Um die Streuung in den Daten zu messen, wird die χ2 -Größe verwendet. Da hierbei
7
3 Statistische Methoden
keine metrischen Daten vorliegen, ist die Stichprobenvarianz nicht sinnvoll berechenbar. Das
χ2 -Maß ist durch
χ2 =
⇐⇒
X (beobachtete Häufigkeit − erwartete Häufigkeit)2
erwartete Häufigkeit
I X
J
X
(lij − eij )2
χ =
eij
i=1 j=1
2
definiert, wobei die erwartete Häufigkeit durch eij =
li· l·j
l
berechnet werden kann. Daher vergrö-
ßert sich die Streuung, wenn die beobachteten Häufigkeiten von den erwarteten Häufigkeiten
stark abweichen. Da diese Größe jedoch mit steigender Anzahl an Beobachtungen weiter wachsen würde, ist es nötig diese zu Standardisieren. Daher wird die mittlere quadratische Kontingenz
betrachtet, die auch totale Inertia oder Gesamtträgheit genannt wird. Es gilt für die totale Inertia
T =
χ2
.
l
Die totale Inertia lässt sich in Trägheitsgewichte der Zeilen und Spalten zerlegen. Für
diese gilt:
Ti =
1 X (lij − eij )2
,
l j
eij
Tj =
1 X (lij − eij )2
.
l i
eij
Für den Wertebereich der Inertia gilt 1 ≤ T ≤ min{I, J} − 1. Die Korrespondenzanalyse
versucht die vorhandene Streuung bei einer Dimensionsreduzierung möglichst gut zu erhalten,
damit wenig Informationen aus den Daten verloren gehen. Für die Dimensionsreduzierung
werden die einzelnen Beobachtungen zunächst standardisiert. Die standardisierten Werte werden
durch die Gleichung
zij =
pij − êij
p
,
êij
l
erhalten, wobei pij = ijl und êij = pi. · p.j ist. Die totale Inertia lässt sich mit den standardisierten
P P
Daten durch T = i j zij2 ausdrücken. Um einen geringen Informationsverlust zu garantieren,
wird die Singulärwertzerlegung durchgeführt. Die standardisierten Beobachtungen werden in der
Matrix Z zusammengefasst. Die Matrix Z lässt sich in Z = U ·S·V 0 zerlegen. Wobei die Matrix U
die Zeilenelemente, die Matrix V die Spaltenelemente und die Matrix S die Singulärwerte enthält.
Die Singulärwertmatrix S ist eine Diagonalmatrix mit den entsprechenden Singulärwerten auf
0
der Hauptdiagonalen. Die quadrierten Singulärwerte sind die Eigenwerte der Matrix X X
8
3 Statistische Methoden
und werden auch als Trägheitsgewichte der Dimensionen bezeichnet. Dabei bezeichnet X die
Datenmatrix, die die Struktur der Kontingenztafel 3.1 enthält. Sie summieren sich zur totalen
P
s2
Inertia auf, T = k s2k . Da jeder Singulärwert eine Dimension repräsentiert, kann durch Ak = Tk
der Eigenwertanteil der entsprechenden Dimension berechnet werden. Anhand dieser Werte kann
sich für die Anzahl der Dimensionen entschieden werden. Mögliche Verfahren sind der ScreePlot und der kumulierte Eigenwertanteil. Bei dem kumulierten Eigenwertanteil wird sich für die
Anzahl der Dimensionen entschieden, die benötigt wird, um ein bestimmte Mindestanforderung
des erklärenden Anteils zu erhalten. Die Anzahl r der zu wählenden Dimensionen ergibt sich
durch
r = min{r|
r
X
s2
k
k=1
T
≥ λ},
wobei der Wert λ frei gewählt werden kann. Hierbei sind Werte zwischen 0.7 und 0.9 üblich, vgl.
Timm (2002). Die Wahl von λ hängt zusätzlich vom Datensatz ab. Beim Scree-Plot hingegen
werden die einzelnen Singulärwerte sk grafisch abgetragen. Dabei wird der Wert der Singulärwerte auf der y-Achse gegen den Laufindex auf der x-Achse abgetragen. Ist in dieser Grafik ein
„Knick“ zu finden, so ist die Anzahl r der Dimensionen zu wählen, die vor dem „Knick“ vorliegt.
Die Begründung dafür ist ein „deutlicher“ Abfall in dem erklärenden Anteil der Dimensionen,
sodass jeder Dimension die nach dem „Knick“ aufgenommen wird, einen geringer Anteil an
Erklärung beisteuert, als dies die Werte vor dem „Knick“ können.
Die Anzahl der Dimensionen, die gewählt werden, bleibt dabei jedoch ein heuristisches Verfahren
und kann nicht eindeutig gewählt werden, hierbei müssen immer Interessen abgewogen werden
und Kompromisse eingegangen werden.
3.2 Kategoriale Hauptkomponentenanalyse
Die kategoriale Hauptkomponentenanalyse beruht auf der Korrespondenzanalyse, vgl. Bühl
(2012). Der Vorteil der kategorialen Hauptkomponentenanalyse ist dabei, dass die Variablen ein
beliebiges Skalenniveau besitzen können. Ähnlich wie bei der Korrespondenzanalyse wird die
Singulärwertzerlegung als Grundlage zur Berechnung der Hauptkomponenten verwendet. Auch
0
hier wird die standardisierte Matrix Z in Z = U · S · V zerlegt. Für die Singulärwertzerlegung
wird zunächst die Householdertransformation, vgl. Golub und van Loan (1989), angewendet
und daraufhin der QR-Algorithmus angewendet, vgl. Dahmen und Reusken (2008) . Nomina-
9
3 Statistische Methoden
le und auch ordinale Variablen können unverändert verwendet werden. Numerische Variablen
werden für die kategoriale Hauptkomponentenanalyse zuerst in Klassen unterteilt. In der StatistikSoftware SPSS sind automatisch sieben Klassen voreingestellt. Diese können auf Wunsch auch
manuell ausgewählt werden. Als Verteilung der metrischen Variablen wird zu optimalen Klasseneinteilung die Normalverteilung unterstellt. Durch die Singulärwertzerlegung werden die
Eigenwerte der einzelnen Dimensionen berechnet, mit denen die Anzahl bestimmt werden kann.
Da es sich hierbei um eine kategoriale Hauptkomponentenanalyse handelt, kann zusätzlich die
Maßzahl Cronbachs Alpha betrachtet werden. Auch die Anzahl der Hauptkomponenten kann wie
in der Korrespondenanalyse bestimmt werden. Bei zwei Dimensionen ist zudem die grafische
Betrachtung möglich. Für die Analyse wird die kategoriale Hauptkomponentenanalyse jedoch
lediglich zur Dimensionsreduzierung verwendet. Die dabei entstehenden Hauptkomponenten
sind sowohl normiert als auch orthogonal zueinander, wodurch sie besonders geeignet für eine
Modellierung sind.
Besonders wichtig bei dieser Analyse sind die Komponentenladungen. Jede Hauptkomponente
besitzt einen bestimmten Anteil an der Ladung der Ursprungsvariablen. So lassen sich die
einzelnen Hauptkomponenten oftmals sinnvoll interpretieren. Zudem wird durch die Dimensionsreduzierung keine Variable entfernt. In den Hauptkomponenten finden sich Anteile jeder
Variable wieder. Für die Dimensionsreduzierung werden für die Matrizen U , S und V , die aus der
Singulärwertzerlegung erhalten werden, die entsprechend reduzierten Versionen verwendet. Mit
den ersten r Spalten der Matrix U und V , sowie der Diagonalmatrix der ersten r Eigenwerte für
die Matrix S, können die neuen Dimensionsvektoren 1, . . . , r berechnet werden, vgl. Greenacre
(2007). Für die Normalisierung der neuen Dimensionen gibt es verschiedene Möglichkeiten,
vgl. Backhaus et al. (2011). Bei der symmetrischen Normalisierung wird die Inertia gleichmäßig auf Spalten und Zeilen verteilt. Die Elemente der Matrix U und V werden dabei mit
ûij = uij ·
√
sj
√
pi.
und v̂ij = vij ·
√
sj
√
pi.
normalisiert. Bei dem Zeilenprinzip, bei dem die Inertia nur
auf die Zeilenpunkte übertragen wird, werden die Matrizen U und V mit ûij = uij ·
v̂ij = vij ·
√1
pi.
mit ûij = uij ·
sj
√
pi.
und
normalisiert. Während bei dem Spaltenprinzip die Matrizen U und V äquivalent
√1
pi.
und v̂ij = vij ·
sj
√
pi.
normalisiert werden, wobei hierbei die Inertia auf die
Spaltenelemente übertragen wird.
10
3 Statistische Methoden
3.3 Ordinale Zielvariable und Odds Ratio
Wenn der Zusammenhang zwischen Merkmalen x1 , . . . , xp und einer ordinalen Zielvariable
dargestellt werden soll, müssen dafür alternative Lösungswege, als für eine metrische Zielvariable,
gesucht werden, vgl. Kreienbrock und Schach (1997). Eine ordinale Zielvariable bedeutet dabei,
dass für die Variable Y0 die Ausprägungen 1, . . . , k vorliegen. Anstelle der Modellierung der
Ausprägungen von Y0 werden in diesem Fall die Wahrscheinlichkeiten für das Eintreten einer
Ausprägung modelliert. Der Effekt der Modellierung ist, dass damit sämtliche Werte zwischen
Null und Eins angenommen werden können. Um diesen Bereich weiter zu vergrößern werden
die „Odds“ betrachtet, damit ist der Bereich der angenommen werden kann zwischen Null und
unendlich. Die „Odds“ geben die Chance an, mit der ein Ereignis eintritt, sie sind definiert als
Odds(P (Y0 = r|xj )) =
P (Y0 =r|xj )
,
1−P (Y0 =r|xj )
wobei P (Y0 = r|xj ) die Eintrittswahrscheinlichkeit für
Y0 = r, r ∈ {1, . . . , k}, ist, wenn xj , j = 1, . . . , p vorliegt. Darüber hinaus werden oft die
Odds-Ratio betrachtet. Das Odds-Ratio setzt zwei verschiedene „Odds“ in ein Verhältnis. Damit
wird betrachtet, ob ein Zustand xj eine erhöhte Chance besitzt, dass ein bestimmtes Ereignis
Y0 = r eintritt, als in einem anderen Zustand xi . Es kann durch OR(xj , xi ) =
Odds(P (Y0 =r|xj ))
Odds(P (Y0 =r|xi ))
bestimmt werden. Das OR gibt den Faktor an, um den die Chance, dass das Ereignis eintritt,
verändert wird. Der Wertebereich des OR liegt zwischen Null und unendlich, wobei ein Wert
größer Eins für eine erhöhte Chance und ein Wert kleiner Eins für eine kleinere Chance steht. Ist
der Wert exakt Eins sind die Chancen bei beiden Merkmalsausprägungen gleich.
3.4 Generalisierte lineare Modelle
Oftmals ist eine gewöhnliche lineare Regression aufgrund der vorliegenden Datensituation nicht
möglich. Anstelle der Zielvariable eine Normalverteilung zu unterstellen, wird auf generalisierte
lineare Modelle zurück gegriffen, bei denen die Verteilungsklasse der Zielvariable erweitert wird.
Beim generalisierten Modell wird der Zusammenhang der Zielvariable Y1 , . . . , Yn und den dazugehörigen beobachteten Daten, xt = (xt1 , . . . , xtp ), t = 1, . . . , n, betrachtet. Wobei n die Anzahl
der Beobachtungen und p die Anzahl der Variablen entspricht. Einflussvariablen können sowohl
Variablen selbst, sowie Transformationen dieser, Dummy-Variablen oder Wechselwirkungen
zwischen verschiedenen Variablen sein, vgl. Fahrmeir et al. (2007b). Die wesentliche Änderung
des generalisierten Modells ist, dass die Normalverteilungsannahme dadurch ersetzt wird, dass
11
3 Statistische Methoden
von einer Exponentialfamilie ausgegangen wird. Zur Exponentialfamilie gehören beispielsweise
die Normalverteilung, die Poissonverteilung und die Binomialverteilung. Allgemein lässt sich
eine Exponentialfamilie durch die Dichte
f (yt |θt , φ, ωt ) = exp
yt θt − b(θt )
ωt + c(yt , φ) ,
φ
t = 1, . . . , n
ausdrücken. θt kann dabei durch den bedingten Erwartungswert µt = E(Yt |xt ) mit θt = θ(µt ) bestimmt werden. Der Dispersionsparameter φ ist von t unabhängig und die verteilungsspezifischen
Funktionen b(.) und c(.) sind bekannt. ωt sind die Gewichte, wobei ωt = 1 für ungruppierte
Daten und ωt = ni für gruppierte Daten verwendet wird, vgl. Fahrmeir und Tutz (2001).
Der Zusammenhang zwischen Y und xt ergibt sich über den linearen Prädiktor ηt = xt β, mit
µt = h(ηt ), beziehungsweise ηt = g(µt ), t = 1, . . . , n. Dabei entspricht h(.) einer monotonen,
differenzierbaren Funktion, welche bekannt ist. Die Link-Funktion, dessen Wahl oftmals bedeutsam ist, enspricht g(.) beziehungsweise der inversen Funktion h(.)−1 Die Varianzfunktion
Var(µt ) ist verteilungsunabhängig und die bedingte Varianz hängt von µ ab, Var(Yt |xt ) =
Var(µt )φ
.
ωt
3.5 Kategoriale Regressionsmodelle
Die kategorialen Regressionsmodelle sind ein Spezialfall der generalisierten linearen Modelle,
vgl. Tutz (1990). Die wichtigste Eigenschaft dabei ist, dass die abhängige Variable ein kategoriales Skalenniveau besitzt. Hierbei ist sowohl ein nominales als auch ein ordinales Skalenniveau
möglich. Die abhängige Variable Y besitzt k mögliche Ausprägungen, es gilt Yi ∈ {1, . . . , k}.
Für den Spezialfall k = 2 liegt das bekannte logistische Modell vor, wenn die logit-Funktion als
Link-Funktion gewählt wird. Das Ziel der Modellierung ist im Allgemeinen, wie im Spezialfall,
die Darstellung der Wahrscheinlichkeiten des Auftretens der Ausprägungen
πr = P (Y0 = r),
r = 1, . . . , k .
Dabei wird die abhängige Variable mit Hilfe einer Referenzkategorie k umgeschrieben. Der
Vektor y = (y1 , . . . , yq )0 , mit q = k − 1 lässt sich durch

 1, y = r
0
yr =
 0, sonst
12
3 Statistische Methoden
mit r = 1, . . . , q darstellen. Für die Wahrscheinlichkeiten der einzelnen Klassen ergibt sich
daraus
πr = P (Y0 = r) = P (yr = 1),
r = 1, . . . , q
und für die Referenzkategorie gilt entsprechend
Y0 = k ⇔ y = (0, . . . , 0)0 ,
P (Y0 = k) = 1 − π1 − . . . − πq .
Der Nullvektor ergibt sich dadurch, dass y nur noch k − 1 Kategorien besitzt und wenn diese alle
die Ausprägung Null besitzen die Referenzkategorie k vorliegt. Als Verteilungsannahme für die
mehrkategoriale Zielvariable wird die Multinomialverteilung als Verallgemeinerung der Binomialverteilung angenommen. Es gilt y ∼ M (m, π), mit den Parametern m und π = (π1 , . . . , πq ).
Bei einer ordinalen Zielvariable kann die Ordnungsstruktur der Variable ignoriert werden und
eine multinomiale logistische Regression durchgeführt werden. Jedoch gehen dadurch wichtige
Informationen verloren. Wird die Ordnungsstruktur berücksichtigt, so kann ein ordinales Modell
verwendet werden. Dieses ist im Gegensatz zum multinomialen logistischen Modell parameterökonomischer. So ist bei einer zu großen Anzahl von Parametern das multinomiale logistische
Modell im Gegensatz zum ordinalen Modell nicht mehr schätzbar. Ein weiterer Vorteile ist, dass
das ordinale Modell deutlich leichter zu interpretieren ist.
3.5.1 Kumulatives Modell
Das kumulative Modell ist ein ordinales Regressionsmodell. Zuerst wird für die abhängige
Variable in diesem Modell angenommen, dass eine latente metrische Variable Ỹ existiert, die
durch Y kategorisiert ausgedrückt werden kann. In der Soziologie ist ein häufiges Beispiel die
Zufriedenheit von Personen, die tatsächlich sehr differenziert ist aber nicht beobachtbar, jedoch
in Fragebögen häufig kategorisiert abgefragt wird. Zudem gilt der Zusammenhang
Ỹ = −x0α + ε
13
3 Statistische Methoden
in Abhängigkeit der unabhängigen Variablen xj = (x1j , . . . , xmj )0 , j = 1, . . . , n darstellen.
Dabei beschreibt α = (α1 , . . . , αn )0 den Einfluss der Variablen


x11 · · · x1n


.. 
 .
0
0
0
x0 =  ..
.  = (x1 , . . . , xn ) = (x 1 , . . . , x m )


xm1 · · · xmn
ohne Achsenabschnitt und ε der Fehlerterm mit Verteilungsfunktion F und Erwartungswert
0. Der Fehlervektor besitzt zudem die Verteilungsfunktion F . Der Parametervektor α erhält
ein negatives Vorzeichen, damit die Schätzer leichter zu interpretieren sind. Dadurch gilt, dass
ein positiver Schätzer sich positiv für die Wahrscheinlichkeit einer höheren Klasse auswirkt.
Dieses sollte nur geändert werden, wenn die Kategorien der Zielvariable anders geartet sind,
zum Beispiel wenn Kategorie Eins für „zufrieden“ und Kategorie Zwei „unzufrieden“ entspricht.
Der Zusammenhang zwischen der kategorialen und der latenten Variablen erfolgt über
Y0 = r
⇔
θ(r−1) < Y˜0 ≤ θr ,
mit −∞ = θ0 < θ1 < . . . < θq < θk = ∞ als Schwellenwerte auf dem latenten Kontinuum. Da
die einzelnen Schwellen kumulativ erreicht werden, ergibt sich so der Modellname. Aus diesen
geforderten Annahmen lässt sich die Wahrscheinlichkeit des Auftretens einer beliebigen Klasse
r darstellen als
P (Y0 = r|x) = P (θr−1 < Y˜0 ≤ θr |x)
= P (Y˜0 ≤ θr |x) − P (Y˜0 ≤ θr−1 |x)
= P (ε ≤ θr + x0 α) − P (ε ≤ θr−1 + x0 α)
= F (θr + x0 α) − F (θr−1 + x0 α).
Wird dabei θr als Parameter α0r für die Konstante angenommen, wird das kumulative Modell
P (Y0 = r|x) = F (α0r + x0 α) − F (α0,r−1 + x0 α),
mit r = 1, . . . , k erhalten. Dies lässt sich weiter vereinfachen zu
P (Y0 ≤ r|x) = F (α0r + x0 α),
14
3 Statistische Methoden
mit r = 1, . . . , k. Daraus ergeben sich die kumulativen Wahrscheinlichkeiten, die die Form eines
binären Wahrscheinlichkeitsmodells besitzen,
P (Y0 = 1|x) + . . . + P (Y0 = r|x) = P (Y0 ≤ r|x).
Um die Formulierung des kumulativen Modells exakter angeben zu können, muss eine Wahl der
Link-Funktion erfolgen. Wird für die Link-Funktion die logistische Funktion F (u) =
exp(u)
(1+exp(u))
gewählt, dann lässt sich die Wahrscheinlichkeit, dass mindestens Klasse r vorliegt, darstellen als
P (Y0 ≤ r|x) =
exp (α0r + x0 α)
.
(1 + exp (α0r + x0 α))
(3.1)
Die Gleichung lässt sich nach dem Parameter α umstellen, sodass die logarithmierten Klassenwahrscheinlichkeiten betrachtet werden. Dazu wird zunächst die Wahrscheinlichkeit, dass
eine höhere Klasse als r vorliegt P (Y0 > r|x) betrachtet. Diese lässt sich umstellen zu
P (Y0 > r|x) = 1 − P (Y0 ≤ r|x), wobei mit Formel 3.1 gilt:
1 − P (Y0 ≤ r|x) = 1 −
exp(α0r + x0 α)
(1 + exp(α0r + x0 α))
=
(1 + exp(α0r + x0 α)) − exp(α0r + x0 α)
(1 + exp(α0r + x0 α))
=
1
.
(1 + exp(α0r + x0 α))
Damit lässt sich Formel (3.1) darstellen als:
exp(α0r + x0 α)
P (Y0 ≤ r|x) =
(1 + exp(α0r + x0 α))
⇐⇒
⇐⇒
⇐⇒
P (Y0 ≤ r|x) =
exp(α0r + x0 α)
1
P (Y >r|x)
P (Y0 ≤ r|x)
= exp(α0r + x0 α)
P (Y0 > r|x)
P (Y0 ≤ r|x)
= α0r + x0 α .
log
P (Y0 > r|x)
(3.2)
Anhand der Formel (3.2) ist ersichtlich, dass die kumulierten logarithmierten Chancen einen
linearen Zusammenhang besitzen. Bei der Wahl der passenden Link-Funktion ist zu beachten,
15
3 Statistische Methoden
dass die logit-Funktion vor allem für gleichmäßige Klassenwahrscheinlichkeiten geeignet ist.
Bei einem erhöhten Auftreten der höheren Kategorien eignet sich besonders die complementarylog-log-Funktion. Sind die niedrigeren Kategorien besonders stark besetzt, so kann die negative
log-log-Funktion gewählt werden, vgl. Norušis (2011).
3.5.2 Sequentielles Modell
Im Unterschied zum kumulativen Modell wird beim sequentiellen Modell davon ausgegangen,
dass die verschiedenen Kategorien der Zielvariable nur sukzessive erreicht werden können,
vgl. Tutz (1990). Dies ist eine erschwerte Annahme, die nicht immer getroffen werden kann.
Die Verweildauer in den vorherigen Kategorien wird dabei nicht beobachtet. Bekannt ist wie
beim kumulativen Modell nur die beobachtete Kategorie. Werden die Kategorien jedoch tatsächlich sukzessive erreicht, ist es sinnvoll diese Information mit in das Modell eingehen zu
lassen. Bei dem sequentiellen Modell wird dies durch die dichotomen Übergänge erreicht. Als
Modellgleichung kann für das sequentielle Modell
Ỹ = −x0α + ε
(3.3)
in Abhängigkeit der unabhängigen Variablen xj = (x1j , . . . , xmj )0 , j = 1, . . . , n angenommen
werden. Dabei beschreibt α = (α1 , . . . , αn )0 den Einfluss der Variablen


x
· · · x1n
 11

.. 
 ..
0
0
0
x = .
.  = (x1 , . . . , xn ) = (x 1 , . . . , x m )


xm1 · · · xmn
0
ohne Achsenabschnitt und ε der Fehlerterm mit Verteilungsfunktion F und Erwartungswert
0. Der Übergang der sukzessiven Kategorien der Zielvariable kann mit Hilfe dieser latenten
Variable modelliert werden. Dabei gilt für den Übergang einer Kategorie r in die Kategorie r + 1,
dass
Y0 = r|Y ≥ r, falls Ỹr ≤ θr bzw.
Y0 > r|Y ≥ r, falls Ỹr > θr ,
16
3 Statistische Methoden
mit θ1 ≤ . . . ≤ θk . Dieser Prozess stoppt, sobald der Übergang in die nächste Kategorie nicht
mehr erfolgt. Die einzelnen Klassenwahrscheinlichkeiten,
r−1
Y
P (Y0 = r) = F (x α) (1 − F (x0 α)),
0
s=1
können mit der Verteilungsfunktion F speziell angegeben werden. Diese kann ebenso wie beim
kumulativen Modell gewählt werden.
3.5.3 Schätzverfahren
Als Schätzverfahren für ordinale Modelle wird, wie auch für die generalisierten Modelle, das
Maximum-Likelihood-Prinzip angewendet, vgl. Fahrmeir et al. (2007a). Die Zielvariable Y ist,
bedingt der unabhängigen Beobachtung x, Multinomialverteilt. Es gilt,
Yi |x ∼ M (1, πi ),
i = 1, . . . , n,
mit n als Anzahl der Beobachtungen und πi = (πi1 , . . . , πi(k−1) ) als Parametervektor der Multinomialverteilung. Die einzelnen Wahrscheinlichkeiten πir = P (Yi = r|xi ) = P (yir = 1|xi ) =
F (ηir ) − F (ηi(r−1) ) des Parametervektor πi sind über die linearen Prädiktoren ηi = α0r + x0 α
von β abhängig, wobei β = (α01 , . . . , α0(k−1) ) ist. Die Likelihood-Funktion, die durch
L(β) =
n
Y
P (Yi1 = yi1 , . . . , Yi(k−q) = yi(k−1) )
i=1
=
n
Y
i=1
n!
yi(k−1)
π1yi1 · · · π(k−1)
yi1 ! · · · yi(k−1) ! · (n − yi1 − . . . − yi(k−1) )!
· (n − πi1 − . . . − πi(k−1) )n−yi1 −...−yi(k−1) ,
angegeben werden kann, verwendet für jede der k Kategorien der Zielvariable eine dichotome
Variable. Die Ausprägung der dichotomen Variable für jede Kategorie r, r = 1, . . . , k wird
durch yir , i = 1, . . . , n beschrieben. Die Ausprägung der letzten Kategorie wird dabei durch
yik = 1 − yi1 − . . . − yi(k−1) dargestellt und die Wahrscheinlichtkeit der letzten Kategorie πik
17
3 Statistische Methoden
durch πik = 1 − πi1 − . . . − πi(k−1) . Da sich das Maximieren der Likelihood-Funktion aufgrund
der zahlreichen Produkte schwierig gestaltet, wird die log-Likelihood,
l(β) =
n
X
(yi1 log(πi1 ) + . . . + yik log(πik )) + C,
i=1
betrachtet. Dabei ist C die additive Konstante und anstelle der Produkte sind durch das Logarithmieren Summanden vorhanden, die das Maximierungsproblem vereinfachen. Durch das Ableiten
der log-Likelihood-Funktion wird die Score-Funktion erhalten. Diese kann durch
s(β) =
n
X
x0i Di Σ0i (yi − πi )
i=1
angegeben werden. Erhalten wird diese Gleichung durch das Differential der log-LikelihoodFunktion nach β und entsprechendes umformulieren. Dabei ist Di =
∂ h(ηi )
∂η
und Σi die Kova-
rianzmatrix. Die Funktion h(·) ist die Umkehrfunktion der Link-Funktion. Durch Nullsetzen
der Scorefunktion, ŝ(β) = 0, wird der Maximum-Likelihood-Schätzer iterativ erhalten. Dazu
kann das Fisher-Scoring-Verfahren verwendet werden, vgl. Fahrmeir et al. (2007a). Dies ist ein
iteratives numerisches Verfahren, dass auf dem gewichteten Kleinste-Quadrate-Schätzer beruht.
3.6 Konfidenzintervall
Da eine Punktschätzung für ein Odds-Ratio zwar möglich ist, jedoch keine große Auskunft
gibt, da nicht bekannt ist, wie weit die Schätzung schwankt, ist es notwendig ein Konfidenzintervall anzugeben, vgl. Kreienbrock und Schach (1997). Ein Konfidenzintervall gibt an, in
welchen Grenzen der wahre Parameter mit der Wahrscheinlichkeit 1 − α liegt. Ein Konfidenzintervall eines OR beruht dabei sinnvollerweise auf einem Konfidenzintervall eines Schätzers.
Liegt ein ordinales Modell vor, so kann das Konfidenzintervall des Odds Ratio mit Hilfe der
Parameterschätzer bestimmt werden. Da dieser Schätzer mit Hilfe der Maximum-LikelihoodMethode berechnet wurden, sind diese asymptotisch Normalverteilt. Das Konfidenzintervall für
ein ordinales Regressionsmodell zum Niveau 1 − α kann durch
q
q
ˆ
ˆ
ˆ
ˆ
c
c
exp βj − u1− α2 · Var(βj ) ; exp βj + u1− α2 · Var(βj )
18
3 Statistische Methoden
angegeben werden, wobei βj ; j = 1, . . . , m der j−te Parameterschätzer und u1− α2 das Quantil
der entsprechenden Standardnormalverteilung ist. Die geschätzte Varianz des Schätzer ergibt sich
0
c βˆj ) = βˆj · Cov · βˆj , wobei Cov für die Kovarianzmatrix
wiederum aus der Kovarianzmatrix: Var(
steht. So lässt sich ein Konfidenzintervall angeben, mit dem direkt ersichtlich ist, in wie weit
der geschätzte Wert schwankt. Liegt die Eins in dem Intervall, kann zum Niveau α nicht davon
ausgegangen werden, dass eine veränderte Chance besteht.
3.7 Wald-Test
Der Wald-Test wird verwendet um zu Testen, ob Parameter in einem logistischen bzw. ordinalen Modell signifikant von Null verschieden sind, vgl. Kreienbrock und Schach (1997). Der
Test basiert auf der Annahme, dass die Parameter asymptotisch normalverteilt sind. Unter der
Nullhypothese H0 wird getestet, ob der wahre Parameter gleich Null ist und somit die dazugehörige Variable keinen Einfluss auf die Zielvariable des Modells hat. Wird nur ein Parameter auf
Signifikanz getestet, so lautet das Testproblem
H0 : βj = 0
vs.
H1 : βj 6= 0,
j = 1, . . . , n ,
wobei n die Anzahl der Parameter im Modell ist. Es wird eine normierte Teststatistik verwendet
Zj2
2
βbj
=
.
Vd
ar(βbj )
Da diese Teststatistik den Parameter standardisiert und quadriert, ist Zj2 unter H0 asymptotisch
χ2 -verteilt mit einem Freiheitsgrad. Die Nullhypothese kann zu einem Niveau α abgelehnt
werden, wenn die Teststatistik größer wird als das entsprechende Quantil der χ2 -Verteilung,
Zj2 ≥ χ21,1−α , j = 1, . . . , n.
Sollen mehrere Parameter gleichzeitig getestet werden, beispielsweise bei Dummy-Variablen, so
lautet das Testproblem
H0 : βi = βi+1 = . . . = βk = 0
19
vs.
H1 : ∃βl 6= 0 ,
3 Statistische Methoden
mit 1 ≤ i ≤ k ≤ n und l ∈ {i, . . . , k}. Das multiple Analogon zur obigen Teststatistik lautet
−1
b
b
b
b
d
Z = (βi , . . . , βk ) · Cov βi , . . . , βk
· (βb1 , . . . , βbl )0 .
2
d βbi , . . . , βbk die geschätzte Kovarianzmatrix, welche sich lediglich auf die zu
Dabei ist Cov
testenden Parameter bezieht. Die Teststatistik ist unter der Nullhypothese ebenfalls asymptotisch
χ2 -verteilt. Die Freiheitsgrade ergeben sich aus der Anzahl der zu testenden Parameter. Die
Nullhypothese kann verworfen werden, falls Z 2 > χ2k−i+1,1−α ist.
3.8 Gütekriterien
Um die Güte eines generalisierten Modells zu beschreiben, können nicht die für linearen Modelle
üblichen Maße verwendet werden, vgl. Burnham und Anderson (2004). Da es aber notwendig
ist, die Güte eines Modells zu bestimmen, müssen dafür Alternativen betrachtet werden. Die Gütekriterien sind einerseits notwendig, um zu betrachten, ob die Daten ausreichend gut modelliert
werden und andererseits um mit Hilfe einer Variablenselektion das „optimale“ Modell zu wählen.
Dieses hängt daher immer von der Wahl des Gütekriteriums ab. Das adjustierte Bestimmtheitsmaß kann nicht für ordinale Regressionsmodelle verwendet werden, da dieses ausschließlich
für lineare Modelle geeignet ist. Als Ersatz dafür kann ein Pseudo-Bestimmtheitsmaß betrachtet
werden. Diese sind jedoch umstritten und es gibt viele verschiedene Definitionsversuche für
ein Pseudo-Bestimmtheitsmaß. Für die Variablenselektion eignet sich das AIC oder das BIC
am besten. Für die Betrachtung der generellen Modellgüte kann die Fehlklassifikationsrate
verwendet werden.
3.8.1 AIC und BIC
Das AIC, „Akaike information criterion“, ist ein Gütekriterium für generalisierte Modelle,
vgl. Groß (2003). Dieses Kriterium fußt auf der log-Likelihood-Funktion der zu schätzenden
Parameter. Da das Maximum dieser Log-Likelihood-Funktion jedoch negativ in das Kriterium
eingeht, steht ein kleiner AIC-Wert für eine hohe Anpassungsgüte. Zudem enthält das Kriterium
einen Strafterm für jeden zu schätzenden Parameter, sodass das Maß nicht automatisch mit dem
Hinzufügen weiterer Einflussgrößen besser wird. Das AIC wird durch
AIC = −2 · l(β) + 2((p − 1) + n)
20
3 Statistische Methoden
berechnet, wobei das p hier für die Anzahl der zu schätzenden Parameter und n für die Anzahl
an Beobachtungen steht.
Dieses Kriterium ist relativ konservativ, das heißt es bevorzugt Modelle mit vielen Einflussgrößen.
Ist ein Modell mit möglichst wenig Variablen gewünscht, so eignet sich dazu das BIC als
Gütekriterium besser.
Das BIC, „Bayesschen Informationskriteriums“, ist eine Modifizierung des AIC, vgl. Burnham
und Anderson (2004). Das BIC enthält einen härteren Strafterm für das Hinzufügen weiterer
Einflussgrößen. Es kann durch
BIC = −2 · l(β) + log(n)((p − 1) + n),
berechnet werden. Dies führt dazu, dass Modelle mit weniger Einflussgrößen bevorzugt werden,
und so eine bessere Übersichtlichkeit gewährleistet werden kann.
Diese Kriterien werden vor allem für die Variablenselektion gebraucht, bei der sie die Grundlage
stellen, mit der die verschiedenen Modelle verglichen werden.
3.9 Variablenselektion
Bei der Variablenselektion werden die Variablen ausgewählt, die nötig sind um das beste Modell
zu erhalten. Um von einem besten Modell sprechen zu können, muss erst ein Kriterium ausgewählt werden, anhand dessen die Modelle verglichen werden. Ist nun ein Kriterium gewählt,
wird versucht das Modell mit den Variablen aufzustellen die anhand des Kriteriums den besten
Wert erzielen. Am einfachsten dafür ist es, sämtlich Modelle, d.h. alle vorstellbaren Variablenkombinationen, aufzustellen. Dann kann das Modell mit dem besten Wert gewählt werden. Oft
ist es jedoch nicht möglich alle Modelle aufzustellen, da es zu viele Variablen gibt. Hierfür gibt
es verschieden Selektionsverfahren.
3.9.1 Rückwärtsselektion
Für die Rückwärtsselektion wird zuerst das volle Modell aufgestellt, d.h. das Modell mit sämtlichen Variablen, vgl. Groß (2003). Für dieses vollen Modelle wird der zugehörige Wert des
ausgewählten Kriteriums berechnet. Im nächsten Schritt werden p Modelle aufgestellt, wobei
p für die Anzahl der Variablen steht. In dem i-ten Modell wird die i-te Variable entfernt, mit
21
3 Statistische Methoden
i = 1, . . . , p. Für jedes dieser Modelle wird nun die Güte berechnet und das Modell mit der
höchsten Güte wird das neue Ausgangsmodell. Mit diesem neuen Ausgangsmodell wird nun
genauso verfahren. Dies wird solange durchgeführt, bis der Güte-Wert des Ausgangsmodells
besser ist, als sämtliche Güte-Werte die durch entfernen einer weiteren Variable entstehen. So
wird ein gut angepasstes Modell gefunden, ohne sämtliche Modelle aufstellen zu müssen.
3.9.2 Vorwärtsselektion
Bei der Vorwärtsselektion wird bei dem Modell ausschließlich mit Achsenabschnitt begonnen.
Hierfür wird der zugehörige Wert des ausgewählten Kriteriums berechnet und im nächsten
Schritt, wie bei der Rückwärtsselektion p Modelle aufgestellt. Hierbei wird jedoch keine Variable
entfernt, sondern die entsprechende hinzugefügt. Auch hier wird dann das Modell mit dem besten
Wert als neues Ausgangsmodell gewählt. Dies wird solange durchgeführt, bis keines der neuen
Modelle einen besseren Güte-Wert aufweist, wie das entsprechende Ausgangsmodell.
3.9.3 Gemischte Selektion
Zur Optimierung dieser Verfahren gibt es die gemischte Selektion, die sich sowohl Rückwärts,
wie auch Vorwärts, anwenden lässt. Hierbei wird, z.B. bei der Rückwärtsselektion, für jedes
neue Ausgangsmodell zuerst noch einmal jede Variable einzeln hinzugefügt, um zu erfahren,
ob vielleicht doch eine Variable fälschlicherweise entfernt wurde. Ist der Güte-Wert mit einer
Variable höher als die des Ausgangsmodells wird diese wieder hinzugefügt, ansonsten wird das
Modell beibehalten und es kann der nächste Schritt der Rückwärtsselektion ausgeführt werden.
Dies passiert nun bei jedem Schritt. Bei der Vorwärtsselektion wird genau umgekehrt verfahren.
Die gemischte Selektion ist also ein kombiniertes Rückwärts-Vorwärts-Verfahren. Die gemischte
Selektion bedeutet zwar mehr Rechenaufwand, liefert dafür meistens ein Modell mit höhere
Güte.
3.9.4 Fehlklassifikationsrate
Die Fehlklassifikationsrate gibt an, wie viel Prozent der Beobachtungen im Modell falsch klassifiziert werden. Eine geringe Fehlklassifikationsrate ist daher wünschenswert. Zur Berechnung
der Fehlklassifikationsrate wird
F =
Kf
Kf + Kr
22
3 Statistische Methoden
berechnet, wobei Kr die richtig klassifizierten und Kf die falsch klassifizierten Beobachtungen sind. Dadurch ist der Wert der Fehlklassifikationsrate normiert zwischen Null und Eins.
Gibt es mehr als zwei Klassen ist zudem die Art der Fehlklassifikation interessant. Hierbei
ist eine Fehlklassifikation über mehrere Klassen schlechter, als eine Fehleinschätzung um nur
eine Klassenstufe. Dafür kann eine Konfusionsmatrix aufgestellt werden. Dabei werden die
tatsächlichen den modellierten Klassen gegenübergestellt. Auf der Hauptdiagonalen sind die
richtig klassifizierten und auf der Nebendiagonalen die Beobachtungen, die lediglich um eine
Klasse falsch eingestuft wurden. In den Ecken der Matrix sind die grob falsch klassifizierten
Beobachtungen. Grade diese Beobachtungen sind von Interesse und sollten nicht zu zahlreich
vorhanden sein, da diese vom vorhandenen Modell nicht erfasst werden können.
3.10 Kategoriale Regression verknüpft mit der
Hauptkomponentenanalyse
Wird im Datensatz zunächst mit Hilfe der Hauptkomponentenanalyse die Dimensionsanzahl
reduziert, so lässt sich mit Hilfe der Hauptkomponenten eine Regression durchführen, vgl. Jolliffe
(1986). Dieses Verfahren anzuwenden ist immer dann sinnvoll, wenn zu viele Variablen vorliegen
und diese untereinander hoch korreliert sind. Liegt dementsprechend eine hohe Multikollinearität
vor, so können die Modelle oftmals nicht oder nur fehlerhaft berechnet werden. Bei der Hauptkomponentnenanalyse kann dabei zum einen die Anzahl der Variablen reduziert und zum anderen
existiert dabei keine Multikollinearität mehr. Das Modell der Hauptkomponentenregression lässt
sich durch
Ỹr = −Z 0 γ + εr
r = 1, . . . , k,
beschreiben. Die Matrix Z setzt sich aus den Hauptkomponenten zusammen. Diese sind entsprechend dem Varianzanteil sortiert. Sie lässt sich ebenfalls schreiben als Z = AX, dabei ist X
die Datenmatrix und A die Matrix mit den p orthonormierten Eigenvektoren. Da A orthogonal
ist, kann Xβ auch wie folgt geschrieben werden: Xβ = XAA0 β = Zγ. Somit ist γ = A0 β.
Werden sämtliche Hauptkomponenten behalten, sind diese beiden Modelle äquivalent, da sich die
Schätzer entsprechend umrechnen lassen. Der Schätzer für γ lässt sich mit Hilfe der MaximumLikelihood-Methode, wie in Kapitel 3.5.3 beschrieben, berechnen. Dieser Schätzer ist jedoch nur
von geringem Interesse, da er den Einfluss der Hauptkomponenten beschreibt. Wichtiger ist der
23
3 Statistische Methoden
Ursprungsschätzer β̂, der den Einfluss der Variablen des Datensatzes beschreibt. Der Schätzer β̂
bei der Hauptkomponentenregression lässt sich durch
β̂ = Aγ̂
bestimmen.
Wird mit Hilfe der Hauptkomponentenanalyse jedoch die Dimension reduziert, ändern sich
auch die entsprechenden Schätzer. Auch wenn das für die Regressionsmethode nachteilig ist,
ist dies oftmals der eigentliche Sinn einer Hauptkomponentenregression. Für den Schätzer γ̃
wird dementsprechend die reduzierte Hauptkomponentenmatrix à zur Schätzung der MaximumLikelihood-Methode mit Hilfe der Kleinsten Quadrate verwendet. Zur Berechnung der Schätzer
der Ursprungsvariablen β̃ wird die reduzierte Hauptkomponentenmatrix benötigt. Hierbei wird
der Schätzer durch
β̃ = Ad γ̂
bestimmt. Dabei ist d die Anzahl der verwendeten Hauptkomponenten, mit der die Hauptkomponentenmatrix reduziert wird.
Durch die Dimensionsreduktion findet auch eine Varianzreduktion vom Regressionskoeffizienten statt. Der Vorteil der verringerten Varianz bringt jedoch den Nachteil einer Verzerrung
des Schätzers β̃ mit sich. Daher ist es hierbei besonders wichtig, genügend Hauptkomponenten
mit ins Modell aufzunehmen, um die Verzerrung gering zu halten. Um zu entscheiden, welche
Hauptkomponenten bei der Hauptkomponentenregression verwendet werden sollten, gibt es
verschiedene Möglichkeiten. Zum einen können Hauptkomponenten weggelassen werden die
nur eine sehr kleinen Teil der Varianz erklären, wie in Kapitel 3.1. Eine andere Möglichkeit wäre,
die Hauptkomponenten auszuwählen, die stark mit der Zielvariable korreliert sind. Dies können
unter Umständen Hauptkomponenten sein, die nur wenig Varianz erklären.
3.11 Entscheidungsbaum
Eine weitere Möglichkeit eine Modellierung mit ordinaler Zielvariable vorzunehmen ist der
Entscheidungsbaum, vgl. Hastie et al. (2008). Dieser hat den Vorteil der relativ einfachen
Verständlichkeit und guten Übersichtlichkeit. Der Nachteil ist oftmals eine geringe Komplexität,
die zur vollständigen Modellierung nicht ausreicht.
24
3 Statistische Methoden
Bei einem Entscheidungsbaum werden die Daten durch bestimmte Regeln modelliert. Dabei
kann sowohl eine Klassifikationsregel, wie auch die Modellierung einer Zielvariable erfolgen.
Bei einer binären Zielvariable wird für jede Variable überprüft, welche Ausprägungen eher
für den Faktor „1“ und welche eher für den Faktor „0“ sprechen. Bei kategorialen Variablen
findet dabei eine Unterteilung in sämtliche Kategorien statt. Die Überprüfung der Variablen
erfolgt dabei hierarchisch. Zuerst wird die Variable, die den höchsten Erklärungsanteil für
die Zielvariable besitzt ausgewertet. Dabei wird der ursprüngliche Datensatz in mehrere neue
Datensätze aufgeteilt. Die Aufteilung hängt dabei von den Ausprägungen der Variable ab. Die
neuen Datensätze werden erneut aufgeteilt, mit der Variable, die in dieser Situation den größten
Erklärungsgehalt besitzt. Dieses Verfahren wird solange fortgeführt bis alle Variablen im Modell
enthalten sind oder eine gewisse Grenze erreicht wurde. Diese Grenze kann sowohl ein fest
vorgegebener Maximalwert an Variablen sein, als auch ein Mindestmaß an Erklärung, das bei
jeder weiteren Variable unterschritten werden würde. Wie der Erklärungsgehalt gemessen werden
soll, kann frei entschieden werden. Eine mögliche Variante ist hierfür der F-Test. Die Wahl der
Methode sollte im Bezug auf die unabhängige Variable gewählt werden. Wird ein Testverfahren
als Methode gewählt, so kann zusätzlich eine Bonferroni-Holm-Adjustierung für multiples Testen
vorgenommen werden.
Wie mit der unabhängigen Variable umgegangen wird hängt von der Skalierung ab. Bei binären Variablen ist die Unterteilung des Datensatzes auf die zwei Ausprägungen notwendig.
Bei nominalen oder ordinalen Variablen mit mehr als zwei Ausprägungen, kann entweder für
jede Ausprägung eine Unterteilung stattfinden oder es werden verschiedene Ausprägungen
zusammengefasst. Dabei werden oftmals zwei Gruppen gebildet, sodass ähnlich wie bei den
binären Variablen verfahren werden kann. Bei kardinalskalierten Variablen ist es sinnvoll, diese
in Intervalle einzuteilen, sodass das Verfahren der ordinalen und nominalen Variablen verwendet
werden kann. Oftmals handelt es sich dabei um zwei Intervalle, die jeweils größer oder kleiner
eines bestimmten Wertes sind. Da das Verfahren hierarchisch durchgeführt wird, lässt sich dieses
auch grafisch anschaulich darstellen.
Die Hierarchie dieses Verfahrens birgt jedoch auch Probleme. Da dieses Prinzip Abhängigkeiten
und Synergien der Variablen unberücksichtigt lässt, besteht die Gefahr, dass das gefundene
Modell nicht das beste Modell ist. Eine Möglichkeit dieses zu umgehen wäre eine gemischte
Selektion der Variablen, ähnlich wie bei einer Regressionsanalyse. Da dieses jedoch viel Rechenzeit in Anspruch nehmen würde, wird in der Praxis auf einen interaktiven Entscheidungsbaum
25
3 Statistische Methoden
zurückgegriffen. Der Unterschied zum klassischen Entscheidungsbaum liegt darin, dass der Benutzer selbst wählen kann, wann welche Variablen hinzugefügt werden sollen. Da der Benutzer
so verschiedene Szenarien ausprobieren kann, ist dies ein Vorteil gegenüber dem klassischen
Entscheidungsbaum. Der Nachteil hierbei ist, dass die Szenarien subjektiv vom Benutzer gewählt
werden und auf Erfahrungswerten des Benutzers beruhen. Zur praktischen Ausführung muss
zudem angegeben werden, wie viele Variablen maximal aufgenommen werden dürfen und in
wie viele Ausprägungen diese unterteilt werden dürfen. Ansonsten besteht die Gefahr, dass die
Rechenzeit zu groß wird.
Da durch die verschiedenen Bewertungskriterien die Variablen untereinander schwer vergleichbar sind, ist es notwendig ein weiteres Maß zu finden, um beurteilen zu können, welche dieser
Variablen letztendlich ausgewählt werden. Dazu wird der Datensatz durch eine Zufallsauswahl
in zwei Datensätze aufgeteilt. Diese werden Validations- und Trainingsdatensatz genannt. Die
Variable mit der geringsten Missklassifikationsrate im Validationsdatensatz wird ausgewählt. Der
Algorithmus, mit dem ein solcher Entscheidungsbaum bestimmt werden kann, heißt CHAID
(chi-square automatic interaction detection). Zusätzlich kann die Klassifikation mit einer Verlustfunktion verbunden werden, sodass Fehlentscheidungen unterschiedlich gewichtet werden. Der
große Vorteil eines Entscheidungsbaums gegenüber eines logistischen Modells ist der Umgang
mit fehlenden Werten. Während ein kategoriales Modell sämtliche Beobachtungen mit fehlenden
Werten aus der Untersuchung ausschließen muss, ist es beim Entscheidungsbaum möglich, diese
als weitere mögliche Ausprägung aufzufassen. Dies ist oftmals sinnvoll, da ein fehlender Wert,
der durch eine fehlende Angabe einer bestimmten Person entstanden ist, durchaus eine Aussage
besitzen kann.
3.12 Multiples Testen
Um auch bei mehreren Testverfahren von einem Niveau α sprechen zu können, wird das Multiple
Testen benötigt, vgl. Rüger (2002). Wenn das globale Niveau bei mehreren Tests nicht angepasst
wird, ist der Fehler erster Art bei den einzelnen Tests noch kontrollierbar, jedoch steigt der globale
Fehler über das gewünschte Niveau. Um diesem Effekt zu vermeiden, wird das Bonferroni-Holm
Verfahren angewendet.
Hierbei werden zuerst die einzelnen p-Werte der Größe nach aufsteigend sortiert und dann mit
einem angepassten Niveau verglichen. Lässt sich der kleinste p-Wert nicht mehr verwerfen,
26
3 Statistische Methoden
kann keine Nullhypothese abgelehnt werden. Ist dieser kleiner als das entsprechende Niveau,
wird diese Nullhypothese verworfen und dann wird mit dem zweitkleinsten p-Wert identisch
verfahren. Das angepasste Niveau wird dabei stufenweise gesteigert. Es gilt,
pv ≤
α
für v ∈ {1, 2, ..., u},
(m − v + 1)
wobei u die Anzahl der Parameter ist, die getestet werden sollen. Dieses Verfahren ist weniger
konservativ als das Multiple Testen nach Bonferroni, bei dem das globale Niveau für jeden
einzelnen Test durch die Anzahl der gesamten Tests geteilt wird.
27
4 Statistische Auswertung
Die beschriebenen Methoden werden in diesem Kapitel verwendet um passende Datensätze
zur Fragestellung zu analysieren. Um die Einflüsse auf die Zufriedenheit der Bewohner der
Stadtquartiere zu analysieren, werden zwei verschiedene Datensätze verwendet. Ziel ist es, genau
zu differenzieren, welche Merkmale eines Quartiers eine positive oder negative Auswirkung
haben. Diese können entsprechend verändert werden, um die Zufriedenheit der Bewohner zu
steigern. Problematisch ist dabei der Versuch ein Empfinden zu quantifizieren. Dieses wird in
beiden Datensätzen, wie in der Soziologie üblich, über Fragebögen versucht. Die Zufriedenheit
wird in eine Skala unterteilt, bei der der Bewohner sich entscheiden kann, wie zufrieden oder
unzufrieden er ist. Wichtig ist, dabei eine gelungene Balance zu finden, zwischen zu vielen und
zu wenigen Kategorien. Bei zu vielen Kategorien können die befragten Personen verwirrt und
willkürlicher antworten, bei zu wenigen Kategorien wird die Zufriedenheit nicht differenziert
genug betrachtet. Sind für die Analyse zu viele Kategorien vorhanden, sodass die einzelnen
Kategorien zu schwach besetzt und keine exakte Aussage getroffen werden kann, so können
diese zusammengefasst werden. Der Nachteil dabei ist ein Informationsverlust. Zu Bedenken
ist, dass einzelne Personen in identischen Situationen über eine unterschiedliche Zufriedenheit
verfügen können. Dies kann mit ausreichender Stichprobengröße ausgeglichen werden. Im ersten
Datensatz, dem BBSR-Datensatz, werden vor allem Merkmale abgefragt, die die Wohnumgebung
beschreiben. Die sozialen Faktoren spielen dabei eine untergeordnete Rolle. Die Ergebnisse
dieses Datensatzes werden mit einem zweiten Datensatz überprüft, oder wenn möglich, ergänzt.
Der ALLBUS-Datensatz, der dafür verwendet wird, enthält vor allem soziale Faktoren, die
sich auf die Quartierszufriedenheit auswirken können. Zusätzlich kann durch die Modellierung
der beiden Datensätze erahnt werden, ob eher soziale oder die Wohnsituation beschreibende
Merkmale die Zufriedenheit darstellen können.
4.1 Analyse des BBSR-Datensatzes
Bei Betrachtung des BBSR-Datensatzes fällt zunächst auf, das die Anzahl der Beobachtungen
über die Jahre leicht variieren, vgl. Tabelle 4.1.
Dabei ist das Jahr 2000 das Jahr mit der höchsten Beobachtungsanzahl. Die Anzahl in den
anderen Jahren schwankt etwa um 4 000 Beobachtungen herum und verfügt somit über eine
28
4 Statistische Auswertung
Jahreszahl
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Anzahl Beobachtungen
5 732
3 920
3 900
4 009
3 989
4 007
3 252
3 286
3 698
3 544
3 387
3 948
Tabelle 4.1: Anzahl der Beobachtungen im BBSR-Datensatz für die Jahre 2000 bis 2011.
ausreichende Anzahl zur Analyse. Zusätzlich ist auffällig, dass viele Variablen über eine sehr
hohe Anzahl an fehlenden Werten verfügen. Diese sind hierbei mit negativen Ausprägungen
gekennzeichnet. Dadurch gibt es zwei Möglichkeiten zur Analyse der Daten. Die Beobachtungen
mit fehlenden Werte können für die Analyse ausgeschlossen werden oder die fehlenden Werte
werden als eigene Kategorie aufgenommen. Zum einen gibt es kaum Beobachtungen, die in
keiner Variable einen fehlenden Wert besitzen. Somit müssten die Variablen mit zu vielen fehlenden Werten zuerst vollständig eliminiert werden. Zum anderen können die fehlenden Werte in
den einzelnen Variablen durchaus Aussagekraft besitzen, da die Fragen zu den entsprechenden
Variablen oftmals bewusst nicht beantwortet wurden. Daher wird sich dafür entschieden, die
fehlenden Werten beizubehalten und für die Analyse als eigenständige Kategorie zu betrachten.
Deskriptiv betrachtet lässt sich ein Anstieg der Zufriedenheit über die Jahre in diesem Datensatz
feststellen, ob dieser jedoch bei einer komplexeren Analyse besteht, wird später festgestellt. Dazu
ist es sinnvoll ein Modell zu entwickeln, dass die Zufriedenheit in Abhängigkeit der vorhandenen
Variablen stellt. Da es im BBSR-Datensatz verschiedene Zufriedenheitsvariablen gibt werden
diese zunächst genauer betrachtet. Es existieren dabei die Zufriedenheit mit der Stadt oder
Gemeinde, die Zufriedenheit mit der Wohnung, mit der unmittelbaren Wohnumgebung, mit den
Umweltbedingungen und die Zufriedenheit mit dem Leben. Die Zufriedenheit mit der unmittelbaren Wohnumgebung ist dabei die gesuchte Zielvariable, die die Zufriedenenheit mit dem
Wohnquartier widerspiegelt. Jedoch wäre es sachlich falsch, die Zufriedenheit mit dem Leben als
unabhängige Variable und die Quartierszufriedenheit dabei als abhängige Variable zu betrachten.
Daher wird für diesen Datensatz ein zweistufiger-Modellierungsansatz gewählt. Hierbei wird
zuerst die Zufriedenheit mit der unmittelbaren Wohnumgebung mit den anderen Variablen, die
29
4 Statistische Auswertung
keine Zufriedenheit widerspiegeln, modelliert. Danach wird die Lebenszufriedenheit mit sämtlichen Zufriedenheitsvariablen dargestellt. Dies erscheint plausibler und so kann überprüft werden,
wie weit sich die Lebenszufriedenheit aus den einzelnen Zufriedenheiten ergibt. Zudem ist der
Einfluss der anderen Variablen auf die Zufriedenheit mit dem Wohnquartier nicht verfälscht
durch die Lebenszufriedenheit. Da die Datensituation so bestimmt werden konnte, ist eine Wahl
der Modellierung notwendig. Drei verschiedene Ansätze werden dafür zunächst versucht. Zum
einen ist es in einiger Literatur üblich, bei den vorhandenen sieben Ausprägungen der Zielvariable Zufriedenheit mit der unmittelbaren Wohnumgebung, eine gewöhnliche lineare Regression
durchzuführen, bei der die eigentlich ordinale Zielvariable als metrisch aufgefasst wird. Der
Nachteil dabei ist, das hierfür bewusst ein Fälschung der Datensituation vorgenommen wird.
Der Vorteil dafür ist die einfache und erprobte Methodik. Außerdem ist ein Entscheidungsbaum
möglich, bei dem die Variablen an verschiedenen Ästen auch graphisch gut dargestellt werden
können. Der besondere Vorteil dabei ist die leichte Interpretation und der sinnvolle Umgang
mit fehlenden Werten. Der Nachteil dabei ist eine geringe Komplexität, die der Datensituation
nicht gerecht wird. Die letzte und vielversprechende Möglichkeit ist die kategoriale Regression.
Hierbei wird eine Regression durchgeführt, die eine ordinale Zielvariable akzeptiert und sinnvoll
umsetzt. Hierbei können auch Vorhersagen und Klassifizierungen vorgenommen werden. Ein
Nachteil dabei ist die hohe Komplexität, die bei der großen Anzahl an Variablen die Berechnung deutlich verlangsamt. Eine Möglichkeit dem zuvor zu kommen, ist eine vorhergegangen
kategoriale Hauptkomponentenanalyse. Diese kann die Variablenanzahl deutlich reduzieren und
mit diesen neuen Variablen könnte eine kategoriale Regression erneut durchgeführt werden. Die
aufgestellten Modell werden hinsichtlich ihrer Güte, unter anderem anhand der Fehlklassifikation,
und ihrem Plausibilitätsgehalt überprüft. Für die Interpretation ist es sinnvoll, die Effekte der
einzelnen Merkmale auf die Quartierszufriedenheit zu schätzen. So kann festgestellt werden,
welche Quartierseigenschaften sich positiv beziehungsweise negativ auswirken.
Gegen das Aufstellen eines gewöhnlichen linearen Modells spricht das Vorliegen einer ordinalen Zielvariable. Da bei einem gewöhnlichen linearen Modell eine metrische Zielvariable
vorausgesetzt wird, müssen hier andere alternative Modelle aufgestellt werden. Die vorhandene
ordinale Zielvariable künstlich als metrisch aufzufassen würde dabei zu einer großen Verfälschung führen. Zum einen müsste die Variable umkodiert werden, da die Programmiersprache
SPSS eine ordinale Variable in einem gewöhnlichen Modell nicht akzeptiert, zum anderen
sind auch Vorhersagen nicht sinnvoll möglich. Hierbei könnten Dezimalzahlen vorhergesagt
30
4 Statistische Auswertung
werden oder auch Werte außerhalb der vorhandenen Skala. Darum muss die Modellierung der
Klassenwahrscheinlichkeit vorgezogen werden. Die einfachste Möglichkeit hierbei wäre, die
vorhandenen sieben Ausprägungen auf zwei zu verkleinern, in die Ausprägungen „zufrieden“
und „unzufrieden“. Diese Möglichkeit geht jedoch mit einem großen Informationsverlust einher.
Daher wird im folgenden ein ordinales Regressionsmodell verwendet. Dabei wird sich für ein
kumulatives Regressionsmodell entschieden. Gegen ein sequentielles Modell spricht, dass die
Zufriedenheitsstufen nicht sukzessive erreicht werden können. Die Annahme, das jeder Mensch
zuerst vollständig unzufrieden ist und mit verschiedenen Merkmalseigenschaften langsam an
Zufriedenheit gewinnt ist zweifelhaft und wird daher nicht verwendet. Zuerst wird mit der
„logit“-Funktion als Link-Funktion gearbeitet. Hierbei sind jedoch auch andere Link-Funktionen
denkbar, die zusätzlich getestet werden. Die Vorgehensweise ist hierbei ein volles Modell aufzustellen und dieses mit Hilfe der Rückwärtsselektion zu verkleinern. Als Gütemaß wird dabei auf
das BIC zurückgegriffen. Um allgemein festzustellen, ob das Modell die Daten gut beschreibt,
wird die Fehlklassifikationsrate, die Konfusionsmatrix und das AIC, sowie das BIC verwendet.
Da jedoch die einzelnen Variablen die die Zufriedenheit beschreiben, nicht als unabhängige
Variablen gewählt werden können, wird hierbei ein zweistufiger Modellansatz gewählt. Dabei
wird zuerst die Zufriedenheit mit dem Stadtquartier modelliert, ohne dabei die anderen Zufriedenheitsvariablen zu verwenden. Danach wird die Lebenszufriedenheit mittels der untergeordneten
Zufriedenheitsvariablen modelliert.
4.1.1 Kumulative Regressionsanalyse
Für das Modell mit der Zielvariable „Zufriedenheit mit unmittelbaren Wohnumgebung“ wird
zuerst als Link-Funktion die „logit“-Funktion gewählt und somit ein kumulatives logistisches
Modell aufgestellt. Die ordinale Zielvariable der Zufriedenheit mit dem Quartier hat dabei sieben
verschiedene Ausprägung, wobei „1“ für sehr unzufrieden und „7“ für sehr zufrieden steht.
Das Modell berechnet dabei die Wahrscheinlichkeiten einzelner Beobachtungen in eine der
vorhandenen Klassen zu gehören. Die Klasse mit der höchsten Wahrscheinlichkeit wird für die
Beobachtung vorhergesagt. Die Schätzer, die bei der Modellbildung berechnet werden, geben
dabei Anhaltspunkte, welche Merkmale sich positiv oder negativ auf die Quartierszufriedenheit
auswirken.
31
4 Statistische Auswertung
4.1.1.1 Voller Modellansatz ohne Wechselwirkungen
Das gebildete volle Modelle enthält sämtliche Variablen des Datensatzes. Diese Variante wird
ohne Wechselwirkungen gebildet, sodass hierbei ein reiner Längsschnitt betrachtet wird. Im
nächsten Schritt werden dann die Wechselwirkungen mit den Jahren und somit auch ein Querschnitt betrachtet.
Zuvor jedoch mussten einige Variablen entfernt werden, da diese eine zu starke Multikollinearität
aufwiesen, vgl. Tabelle 4.2. Dabei wurden die Variablen ausgewählt, die zu mindestens 80% mit
Variablenname
heizk
heizextr
hwwpausc
wwgeld
wwpausch
turnus
betrtur
betrjah
foe-Variablen
aus_kue
westost1
fam_ka
caticapi
hh-Variablen
persein2
fam_elt
beamter
kinder1
kinder2
Bedeutung
Monatliche Heizkostenpauschale
Durchschnittliche monatl. Heizkosten (extra)
Wie hoch ist die monatliche Pauschale für Heizung und Warmwasser?
Monatlicher Zahlbetrag als Warmwassergeld
Monatliche Warmwasserpauschale
Turnus oder Zeitabstand für die Zahlung von Warmwasser und Heizung
Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird
Höhe des jährlichen Betrages normalerweise
Staatliche Förderung
Ist eine separate Küche vorhanden
West- oder Ostdeutschland (Berlin zugehörig zu Ostdeutschland)
Keine Angabe bei Familienstand
Befragungstyp
Personen im Haushalt berufstätig/Studenten
Anzahl Einkommensbezieher im Haushalt
Bei den Eltern lebend
Beamter
Anzahl Kinder unter 6 Jahren
Anzahl Kinder unter 12 Jahren
Tabelle 4.2: Variablen mit zu hoher Multikollinearität, die aus dem Datensatz zur Analyse entfernt
werden müssen.
anderen Variablen- oder Variablengruppen übereinstimmten. Durch die reduzierte Anzahl an Variablen konnten Konvergenzschwierigkeiten der Schätzer bei der Modellberechnung umgangen
werden. Bei den meisten dieser Variablen, gibt es vergleichbare Variablen, die einen ähnlichen
Inhalt vorweisen, sodass der Informationsverlust gering gehalten werden kann. So ist zur Variable „westost1“ die Variable „westost2“ vorhanden, die lediglich die Zugehörigkeit Berlins in
West-Berlin und Ost-Berlin spaltet, im Gegensatz zur anderen Variable. Für die Variablen der
Kinderanzahl gibt es eine Variable, die die Kinderanzahl von Kindern bis 16 Jahren enthält. Für
die Variable der seperaten Küche existiert die Abfrage eines zusätzlichen Gäste-WC’s, die eine
hohe Korrelation aufweisen. Die staatlichen Förderungsvariablen haben eine hohe Korrelation
32
4 Statistische Auswertung
mit vielen anderen Variablen des Datensatzes und müssen daher vollständig eliminiert werden,
damit eine Analyse der Daten stattfinden kann. Die Heizkostenvariablen werden durch die
Mietkosten abgedeckt. Auch auf die anderen Variablen musste aufgrund der hohen Korrelation
verzichtet werden, obwohl diese keine inhaltlich äquivalenten Variablen aufweisen.
Eine weitere Methode ist eine vorher durchgeführte Hauptkomponentenanalyse für kategoriale
Variablen. Der Nachteil bei der Methodik ist die erschwerte Interpretation. Der große Vorteil
dabei ist, dass keine Variablen manuell aus dem Datensatz entfernt werden müssen. Diese Methodik ist daher weniger heuristisch. Diese beiden Methoden zur Vermeidung von Multikollinearität
können so später verglichen und getestet werden.
Für das volle Modell ohne Wechselwirkungen,
zu7_umg = α0 + α1 xjahr + α2 xbula + α3 xschulab2 + α4 xstudium + α5 xfam_stan2 + α6 xfam_kind
+ α7 xkinder3 + α8 xhhgrupp2 + α9 xgeggeb + α10 xgegzent + α11 xgeghaus + α12 xgegweinh
+ α13 xwgalt2 + α14 xwgjung2 + α15 xwgfam2 + α16 xwgarb2 + α17 xwgakad2
+ α18 xwgausl2 + α19 xverh_da + α20 xkon_aus + α21 xkon_deu + α22 xumzplan
+ α23 xwila_zz + α24 xerw_stat + α25 xsich_ap + α26 xverein + α27 xpkw2 + α28 xgeschl
+ α29 xalter + α30 xaus_balk + α31 xaltgeb_4 + α32 xhaustyp + α33 xzust_geb + α34 xerw_sta3
+ α35 xteilvoll + α36 xbst_zz3 + α37 xangest + α38 xsgtyp + α39 xortsgro + α40 xstadt1
+ α41 xstadt2 + α42 xzuzOrt + α43 xzuzWohn + α44 xwohnstat + α45 xmiete + α46 xbeu_miet
+ α47 xtransfer + α48 xqumeter + α49 xraeume + ε ,
(4.1)
können die Schätzer für die Merkmale erhalten werden, vgl. Tabelle A.2 auf Seite 85. Die
einzelnen Parametervektoren α stehen dabei für die Dummy-Variablen αi = (αi,1 , . . . , αi,t ).
Dabei steht t für die Anzahl der Kategorien der einzelnen Variablen. Die genauen Bedeutungen
der einzelnen Variablen des BBSR-Datensatzes sind dem Anhang auf Seite 79 in Tabelle A.1 zu
entnehmen. Der AIC-Wert des Modells beträgt 131 159.61, der BIC-Wert liegt bei 132 736.6.
Diese Werten besitzen zwar noch keine Aussagekraft, damit können jedoch zukünftige Modelle
verglichen werden.
33
4 Statistische Auswertung
Variable
exponierter Schätzwert
exponierte Varianz
jahr
1.0754
1.0000
geggeb1
1.0872
1.0083
geggeb2
1.0254
1.0083
gegzent1
1.0955
1.0007
gegzent2
0.5043
1.0002
gegzent3
0.9793
1.0016
gegzent4
0.8572
1.0064
geghaus1
0.9867
1.0124
geghaus2
1.0419
1.0139
geghaus3
0.9771
1.0076
gegweinh1
1.2062
1.0070
gegweinh2
0.9103
1.0069
gegweinh3
1.0511
1.0009
wgalt21
0.7142
1.0004
wgalt22
0.7943
1.0103
wgalt23
0.8652
1.0145
wgalt24
0.9231
1.0150
wgalt25
1.0854
1.0112
wgjung21
1.3214
1.0007
wgjung22
1.2305
1.0106
wgjung23
1.4481
1.0122
wgjung24
1.5021
1.0085
wgjung25
1.6194
1.0012
wgfam21
0.8332
1.0007
wgfam22
0.8144
1.0125
wgfam23
0.8033
1.0124
wgfam24
0.8512
1.0116
wgfam25
0.9170
1.0019
wgarb21
1.3873
1.0006
wgarb22
1.0978
1.0142
wgarb23
0.9957
1.0136
34
4 Statistische Auswertung
Variable
exponierter Schätzwert
exponierte Varianz
wgarb24
0.9294
1.0161
wgarb25
0.9639
1.0062
wgakad21
0.7516
1.0143
wgakad22
0.8428
1.0138
wgakad23
0.9782
1.0164
wgakad24
1.1485
1.0069
wgakad25
1.4227
1.0005
wgausl21
1.5675
1.0108
wgausl22
0.9731
1.0127
wgausl23
0.7519
1.0154
wgausl24
0.5496
1.0044
wgausl25
0.3444
1.0019
verh_da1
1.5203
1.0131
verh_da2
1.0951
1.0132
verh_da3
0.5829
1.0017
kon_aus0
0.8798
1.0070
kon_aus1
1.2117
1.0106
kon_aus2
1.1211
1.0130
kon_deu1
1.3571
1.0005
kon_deu2
1.9930
1.0001
umzplan1
0.8658
1.0040
umzplan2
1.0429
1.0120
umzplan3
1.6808
1.0159
erw_stat1
1.0303
1.0074
erw_stat2
0.8100
1.0092
sich_ap1
1.0322
1.0111
sich_ap2
0.8955
1.0168
sich_ap3
0.8550
1.0046
sich_ap4
0.8495
1.0008
sich_ap5
0.8844
1.0004
haustyp
0.9740
1.0069
35
4 Statistische Auswertung
Variable
exponierter Schätzwert
exponierte Varianz
zust_geb1
2.5893
1.0152
zust_geb2
1.5980
1.0120
zust_geb3
1.2536
1.0157
zust_geb4
0.9777
1.0015
zust_geb5
0.8845
1.0001
teilvoll1
0.8743
1.0057
teilvoll2
0.9162
1.0031
teilvoll3
0.8015
1.0008
bst_zz31
0.9891
1.0114
bst_zz32
1.4710
1.0113
bst_zz33
0.8435
1.0032
bst_zz34
1.1221
1.0003
bst_zz35
1.0110
1.0007
bst_zz36
0.8834
1.0020
bst_zz37
0.9885
1.0002
bst_zz38
8.2192
1.0000
ortsgro1
1.8023
1.0073
ortsgro2
0.9566
1.0069
stadt11
2.3587
1.0139
stadt12
2.5716
1.0138
wohnstat1
0.7782
1.0118
wohnstat2
0.7271
1.0007
wohnstat3
0.8341
1.0099
wohnstat4
0.7642
1.0022
wohnstat6
0.8126
1.0001
qumeter
1.0006
1.0003
Tabelle 4.3: Variablen mit exponierten Schätzern und Varianzen die hinsichtlich ihres p-Wertes einen
erhöhten Einfluss auf die Zielvariable besitzen.
Alle exponierten Schätzer können der Tabelle A.2 im Anhang auf Seite 85 entnommen werden.
In der Tabelle 4.3 sind die exponierten Schätzer aufgelistet, die hinsichtlich des Konfidenzin-
36
4 Statistische Auswertung
tervalls, beziehungsweise des p-Wertes den größten Einfluss haben. Die p-Werte der Variablen
sind jedoch alle sehr nahe bei Null, sodass sie nicht darstellbar sind. Wird die Signifikanz der
einzelnen Variablen zum Niveau 5% multiple getestet, so kann nur bei wenigen Kontrollvariablen die Nullhypothese, dass diese keinen Einfluss haben, nicht abgelehnt werden. Für die
kategorialen Variablen gilt dabei, dass die Dummy-Variablen zusammen getestet werden müssen. Durch die Schätzwerte, ist zu erkennen, dass die Zufriedenheit mit der Wohnumgebung
bei Menschen in Einfamilienhäusern wesentlich höher ist, als bei Menschen in Hochhäusern.
Dies ist an der Variable „Haustyp“ zu erkennen. Zudem sind Menschen in Wohnumgebungen
die aus reinen Wohnungen bestehen zufriedener, als wenn sich in dieser häufig Geschäfte und
Betriebe befinden. Die Chance auf eine erhöhte Zufriedenheit beträgt dabei fast 10%. Dies gibt
der Schätzer für die Variable „geggeb“ wieder. Interessanterweise steigt die Zufriedenheit in
Wohngebieten mit überwiegend Altbauten gegenüber reinen Neubaugebieten, wie es die Variable
„geghaus“ zeigt. Hier sinkt die Chance um etwa 7% auf eine hohe Zufriedenheit, wenn die Person
in einem Neubaugebiet wohnt. Das bedeutet, dass Neubaugebiete tendenziell unzufriedenere
Bewohner haben, als ältere Gebiete. Dieser Effekt ist überraschend und muss daher noch genauer
untersucht werden. Dies wird in diesem Datensatz in einem zweiten Modellansatz mit Hilfe
von Wechselwirkungen geschehen. Zusätzlich kann im zweiten Datensatz die soziologische
Komponente dafür näher betrachtet werden. Es ist möglich, dass in den Neubaugebieten eine
soziale Anbindung an die unmittelbare Wohnumgebung noch fehlt und daher die Zufriedenheit
sinkt. Während eine Wohngegend mit vielen älteren oder jüngeren Menschen die Zufriedenheit
stärkt, so sinkt diese, umso mehr junge Familien in der Umgebung wohnen. Wohngegenden
in denen ein hohes Einkommen vorliegt sind tendenziell zufriedener als Wohngegenden mit
geringem Einkommen. Dies zeigen die „wg-Variablen“ sehr deutlich. Am deutlichsten sinkt die
Zufriedenheit mit einer Wohngegend bei einem höheren Ausländeranteil. Wobei hier vor allem
ein sehr großer Ausländeranteil sich besonders negativ auswirkt. Die Wahrscheinlichkeit in eine
höhere Zufriedenheitsklasse zu gelangen sinkt um fast 300%. Dieser Effekt verstärkt sich weiter,
wenn es öfter zu Auseinandersetzungen mit Ausländern kommt. Bei einem guten oder normalen
Verhältnis steigt die Zufriedenheit wieder leicht. Auch ein unsicherer Arbeitsplatz, Variable
„sich_ap“, wirkt sich negativ auf die Zufriedenheit mit der Wohnumgebung aus, wobei dies
eher als Kontrollvariable zu betrachten ist. Zusätzlich stärkt der Wunsch in der Wohngegend zu
bleiben die Zufriedenheit, wie die Variable „umzplan“ aufzeigt. Über die Jahre hinweg steigt die
Zufriedenheit der Bewohner mit dem Wohnquartier an, hier scheint es eine positive Entwicklung
37
4 Statistische Auswertung
zu geben. Die Konfusionsmatrix zeigt dabei, dass vor allem das untere Dreieck der Matrix stark
besetzt ist, vgl. Tabelle 4.4. Fehlentscheidungen von mehreren Kategorien sind ein eher seltener
Fall. Die unteren Klassen werden dabei geringer vorhergesagt, als die höheren Klassen. Die
Fehlklassifikationsrate liegt bei 61.24%. Dieser Wert wird versucht zu verbesserern.
Modellklassifizierung
1
2
3
4
5
6
P7
1
19
6
15
39
222
307
125
733
2
17
8
10
44
376
550
143
1 148
Wahre Klasse
3
4
5
12
15
10
2
2
2
15
9
5
42
49
43
701 1 141 1 648
956 2 190 5 862
173
422 1 530
1 901 3 828 9 100
6
7
5
2
3
0
4
2
20
9
1 356
572
9 317 6 231
4 328 6 356
15 033 13 172
P
80
23
60
246
6 016
25 413
13 077
44 915
Tabelle 4.4: Konfusionsmatrix des vollen Modells ohne Wechselwirkungen.
Es sind zwar sämtliche Klassen besetzt, doch ist deutlich das grade die unteren drei Klassen bei
der Vorhersage dieses Modells deutlich unterbesetzt sind. Eine Variablenselektion mittels der
Rückwärtsselektion, auf Basis des BIC, entfernt nur wenige Variablen und kann so das Modell
nicht deutlich verbessern.
4.1.1.2 Modellansatz mit Wechselwirkungen
Ein weiterer interessanter Ansatz ist das Hinzufügen von Wechselwirkungen. Da dadurch weitere
Variablen in das Modell aufgenommen werden, müssen vorher welche entfernt werden, damit
die Berechnung weiterhin möglich ist. Ein Modell mit sämtlichen Variablen inklusive Wechselwirkungen ist zur Berechnung der Schätzer nicht möglich. Daher werden zuerst Variablen,
die bei der Variablenselektion entfernt werden, die bei dem Wald-Test auf Signifikanz einen
erhöhten p-Wert aufweisen und die sachlogisch für die Analyse nicht zwingend benötigt werden
entfernt. Als Wechselwirkungen, die von Interesse sind, sind vor allem die Wechselwirkungen
mit den Erhebungsjahren, da so die Möglichkeit eines Querschnittes gegeben wird. Zudem sind
38
4 Statistische Auswertung
Wechselwirkungen mit der Variable der Neubaugebiete interessant, da dieser Effekt genauer
betrachtet werden soll. Das entsprechende Modell, dass nach einer Rückwärtsselektion entsteht,
zu7_umg = α0 + α1 xjahr + α2 xwestost2 + α3 xkinder3 + α4 xgeggeb + α5 xgegzent + α6 xgeghaus
+ α7 xgegweinh + α8 xwgalt2 + α9 xwgjung2 + α10 xwgfam2 + α11 xwgarb2 + α12 xwgakad2
+ α13 xwgausl2 + α14 xverh_da + α15 xumzplan + α16 xsich_ap + α17 xpkw2 + α18 xgeschl
+ α19 xalter + α20 xaus_balk + α21 xaltgeb_4 + α22 xhaustyp + α23 xzust_geb + α24 xerw_sta3
+ α25 xbst_zz3 + α26 xsgtyp + α27 xortsgro + α28 xstadt1 + α29 xzuzOrt + α30 xzuzWohn
+ α31 xwohnstat + α32 xmiete + α33 xbeu_miet + α1,2 xjahr xwestost2 + α1,3 xjahr xwgalt2
+ α1,4 xjahr xwgausl2 + α1,5 xjahr xgeghaus + α2,1 xgeghaus xortsgro + α2,2 xgeghaus xstadt1
+ α2,3 xgeghaus xwestost2 + ε,
enthält interessante Wechselwirkungen. Die einzelnen Parametervektoren α stehen dabei für
die Dummy-Variablen αi = (αi,1 , . . . , αi,t ). Dabei steht t für die Anzahl der Kategorien der
einzelnen Variablen. Die Schätzer für die einzelnen Variablen können der Tabelle A.3 im Anhang
auf Seite 89 entnommen werden.
Die exponierten Schätzer nur für die Wechselwirkungen finden sich in Tabelle 4.5. Die Wechselwirkung suggeriert, dass die Zufriedenheit in Neubaugebieten über die Jahre hinweg zunimmt,
sodass die neu geplanten Neubaugebiete eine höher Quartierszufriedenheit bieten als ältere.
Die Zufriedenheit in Wohnquartieren mit vielen älteren und jüngeren Menschen nimmt jedoch
über den Zeitverlauf ab. Die Wechselwirkungen der Variable "geghaus“, die das Wohnquartier
beschreiben, zeigt, dass Neubaugebiete vor allem in Städten mit unter 20 000 Einwohner für eine
geringe Zufriedenheit sorgt. Bei Städten mit über 20 000 Einwohner besitzen ältere Wohngebiete
gegenüber Neubaugebieten keine erhöhe Chance auf zufriedene Bewohner. Dies unterstreicht die
Möglichkeit, das vor allem die soziale Anbindung in älteren Wohngebieten in kleineren Städten
oder Gemeinden für eine erhöhte Zufriedenheit sorgt. Im Osten ist die Zufriedenheit mit den
Neubaugebieten geringer als im Westen der Republik.
Durch das Hinzufügen der Wechselwirkung verliert das Modell jedoch an Güte, dies ist am
AIC, das 132 356.62 beträgt und das BIC das bei 133 768.1, aber auch an der Fehlklassifikation,
die auf 61.9% gestiegen ist, zu erkennen. Auch die Konfusionsmatrix macht einen deutlich
schlechteren Eindruck, vgl. Tabelle 4.6.
39
4 Statistische Auswertung
Variablenname
1. Haupteffekt 2. Haupteffekt
jahr
westost22
jahr
wgalt21
jahr
wgalt22
jahr
wgalt23
jahr
wgalt24
jahr
wgalt25
jahr
wgausl21
jahr
wgausl22
jahr
wgausl23
jahr
wgausl24
jahr
wgausl25
jahr
geghaus1
jahr
geghaus2
jahr
geghaus3
geghaus1
ortsgro1
geghaus2
ortsgro1
geghaus3
ortsgro1
geghaus1
ortsgro2
geghaus2
ortsgro2
geghaus3
ortsgro2
geghaus1
stadt11
geghaus2
stadt11
geghaus3
stadt11
geghaus1
stadt12
geghaus2
stadt12
geghaus3
stadt12
westost22
geghaus1
westost22
geghaus2
westost22
geghaus3
exponierter Schätzwert
0.9611
0.9647
1.0300
1.0192
1.0235
1.0210
1.0930
1.0877
1.0789
1.0332
1.0303
0.9913
0.9653
0.9939
0.2003
0.0105
0.5275
1.2789
1.5712
1.1574
0.1629
0.0062
0.5717
0.1588
0.0082
0.3472
0.9340
0.8018
0.6729
exponierte Varianz
1.0000
1.0001
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0081
1.0063
1.0006
1.0080
1.0063
1.0006
1.0066
1.0032
1.0004
1.0071
1.0046
1.0007
1.0016
1.0009
1.0004
Tabelle 4.5: Variablen der Wechselwirkungen mit exponierten Schätzern und Varianzen für das
Modell mit Wechselwirkung.
Hierbei wird die dritte Klasse der Zufriedenheit mit dem Wohnquartier überhaupt nicht vorhergesagt. Die Fehlklassifikationsrate ist zwar nur knapp gestiegen, aufgrund der Konfusionsmatrix ist
jedoch zu erkennen, dass diesem Modell keine gelungene Klassifizierung gelingt.
Die Wahl einer anderen Link-Funktion scheint sinnvoll zu sein, da die Klassenstärke hier nicht als
Gleichverteilt angesehen werden kann. Da vor allem die ersten drei Klassen deutlich schwächer
besetzt sind, ist hier die Wahl der „negativen log-log“ als Link-Funktion angebracht. Werden die
vorher beschriebenen Modelle jedoch mit Hilfe dieser Link-Funktion neu berechnet, so ändert
sich weder die Modellgüte, noch die Schätzer wesentlich. Im Gegenteil, die ersten Klassen
40
4 Statistische Auswertung
Modellklassifizierung
1
2
3
4
5
6
P7
1
13
24
0
34
241
301
120
733
2
17
15
0
45
387
550
134
1 148
Wahre Klasse
3
4
5
6
4
6
18
22
12
0
0
0
56
52
36
716 1 152 1 745
934 2 173 5 741
171
425 1 560
1 901 3 828 9 100
6
7
6
0
5
3
0
0
25
16
1 499
651
9 233 6 455
4 265 6 047
15 033 13 172
P
52
99
0
264
6 391
25 387
12 722
44 915
Tabelle 4.6: Konfusionsmatrix des Modells mit Wechselwirkungen.
werden bei der Schätzung noch schwächer besetzt. Daher bietet sich auch diese Methode hier
nicht an.
4.1.1.3 Modellansatz mit transformierte Zielvariable
Als Ausweg wird die Zielvariable selbst transformiert. Anstelle der bisher vorhandenen sieben
Klassen, werden diese auf drei neue reduziert. Die erste drei Klassen bilden dabei die Klasse der
„unzufriedenen“, die vierte und fünfte Klasse die „zufriedenen“ und die letzten beiden Klassen,
die sechste und siebte werden in die „sehr zufriedene“ Klasse transformiert. Dadurch sind die
Klassen nicht ganz so deutlich ungleich besetzt. Dies erleichtert die Modellierung erheblich. Wie
Klasse
Unzufrieden
Zufrieden
Sehr zufrieden
Anzahl Beobachtungen
3 782
12 929
28 211
Tabelle 4.7: Vergleich der Klassenstärke der neu gebildeten Zielvariable.
in Tabelle 4.7 entnommen werden kann, ist die erste Klasse immer noch deutlich schwächer
besetzt, hat jedoch mit fast 4 000 Beobachtungen eine ausreichend große Fallzahl. Zu erwarten
ist bei den neuen Modellen nicht nur eine deutlich geringe Fehlklassifikationsrate, aufgrund der
geringen Anzahl an Klassen, sondern auch eine bessere Abbildung der Klasse der unzufriedenen
Bewohner.
Erneut wird das Modell aus Gleichung 4.1 verwendet, jedoch mit veränderter Zielvariable.
41
4 Statistische Auswertung
Variablenname
exponierter Schätzwert
exponierte Varianz
jahr
1.0752
1.0000
geggeb1
1.1709
1.0095
geggeb2
1.0062
1.0096
gegzent1
1.2697
1.0008
gegzent2
0.6061
1.0003
gegzent3
1.0997
1.0016
gegzent4
0.9806
1.0075
geghaus1
1.0022
1.0143
geghaus2
1.1000
1.0156
geghaus3
1.0801
1.0079
wgalt21
0.8768
1.0004
wgalt22
0.9695
1.0120
wgalt23
1.0385
1.0171
wgalt24
1.1410
1.0176
wgalt25
1.2675
1.0134
wgjung21
0.9048
1.0009
wgjung22
0.9883
1.0124
wgjung23
1.1341
1.0142
wgjung24
1.1856
1.0098
wgjung25
1.2239
1.0015
wgfam21
0.9862
1.0008
wgfam22
1.0292
1.0146
wgfam23
1.0090
1.0145
wgfam24
1.0628
1.0135
wgfam25
1.0879
1.0022
wgarb21
1.3092
1.0006
wgarb22
1.1325
1.0156
wgarb23
1.0348
1.0166
wgarb24
0.9446
1.0193
wgarb25
0.9576
1.0094
wgakad21
0.7612
1.0173
42
4 Statistische Auswertung
Variablenname
exponierter Schätzwert
exponierte Varianz
wgakad22
0.8554
1.0157
wgakad23
1.0539
1.0181
wgakad24
1.2060
1.0060
wgakad25
1.3548
1.0005
wgausl21
1.4173
1.0127
wgausl22
0.9004
1.0151
wgausl23
0.6637
1.0182
wgausl24
0.4788
1.0066
wgausl25
0.3133
1.0027
verh_da1
1.5654
1.0154
verh_da2
1.1381
1.0156
verh_da3
0.6141
1.0022
kon_aus0
0.8649
1.0062
kon_aus1
1.1806
1.0119
kon_aus2
1.0857
1.0148
kon_deu1
1.4041
1.0005
kon_deu2
1.6181
1.0001
umzplan1
0.9070
1.0047
umzplan2
1.1044
1.0133
umzplan3
1.8157
1.0175
erw_stat1
0.8740
1.0086
erw_stat2
0.8144
1.0105
sich_ap1
1.0259
1.0116
sich_ap2
0.9485
1.0196
sich_ap3
0.8905
1.0061
sich_ap4
0.8258
1.0010
sich_ap5
0.9965
1.0005
aus_balk1
1.1073
1.0142
aus_balk2
1.0534
1.0115
altgeb_4
0.9997
1.0040
haustyp
0.9759
1.0079
43
4 Statistische Auswertung
Variablenname
exponierter Schätzwert
exponierte Varianz
zust_geb1
3.2154
1.0178
zust_geb2
2.2878
1.0142
zust_geb3
1.6626
1.0178
zust_geb4
1.3969
1.0021
zust_geb5
1.5161
1.0001
erw_sta31
0.7496
1.0077
erw_sta32
0.8121
1.0069
erw_sta33
0.8486
1.0081
erw_sta34
0.9929
1.0006
erw_sta35
0.8355
1.0017
erw_sta36
0.8358
1.0020
erw_sta37
0.8425
1.0052
ortsgro1
1.5508
1.0086
ortsgro2
0.9241
1.0081
stadt11
2.2490
1.0165
stadt12
2.3962
1.0166
stadt21
1.4366
1.0195
stadt22
1.3367
1.0179
stadt23
1.4839
1.0177
Tabelle 4.8: Variablen mit exponierten Schätzern und Varianzen, die auf Basis des Konfidenzintervalls bzw. des p-Wertes einen erhöhten Einfluss haben im Modell ohne Wechselwirkung
mit geänderter Zielvariable.
Die Fehlklassifikationsrate beträgt in diesem Modell in etwa 34.89% und die Konfusionsmatrix
hat eine starke Hauptdiagonale, vgl. Tabelle 4.9. Der Wert des AIC beträgt 70 417 und der des
BIC liegt bei 71 979. Daher scheint dieses Modell durchaus geeignet die Daten zu modellieren.
Modellklassifizierung
1
2
3
P
Wahre Klasse
1
2
3
235
134
55
1 430 3 147 2 286
2 117 9 647 25 864
3 782 12 928 28 205
P
424
6 863
37 628
44 915
Tabelle 4.9: Konfusionsmatrix des vollen Modells mit Transformation der Zielvariable.
44
1.0
1.2
●
0.8
●
●
0.6
Chance auf eine höhere Zufriedenheit
1.4
4 Statistische Auswertung
0.4
●
●
1
2
3
4
5
Höhe des Ausländeranteils, kategorisiert in fünf Stufen
Abbildung 4.1: Veränderung der Chance auf eine erhöhte Zufriedenheit mit wachsendem Ausländeranteil.
45
4 Statistische Auswertung
Zu Erkennen ist anhand der Konfusionsmatrix, dass hierbei keine Klasse unbesetzt ist. Die erste
Klasse ist zwar weiterhin die schwächste Klasse, aber hat immerhin eine Größe von 424 vorhergesagten Beobachtungen. Zudem ist die Fehlklassifikationsrate bei einer befriedigenden Größe.
Die Tendenzen der Schätzer bleiben dabei erhalten, vor allem ein hoher Ausländeranteil sorgt für
ein unzufriedenes Wohnquartier, vgl. Tabelle 4.8. Erhofft wäre hierbei, dass ein gewisser Anteil
an Ausländern einen positiven Effekt auf das Quartiert hat und ab einem bestimmten Prozentsatz
die Zufriedenheit ins negative verkehrt. Die Schätzer legen jedoch nahe, dass ein geringer bis
mittlerer Anteil an Ausländer im Quartier die Zufriedenheit der Bewohner leicht senken, und
ein hoher Ausländeranteil die Zufriedenheit sehr stark senkt. Wird die Zufriedenheit grafisch
gegen den Ausländeranteil abgetragen, wird sichtbar, dass keine Ausländer im Wohnquartier
die Chance auf eine hohe Zufriedenheit erhöhen. Mit einem steigendem Anteil sinkt die Chance
schnell stark ab, vgl. Abbildung 4.1. Die Neubaugebiete weisen eine geringere Zufriedenheit
auf, wie ältere Wohngebiete. Eine erneute Betrachtung der Wechselwirkungen zeigen gleiche
Erkenntnisse wie im vorherigen Modell. Hierbei ist besonders deutlich, dass die Neubaugebiete
im Westen der Republik deutlich zufriedenere Bewohner haben, als der Osten der Republik.
Die Chance auf eine erhöhte Zufriedenheit in einem Neubaugebiet im Westen steigt gegenüber
dem im Osten um 56%. Die exponierten Schätzer für sämtliche Variablen befinden sich im
Anhang auf Seite 95, Tabelle A.4. Bei diesem Modell steigen jedoch der Wert des AIC und
des BIC. Das AIC liegt hier bei 70 815, der Wert des BIC ist auf 72 000 gestiegen. Auch die
Fehlklassifikationsrate steigt etwas an, auf 35%. Die Konfusionsmatrix sieht ähnlich aus, jedoch
ist die Hauptdiagonale etwas schwächer besetzt, vgl. Tabelle 4.10.
Modellklassifizierung
1
2
3
P
Wahre Klasse
1
2
3
243
137
52
1 375 2 920 2 121
2 164 9 871 26 032
3 782 12 928 28 205
P
432
6 416
38 067
44 915
Tabelle 4.10: Konfusionsmatrix des Modells mit Transformation der Zielvariable und Wechselwirkungen.
4.1.1.4 Zweistufige Modelierung der Lebenszufriedenheit
Wird nun die Gesamtzufriedenheit der Bewohner mit den einzelnen Zufriedenheiten modelliert,
so wird auch hier für die neue Zielvariable die Klassenaufteilung „unzufrieden“, „zufrieden“
46
4 Statistische Auswertung
und „sehr zufrieden“ gewählt. Wobei auch hier die Kategorie „unzufrieden“ die Klassen Eins,
Zwei und Drei umfasst. Die Klassen Vier und Fünf werden „zufrieden“ zugeteilt und Sechs und
Sieben werden zur Kategorie „sehr zufrieden“ transformiert.
Klasse Anzahl an Beobachtungen
unzufrieden
2 766
zufrieden
11 897
sehr zufrieden
18 284
Tabelle 4.11: Neue Klasseneinteilung der Zielvariable Zufriedenheit mit dem Leben.
Anhand der Tabelle 4.11 kann erkannt werden, dass auch bei der Zufriedenheitsvariable ein
Übergewicht in den letzten beiden Klassen vorherrscht. Durch die Zusammenlegung der Klassen in nur noch drei verschiedene ist diese Ungleichheit jedoch reduziert worden. Da in der
Variable einige fehlende Beobachtungen vorhanden sind, können hierbei nur weniger Beobachtungen verwendet werden, wie bei den vorherigen Modellen. Die Modellgleichung besteht
dementsprechend,
zu7_leb = α0 + α1 xzu7_ort + α2 xzu7_wohn + α3 xzu7_umg + α4 xzu7_umw + ε
nur aus den Zufriedenheitsvariablen. Dabei wird die Zufriedenheit mit dem Leben durch die
Zufriedenheit mit der Stadt/Gemeinde, mit den Wohnung, mit der unmittelbaren Wohnumgebung
und mit den Umweltbedingungen modelliert. Die einzelnen Parametervektoren αi stehen dabei
für die Dummy-Variablen αi = (αi,1 , . . . , αi,t ). Dabei steht t für die Anzahl der Kategorien der
einzelnen Variablen. Zum einen steht die Modellvalidierung im Vordergrund, zum anderen ist
es interessant zu beobachten, ob sich die Lebenszufriedenheit einigermaßen aus den anderen
Zufriedenheiten darstellen lässt.
Variablenname
exponierter Schätzwert
exponierte Varianz
zu7_ort1
0.8000
1.4272
zu7_ort2
0.8363
1.4223
zu7_ort3
1.0662
1.4150
zu7_ort4
1.2613
1.4122
zu7_ort5
1.4877
1.4110
zu7_ort6
2.3839
1.4110
zu7_ort7
2.7848
1.4114
zu7_wohn1
0.3726
1.7467
47
4 Statistische Auswertung
Variablenname
exponierter Schätzwert
exponierte Varianz
zu7_wohn2
0.3644
1.7389
zu7_wohn3
0.4770
1.7314
zu7_wohn4
0.6713
1.7274
zu7_wohn5
0.9758
1.7257
zu7_wohn6
1.8185
1.7254
zu7_wohn7
2.7619
1.7255
zu7_umg2
1.0130
1.1331
zu7_umg3
1.0580
1.1228
zu7_umg4
1.3395
1.1172
zu7_umg5
1.3917
1.1148
zu7_umg6
1.8206
1.1144
zu7_umg7
2.0181
1.1161
zu7_umw1
0.7505
1.0981
zu7_umw2
0.7543
1.0787
zu7_umw3
0.8278
1.0603
zu7_umw4
0.7507
1.0468
zu7_umw5
0.7560
1.0376
zu7_umw6
0.7969
1.0343
zu7_umw7
0.8176
1.0396
Achsenabschnitt 1|2
0.2741
1.9221
Achsenabschnitt 2|3
3.3776
1.9220
Tabelle 4.12: Variablen mit exponierten Schätzern und Varianzen für die Modellierung der Lebenszufriedenheit.
Die exponierten Schätzer zeigen ein plausibles Modell. Mit dem Ansteigen der einzelnen
Zufriedenheiten steigt auch die Chance auf eine erhöhte Lebenszufriedenheit. Zudem ist auffällig,
dass eine hohe Zufriedenheit mit der Stadt/Gemeinde oder mit dem Wohnquartier sich am
stärksten auf die Lebenszufriedenheit auswirkt. Eine hohe Stadtzufriedenheit kann die Chance
auf eine hohe Lebenszufriedenheit um fast 280% erhöhen. Eine hohe Zufriedenheit mit dem
Wohnquartier kann die Chance auf eine hohe Lebenszufriedenheit immerhin um über 200%
erhöhen. Dies zeigt zudem, dass die Zufriedenheit mit dem Wohnquartier den befragten Personen
48
4 Statistische Auswertung
durchaus wichtig ist, da sich diese stark auf die Lebenszufriedenheit auswirkt. Es erscheint also
sinnvoll zu versuchen, das Wohnquartier möglichst angenehm zu gestalten um die Zufriedenheit
der Bewohner zu maximieren.
Die Fehlklassifikationsrate beträgt dabei 37%. Dies ist für die geringe Anzahl an Variablen ein
sehr guter Wert.
Modellklassifizierung
1
2
3
P
Wahre Klasse
1
2
3
266
73
77
1 495 4 946 2 904
1 005 6 878 15 303
2 766 11 897 18 284
P
416
9 345
23 186
32 947
Tabelle 4.13: Konfusionsmatrix des Modells mit der Zielvariable Lebenszufriedenheit.
Auch die Konfusionsmatrix sieht geeignet aus, vgl. Tabelle 4.13. Der Wert des AIC in diesem
Modell beträgt 53 438.2, der Wert des BIC 53 681.88. Dieses Modell ist sehr zufriedenstellend
und zeigt zudem die Plausibilität der Wahl der Modellform.
4.1.2 Kategoriale Hauptkomponentenanalyse
Da die große Anzahl an Variablen, die zudem untereinander teilweise stark korreliert sind, ein Problem für die Modellierung darstellen kann es sinnvoll sein vorher eine Hauptkomponentenanalyse
durchzuführen. Hierbei ist die Schwierigkeit, dass eine gewöhnliche Hauptkomponentenanalyse
metrisch skalierte Variablen voraussetzt. Da dies in dem vorliegenden Datensatz nicht der Fall
ist, wird eine kategoriale Hauptkomponentenanalyse durchgeführt. Da bisher manuell Variablen
entfernt werden mussten um die Multikollinearität zu vermeiden ist dies eine Methode zur Vermeidung subjektiver Kriterien. Anstatt einige Variablen vollständig zu entfernen, werden hierbei
Hauptkomponenten gebildet die möglichst viel Variabilität aller Variablen in sich vereinen. Der
Nachteil dabei ist, dass keine direkten Aussagen über die Ursprungsvariablen mehr möglich sind.
Die Schätzer der Hauptkomponenten können jedoch so transformiert werden, dass weiterhin
auch die tatsächlichen Merkmalseinflüsse betrachtet werden können.
Dabei gilt es zunächst die Anzahl der Hauptkomponenten zu bestimmen, die ausreichend sind,
um einen Großteil des Datensatzes zu erklären. Da es sich bei den Daten oftmals um ordinal
beziehungsweise nominal skalierte Merkmale handelt, wird zur Bestimmung der Anzahl der
Hauptkomponenten sowohl die Varianz, wie auch das Cronbachs Alpha betrachtet. Die Variable
„Jahre“ wird dabei nicht verwendet, diese wird später manuell zur Analyse hinzugefügt. Dadurch
49
4 Statistische Auswertung
können weiter die Wechselwirkungen der einzelnen Hauptkomponenten mit den Jahren betrachtet
werden.
Dimension
Cronbachs Alpha
Eigenwert
1
0.931
12.389
2
0.884
7.895
3
0.853
6.332
4
0.776
4.278
5
0.748
3.831
6
0.741
3.723
7
0.736
3.669
8
0.707
3.314
9
0.695
3.187
10
0.668
2.937
11
0.630
2.649
12
0.610
2.514
13
0.601
2.458
14
0.579
2.334
15
0.570
2.290
16
0.555
2.212
17
0.539
2.136
18
0.512
2.023
19
0.484
1.916
20
0.467
1.856
21
0.461
1.836
22
0.438
1.762
23
0.422
1.715
24
0.405
1.667
25
0.389
1.624
26
0.377
1.593
27
0.376
1.590
28
0.369
1.574
29
0.359
1.549
50
4 Statistische Auswertung
Dimension
Cronbachs Alpha
Eigenwert
30
0.342
1.510
31
0.336
1.497
32
0.333
1.491
33
0.322
1.467
34
0.299
1.418
35
0.276
1.374
36
0.261
1.347
37
0.256
1.337
38
0.236
1.303
39
0.207
1.257
40
0.168
1.200
Tabelle 4.14: Cronbachs Alpha und Eigenwerte der kategorialen Hauptkomponentenanalyse.
Anhand der Tabelle 4.14 ist zu sehen, dass sowohl bei dem Wert des Cronbachs Alpha, wie
auch beim Eigenwert, ein schneller steiler Abfall festzustellen ist. Da jedoch für die hohe
Anzahl an Variablen nicht zu wenig Hauptkomponenten aufgenommen werden sollen, um die
Originalschätzer nicht zu sehr zu verzerren, ist es notwendig genügend Hauptkomponenten
auszuwählen.
In der Grafik 4.2, in der die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen
werden, zeigt sich ein Knick bei der einundzwanzigsten Hauptkomponente. Deutliche Knicks
sind zwar schon vorher zu erkennen, diese beinhalten jedoch so wenig Hauptkomponenten,
dass eine Modellierung zu großen Verzerrungen führen würde. Daher werden einundzwanzig
Hauptkomponenten verwendet. Diese werden zuerst anhand der Ladungen, die sie von den
einzelnen Variablen enthalten, versucht zu interpretieren. Dann wird die Modellierung der
Wohnquartierszufriedenheit mit den Hauptkomponenten und der Jahreszahl als unabhängige
Variablen durchgeführt. Dieses Modell wird hinsichtlich der Güte und der Schätzer überprüft.
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
1
-0.15
0.10
0.49
0.54
-0.59
0.98
0.73
0.44
-0.11
2
-0.20
0.42
0.97
0.44
0.07
-0.12
0.04
-0.06
-0.04
3
0.28
0.30
0.37
-0.43
0.08
-0.19
-0.01
-0.13
0.20
4
-0.21
0.40
0.97
0.48
0.07
-0.11
0.05
-0.07
-0.03
51
4 Statistische Auswertung
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
5
-0.28
0.37
0.94
0.50
0.07
-0.13
0.04
-0.06
-0.04
6
0.53
0.40
0.57
-0.57
-0.10
-0.08
0.04
-0.04
0.30
7
0.53
0.38
0.56
-0.62
-0.10
-0.12
0.02
-0.06
0.38
8
-0.41
-0.31
-0.38
0.51
0.05
0.17
0.02
0.08
-0.29
9
0.32
0.22
0.42
-0.38
-0.11
0.01
0.06
-0.01
0.24
10
-0.17
-0.55
0.15
-0.26
-0.19
-0.13
0.15
0.01
0.28
11
-0.40
-0.70
0.25
-0.14
-0.29
0.00
0.08
-0.03
0.23
12
1.04
0.23
-0.09
-0.02
-0.08
-0.04
0.00
0.25
-0.12
13
-0.12
-0.29
-0.13
0.11
0.35
-0.39
-0.06
-0.50
-0.01
14
-0.04
0.02
-0.08
-0.24
0.69
0.63
0.30
-0.08
0.37
15
0.10
-0.03
-0.02
-0.04
-0.03
0.03
0.05
0.04
0.02
16
-0.07
0.00
0.01
-0.03
0.09
0.04
0.03
-0.03
0.02
17
-0.38
-0.12
0.11
0.12
-0.24
-0.20
-0.10
-0.08
-0.09
18
-0.10
0.02
0.02
0.04
0.02
-0.02
-0.06
-0.03
-0.02
19
-0.05
-0.01
0.02
-0.02
0.06
0.04
0.02
-0.02
0.02
20
0.31
0.02
0.02
0.16
-0.66
-0.59
-0.30
0.17
-0.37
21
-0.27
-0.04
-0.03
-0.16
0.62
0.55
0.28
-0.15
0.34
22
-0.10
0.03
0.02
-0.05
0.18
0.16
0.06
-0.03
0.13
23
0.70
0.12
-0.08
-0.04
-0.02
-0.05
-0.05
0.14
-0.08
24
0.66
0.09
-0.11
-0.07
-0.10
-0.07
-0.05
0.19
-0.10
25
0.71
0.16
-0.10
0.06
-0.15
0.09
0.02
0.24
-0.12
26
1.06
-0.14
-0.12
-0.02
0.10
-0.04
0.17
0.02
-0.09
27
0.92
-0.13
-0.05
0.00
0.07
0.00
0.25
0.06
-0.19
28
0.26
0.26
-0.18
0.05
0.02
-0.01
0.02
0.26
0.03
29
-0.21
-0.01
0.13
-0.06
-0.04
-0.01
-0.08
0.21
0.04
30
-0.73
0.15
0.12
-0.02
0.06
-0.01
-0.11
-0.14
-0.02
31
-0.20
0.06
0.10
-0.22
0.12
0.02
-0.02
0.26
-0.06
32
-0.40
0.20
0.28
-0.14
0.18
0.02
-0.09
0.21
-0.05
33
-0.88
-0.13
0.04
0.14
-0.03
-0.01
-0.07
-0.18
-0.01
34
-0.76
-0.02
-0.01
0.09
0.01
0.03
-0.04
-0.09
-0.03
35
-0.10
0.05
0.06
-0.12
0.07
0.03
0.01
0.13
0.00
52
4 Statistische Auswertung
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
36
-0.33
-0.11
0.14
-0.18
0.16
-0.10
0.12
0.19
-0.14
37
0.18
-0.40
0.02
0.10
-0.40
-0.10
0.16
-0.38
0.35
38
-1.00
-0.20
0.02
0.20
-0.05
-0.02
-0.05
-0.20
-0.03
39
-0.49
0.07
0.04
-0.35
0.22
0.02
0.04
0.27
-0.25
40
-0.31
-0.14
-0.06
-0.09
0.38
-0.24
-0.28
0.06
-0.16
41
0.26
0.10
0.07
0.10
-0.38
0.28
0.28
-0.02
0.14
42
0.00
-0.21
0.10
0.19
-0.32
-0.17
0.15
-0.43
0.29
43
-0.20
0.02
0.11
0.20
-0.33
-0.04
0.10
-0.20
0.09
44
-0.11
0.41
0.01
0.07
0.22
0.04
-0.13
0.22
-0.27
45
-0.10
-0.38
-0.07
-0.11
-0.26
-0.07
0.18
-0.24
0.18
46
0.02
-0.46
-0.03
-0.18
-0.28
-0.04
0.23
-0.29
0.14
47
-0.42
0.18
0.22
-0.34
-0.04
0.00
-0.03
-0.07
-0.34
48
0.35
-0.29
-0.28
0.29
-0.03
-0.02
0.10
0.06
0.30
49
-0.49
-0.43
-0.47
-0.22
-0.16
0.10
0.07
-0.03
-0.23
50
0.19
0.22
0.28
0.06
0.13
-0.14
-0.10
-0.02
0.12
51
-0.05
0.36
0.35
0.01
0.02
-0.04
-0.12
-0.07
-0.04
52
-0.11
-0.22
-0.07
-0.17
-0.10
-0.01
0.18
-0.05
-0.19
53
0.10
0.32
0.23
0.10
0.01
-0.05
-0.07
-0.02
0.09
54
-0.08
-0.16
-0.04
-0.12
-0.07
0.00
0.17
-0.06
-0.17
55
0.46
0.40
-0.19
0.25
-0.09
0.39
-0.41
-0.59
0.03
56
-0.41
-0.34
0.18
-0.20
0.06
-0.32
0.41
0.55
-0.03
57
-0.38
-0.31
0.18
-0.18
0.06
-0.32
0.39
0.53
-0.04
58
-0.48
0.09
0.16
-0.41
-0.09
-0.03
0.10
0.01
-0.18
59
-0.20
0.76
-0.47
0.01
-0.05
-0.31
0.59
-0.14
-0.03
60
-0.18
0.55
-0.36
-0.03
0.00
-0.25
0.36
-0.10
-0.03
61
0.17
-0.50
0.32
0.01
-0.07
0.30
-0.41
0.22
-0.02
62
0.33
-0.21
0.19
0.07
0.26
-0.07
0.01
-0.10
-0.08
63
-0.06
0.03
0.02
0.05
-0.02
-0.07
0.11
-0.05
0.14
64
0.07
0.84
-0.49
0.27
-0.03
0.13
-0.03
0.01
0.01
65
-0.21
0.78
-0.48
0.07
-0.08
-0.24
0.60
-0.05
-0.04
66
-0.19
0.57
-0.31
0.01
0.10
-0.35
0.47
-0.22
0.01
53
4 Statistische Auswertung
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
67
0.26
-0.26
-0.08
0.51
0.32
-0.30
0.01
0.28
0.50
68
-0.06
0.22
0.00
-0.07
0.00
0.00
0.16
-0.06
-0.18
69
-0.12
0.12
0.06
-0.46
-0.28
0.29
-0.16
-0.20
-0.41
70
0.20
-0.14
-0.13
0.21
0.12
-0.12
-0.03
0.19
0.21
71
0.14
-0.46
0.14
0.41
0.21
-0.34
0.10
0.28
0.28
72
-0.06
-0.14
-0.04
0.16
0.09
-0.26
0.25
0.25
0.14
73
0.56
-0.53
0.33
-0.10
0.21
-0.08
0.43
-0.37
-0.47
74
0.04
-0.30
0.11
-0.15
-0.09
-0.04
0.30
-0.11
-0.06
75
0.18
-0.36
0.15
-0.13
-0.08
0.06
0.20
-0.15
-0.11
76
0.18
-0.22
0.20
-0.04
0.02
0.04
0.12
-0.09
-0.16
77
0.54
-0.28
0.27
0.10
0.31
-0.05
0.33
-0.29
-0.56
78
0.44
-0.23
0.33
0.15
0.32
0.00
0.16
-0.26
-0.52
79
0.68
-0.50
0.01
0.28
0.25
0.06
0.04
-0.08
-0.13
80
-0.04
0.08
0.11
0.13
0.25
-0.12
0.13
-0.31
0.06
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
1
-0.55
-0.10
-0.32
0.30
0.19
-0.06
-0.03
0.04
-0.07
2
-0.05
-0.06
0.19
-0.13
-0.03
0.07
0.04
0.00
-0.08
3
-0.09
0.05
-0.13
0.14
0.10
0.02
0.08
-0.11
-0.05
4
-0.04
-0.07
0.19
-0.14
-0.03
0.06
0.04
0.00
-0.08
5
-0.04
-0.08
0.20
-0.14
-0.04
0.07
0.05
-0.01
-0.09
6
-0.14
0.06
-0.17
0.18
0.10
-0.04
-0.05
-0.06
0.13
7
-0.16
0.06
-0.18
0.23
0.12
-0.06
-0.06
-0.09
0.20
8
0.10
-0.06
0.12
-0.15
-0.08
0.04
0.04
0.07
-0.15
9
-0.13
0.04
-0.14
0.17
0.08
-0.04
-0.05
-0.05
0.14
10
-0.10
0.20
0.16
0.05
0.00
-0.41
0.01
0.16
-0.06
11
-0.07
0.17
0.15
-0.07
-0.04
-0.41
-0.06
0.22
-0.05
12
-0.06
-0.08
0.10
-0.16
-0.06
0.12
0.02
-0.04
-0.03
13
0.14
0.03
-0.16
0.33
0.21
0.08
0.08
0.09
-0.32
14
0.08
-0.08
0.16
-0.10
-0.12
0.07
-0.02
0.09
0.11
15
0.11
0.02
0.19
-0.50
0.94
-0.05
0.05
-0.03
0.02
54
4 Statistische Auswertung
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
16
-0.03
-0.03
-0.13
-0.01
0.03
0.16
0.72
0.64
0.38
17
-0.01
0.11
-0.14
0.11
0.21
-0.16
0.01
-0.03
-0.08
18
-0.11
-0.02
-0.17
0.48
-0.94
0.04
-0.06
0.04
-0.01
19
-0.01
-0.03
-0.12
-0.01
0.03
0.15
0.67
0.62
0.40
20
-0.09
0.07
-0.16
0.07
0.01
-0.01
0.14
0.06
0.00
21
0.09
-0.07
0.15
-0.07
0.00
0.01
-0.14
-0.06
-0.02
22
0.03
0.00
0.04
0.00
0.01
0.00
-0.04
0.00
0.05
23
-0.02
-0.05
0.08
-0.11
-0.04
0.08
0.02
-0.03
-0.02
24
-0.01
-0.04
0.09
-0.16
-0.04
0.07
-0.03
-0.01
0.02
25
-0.06
-0.05
0.07
-0.13
-0.05
0.04
-0.07
-0.01
0.12
26
-0.01
-0.05
0.01
-0.04
-0.01
0.04
-0.03
0.07
-0.09
27
-0.03
-0.04
-0.01
-0.06
-0.01
0.04
-0.02
0.05
-0.07
28
0.04
-0.15
0.02
0.10
0.08
0.24
-0.04
0.07
-0.04
29
-0.04
-0.04
0.26
-0.14
-0.28
-0.15
0.17
-0.04
0.12
30
0.01
0.12
-0.21
0.12
0.16
0.05
-0.01
-0.14
0.04
31
-0.06
0.05
0.07
-0.16
-0.20
-0.01
0.20
-0.20
0.02
32
-0.16
0.05
0.05
-0.06
-0.11
-0.04
0.27
-0.17
-0.11
33
-0.01
0.03
-0.11
0.12
0.06
-0.03
-0.06
-0.07
0.21
34
-0.02
0.09
-0.17
0.04
0.10
0.03
-0.06
-0.09
0.08
35
-0.05
0.00
0.03
-0.10
-0.14
0.01
0.15
-0.12
0.07
36
0.08
0.05
-0.10
-0.10
-0.07
0.12
0.04
-0.10
0.06
37
0.10
-0.16
0.12
0.04
-0.05
-0.03
-0.23
0.16
0.24
38
0.00
0.02
-0.04
0.04
0.04
-0.04
-0.05
-0.04
0.16
39
0.03
0.12
-0.15
-0.16
-0.05
0.05
0.14
-0.19
-0.01
40
-0.88
-0.46
0.14
-0.03
0.10
-0.06
-0.31
0.22
0.13
41
0.79
0.42
-0.14
0.04
-0.09
0.04
0.27
-0.20
-0.12
42
0.10
-0.31
0.12
-0.08
-0.08
0.21
-0.23
-0.02
0.45
43
0.35
-0.03
0.05
-0.18
-0.09
0.18
-0.17
-0.06
0.41
44
0.18
0.39
-0.08
0.13
0.08
-0.24
-0.21
0.21
0.14
45
-0.26
-0.38
0.01
-0.25
-0.09
0.33
0.30
-0.35
-0.15
46
-0.18
-0.30
-0.07
-0.24
-0.09
0.31
0.26
-0.30
-0.15
55
4 Statistische Auswertung
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
47
-0.04
0.12
-0.17
-0.26
-0.02
0.12
0.01
-0.18
0.16
48
0.00
-0.15
0.15
0.21
0.00
-0.10
0.06
0.11
-0.19
49
-0.16
-0.01
-0.21
-0.06
0.03
0.06
0.03
-0.21
0.19
50
0.16
0.00
0.15
-0.03
-0.05
-0.01
-0.03
0.13
-0.10
51
0.18
-0.14
0.11
-0.14
-0.10
0.12
-0.12
0.13
-0.07
52
-0.26
0.60
0.65
0.32
0.08
0.50
-0.02
-0.02
0.08
53
0.16
0.02
0.25
0.00
-0.06
0.15
-0.15
0.16
-0.02
54
-0.26
0.55
0.63
0.35
0.08
0.51
-0.01
-0.02
0.06
55
-0.34
0.27
0.05
-0.15
-0.06
-0.21
0.17
-0.11
0.00
56
0.28
-0.25
-0.06
0.15
0.06
0.19
-0.15
0.10
0.00
57
0.28
-0.25
-0.07
0.15
0.07
0.21
-0.16
0.10
-0.01
58
0.04
0.10
0.03
-0.32
-0.18
-0.08
-0.01
0.02
-0.01
59
-0.09
0.02
0.05
-0.08
-0.05
-0.17
-0.01
0.05
0.01
60
-0.03
0.04
0.05
-0.09
-0.07
-0.12
-0.03
0.04
0.07
61
0.03
0.00
0.04
-0.03
-0.02
0.04
-0.05
-0.02
0.11
62
-0.01
-0.01
-0.10
0.18
0.01
0.01
0.16
-0.07
-0.08
63
-0.19
0.33
-0.28
-0.38
-0.11
0.20
-0.23
0.30
-0.19
64
-0.02
-0.07
-0.05
0.12
0.08
0.13
-0.07
-0.10
0.22
65
-0.13
0.03
0.03
-0.06
-0.05
-0.17
-0.03
0.03
0.10
66
-0.06
-0.01
-0.01
0.02
0.00
-0.07
0.07
0.02
-0.12
67
-0.24
0.43
-0.36
-0.22
-0.04
0.20
-0.07
-0.12
0.16
68
0.06
-0.29
0.30
0.29
0.04
-0.26
0.22
-0.15
0.04
69
0.26
-0.39
0.36
0.22
0.05
-0.20
0.08
0.07
-0.10
70
0.00
0.04
0.07
0.13
0.04
-0.22
0.18
-0.32
0.29
71
-0.02
0.08
0.25
0.00
-0.02
-0.29
0.21
-0.18
0.06
72
-0.10
0.05
0.29
0.08
-0.01
-0.35
0.28
-0.29
0.12
73
0.00
0.14
-0.10
-0.14
-0.08
-0.15
-0.05
0.06
-0.02
74
-0.09
0.22
0.01
-0.16
-0.10
-0.20
-0.06
0.23
-0.20
75
-0.10
0.17
-0.05
-0.22
-0.09
-0.08
-0.04
0.17
-0.18
76
-0.05
0.07
-0.05
-0.16
-0.07
0.00
-0.02
0.02
-0.02
77
0.04
0.00
-0.08
0.03
0.00
-0.11
-0.04
-0.14
0.30
56
4 Statistische Auswertung
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
78
0.09
-0.05
-0.11
0.06
0.02
-0.07
-0.06
-0.17
0.36
79
0.05
-0.02
-0.12
0.22
0.09
-0.03
-0.05
-0.09
0.20
80
-0.07
-0.10
-0.23
0.35
0.20
0.22
0.23
-0.03
-0.45
Variable HK19
HK20
HK21
Variable HK19
HK20
HK21
1
0.05
0.01
0.10
41
0.04
0.04
-0.05
2
-0.11
0.08
0.01
42
-0.04
0.18
0.32
3
-0.09
0.10
-0.04
43
-0.20
-0.07
0.22
4
-0.11
0.08
0.01
44
-0.17
0.20
0.10
5
-0.12
0.07
0.01
45
0.06
-0.15
-0.17
6
0.02
0.00
0.02
46
-0.01
-0.11
-0.08
7
0.06
-0.06
0.06
47
-0.39
0.39
-0.16
8
-0.04
0.05
-0.03
48
0.33
-0.34
0.18
9
0.05
-0.03
0.05
49
-0.17
0.27
0.02
10
-0.01
-0.03
-0.10
50
0.09
-0.17
-0.01
11
-0.03
-0.03
-0.06
51
0.13
-0.21
0.01
12
-0.13
-0.03
-0.13
52
0.02
-0.01
-0.03
13
0.01
0.10
0.34
53
0.15
-0.38
-0.04
14
-0.12
-0.02
-0.06
54
0.05
0.02
0.00
15
0.14
0.02
0.04
55
-0.03
-0.03
0.13
16
-0.04
-0.04
-0.03
56
0.02
0.03
-0.12
17
0.20
0.07
0.19
57
0.02
0.04
-0.10
18
-0.14
-0.03
-0.03
58
-0.06
-0.01
0.12
19
-0.06
-0.06
-0.04
59
0.06
-0.01
-0.01
20
0.02
-0.08
0.01
60
0.08
-0.01
-0.03
21
-0.04
0.10
-0.03
61
0.02
-0.01
0.00
22
-0.02
-0.10
0.11
62
0.26
0.31
-0.06
23
-0.08
-0.03
-0.09
63
0.10
-0.04
-0.02
24
-0.13
-0.08
-0.10
64
0.14
-0.02
0.04
25
-0.04
-0.10
-0.03
65
0.11
-0.04
-0.07
26
-0.15
0.03
0.24
66
0.00
0.05
-0.02
57
4 Statistische Auswertung
Variable HK19
HK20
HK21
Variable HK19
HK20
HK21
27
-0.18
0.00
0.29
67
0.05
0.05
-0.03
28
-0.22
0.13
0.51
68
-0.16
-0.02
0.07
29
0.58
0.50
0.13
69
-0.10
-0.07
0.09
30
-0.13
-0.48
-0.16
70
-0.25
-0.09
0.22
31
0.39
0.02
0.40
71
-0.30
-0.02
-0.01
32
0.22
-0.04
-0.09
72
-0.29
-0.08
-0.06
33
0.07
-0.11
0.10
73
0.00
-0.08
0.07
34
-0.18
-0.44
0.04
74
-0.10
-0.04
0.10
35
0.23
-0.12
0.30
75
-0.14
-0.10
0.22
36
0.09
-0.23
0.42
76
-0.09
-0.07
0.16
37
0.08
0.18
0.03
77
0.25
-0.09
-0.19
38
0.04
0.04
0.03
78
0.29
-0.09
-0.22
39
-0.04
-0.20
0.33
79
0.11
-0.09
0.01
40
-0.04
-0.03
0.06
80
-0.12
0.20
0.06
Tabelle 4.15: Komponentenladung in den einzelnen Hauptkomponenten, wobei die Variablenbezeichnung im Anhang Tabelle A.6 auf Seite 101 zu finden ist.
Die einzelnen Hauptkomponenten können bezüglich ihrer Ladung versucht werden zu interpretieren. Die einzelnen Ladungen der Hauptkomponenten können dabei der Tabelle 4.15 entnommen
werden. Die Variablenbezeichnung für die einzelnen Zahlen finden sich zur vereinfachten Darstellung im Anhang auf Seite 101, Tabelle A.6. Dabei ist die erste Hauptkomponente vor allem
durch Variablen, die die Wohnung beschreiben, geladen, wie die Größe der Wohnung oder das
Vorhandensein eines Gartens. In der zweiten Hauptkomponente haben Variablen, die nach der
persönlichen Situation der befragten Person zielen, eine besonders hohe Ladung. Die dritte
Hauptkomponente beschreibt die geografische Situation der Wohnung, durch das Bundesland
und die West-Ost Einordnung. Die vierte Hauptkomponente ist mit Variablen, die die Stadt beschreiben, wie die Ortsgröße, hoch geladen. Die fünfte Hauptkomponente hat eine hohe Ladung
bei Miet- und Heizkosten. Auch die sechste Hauptkomponente ist hauptsächlich mit Mietkostenvariablen geladen, zusätzlich noch mit dem Befragungstyp. Die siebte Hauptkomponente
beschäftigt sich wieder mit der persönlichen Situation des Befragten. Die achte Hauptkomponente beschäftigt sich mit den möglichen Umzugsgedanken der befragten Person. In der
neunten Hauptkomponenten ist die Anzahl der Personen beziehungsweise der Einkommens-
58
4 Statistische Auswertung
10
8
●
6
●
4
●
● ●
●
● ●
●
●
2
Eigenwert der entsprechenden Hauptkomponente
12
●
0
10
● ●
● ● ●
● ●
● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
●
20
30
40
Anzahl der Hauptkomponenten
Abbildung 4.2: Scree-Plot bei dem die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen werden zur Bestimmung der Anzahl der Hauptkomponenten.
59
4 Statistische Auswertung
bezieher besonders hoch geladen. Die Art des Wohngebietes besitzt eine hohe Ladung in der
zehnten Hauptkomponente. Die elfte und zwölfte Hauptkomponente besitzt hohe Ladungen in
den Variablen die sich mit der deutschen Staatsbürgerschaft beschäftigen. Die dreizehnte Hauptkomponente ist geladen mit Mietpreis, Einkommen und der Geschlechtsabfrage der befragten
Person. Auch die vierzehnte Hauptkomponente besitzt hauptsächlich bei finanziellen Variablen
eine hohe Ladung. In der fünfzehnten Hauptkomponente sind Fragen nach der deutschen Staatsbürgerschaft und der Wohndauer und der jetzigen Wohnung hoch geladen. In der sechzehnten
Hauptkomponente sind neben den Mietpreisvariablen noch die Frage nach jungen Menschen
in der Wohnumgebung hoch geladen. Mietpreisvariablen und Variablen die nach dem sozialen
Umfeld der befragten Person fragen, haben in der siebzehnten Hauptkomponente eine hohe
Ladung. In der achtzehnten Hauptkomponente sind Variablen die nach dem Einkommen und dem
Wohngebiet fragen hoch geladen. Variablen, die nach der Wohnungssituation fragen, wie etwa
nach einer separaten Küche, besitzen in der neunzehnten und zwanzigsten Variable eine hohe
Ladung. In der einundzwanzigsten Hauptkomponente sind Variablen hoch geladen, die sich danach erkundigen, ob die befragte Person mit der Wohngröße und Wohnausstattung zufrieden sind.
Für die Modellgleichung,
zu7_leb = α0 + α1 xhk1 + α2 xhk2 + α3 xhk3 + α4 xhk4 + α5 xhk5 + α6 xhk6 + α7 xhk7 + α8 xhk8
+ α9 xhk9 + α10 xhk10 + α11 xhk11 + α12 xhk12 + α13 xhk13 + α14 xhk14 + α15 xhk15
+ α16 xhk16 + α17 xhk17 + α18 xhk18 + α19 xhk19 + α20 xhk20 + α21 xhk21 + α22 xjahr
+ ε,
ergibt sich daher die Zufriedenheitsvariable weiterhin als abhängige, aber in diesem Fall die
einzelnen Hauptkomponenten als unabhängige Variablen. Die Zufriedenheitsvariable bleibt dabei
transformiert auf nur drei verschiedene Kategorien.
Anhand der exponierten Schätzer, vgl. Tabelle 4.16, ist zu erkennen, das sich vor allem die erste
und sechste Hauptkomponente auf die Zielvariable auswirken und die Chance auf eine höhere
Zufriedenheit um mehr als 30% steigt. Auch in diesem Modell wirkt sich die Jahreszahl leicht
positiv aus. Mit jedem weiteren Jahr steigt die Chance auf eine höhere Zufriedenheit um etwa
8%.
60
4 Statistische Auswertung
Variablenname
hk1
hk2
hk3
hk4
hk5
hk6
hk7
hk8
hk9
hk10
hk11
hk12
hk13
hk14
hk15
hk16
hk17
hk18
hk19
hk20
hk21
jahr
Achsenabschnitt 1|2
Achsenabschnitt 2|3
exponierter Schätzwert
1.4575
1.1693
1.0143
1.2948
0.8644
1.3000
1.1151
0.9380
1.1438
0.8796
0.9968
1.0044
1.1744
1.0634
0.9541
1.0061
1.0655
0.8840
1.1120
0.9597
0.9738
1.0876
1.0464 ·1072
8.0224 ·1072
exponierte Varianz
1.0086
1.0082
1.0131
1.0143
1.0157
1.0238
1.0181
1.0129
1.0083
1.0145
1.0081
1.0106
1.0102
1.0087
1.0079
1.0077
1.0078
1.0079
1.0079
1.0079
1.0080
1.0000
1.0013
1.0168
Tabelle 4.16: Variablen mit exponierten Schätzern und Varianzen im Hauptkomponentenmodell.
Die Fehlklassifikationsrate des Hauptkomponentenmodells beträgt 35.8%, mit einem AIC-Wert
von 72 131.37 und einem BIC-Wert von 72 340.51. Auch hier zeigt die Konfusionsmatrix,
vgl. Tabelle 4.17, eine starke Hauptdiagonale. Die erste Klasse ist schwach besetzt, aber nicht
vollständig leer.
Modellklassifizierung
1
2
3
P
Wahre Klasse
1
2
3
53
28
22
1 256 2 520 1 962
2 482 10 398 26 267
3 791 12 946 28 251
P
103
5 738
39 147
44 988
Tabelle 4.17: Konfusionsmatrix des Hauptkomponentenmodells.
Zusätzlich dazu lassen sich die Schätzer umrechnen. Aus den Schätzern für die Hauptkomponenten lassen sich die Schätzer für die Ursprungsvariablen berechnen. Zu beachten ist dabei
eine leichte Verzerrung. Zudem lassen sich in diesem Fall keine Dummy-Variablen einführen
und die Effekte für Variablen mit mehreren nominalen oder ordinalen Kategorien lassen sich
61
4 Statistische Auswertung
lediglich linear betrachten. Wie in Tabelle A.5 auf Seite 98 im Ahang zu erkennen ist, sind auch
hier gleiche Effekte wie in den vorherigen Modellen zu erkennen. Auch hier wirkt sich ein hoher
Ausländeranteil erneut negativ auf die Zufriedenheit der Bewohner aus. Kontrollvariablen, wie
Einkommen und Größe der Wohnung, erhöhen hier die Zufriedenheit der Bewohner zusätzlich.
Dieses Modell bestätigt die vorher gewonnenen Erkenntnisse und sichert ein Vorgehen zur
Modellierung, das allgemein anwendbar ist. Selbst wenn viele und untereinander hoch korrelierte
Variablen vorliegen.
4.1.3 Entscheidungsbaum
Eine andere Möglichkeit der Modellierung ist ein Entscheidungsbaum. Dabei wird die Klassifizierung für eine Zufriedenheitskategorie durch einen Baum ausgedrückt. An jedem Knoten
werden die Beobachtungen durch eine Variable aufgeteilt, bis sie letztendlich in eine Kategorie
einsortiert werden. Hierbei werden die fehlenden Werte als eigene Kategorie aufgefasst und der
Baum der entwickelt wird kann grafisch betrachtet und dadurch leichter interpretiert werden. Zur
Trennung der Beobachtungen werden dabei die Variablen gewählt, die die Daten möglichst gut
separieren können. Auch hierbei wurde die Zielvariable in drei Kategorien eingeteilt.
Der gewählte Entscheidungsbaum besitzt eine Tiefe von drei Knoten, dies bedeutet, dass anhand
von drei Variablen die Entscheidung in welche Klasse eine Beobachtung gehört, gefällt wird,
vgl. Abbildung A.1 im Anhang auf Seite 129. Dies ist notwendig, da ein noch komplexere
Baum kaum noch erfassbar ist. Dies ist auch der Nachteil dieser Methodik, da eine leichte
Interpretation nur bei geringer Komplexität möglich ist. Zusätzlich wurde für diesen Baum der
Datensatz in einen Trainings- und einen Testdatensatz unterteilt. Im Trainingsdatensatz befinden
sich dabei 80% zufällig ausgewählte Beobachtungen und im Testdatensatz die fehlenden 20%.
Dadurch kann der Baum am Trainingsdatensatz erstellt werden und die Fehlklassifikationsrate
am Testdatensatz überprüft werden.
Die Variable am ersten Knoten im Entscheidungsbaum ist die Variable, die anzeigt, wie hoch
der Ausländeranteil im Wohnquartier ist. Auch hier zeigt sich, dass ein hoher Ausländeranteil
für eine geringe Zufriedenheit mit dem Wohnquartier einhergeht. Im nächsten Knoten versucht
die Variable des denkbaren Umzugsgrundes die Daten weiter zu separieren. Hierbei ist auffällig,
dass eine zu kleine Wohnung als möglicher Umzugsgrund die Zufriedenheit senkt, während ein
Umzug aus beruflichen Gründen sich nicht merkbar auf die Zufriedenheit mit dem Wohnquartier
auswirkt. Dies ist jedoch zu erwarten und keine besondere neue Erkenntnis. Im letzten Knoten
62
4 Statistische Auswertung
gibt es in den verschiedenen Punkten jetzt unterschiedliche Variablen. Hierbei gibt es oftmals
eher uninteressante Variablen, wie die Befragungsart, die keinen Erkenntnisgewinn für die Zufriedenheit liefern. Ersichtlich hierbei ist, dass sich ein schlechter Zustand des Hauses, sowie ein
angespanntes Verhältnis zwischen Deutschen und ausländischen Bewohner negativ auswirkt.
Insgesamt liefern die Regressionsmodelle jedoch einen höheren Informationsgehalt. Die Fehlklassifikationsrate liegt beim Trainingsdatensatz bei 37% und beim Testdatensatz bei 38.1%. Der
Entscheidungsbaum bestätigt daher vor allem die Tatsache, dass sich ein hoher Ausländeranteil
auf die Zufriedenheit negativ auswirkt, liefert jedoch keine neuen Informationen.
4.1.4 Zusammenfassung des BBSR-Datensatzes
Der BBSR-Datensatz lieferte einige interessante Informationen, die es notwendig machen, einen
weiteren Datensatz zur Analyse hinzuzuziehen. Der BBSR-Datensatz enthält die Zufriedenheit
über mehrere Bereiche, von besonderem Interesse für die Analyse ist hierbei die Zufriedenheit mit
dem Wohnquartier. Da sich die anderen Zufriedenheiten jedoch der Wohnquartierszufriedenheit
nicht untergliedern lassen, musste hierbei sinnvollerweise ein zweistufiger Modellansatz gewählt
werden. Da zuerst die Wohnquartierszufriedenheit modelliert wird, kann dabei ein geeignetes
Modell gefunden werden. Bei den sieben verschiedenen Kategorien, die die Variable besitzt, ist
die Fehklassifikationsrate zu hoch, daher werden die Kategorien zu dreien zusammengefasst.
Dadurch können die Daten geeignet modelliert werden. Es zeigt sich, dass vor allem ein hoher
Ausländeranteil für eine geringe Zufriedenheit sorgt. Dies ist durchgängig bei allen Modellen
die eindeutigste Variable. Ein guter Zustand der Wohnung und ein hohes Einkommen hingegen
bewirken eine erhöhte Zufriedenheit. Überraschenderweise zeigte sich, dass Neubaugebiete zu
einer geringeren Zufriedenheit führen. Dies könnte aufgrund sozialer Kontakte der Fall sein. Mit
dem zweiten Datensatz wird dies näher analysiert. Die Zufriedenheit mit dem Wohnquartier
selbst entwickelt sich über die Jahre positiv. Bei den Neubaugebieten ist dabei zu sehen, dass sich
die Neubaugebiete in den jüngeren Jahren die Zufriedenheit weniger senken, als Neubaugebiete
in den früheren Jahren. Der hohe Ausländeranteil senkt jedoch die Zufriedenheit über die Jahre
hinweg tendenziell noch weiter. Die Situation scheint sich eher noch zu verschärfen. Alles in
allem gelingt mit der transformierten Zielvariable eine geeignete Modellierung, jedoch ist es von
Interesse einen weiteren Datensatz mit der Methodik zu analysieren um diese zu verifizieren.
Dazu ist es sinnvoll einen Datensatz auszuwählen, der eher die sozialen Aspekte im Hinblick
63
4 Statistische Auswertung
auf die Wohnquartierszufriedenheit betrachtet, da im BBSR-Datensatz vor allem die physischen
Aspekte enthalten waren.
4.2 Analyse des ALLBUS-Datensatz
Nach der Analyse des BBSR-Datensatzes wird der ALLBUS-Datensatz betrachtet. Dies erscheint
sinnvoll, da dieser einen anderen Aspekt betrachtet, als der BBSR-Datensatz. Hierbei wird vor
allem auf die sozialen Interaktionen wert gelegt. Damit können die Interpretationen des BBSRDatensatzes ergänzt, untermauert oder auch widerlegt werden. Der große Unterschied liegt in
der Anzahl an Variablen, die im ALLBUS-Datensatz enthalten ist. Zudem wurde diese Erhebung
nur alle zwei Jahre durchgeführt.
Jahreszahl
1980
1982
1984
1986
1988
1990
1991
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
Anzahl an Beobachtungen
2 955
2 991
3 004
3 095
3 052
3 051
3 030
3 548
3 450
3 518
3 234
3 781
2 820
2 946
3 421
3 448
2 827
Tabelle 4.18: Anzahl an Beobachtungen in den Jahren 1980 bis 2010. Die Befragung fand alle zwei
Jahre statt.
Anhand der Tabelle 4.18 ist zu erkennen, dass es in den einzelnen Jahren jeweils etwa 3 000
Beobachtungen gibt. Die Zahl schwankt leicht, da nicht immer gleich viele Personen geantwortet
haben.
Da in diesem Datensatz die Variable Zufriedenheit mit dem Wohnquartier nicht vorhanden ist,
muss eine äquivalente Variable gefunden werden. Dazu wird die Variable Verbundenheit mit
dem Wohnquartier gewählt. Hierbei ist anzunehmen, dass eine hohe Verbundenheit auch zu
einer Zufriedenheit führen kann. Auch in dem ALLBUS-Datensatz sind die meisten Variablen
64
4 Statistische Auswertung
kategorial und besitzen zum Teil sehr viele fehlende Werte. Daher wird hierbei die gleiche
Methodik wie beim BBSR-Datensatz gewählt, dass die fehlenden Werte als eigene Kategorie
aufgefasst werden. Die Zielvariable der Verbundenheit zum Wohnquartier enthält dabei fünf
Kategorien, vgl. Tabelle 4.19. Hierbei ist jedoch die Klasse Null am stärksten vertreten. Die
Wertung ist hierbei umgedreht zum BBSR-Datensatz, die Kategorie vier steht für die geringste
Verbundenheit, anstelle von der höchsten Verbundenheit. Dadurch wirken sich hier exponierte
Schätzer kleiner Eins positiv auf die Verbundenheit aus.
Kategorie Anzahl Beobachtungen
sehr hohe Verbundenheit
45 517
hohe Verbundenheit
2 424
normale Verbundenheit
3 691
wenig Verbundenheit
2 142
keine Verbundenheit
397
Tabelle 4.19: Anzahl Beobachtungen in den einzelnen Kategorien der Zielvariable.
4.2.1 Kategoriale Hauptkomponentenanalyse
Da die Vorgehensweise des BBSR-Datensatz hierbei verifiziert werden soll, wird ähnlich vorgegangen. Beim Versuch mit dem ALLBUS-Datensatz zuerst ein volles Modell aufzustellen muss
festgestellt werden, dass dies nicht möglich ist. Hierbei sind zu viele Variablen, mit einer zu
hohen Multikollinearität vorhanden. Daher wird auf die kategoriale Hauptkomponentenanalyse
zurückgegriffen. Dabei ist es zunächst von Bedeutung eine geeignete Anzahl an Hauptkomponenten zu wählen.
Dimension
Cronbachs Alpha
Eigenwert
1
0.994
79.96
2
0.980
37.61
3
0.975
31.86
4
0.968
26.40
5
0.952
18.63
6
0.940
15.27
7
0.926
12.46
8
0.922
11.87
9
0.909
10.30
10
0.905
9.92
65
4 Statistische Auswertung
11
0.897
9.24
12
0.890
8.64
13
0.871
7.44
14
0.863
7.01
15
0.853
6.57
16
0.846
6.29
17
0.839
6.01
18
0.831
5.73
19
0.823
5.48
20
0.814
5.22
21
0.806
5.01
22
0.797
4.82
23
0.778
4.41
24
0.774
4.33
25
0.766
4.18
26
0.762
4.12
27
0.760
4.08
28
0.755
4.01
29
0.751
3.93
30
0.745
3.86
31
0.739
3.76
32
0.722
3.54
33
0.714
3.45
34
0.696
3.24
35
0.684
3.13
36
0.672
3.01
37
0.644
2.78
38
0.606
2.52
39
0.589
2.41
40
0.568
2.29
Tabelle 4.20: Cronbachs Alpha und Eigenwert zur Hauptkomponentenbestimmung für den ALLBUSDatensatz.
66
40
60
●
●
●
20
●
●
●
● ●
● ●
● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
●
0
Eigenwert der entsprechenden Hauptkomponente
80
4 Statistische Auswertung
0
10
20
30
40
Anzahl der Hauptkomponenten
Abbildung 4.3: Scree-Plot bei dem die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen werden zur Bestimmung der Anzahl der Hauptkomponenten.
Anhand der Tabelle 4.20 ist zu erkennen, dass die Eigenwerte zu Anfang stark abfallen. Da
jedoch wieder darauf geachtet werden soll, nicht zu wenig Hauptkomponenten zu wählen, wird
zusätzlich die Grafik 4.3 betrachtet.
Hierbei fällt auf, dass ab zwanzigsten Hauptkomponente ein kleiner Knick zu erkennen ist.
Daher werden für diesen Datensatz zwanzig Hauptkomponenten gewählt. Diese Wahl ist dabei
wieder heuristisch und könnte auch anders gewählt werden. Mit der Ladung der Variablen in den
einzelnen Hauptkomponenten, vgl. Tabelle A.8, wird versucht die Hauptkomponenten inhaltlich
zu interpretieren. Die erste Hauptkomponente ist mit Variablen, die das Zusammenleben mit
Ausländern beinhaltet, hoch geladen. In der zweiten Hauptkomponente sind vor allem Variablen,
die die Einstellung zu sozioökonomischen Eigenschaften/Aspekten befragen, hoch geladen. In
der dritten Hauptkomponente sind Variablen über den Medienkonsum geladen. Das soziale
67
4 Statistische Auswertung
miteinander verfügt in der vierten Hauptkomponente über eine hohe Ladung. Die fünfte Hauptkomponenten lässt sich leider nicht sinnvoll interpretieren, da die Ladungen zu unterschiedlich
sind. Die sechste Hauptkomponente enthält vor allem den beruflichen Erfolg und die Frage
nach Fluglärm in der näheren Umgebung. Die siebte, achte, neunte und elfte Hauptkomponente
lassen sich nicht sinnvoll interpretieren. Die zehnte Hauptkomponente befasst sich mit den
Ängsten der befragten Personen. Variablen mit persönlichen Eigenschaften sind in den Hauptkomponenten zwölf, siebzehn, neunzehn und zwanzig hoch geladen. Die Hauptkomponenten
dreizehn, vierzehn und sechzehn sind mit Variablen der Rahmenbedingungen des Wohnorts
hoch geladen. Die persönliche Einstellungen zu gesellschaftlichen relevanten Themen sind in
Hauptkomponente fünfzehn stark vertreten. In der achtzehnten Hauptkomponente geht es vor
allem um die Einstellung zur Religion.
4.2.2 Kumulatives Hauptkomponentenmodell
Mit den gewählten Hauptkomponenten kann die Modellgleichung,
Verbundenheit = α0 + α1 xhk1 + α2 xhk2 + α3 xhk3 + α4 xhk4 + α5 xhk5 + α6 xhk6 + α7 xhk7
+ α8 xhk8 + α9 xhk9 + α10 xhk10 + α11 xhk11 + α12 xhk12 + α13 xhk13
+ α14 xhk14 + α15 xhk15 + α16 xhk16 + α17 xhk17 + α18 xhk18 + α19 xhk19
+ α20 xhk20 + α21 xjahr + ε,
aufgestellt werden. Dadurch werden die Schätzer für die einzelnen Hauptkomponenten und das
Jahr erhalten.
Variablenname
exponierter Schätzer
exponierte Varianz
hk1
4.87
1.00
hk2
1.22
1.03
hk3
0.16
1.02
hk4
1.46
1.05
hk5
0.17
1.03
hk6
0.75
1.02
hk7
0.38
1.03
hk8
1.32
1.03
hk9
1.46
1.03
68
4 Statistische Auswertung
hk10
1.45
1.03
hk11
1.45
1.03
hk12
0.74
1.02
hk13
0.88
1.02
hk14
0.91
1.03
hk15
1.37
1.02
hk16
0.87
1.01
hk17
0.59
1.01
hk18
0.99
1.02
hk19
0.90
1.01
hk20
0.87
1.01
Jahre
0.72
1.00
Achsenabschnitt 0|1
5.15 ·10237
1.00
Achsenabschnitt 1|2
1.49 ·10239
1.08
Achsenabschnitt 2|3
9.97 ·10239
1.09
Achsenabschnitt 3|4
9.21 ·10240
1.10
Tabelle 4.21: Exponierte Schätzer der Hauptkomponenten und der Jahreszahl.
Die Schätzer zeigen dabei erneut, dass sich die Verbundenheit mit dem Wohnquartier im Laufe
der Jahre steigert, vgl. Tabelle 4.21. Auffällig ist auch, dass sich die erste Hauptkomponente sehr
negativ auf die Verbundenheit auswirkt. Hierbei sinkt die Chance auf eine erhöhte Zufriedenheit
um fast 500%. Das ist die Hauptkomponente, die vor allem durch das Zusammenleben mit
Ausländern geladen ist. Dies bestärkt die Auswertung des ersten Datensatzes.
Die Fehlklassifikationsrate in diesem Modell liegt bei lediglich 9.5% und ist damit sehr gering. Dies dürfte vor allem an der großen Klasse Null liegen. Der Wert des AIC liegt hier bei
22 465,27, der Wert des BIC bei 22 687,76. Auch die Konfusionsmatrix verfügt über eine starke
Hauptdiagonale, wobei vor allem die Klasse Null hoch besetzt ist, vgl. Tabelle 4.22. Die Klasse
vier ist zwar schwach besetzt, aber nicht vollständig leer.
Werden die exponierten Schätzer der Hauptkomponenten transformiert in die exponierten Schätzer der ursprünglichen Variablen, vgl. Tabelle A.9 im Anhang auf Seite 124, können die Erkenntnisse des BBSR-Datensatzes ergänzt werden. Dabei ist am auffälligsten, dass auch hier der
Ausländeranteil eine große Bedeutung hat. Im Gegenteil zum BBSR-Datensatz ist dieser hier
69
4 Statistische Auswertung
Modellklassifizierung
0
1
2
3
P4
Wahre Klasse
0
1
2
3
4
45 517
2
16
7
1
0
306
445
244 41
0 1 947 2 941 1 652 279
0
168
288
238 76
0
1
1
1
0
45 517 2 424 3 691 2 142 397
P
45 543
1 036
6 819
770
3
54 171
Tabelle 4.22: Konfusionsmatrix des Hauptkomponentenmodells im ALLUB-Datensatz.
differenzierter erfragt. Es zeigt sich dabei, dass Italiener als angenehm und eher als Bereicherung
empfunden werden. Bei Italienern in der Nachbarschaft steigt sogar die Wahrscheinlichkeit auf
eine erhöhte Verbundenheit um fast 700%. Sind es anstelle von Italienern jedoch Türken, Juden
oder Asylbewerber sinkt die Wahrscheinlichkeit um fast 700%. Das dies ausgerechnet bei diesen
Gruppen vorkommt liegt vor allem an der Fragestellung. So ist es gut denkbar, dass Anstelle der
Italiener auch andere europäische Nationalitäten erfragt werden könnten. Das eine Religionszugehörigkeit zum Judentum derart die Verbundenheit reduziert ist eher verwunderlich. Hierbei
ist es bedauerlich, dass nicht differenziert auch nach muslimisch Gläubigen gefragt wurde. Ein
allgemein hoher Ausländeranteil senkt auch bei dieser Modellierung die Chance auf eine hohe
Verbundenheit um fast 800%. Eine gute Nachbarschaft, soziale Vereine und Tätigkeiten wirken
sich positiv auf die Verbundenheit mit dem Wohnquartier aus. Die Wahrscheinlichkeit auf eine
eine hohe Verbundenheit wird dabei immerhin noch um fast 150% erhöht. In Verbindung mit
der Auswertung des BBSR-Datensatz kann dies eventuell eine Begründung für die negative
Auswirkung von Neubaugebieten sein. Da den Bewohnern eine soziale Bindung sehr wichtig ist,
diese aber in Neubaugebieten oftmals noch nicht vorhanden oder zumindest nur im verringerten
Umfang, ist daher die Zufriedenheit geringer. Dies würde bedeuten, dass Neubaugebiete nicht an
sich schlecht geplant sind, sondern die Bewohner eine Zeit brauchen, sich in diesen zu akklimatisieren. Zudem könnte die soziale Anbindung in Neubaugebieten direkt stärker gefördert werden.
Die Belastung durch industriellen Abfall, Kernkraftwerke, Industrieabgase oder Verkehrslärm
wirken sich erwartet negativ auf die Verbundenheit aus. Hier wird die Chance auf eine hohe
Zufriedenheit um etwa 40% gesenkt. Die gleiche Tendenz war auch schon in der Auswertung
des BBSR-Datensatzes zu erkennen. Verwunderlich ist hierbei höchstens, dass die Auswirkung
nicht so stark ist, wie vermutet werden könnte. Dennoch bleiben Kernkraftwerke oder erhebliche
Lärmbelastung ein klarer Faktor zur Senkung der Wohnquartiertszufriedenheit oder Verbundenheit mit diesem. Auch ist wieder zu erkennen, dass es über die Jahre eine Steigerung der
70
4 Statistische Auswertung
Verbundenheit zum Wohnquartier gibt.
Zusammenfassend lässt sich beim ALLBUS-Datensatz feststellen, dass die Modellierung deutlich besser gelingt als im BBSR-Datensatz. Die Fehlklassifikationsrate liegt hier nur bei 9.5%.
Ein Grund dafür liegt sicherlich in der stark vertretenden Klasse Null. Dennoch bleibt der Eindruck, dass die sozialen Aspekte einen starken Einfluss auf die Verbundenheit zum Wohnquartier
ausüben. Zudem bestätigt sich, dass der Ausländeranteil eine starke Auswirkung auf die Verbundenheit hat. Hierbei wird jedoch innerhalb der Ausländergruppierung unterschieden. Dadurch
kann festgestellt werden, dass die Modellierung zeigt, dass vor allem türkische und jüdische
Bewohner, sowie Asylbewerber die Verbundenheit zum Wohnquartier senken.
4.2.3 Zusammenfassung des ALLBUS-Datensatzes
Mit Hilfe des ALLBUS-Datensatzes ließen sich die Ergebnisse des BBSR-Datensatzes weiter
vertiefen. Überraschenderweise konnte die Datensituation des ALLBUS-Datensatzes sogar
besser modelliert werden. Die Fehlklassifikationsrate war hierbei deutlich geringer. Es zeigt sich,
dass sich die sozialen Aspekte stark auf die Zufriedenheit der Bewohner eines Wohnquartiers
auswirken. Auch hier war jedoch der deutlichste Einfluss, der Ausländeranteil eines Quartiers.
Ist dieser hoch führt es zu einer stark abfallenden Zufriedenheit. In diesem Datensatz konnte
zudem erkannt werden, dass dies vor allem auf türkische, jüdische und Asylbewerber bezogen
ist. Menschen mit italienischem Migrationshintergrund hingegen sorgen eher für eine steigende
Zufriedenheit. Die Methodik der kategorialen Hauptkomponentenmethode in Verbindung mit
einem kumulativen Modell erzeugt auch hier zufriedenstellende Ergebnisse. Es kann damit ein
Verfahren verwendet werden, dass auf beiden Datensätze gute Ergebnisse erzielt und auch auf
weitere Datensätze extrapoliert werden kann.
71
5 Zusammenfassung
Die Überprüfung der Eigenschaften, die sich auf die Zufriedenheit mit einem Stadtquartier
auswirken, konnten mit Hilfe der Datensätze gut gelingen. Hierzu wurden zwei verschiedene
Datensätze ausgewertet, um einen genaueren Einblick zu erhalten, welche Faktoren positiv oder
negativ auf die Zufriedenheit wirken.
Zuerst wurde dafür der BBSR-Datensatz ausgewertet. Hierbei gab es die Variable Zufriedenheit
mit der unmittelbaren Wohnumgebung, die modelliert werden sollte. Da diese Variable kategorial
war, wurde ein kumulatives Modell aufgestellt. Die Zufriedenheit war in dieser Variable differenziert in sieben verschiedene Kategorien aufgeteilt. Da zudem noch die Lebenszufriedenheit
und andere Zufriedenheiten erhoben wurden, wurde das Modell in zwei verschiedenen Stufen
aufgeteilt. Zuerst wurde die Zufriedenheit mit dem Wohnquartier modelliert, danach die Lebenszufriedenheit mit Hilfe der anderen Zufriedenheiten. Da ein Modell mit der ursprünglichen
Zielvariable nicht den gewünschten Erfolg brachte, da die Fehlklassifikationsrate zu hoch war,
wurde die Zielvariable transformiert. Aus den vorherigen sieben Kategorien wurden drei gebildet.
Mit diesen gelang eine gute Modellierung. Zusätzlich zu dieser wurde noch ein Modell gebildet,
dass auf die kategoriale Hauptkomponentenanalyse aufbaute. Dazu wurde zuerst die Hauptkomponentenanalyse durchgeführt und eine geeignete Anzahl an Hauptkomponenten ausgewählt,
diese wurden dann für die Modellierung verwendet. Die Schätzer konnten sowohl für die Hauptkomponenten, wie auch für die Ursprungsvariablen berechnet werden. Diese Modelle und auch
das Modell mit der Zielvariable Lebenszufriedenheit hatten eine gute Fehlklassifikationsrate.
Danach wurde mit dieser Methodik der ALLBUS-Datensatz analysiert. Da in diesem deutlich
mehr Variablen vorhanden waren, wurde als erstes eine kategoriale Hautpkomponentenmethode
durchgeführt. Mit der geeigneten Anzahl an Hauptkomponenten wurde dann erneut ein Modell
aufgestellt. Hierbei diente als Zielvariable die Verbundenheit mit dem Wohnquartier, da die
Zufriedenheit hierbei nicht erhoben wurde. Es wird jedoch angenommen, dass die Verbundenheit
stark mit der Zufriedenheit zusammenhängt. Obwohl die Zielvariable in fünf verschiedenen
Kategorien vorkommt, gelingt hier eine deutlich geringer Fehlklassifikationsrate. Da es in diesem
Datensatz vor allem um den sozialen Aspekt geht, ist es möglich, dass diese sich deutlicher auf
die Verbundenheit mit dem Wohnquartier auswirken.
Bei beiden Datensätzen ist zu erkennen, dass sich die Zufriedenheit beziehungsweise Verbun-
72
5 Zusammenfassung
denheit mit dem Wohnquartier über die Jahre leicht steigert. Fluglärm, industrieller Abfall und
Kernkraftwerke in der näheren Umgebung senken dagegen die Zufriedenheit der Bewohner eines
Stadtquartiers. Nachbarschaften mit einem hohen Anteil von jungen oder alten Menschen haben
meist eine hohe Zufriedenheit, während junge Familien diese eher senken. Einfamilienhäuser
sind für die Zufriedenheit zuträglich, gegenüber Hochhäusern, in denen die Bewohner eher zur
Unzufriedenheit neigen. Eine reine Wohngegend gewährt die Chance auf eine höhere Zufriedenheit für die Bewohner, die bei einer gemischten Wohnsiedlung mit Geschäften sinkt. Ein
überraschendes Ergebnis aus dem BBSR-Datensatz ist, dass Neubaugebiete sich schlechter auf
die Zufriedenheit auswirken, als Gebiete mit älteren Wohnungen. Dieser Effekt wurde genauer
betrachtet. Dabei wurde festgestellt, das vor allem die Neubaugebiete im Osten und in kleiner
Ortschaften für eine geringe Zufriedenheit sorgen. Vermutet werden kann dabei, dass die Unzufriedenheit sich vor allem auf eine fehlende soziale Anbindung zurückzuführen lässt. Dieses
wurde mit Hilfe des ALLBUS-Datensatzes genauer überprüft. Hierbei wurde festgestellt, dass
soziale Kontakte und Vereine für die Verbundenheit mit einem Quartier tatsächlich eine große
Bedeutung haben. Dies könnte die Vermutung bestätigen, dass den Bewohnern von Neubaugebieten vor allem die sozialen Kontakte fehlen. Am deutlichsten in beiden Datensätzen jedoch
ist die steigernde Unzufriedenheit bei einem hohen Ausländeranteil. Schon im ersten Datensatz
zeigt sich für jede Form der Modellierung, dass vor allem ein hoher Ausländeranteil für eine
geringe Zufriedenheit verantwortlich ist. Dies scheint sich über die Jahre hinweg sogar noch zu
verschlimmern. Mit dem zweiten Datensatz konnte diese Aussage etwas differenzierter getroffen
werden. Da hier die Ausländergruppen unterteilt wurden, zeigte sich, das nur spezielle für eine
hohe Unzufriedenheit sorgten. Die dabei abgefragten italienischen Mitbürger sorgen hingegen
eher für eine höhere Zufriedenheit. Menschen mit türkischer Herkunft, mit jüdischer Religion
oder Asylbewerber jedoch senken die Zufriedenheit in einem hohen Ausmaß, wenn diese in der
Nachbarschaft stark vertreten sind. Vor allem die jüdischen Nachbarn verwundern, jedoch wurde
in diesem Datensatz auch nicht nach anderen Religionszugehörigkeiten gefragt. Ein kleiner
Ausländeranteil sorgt schon für eine geringe Zufriedenheit, dies nur in einem geringen Ausmaß.
Erst wenn der Anteil sehr hoch ist folgt ein starker Einbruch in der Zufriedenheit. Dies scheint
als tatsächlich Problem in den entsprechenden Wohnquartieren aufgefasst zu werden. Hier gibt
es noch Optimierungspotenzial.
Mit beiden Datensätzen zusammen konnte ein guter Eindruck gewonnen werden, welche Faktoren sich auf die Zufriedenheit der Bewohner von Stadtquartieren auswirken. Hierbei ist vor allem
73
5 Zusammenfassung
der Ausländeranteil aufgefallen, der sich stark auf die Zufriedenheit auswirkt. Dieser könnte in
weiteren Erhebungen noch genauer betrachtet werden. Zudem ist der soziale Aspekt, gerade im
Bezug auf Neubaugebiete, interessant für eine nähere Untersuchung. Dadurch könnte die Zufriedenheit in diesen eventuell gesteigert werden. Außerdem wäre es interessant, neben der jüdischen
Religionen auch andere abzufragen, wie zum Beispiel die muslimische Religion, die zumindest
medial momentan eine höhere Präsenz hat. Festzustellen bleibt zudem, dass die Modellierung im
zweiten Datensatz besser gelungen ist, zumindest mit einer geringeren Fehlklassifikationsrate.
Dies scheint anzudeuten, dass die sozialen Aspekte einen großen Einfluss auf die Verbundenheit
mit einem Wohnquartier besitzen. Im zweistufigen Ansatz im ersten Datensatz konnte zudem
erkannt werden, dass die Zufriedenheit mit dem Wohnquartier einen sehr großen Einfluss auf die
Lebenszufriedenheit besitzt. Daher ist es eine wichtige Aufgabe, die Wohnquartiere so angenehm
wie möglich zu gestalten, um auch die Lebenszufriedenheit der Bewohner zu maximieren.
74
Literaturverzeichnis
Backhaus, K., Erichson, B. und Weiber, R. (2011). Fortgeschrittene Multivariate Analysemethoden. Springer, Heidelberg [u.a.].
Bühl, A. (2012). SPSS 20; Einführung in die moderne Datenanalyse. Pearson, München.
Burnham, K. P. und Anderson, D. R. (2004). Multimodel Inference. Understanding AIC and
BIC in Model Selection. Sociological Methods and Research, 33(2):261–304.
Dahmen, W. und Reusken, A. (2008). Numerik für Ingenieure und Naturwissenschaftler. Springer
Verlag, Berlin.
Fahrmeir, L., Kneib, T. und Lang, S. (2007a). Regression. Modelle, Methoden und Anwendungen.
Springer Verlag, Berlin [u.a.].
Fahrmeir, L., Küstler, R., Pigeot, I. und Tutz, G. (2007b). Statistik. Der Weg zur Datenanalyse.
Springer Verlag, Berlin [u.a.], 7. Auflage.
Fahrmeir, L. und Tutz, G. (2001). Multivariate Statistical Modelling Based on Generalized
Linear Models. Springer Verlag, Berlin [u.a.], 2. Auflage.
Feldmann, P. (2009). Die strategische Entwicklung neuer Stadtquartiere unter besonderer
Berücksichtigung innenstadtnaher oder innerstädtischer, brachgefallener Indurstrieareale.
Immobilien Manager, Köln.
GESIS - Leibniz-Institut für Sozialwissenschaften (2010). Allgemeine Bevölkerungsumfrage der
Sozialwissenschaften ALLBUS.
Golub, G. H. und van Loan, C. F. (1989). Matrix Computations. The Johns Hopkins University
Press, Maryland.
Greenacre, M. (2007). Correspondence Analysis in Practice. Chapman & Hall/CRC, Boca
Raton, 2. Auflage.
Groß, J. (2003). Linear Regression. Springer Verlag, Berlin [u.a.].
75
Literaturverzeichnis
Hastie, T., Tibshiranie, R. und Friedman, J. (2008). The elements of Statistical Learning. Data
Mining, Inference an d Prediction. Springer Verlag, Berlin [u.a.].
IBM (2012). IBM SPSS Statistics. IBM Corporation, Armonk.
Jolliffe, I. T. (1986). Principal Component Analysis. Springer Verlag, New York.
Kreienbrock, L. und Schach, S. (1997). Epidemiologische Methoden. Gustav Fisher, Stuttgart
[u.a.], 2. Auflage.
Norušis, M. J. (2011). IBM SPSS Statistics 19 Advanced Statistical Procedures Companion.
Prentice Hall, Upper Saddle River, New Jersey.
Ohder, S. (2004). Methodenbericht zur BBSR-Umfrage. Bundesamt für Bauwesen und Raumordnung, München.
R Core Team (2013). R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing, Vienna, Austria. http://www.R-project.org/.
Rüger, B. (2002). Test- und Schätztheorie Band II: Statistische Tests. Oldenbourg, München
[u.a.].
Steffen, G., Baumann, D. und Betz, F. (2004). Integration und Nutzungsvielfalt im Stadtquartier.
Weeber + Partner, Stuttgart, Berlin.
Timm, N. H. (2002). Applied Multivariate Analysis. Springer Verlag, New York.
Tutz, G. (1990). Analyse für kategoriale Daten mit ordinalem Skalenniveau. Vandenhoeck &
Ruprecht, Göttingen.
Venables, W. N. und Ripley, B. D. (2002). Modern Applied Statistics with S. Springer Verlag,
New York, 4. Auflage.
76
A Anhang
Variablenname
Bedeutung
za_nr
ZA-Studiennummer
version
GESIS Archiv Version
ID
Identifikation BBSR
jahr
Erhebungsjahr
hgewicht
Haushaltsgewichtungsfaktor
pgewicht
Personengewichtungsfaktor
bula
Bundesland
bik
BIK Gemeindetyp
sgtyp
Stadt- und Gemeindetyp
ortsgro
Hat der Ort, in dem Sie wohnen, über oder unter 20.000 Einwohner?
stadt1
Wohnen Sie im Ortskern oder außerhalb?
stadt2
Wo wohnen Sie?
zuzOrt
Seit wann wohnen Sie in dieser Stadt oder Gemeinde?
zu7_ort
Wie zufrieden sind Sie mit dieser Stadt oder Gemeinde?
zuzWohn
Seit wann wohnen Sie in Ihrer jetzigen Wohnung?
wohnstat
Wie wohnen Sie?
miete
Wie hoch ist derzeit die monatl. Miete?
beu_miet
Halten Sie die jetzigen Mietkosten für angemessen?
transfer
Erhalten Sie Wohngeld?
erwerb
Wie sind Sie Eigentümer geworden?
qumeter
Größe der Wohnung insgesamt, Anzahl der Quadratmeter
raeume
Anzahl der Wohnräume der Wohnung
beu_groe
Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt?
aus_kue
Ist eine separate Küche vorhanden?
aus_gast
Ist ein zusätzliches Gäste-WC vorhanden?
aus_iso
Sind überwiegend isolierverglasten Fenstern vorhanden?
aus_balk
Ist ein Balkon oder eine Terrasse vorhanden?
77
A Anhang
Variablenname
Bedeutung
aus_gart
Ist ein eigener Garten oder eine Gartenbenutzung vorhanden?
aus_platz
Ist eine eigene Garage oder ein eigener Abstellplatz vorhanden?
aus_stan
Standard (Heizung, Warmwasser, Bad/Dusche, WC) vorhanden?
aus_ok
Entspricht die Ausstattung der Wohnung den Bedürfnissen?
altgeb_4
Wann wurde das Haus etwa erbaut?
haustyp
Zustand des Gebäudes
zust_geb
Zustand des Hauses
zu7_wohn
Zufriedenheit mit der eigenen Wohnung
zu7_umg
Zufriedenheit mit der unmittelbaren Wohnumgebung
zu7_umw
Zufriedenheit mit den Umweltbedingungen
geggeb
Direktes Umfeld der Wohnung
gegzent
Art des Wohngebietes
geghaus
Sind überwiegend Alt- oder Neubauten vorhanden?
gegweinh
Sind überwiegend Einfamilienhäuser vorhanden?
wgalt2
Ältere Menschen im Rentenalter sind hier vertreten
wgjung2
Junge Leute sind hier vertreten
wgfam2
Familien mit Kindern sind hier vertreten
wgarb2
Leute mit geringem Einkommen sind hier vertreten
wgakad2
Leute mit hohem Einkommen sind hier vertreten
wgausl2
Ausländer und ausländische Familien sind hier vertreten
verh_da
Wie ist das Verhältnis zwischen Ausländern und Deutschen?
trenn_da
Zusammenleben von Ausländern und Deutschen gewünscht
deutsch
Haben Sie selbst die deutsche oder eine andere Staatsbürgerschaft?
kon_aus
Sind Kontakte zu Ausländern oder deren Familien vorhanden?
kon_deu
Sind Kontakte zu Deutschen oder deren Familien vorhanden?
umzplan
Vorhaben, innerhalb der nächsten 2 Jahre aus der Wohnung auszuziehen
umzgrun
Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund?
umzpraef
Wohin wollen Sie umziehen, wo wollen Sie dann wohnen?
wila_zz
Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage?
erw_stat
Berufstätigkeit kurz
geschl
Geschlecht der Zielperson
78
A Anhang
Variablenname
Bedeutung
alter
Darf ich fragen, wie alt Sie sind?
erw_sta3
Student/Rentner?
hhgroe
Wie viele Personen leben ständig in Ihrem Haushalt?
hhgrupp2
Einkommensklassen EURO
ekdm
Einkommensklassen DM
zu7_leb
Zufriedenheit mit Leben
Tabelle A.1: Variablen des BBSR-Datensatzes und ihre Bedeutung.
Variablenname
exponierter Schätzwert
exponierte Varianz
jahr
1.0754
1.0000
bula2
0.8038
1.0013
bula3
1.1171
1.0029
bula4
1.0943
1.0004
bula5
1.0085
1.0202
bula6
1.1092
1.0019
bula7
0.7779
1.0021
bula8
1.1113
1.0071
bula9
1.2457
1.0065
bula10
0.8547
1.0004
bula11
1.0919
1.0041
bula12
0.9089
1.0021
bula13
1.0779
1.0015
bula14
0.9943
1.0039
bula15
0.9112
1.0018
bula16
0.9331
1.0019
schulab21
1.1580
1.0121
schulab22
1.0773
1.0121
schulab23
1.0195
1.0117
schulab24
0.8606
1.0006
studium1
0.9593
1.0125
studium2
0.9187
1.0063
79
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
studium3
0.8564
1.0012
studium4
1.0144
1.0077
studium5
0.8997
1.0017
fam_stan21
1.0978
1.0116
fam_stan22
1.0866
1.0103
fam_stan23
1.2511
1.0054
fam_stan24
1.0306
1.0065
fam_kind0
1.1369
1.0115
fam_kind1
1.0598
1.0095
kinder3
0.9952
1.0030
hhgrupp21
1.1302
1.0012
hhgrupp22
1.0994
1.0027
hhgrupp23
1.0327
1.0021
hhgrupp24
1.0051
1.0018
hhgrupp25
1.0285
1.0021
hhgrupp26
0.9622
1.0020
hhgrupp27
0.9418
1.0017
hhgrupp28
1.0996
1.0013
hhgrupp29
1.0041
1.0008
hhgrupp210
1.0048
1.0015
hhgrupp211
0.9482
1.0026
hhgrupp212
0.8795
1.0007
hhgrupp213
0.8703
1.0010
geggeb1
1.0872
1.0083
geggeb2
1.0254
1.0083
gegzent1
1.0955
1.0007
gegzent2
0.5043
1.0002
gegzent3
0.9793
1.0016
gegzent4
0.8572
1.0064
geghaus1
0.9867
1.0124
geghaus2
1.0419
1.0139
80
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
geghaus3
0.9771
1.0076
gegweinh1
1.2062
1.0070
gegweinh2
0.9103
1.0069
gegweinh3
1.0511
1.0009
wgalt21
0.7142
1.0004
wgalt22
0.7943
1.0103
wgalt23
0.8652
1.0145
wgalt24
0.9231
1.0150
wgalt25
1.0854
1.0112
wgjung21
1.3214
1.0007
wgjung22
1.2305
1.0106
wgjung23
1.4481
1.0122
wgjung24
1.5021
1.0085
wgjung25
1.6194
1.0012
wgfam21
0.8332
1.0007
wgfam22
0.8144
1.0125
wgfam23
0.8033
1.0124
wgfam24
0.8512
1.0116
wgfam25
0.9170
1.0019
wgarb21
1.3873
1.0006
wgarb22
1.0978
1.0142
wgarb23
0.9957
1.0136
wgarb24
0.9294
1.0161
wgarb25
0.9639
1.0062
wgakad21
0.7516
1.0143
wgakad22
0.8428
1.0138
wgakad23
0.9782
1.0164
wgakad24
1.1485
1.0069
wgakad25
1.4227
1.0005
wgausl21
1.5675
1.0108
wgausl22
0.9731
1.0127
81
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
wgausl23
0.7519
1.0154
wgausl24
0.5496
1.0044
wgausl25
0.3444
1.0019
verh_da1
1.5203
1.0131
verh_da2
1.0951
1.0132
verh_da3
0.5829
1.0017
kon_aus0
0.8798
1.0070
kon_aus1
1.2117
1.0106
kon_aus2
1.1211
1.0130
kon_deu1
1.3571
1.0005
kon_deu2
1.9930
1.0001
umzplan1
0.8658
1.0040
umzplan2
1.0429
1.0120
umzplan3
1.6808
1.0159
wila_zz1
1.4642
1.0023
wila_zz2
1.0475
1.0129
wila_zz3
0.8417
1.0132
wila_zz4
0.7788
1.0128
wila_zz5
0.7004
1.0021
erw_stat1
1.0303
1.0074
erw_stat2
0.8100
1.0092
sich_ap1
1.0322
1.0111
sich_ap2
0.8955
1.0168
sich_ap3
0.8550
1.0046
sich_ap4
0.8495
1.0008
sich_ap5
0.8844
1.0004
verein1
0.9027
1.0019
verein2
1.0337
1.0089
pkw21
1.0404
1.0055
pkw22
1.0000
1.0199
pkw23
0.9878
1.0023
82
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
pkw24
1.0356
1.0003
geschl2
1.1248
1.0163
alter
0.9999
1.0007
aus_balk1
1.1525
1.0127
aus_balk2
1.0918
1.0102
altgeb_4
0.9956
1.0035
haustyp
0.9740
1.0069
zust_geb1
2.5893
1.0152
zust_geb2
1.5980
1.0120
zust_geb3
1.2536
1.0157
zust_geb4
0.9777
1.0015
zust_geb5
0.8845
1.0001
erw_sta31
1.1264
1.0070
erw_sta32
1.1524
1.0058
erw_sta33
1.2156
1.0072
erw_sta34
1.4143
1.0006
erw_sta35
0.9895
1.0017
erw_sta36
1.0357
1.0017
erw_sta37
1.0655
1.0047
teilvoll1
0.8743
1.0057
teilvoll2
0.9162
1.0031
teilvoll3
0.8015
1.0008
bst_zz31
0.9891
1.0114
bst_zz32
1.4710
1.0113
bst_zz33
0.8435
1.0032
bst_zz34
1.1221
1.0003
bst_zz35
1.0110
1.0007
bst_zz36
0.8834
1.0020
bst_zz37
0.9885
1.0002
bst_zz38
8.2192
1.0000
angest1
0.6032
1.0153
83
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
angest2
0.6401
1.0162
angest3
0.5991
1.0021
sgtyp20
0.9005
1.0182
sgtyp30
0.9492
1.0162
sgtyp40
1.0121
1.0152
sgtyp50
1.0256
1.0030
ortsgro1
1.8023
1.0073
ortsgro2
0.9566
1.0069
stadt11
2.3587
1.0139
stadt12
2.5716
1.0138
stadt21
1.3281
1.0157
stadt22
1.2505
1.0153
stadt23
1.4597
1.0147
zuzOrt
1.0000
1.0000
zuzWohn
1.0000
1.0000
wohnstat1
0.7782
1.0118
wohnstat2
0.7271
1.0007
wohnstat3
0.8341
1.0099
wohnstat4
0.7642
1.0022
wohnstat6
0.8126
1.0001
miete
1.0002
1.0000
beu_miet1
0.8882
1.0147
beu_miet2
1.1155
1.0136
beu_miet3
1.3086
1.0003
transfer1
0.9638
1.0042
transfer2
0.8926
1.0109
transfer4
0.6899
1.0005
qumeter
1.0006
1.0003
raeume
0.9988
1.0036
Achsenabschnitt 1|2
143.2481
0.0006
Achsenabschnitt 2|3
144.2367
0.0018
84
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
Achsenabschnitt 3|4
145.0464
0.0182
Achsenabschnitt 4|5
145.9168
0.0220
Achsenabschnitt 5|6
147.1309
0.0239
Achsenabschnitt 6|7
148.7256
0.0257
Tabelle A.2: Variablen mit exponierten Schätzern und Varianzen im vollen Modell des BBSRDatensatzes.
Variablenname
1. Haupteffekt
2. Haupteffekt
exponierter Schätzwert
exponierte Varianz
jahr
1.0149
1.0001
kinder3
0.9891
1.0027
geggeb1
1.3709
1.0020
geggeb2
1.1711
1.0020
gegzent1
1.3092
1.0001
gegzent2
0.6189
1.0001
gegzent3
1.0210
1.0004
geghaus1
3.3846
1.0000
geghaus2
8.3846
1.0000
geghaus3
12.3846
1.0000
gegweinh1
1.0368
1.0015
gegweinh2
0.8793
1.0014
gegweinh3
1.1191
1.0003
wgalt22
0.0000
1.0000
wgalt23
0.0000
1.0002
wgalt24
0.0000
1.0001
wgalt25
0.0000
1.0000
wgjung21
0.6334
1.0002
wgjung22
0.6736
1.0107
wgjung23
0.7859
1.0122
wgjung24
0.8015
1.0090
wgjung25
0.9123
1.0002
85
A Anhang
1. Haupteffekt
2. Haupteffekt
exponierter Schätzwert
exponierte Varianz
wgfam21
1.2646
1.0004
wgfam22
1.3267
1.0131
wgfam23
1.3554
1.0125
wgfam24
1.4685
1.0120
wgfam25
1.7503
1.0006
wgarb21
1.5456
1.0004
wgarb22
1.0385
1.0070
wgarb23
0.9979
1.0132
wgarb24
0.9119
1.0075
wgarb25
0.9887
1.0015
wgakad21
0.7662
1.0061
wgakad22
0.8458
1.0127
wgakad23
1.0211
1.0076
wgakad24
1.2055
1.0028
wgakad25
1.6334
1.0003
wgausl21
0.0000
1.0002
wgausl22
0.0000
1.0002
wgausl23
0.0000
1.0001
wgausl24
0.0000
1.0000
wgausl25
0.0000
1.0000
verh_da1
1.6005
1.0111
verh_da2
1.1368
1.0131
verh_da3
0.6408
1.0012
umzplan1
0.9386
1.0032
umzplan2
1.1152
1.0077
umzplan3
1.8354
1.0108
sich_ap1
1.3090
1.0025
sich_ap2
1.0676
1.0075
sich_ap3
1.0165
1.0017
sich_ap4
0.7932
1.0004
sich_ap5
1.1518
1.0002
86
A Anhang
1. Haupteffekt
2. Haupteffekt
exponierter Schätzwert
exponierte Varianz
pkw21
1.1072
1.0022
pkw22
1.0442
1.0033
pkw23
1.0082
1.0007
pkw24
0.9493
1.0001
geschl2
1.1672
1.0157
alter
0.9999
1.0006
aus_balk1
1.2411
1.0120
aus_balk2
1.1839
1.0096
altgeb_4
0.9952
1.0035
haustyp
0.9747
1.0065
zust_geb1
3.1287
1.0093
zust_geb2
1.8029
1.0120
zust_geb3
1.3127
1.0088
zust_geb4
0.8474
1.0005
zust_geb5
1.0291
1.0000
erw_sta31
1.0664
1.0107
erw_sta32
1.0746
1.0018
erw_sta33
1.2743
1.0047
erw_sta34
0.9400
1.0003
erw_sta35
0.9832
1.0006
erw_sta36
0.9476
1.0013
erw_sta37
1.0829
1.0037
bst_zz31
0.9449
1.0108
bst_zz32
0.8212
1.0122
bst_zz33
0.7925
1.0014
bst_zz34
1.0367
1.0001
bst_zz35
0.8336
1.0003
bst_zz36
0.8367
1.0012
bst_zz37
1.7558
1.0000
bst_zz38
669.7906
1.0000
0.9108
1.0111
sgtyp20
87
A Anhang
1. Haupteffekt
2. Haupteffekt
exponierter Schätzwert
exponierte Varianz
sgtyp30
1.0443
1.0048
sgtyp40
1.0336
1.0021
sgtyp50
1.1146
1.0011
ortsgro1
5.6315
1.0053
ortsgro2
0.7310
1.0052
stadt11
6.6644
1.0101
stadt12
7.1862
1.0104
zuzOrt
1.0000
1.0000
zuzWohn
1.0000
1.0000
wohnstat1
0.8224
1.0075
wohnstat2
0.7379
1.0003
wohnstat3
0.8856
1.0065
wohnstat4
0.8401
1.0011
wohnstat6
0.8274
1.0000
miete
1.0003
1.0000
beu_miet1
0.7217
1.0093
beu_miet2
0.9558
1.0131
beu_miet3
1.3161
1.0002
jahr
westost22
0.9611
1.0000
jahr
wgalt21
0.9647
1.0001
jahr
wgalt22
1.0300
1.0000
jahr
wgalt23
1.0192
1.0000
jahr
wgalt24
1.0235
1.0000
jahr
wgalt25
1.0210
1.0000
jahr
wgausl21
1.0930
1.0000
jahr
wgausl22
1.0877
1.0000
jahr
wgausl23
1.0789
1.0000
jahr
wgausl24
1.0332
1.0000
jahr
wgausl25
1.0303
1.0000
jahr
geghaus1
0.9913
1.0000
jahr
geghaus2
0.9653
1.0000
88
A Anhang
1. Haupteffekt
2. Haupteffekt
exponierter Schätzwert
exponierte Varianz
jahr
geghaus3
0.9939
1.0000
geghaus1
ortsgro1
0.2003
1.0081
geghaus2
ortsgro1
0.0105
1.0063
geghaus3
ortsgro1
0.5275
1.0006
geghaus1
ortsgro2
1.2789
1.0080
geghaus2
ortsgro2
1.5712
1.0063
geghaus3
ortsgro2
1.1574
1.0006
geghaus1
stadt11
0.1629
1.0066
geghaus2
stadt11
0.0062
1.0032
geghaus3
stadt11
0.5717
1.0004
geghaus1
stadt12
0.1588
1.0071
geghaus2
stadt12
0.0082
1.0046
geghaus3
stadt12
0.3472
1.0007
westost22
geghaus1
0.9340
1.0016
westost22
geghaus2
0.8018
1.0009
westost22
geghaus3
0.6729
1.0004
Achsenabschnitt 1|2
28.4603
0.0004
Achsenabschnitt 2|3
29.4900
0.0011
Achsenabschnitt 3|4
30.2563
0.0021
Achsenabschnitt 4|5
31.1308
0.0146
Achsenabschnitt 5|6
32.3630
0.0180
Achsenabschnitt 6|7
33.9747
0.0204
Tabelle A.3: Variablen mit exponierten Schätzern und Varianzen im Modell mit Wechselwirkungen.
89
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
jahr
1.0752
1.0000
bula2
0.8074
1.0016
bula3
1.1464
1.0026
bula4
1.2019
1.0005
bula5
1.0190
1.0220
bula6
1.0852
1.0023
bula7
0.8205
1.0024
bula8
1.2145
1.0061
bula9
1.3012
1.0057
bula10
1.0391
1.0004
bula11
1.0288
1.0055
bula12
0.9280
1.0028
bula13
0.9824
1.0019
bula14
0.9232
1.0058
bula15
0.8988
1.0024
bula16
0.8972
1.0022
schulab21
1.2623
1.0141
schulab22
1.2032
1.0138
schulab23
1.2153
1.0126
schulab24
1.0832
1.0006
studium1
0.8815
1.0124
studium2
0.8277
1.0070
studium3
0.7571
1.0015
studium4
0.8917
1.0060
studium5
0.7814
1.0019
fam_stan21
1.1125
1.0129
fam_stan22
1.1110
1.0113
fam_stan23
1.2565
1.0058
fam_stan24
1.0386
1.0078
fam_kind0
1.2588
1.0130
fam_kind1
1.1697
1.0111
90
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
kinder3
0.9970
1.0034
hhgrupp21
1.1364
1.0013
hhgrupp22
1.1264
1.0030
hhgrupp23
1.0858
1.0024
hhgrupp24
1.0839
1.0018
hhgrupp25
1.0210
1.0024
hhgrupp26
0.9746
1.0022
hhgrupp27
0.9757
1.0019
hhgrupp28
1.1291
1.0013
hhgrupp29
1.0164
1.0009
hhgrupp210
1.0019
1.0016
hhgrupp211
0.9572
1.0027
hhgrupp212
0.8477
1.0008
hhgrupp213
0.9597
1.0009
geggeb1
1.1709
1.0095
geggeb2
1.0062
1.0096
gegzent1
1.2697
1.0008
gegzent2
0.6061
1.0003
gegzent3
1.0997
1.0016
gegzent4
0.9806
1.0075
geghaus1
1.0022
1.0143
geghaus2
1.1000
1.0156
geghaus3
1.0801
1.0079
gegweinh1
1.1619
1.0058
gegweinh2
0.8503
1.0089
gegweinh3
0.9861
1.0010
wgalt21
0.8768
1.0004
wgalt22
0.9695
1.0120
wgalt23
1.0385
1.0171
wgalt24
1.1410
1.0176
wgalt25
1.2675
1.0134
91
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
wgjung21
0.9048
1.0009
wgjung22
0.9883
1.0124
wgjung23
1.1341
1.0142
wgjung24
1.1856
1.0098
wgjung25
1.2239
1.0015
wgfam21
0.9862
1.0008
wgfam22
1.0292
1.0146
wgfam23
1.0090
1.0145
wgfam24
1.0628
1.0135
wgfam25
1.0879
1.0022
wgarb21
1.3092
1.0006
wgarb22
1.1325
1.0156
wgarb23
1.0348
1.0166
wgarb24
0.9446
1.0193
wgarb25
0.9576
1.0094
wgakad21
0.7612
1.0173
wgakad22
0.8554
1.0157
wgakad23
1.0539
1.0181
wgakad24
1.2060
1.0060
wgakad25
1.3548
1.0005
wgausl21
1.4173
1.0127
wgausl22
0.9004
1.0151
wgausl23
0.6637
1.0182
wgausl24
0.4788
1.0066
wgausl25
0.3133
1.0027
verh_da1
1.5654
1.0154
verh_da2
1.1381
1.0156
verh_da3
0.6141
1.0022
kon_aus0
0.8649
1.0062
kon_aus1
1.1806
1.0119
kon_aus2
1.0857
1.0148
92
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
kon_deu1
1.4041
1.0005
kon_deu2
1.6181
1.0001
umzplan1
0.9070
1.0047
umzplan2
1.1044
1.0133
umzplan3
1.8157
1.0175
wila_zz1
1.3795
1.0022
wila_zz2
1.1437
1.0143
wila_zz3
0.9322
1.0148
wila_zz4
0.8240
1.0137
wila_zz5
0.7867
1.0025
erw_stat1
0.8740
1.0086
erw_stat2
0.8144
1.0105
sich_ap1
1.0259
1.0116
sich_ap2
0.9485
1.0196
sich_ap3
0.8905
1.0061
sich_ap4
0.8258
1.0010
sich_ap5
0.9965
1.0005
verein1
0.9029
1.0015
verein2
1.0619
1.0088
pkw21
1.0154
1.0049
pkw22
0.9640
1.0179
pkw23
0.9076
1.0022
pkw24
0.8869
1.0004
geschl2
1.1404
1.0192
alter
1.0015
1.0008
aus_balk1
1.1073
1.0142
aus_balk2
1.0534
1.0115
altgeb_4
0.9997
1.0040
haustyp
0.9759
1.0079
zust_geb1
3.2154
1.0178
zust_geb2
2.2878
1.0142
93
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
zust_geb3
1.6626
1.0178
zust_geb4
1.3969
1.0021
zust_geb5
1.5161
1.0001
erw_sta31
0.7496
1.0077
erw_sta32
0.8121
1.0069
erw_sta33
0.8486
1.0081
erw_sta34
0.9929
1.0006
erw_sta35
0.8355
1.0017
erw_sta36
0.8358
1.0020
erw_sta37
0.8425
1.0052
teilvoll1
1.0592
1.0066
teilvoll2
1.1092
1.0034
teilvoll3
1.0271
1.0009
bst_zz31
1.1076
1.0126
bst_zz32
1.6122
1.0133
bst_zz33
0.9053
1.0034
bst_zz34
1.1517
1.0003
bst_zz35
0.9485
1.0009
bst_zz36
0.9515
1.0022
bst_zz37
1.5533
1.0001
bst_zz38
516.8255
1.0000
angest1
0.5923
1.0179
angest2
0.5927
1.0190
angest3
0.5837
1.0023
sgtyp20
0.9301
1.0215
sgtyp30
1.0023
1.0191
sgtyp40
1.0098
1.0180
sgtyp50
1.0670
1.0029
ortsgro1
1.5508
1.0086
ortsgro2
0.9241
1.0081
stadt11
2.2490
1.0165
94
A Anhang
Variablenname
exponierter Schätzwert
exponierte Varianz
stadt12
2.3962
1.0166
stadt21
1.4366
1.0195
stadt22
1.3367
1.0179
stadt23
1.4839
1.0177
zuzOrt
0.9999
1.0000
zuzWohn
1.0000
1.0000
wohnstat1
0.7351
1.0136
wohnstat2
0.7084
1.0009
wohnstat3
0.7862
1.0107
wohnstat4
0.7401
1.0027
wohnstat6
0.9336
1.0001
miete
1.0002
1.0001
beu_miet1
0.8520
1.0164
beu_miet2
1.0809
1.0152
beu_miet3
1.1325
1.0004
transfer1
0.9826
1.0051
transfer2
0.9573
1.0132
transfer4
0.7398
1.0006
qumeter
1.0003
1.0003
raeume
1.0032
1.0042
1|2
145.0182
0.0010
2|3
147.1682
0.0174
Tabelle A.4: Variablen mit exponierten Schätzern und Varianzen im Modell ohne Wechselwirkung
mit transformierter Zielvariable.
95
A Anhang
Variable
exponierter Schätzwert
Befragungstyp
1.8837
Bundesland
1.0587
BIK Gemeindetyp
1.0440
West-Ost-Variable 1
1.0643
West-Ost-Variable 2
1.0283
Stadt- und Gemeindetyp
1.2226
Besitzt Ort über oder unter 20.000 Einwohner?
1.2060
Wohnen Sie im Ortskern oder außerhalb?
0.8964
Wie wohnen Sie?
1.1676
Seit wann wohnen Sie in dieser Stadt oder Gemeinde?
0.8948
Seit wann wohnen Sie in Ihrer jetzigen Wohnung?
0.8405
Wohnen Sie hier zur Miete?
1.4284
Wie hoch ist derzeit die monatl. Miete?
0.8884
Sind Heizungs- und Warmwasserkosten in der Miete enthalten?
1.0206
Monatliche Heizkostenpauschale
1.0138
Durchschnittliche monatl. Heizkosten (extra)
0.9653
Wie hoch ist die monatl. Pauschale für Heizung und Warmwasser?
0.9044
Monatlicher Zahlbetrag als Warmwassergeld
0.9836
Monatliche Warmwasserpauschale
0.9676
Zeitabstand für die Zahlung von Heizung und Warmwasser
1.0449
Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird
0.9611
Höhe des jährlichen Betrages
0.9861
Zufriedenheit mit Mietkosten?
1.2360
Erhalten Sie Wohngeld?
1.1801
Wie sind Sie Eigentümer geworden?
1.3369
Größe der Wohnung insgesamt, Anzahl der Quadratmeter
1.4005
Anzahl der Wohnräume der Wohnung
1.3366
Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt?
1.1132
Eine separate Küche vorhanden?
0.8929
Ein zusätzlichen Gäste-WC vorhanden?
0.7744
Überwiegend isolierverglasten Fenstern
0.8380
96
A Anhang
Variable
exponierter Schätzwert
Ein Balkon oder eine Terrasse vorhanden?
0.8486
Ein eigener Garten oder eine Gartenbenutzung vorhanden?
0.7336
Eine eigene Garage oder ein eigener Abstellplatz vorhanden?
0.7637
Standard (Heizung, Warmwasser, Bad/Dusche, WC) erfüllt?
0.9211
Die Ausstattung der Wohnung entspricht den Bedürfnissen
0.7430
Wann wurde das Haus etwa erbaut?
1.1358
Zustand des Gebäudes?
0.6973
Zustand des Hauses?
0.6783
Direktes Umfeld der Wohnung
0.7967
Art des Wohngebietes
1.2528
Überwiegend Alt- oder Neubauten vorhanden?
0.9842
Überwiegend Einfamilienhäuser vorhanden?
0.8901
Ältere Menschen im Rentenalter sind hier vertreten
0.9379
Junge Leute sind hier vertreten
0.9438
Familien mit Kindern sind hier vertreten
0.9540
Leute mit geringem Einkommen sind hier vertreten
0.6808
Leute mit hohem Einkommen sind hier vertreten
1.3757
Ausländer und ausländische Familien sind hier vertreten
0.7090
Das Verhältnis zwischen Ausländern und Deutschen hier ist
1.0906
Nachbarschaft mit Ausländer und Deutsche ist gut
1.0006
Haben Sie die deutsche oder eine andere Staatsbürgerschaft?
0.9515
Kontakte zu Ausländern oder deren Familien
1.1297
Kontakte zu Deutschen oder deren Familien
0.9881
Vorhaben, innerhalb von 2 Jahre aus der Wohnung auszuziehen
1.5315
Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund?
0.7025
Wohin wollen Sie umziehen, wo wollen Sie dann wohnen?
0.7197
Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage?
0.7058
Berufstätigkeit kurz
1.0496
Wie schätzen Sie die Sicherheit Ihres eigenen Arbeitsplatzes ein?
0.9753
Vereinbarkeit von Familie und Beruf ein Problem?
0.9959
Wie viele Pkw’s gibt es im Haushalt?
1.1115
97
A Anhang
Variable
exponierter Schätzwert
Geschlecht der Zielperson
1.0148
Darf ich fragen, wie alt Sie sind?
1.2949
Sind Sie zur Zeit arbeitslos?
1.0851
Arbeitsstunden
1.0049
Student/Renter
1.0697
Angestellte/r
1.0182
Arbeiter/in
0.9408
Beamter/ Beamtin
1.0200
Welchen Schulabschluss haben Sie?
0.9671
Beruf/Studium
0.9344
Wie viele Personen leben ständig in Ihrem Haushalt?
1.0514
Anz. Kinder unter 6 J. im Haushalt
0.9811
Anz. Kinder 6 - 13 J. im Haushalt
1.0180
Anz. Kinder 14 - 17 J. im Haushalt
0.9998
Anz. Personen ab 18 J. im Haushalt
1.1120
Anz. Einkommensbezieher im Haushalt
1.0847
Einkommensklassen EURO
1.2732
Einkommensklassen DM
1.1096
Tabelle A.5: Variablen mit exponiertem Schätzer im Hauptkomponentenmodell.
Variablennr.
Variablenbeschreibung
1
Befragungstyp
2
Bundesland
3
BIK Gemeindetyp
4
West-Ost-Variable 1
5
West-Ost-Variable 2
6
Stadt- und Gemeindetyp
7
Besitzt Ort über oder unter 20.000 Einwohner?
8
Wohnen Sie im Ortskern oder außerhalb?
9
Wie wohnen Sie?
10
Seit wann wohnen Sie in dieser Stadt oder Gemeinde?
98
A Anhang
Variablennr.
Variablenbeschreibung
11
Seit wann wohnen Sie in Ihrer jetzigen Wohnung?
12
Wohnen Sie hier zur Miete?
13
Wie hoch ist derzeit die monatl. Miete?
14
Sind Heizungs- und Warmwasserkosten in dieser Miete enthalten?
15
Monatliche Heizkostenpauschale
16
Durchschnittliche monatl. Heizkosten (extra)
17
Wie hoch ist die monatliche Pauschale für Heizung und Warmwasser?
18
Monatlicher Zahlbetrag als Warmwassergeld
19
Monatliche Warmwasserpauschale
20
Zeitabstand in dem ein Betrag für Heizung und Warmwasser gezahlt wird
21
Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird
22
Höhe des jährlichen Betrages
23
Zufriedenheit mit Mietkosten?
24
Erhalten Sie Wohngeld?
25
Wie sind Sie Eigentümer geworden?
26
Größe der Wohnung insgesamt, Anzahl der Quadratmeter
27
Anzahl der Wohnräume der Wohnung
28
Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt?
29
Eine separate Küche vorhanden?
30
Ein zusätzlichen Gäste-WC vorhanden?
31
Überwiegend isolierverglasten Fenstern
32
Ein Balkon oder eine Terrasse vorhanden?
33
Ein eigener Garten oder eine Gartenbenutzung vorhanden?
34
Eine eigene Garage oder ein eigener Abstellplatz vorhanden?
35
Standard (Heizung, Warmwasser, Bad/Dusche, WC) erfüllt?
36
Die Ausstattung der Wohnung entspricht den Bedürfnissen
37
Wann wurde das Haus etwa erbaut?
38
Zustand des Gebäudes?
39
Zustand des Hauses?
40
Direktes Umfeld der Wohnung
41
Art des Wohngebietes
99
A Anhang
Variablennr.
Variablenbeschreibung
42
Überwiegend Alt- oder Neubauten vorhanden?
43
Überwiegend Einfamilienhäuser vorhanden?
44
Ältere Menschen im Rentenalter sind hier vertreten
45
Junge Leute sind hier vertreten
46
Familien mit Kindern sind hier vertreten
47
Leute mit geringem Einkommen sind hier vertreten
48
Leute mit hohem Einkommen sind hier vertreten
49
Ausländer und ausländische Familien sind hier vertreten
50
Das Verhältnis zwischen Ausländern und Deutschen hier ist
51
Nachbarschaft mit Ausländer und Deutsche ist gut
52
Haben Sie selbst die deutsche oder eine andere Staatsbürgerschaft?
53
Kontakte zu Ausländern oder deren Familien
54
Kontakte zu Deutschen oder deren Familien
55
Vorhaben, innerhalb von 2 Jahre aus der eigenen Wohnung auszuziehen
56
Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund?
57
Wohin wollen Sie umziehen, wo wollen Sie dann wohnen?
58
Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage?
59
Berufstätigkeit kurz
60
Wie schätzen Sie die Sicherheit Ihres eigenen Arbeitsplatzes ein?
61
Vereinbarkeit von Familie und Beruf ein Problem?
62
Wie viele Pkw’s gibt es im Haushalt?
63
Geschlecht der Zielperson
64
Darf ich fragen, wie alt Sie sind?
65
Sind Sie zur Zeit arbeitslos?
66
Arbeitsstunden
67
Student/Renter
68
Angestellte/r
69
Arbeiter/in
70
Beamter/ Beamtin
71
Welchen Schulabschluss haben Sie?
72
Beruf/Studium
100
A Anhang
Variablennr.
Variablenbeschreibung
73
Wie viele Personen leben ständig in Ihrem Haushalt?
74
Anz. Kinder unter 6 J. im Haushalt
75
Anz. Kinder 6 - 13 J. im Haushalt
76
Anz. Kinder 14 - 17 J. im Haushalt
77
Anz. Personen ab 18 J. im Haushalt
78
Anz. Einkommensbezieher im Haushalt
79
Einkommensklassen EURO
80
Einkommensklassen DM
Tabelle A.6: Variablennummerierung für den BBSR-Datensatz, zur Erkennung in der Hauptkomponentenmatrix.
Nr.
Variablenbeschreibung
2
Erhebungsgebiet
3
Haben Sie die deutsche Staatsangehörigkeit
4
Sind Sie zufrieden mit der Bundesregierung?
5
Ist der Lebensstandard in der BRD ausreichend?
6
Hängt die Zukunft im Osten von der Leistung ab?
7
Sind Ihnen die Bürger im anderen Teil der BRD fremd?
8
Ist der Leistungsdruck in den neuen Ländern zu hoch?
9
Ist der Sozialismus eine gute Idee?
10
Ist der Lebensstandard gerecht verteilt?
11
Subjektive Schichteinstufung
12
Selbsteinstufung
13
Berufserfolgsvergleich mit Vater
14
Ist der Berufserfolg wie erwartet?
15
Wie sind die Erwartungen für den zukünftigen Berufserfolg?
16
Konflikt: Hauptschulabsolvent-Akademiker
17
Konflikt: Leute mit Kindern vs. Kinderlose
18
Konflikt: Jung vs. Alt
19
Konflikt: Arm vs. Reich
20
Konflikt: Berufstätig vs. Rentner
101
A Anhang
Nr.
Variablenbeschreibung
21
Konflikt: Ausländische Gastarbeiter vs. Deutsche
22
Konflikt: Frauen vs. Männer
23
Konflikt: Westdeutsche vs. Ostdeutsche
24
Konflikt: Erwerbstätige vs. Arbeitslose
25
Konflikt: Christen vs. Muslime
26
Soll jeder für sich selbst sorgen?
27
Fördern die Unternehmergewinne die Wirtschaft?
28
Werden die Gewinne gerecht verteilt?
29
Persönliche Lebensvorstellung realisiert?
30
Gutes Geld für jeden, auch ohne Leistung
31
Erhöht die Einkommensdifferenz die Motivation?
32
Sind die Rangunterschiede akzeptable?
33
Sind die sozialen Unterschiede gerecht?
34
Ist die Alterssicherung ausreichend?
35
Haben Sie Vertrauen in die Stadt?
36
Sind Sie stolz Deutscher zu sein?
37
Zuzug von: Aussiedlern aus Osteuropa
38
Zuzug von: Asylsuchenden
39
Zuzug von: EU-Arbeitnehmern
40
Zuzug von: Nicht-EU-Arbeitnehmern
41
Machen Ausländer die unschönen Arbeiten?
42
Belasten Ausländer unser soziales Netz?
43
Bereichern Ausländer unsere Kultur?
44
Verknappen Ausländer die Wohnungssituation?
45
Stützen Ausländer die Rentensicherung?
46
Nehmen Ausländer die Arbeitsplätze weg?
47
Begehen Ausländer häufiger Straftaten?
48
Schaffen Ausländer Arbeitsplätze?
49
Wie werden Ausländer durch Behörden behandelt?
50
Einbürgerung: Sollte hier geborgen sein
51
Einbürgerung: Deutsche Abstammung haben
102
A Anhang
Nr.
Variablenbeschreibung
52
Einbürgerung: Deutsch sprechen
53
Einbürgerung: Lange hier gelebt haben
54
Einbürgerung: Lebensstilanpassung
55
Einbürgerung: In christlicher Kirche sein
56
Einbürgerung: Keine Straftaten
57
Einbürgerung: Eigener Lebensunterhalt
58
Einbürgerung: Zu Grundgesetz bekennen
59
Ausländer: Mehr Anpassung
60
Ausländer: Heim bei knapper Arbeit
61
Ausländer: Keine politischen Aktionen
62
Ausländer: Unter sich heiraten
63
Ausländer: Kontakt in der Familie?
64
Ausländer: Arbeitskontakte?
65
Ausländer: Nachbarschaftskontakte?
66
Ausländer: Freundkontakte?
67
Soll die doppelte Staatsbürgerschaft erlaubt werden?
68
Soll es gleiche Sozialleistungen für Ausländer geben?
69
Soll es ein kommunales Wahlrecht für Ausländer geben?
70
Soll an Schulen auch Islamunterricht erlaubt werden?
71
Ausländeranteilschätzung für Westen
72
Ausländeranteilschätzung Westen, kategorisiert
73
Ausländeranteilschätzung für Osten
74
Ausländeranteilschätzung Osten, kategorisiert
75
Wie hoch ist der Ausländeranteil in der eigenen Wohnumgebung?
76
Lebensstilunterschied: Italiener in BRD
77
Lebensstilunterschied: Aussiedler in BRD
78
Lebensstilunterschied: Asylbewerber in BRD
79
Lebensstilunterschied: Türken in BRD
80
Lebensstilunterschied: Juden in BRD
81
Wie angenehm als Nachbar: Italiener
82
Wie angenehm als Nachbar: Aussiedler
103
A Anhang
Nr.
Variablenbeschreibung
83
Wie angenehm als Nachbar: Asylbewerber
84
Wie angenehm als Nachbar: Türke
85
Wie angenehm als Nachbar: Jude
86
Haben Juden zu viel Einfluss?
87
Fremder im eigenen Land durch Ausländer
88
Vorkommen: Ausländer werden diskriminiert
89
Vorkommen: Eltern diskriminieren Türken
90
Vorkommen: Unternehmer diskriminieren
91
Verbundenheit zum Bundesland
92
Verbundenheit mit alter BRD
93
Verbundenheit mit ehemaliger DDR
94
Verbundenheit zu Deutschland
95
Verbundenheit zur EU
96
Wichtigkeit: Eigene Familie
97
Wichtigkeit: Beruf und Arbeit
98
Wichtigkeit: Freizeit und Erholung
99
Wichtigkeit: Freunde und Bekannte
100
Wichtigkeit: Verwandtschaft
101
Wichtigkeit: Religion und Kirche
102
Wichtigkeit: Politik
103
Wichtigkeit: Nachbarschaft
104
Wichtigkeit: Sichere Berufsstellung
105
Wichtigkeit: Hohes Einkommen
106
Wichtigkeit: Aufstiegschancen im Beruf
107
Wichtigkeit: Anerkannter Beruf
108
Wichtigkeit: Beruf mit viel Freizeit
109
Wichtigkeit: Interessante Tätigkeit
110
Wichtigkeit: Selbstständige Tätigkeit
111
Wichtigkeit: Verantwortungsvolle Tätigkeit
112
Wichtigkeit: Beruf mit menschlichem Kontakt
113
Wichtigkeit: Karitativ helfender Beruf
104
A Anhang
Nr.
Variablenbeschreibung
114
Wichtigkeit: Sozial nützlicher Beruf
115
Wichtigkeit: Sinnvoll empfundener Beruf
116
Wichtigkeit: Sichere Arbeitsbedingungen
117
Wie ist Ihr Gesundheitszustand?
118
Wie häufig sehen Sie Fernsehen pro Woche?
119
Wie häufig lesen Sie Zeitung pro Woche?
120
Religiositätsskala
121
Persönliche Belastung: Fluglärm
122
Persönliche Belastung: Indust. Abfall
123
Persönliche Belastung: Kernkraftwerke
124
Persönliche Belastung: Industrieabgase
125
Persönliche Belastung: Verkehrslärm, Autoabgase
126
Vertrauen zu Mitmenschen
127
Nachts allein in eigener Umgebung
128
Nachts allein in anderer Umgebung
129
Alter
130
Geschlecht
131
Konfession
132
Welcher nichtchristliche Religion gehören Sie an?
133
Was ist Ihr allgemeiner Schulabschluss?
134
Berufsausbildungsabschluss
135
Sind Sie in der Ausbildung?
136
Arbeitsweg
137
Dauer der Arbeitslosigkeit
138
Nettoeinkommen
139
Haushaltseinkommen
140
Herkunftsland, Vater
141
Herkunftsland, Mutter
142
Staatsangehörigkeit
143
Sind Sie von Geburt an Deutsch?
144
Auswanderung in ein anderes EU-Land denkbar?
105
A Anhang
Nr.
Variablenbeschreibung
145
Seit wann sind Sie im Ort?
146
Wohndauer
147
Typ der Wohnung
148
Bundesland
149
Größe der politischen Gemeinde
150
Gemeindetyp
151
Prozentualer Ausländeranteil
152
Mehrpersonenhaushalt?
153
Mehr als acht Personen?
154
Anzahl der Personen
155
Anzahl der Kinder
156
Sind Sie Mitglied in einer Gewerkschaft?
157
Art des Wohngebäudes
158
Zustand des Wohngebäudes
159
Einschätzung Wohnumgebung
Tabelle A.7: Variablennummerierung für den ALLBUS-Datensatz, zur Erkennung in der Hauptkomponentenmatrix.
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
2
-0.20
0.10
-0.65
0.29
-0.65
0.40
0.43
0.86
-0.10
3
-0.14
0.07
-0.31
0.12
-0.01
0.05
0.19
-0.38
-0.17
4
0.54
-0.25
-1.10
-0.47
-0.19
-0.28
0.10
0.23
-0.08
5
0.42
1.27
-0.44
-0.36
0.21
-0.14
0.10
0.08
-0.12
6
0.23
-0.04
-0.36
-0.14
-0.58
0.54
0.41
0.13
0.37
7
-0.22
0.04
0.35
0.13
0.56
-0.53
-0.41
-0.13
-0.37
8
-0.24
0.05
0.35
0.16
0.59
-0.54
-0.38
-0.11
-0.36
9
0.22
-0.04
-0.34
-0.12
-0.56
0.53
0.40
0.12
0.37
10
-0.01
-0.04
0.22
0.14
0.26
-0.16
-0.17
-0.63
0.38
11
0.08
-0.03
0.18
0.00
0.19
-0.19
-0.24
-0.65
0.58
12
0.14
-0.03
0.16
0.03
0.34
-0.32
-0.25
-0.50
0.48
13
0.15
0.96
0.42
-0.39
-0.22
0.93
-0.29
-0.37
0.12
106
A Anhang
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
14
-0.15
-0.96
-0.42
0.39
0.22
-0.93
0.29
0.37
-0.12
15
-0.15
-0.96
-0.42
0.39
0.22
-0.93
0.29
0.37
-0.12
16
-0.41
0.31
-0.73
-0.99
-0.37
-0.07
-0.06
-0.16
0.03
17
-0.41
0.31
-0.73
-1.00
-0.37
-0.07
-0.07
-0.16
0.04
18
0.56
-0.60
0.77
0.87
0.51
0.08
0.11
-0.18
-0.28
19
-0.56
0.59
-0.76
-0.87
-0.50
-0.08
-0.11
0.18
0.27
20
-0.56
0.59
-0.76
-0.87
-0.50
-0.07
-0.11
0.19
0.27
21
0.41
-0.31
0.73
1.00
0.37
0.07
0.07
0.17
-0.04
22
0.56
-0.59
0.76
0.88
0.50
0.07
0.11
-0.18
-0.27
23
-0.24
0.03
-0.20
-0.94
0.01
-0.13
-0.44
-0.13
-0.07
24
-0.25
0.03
-0.20
-0.94
0.01
-0.13
-0.44
-0.13
-0.07
25
-0.24
0.03
-0.20
-0.92
0.00
-0.12
-0.43
-0.11
-0.07
26
-0.22
-1.44
-0.15
0.34
-0.16
-0.80
-0.11
0.38
0.49
27
-0.22
-1.43
-0.15
0.34
-0.16
-0.80
-0.10
0.38
0.49
28
0.22
1.42
0.13
-0.33
0.17
0.81
0.12
-0.37
-0.49
29
0.35
1.22
0.12
0.22
-0.06
0.62
0.22
-0.26
-0.18
30
0.49
0.88
-0.15
0.24
-0.39
0.65
-0.02
-0.28
-0.14
31
0.06
0.13
-0.04
-0.07
-0.02
0.08
0.18
0.56
-0.16
32
0.04
0.04
-0.06
-0.09
-0.04
0.11
0.18
0.66
-0.16
33
0.06
-0.02
-0.32
0.08
0.03
0.15
0.29
0.78
-0.23
34
0.31
1.32
-0.04
-0.12
-0.17
0.54
0.17
-0.45
-0.11
35
-0.29
-1.21
0.31
0.13
0.15
-0.06
0.54
0.13
0.04
36
-0.50
-0.02
-0.16
0.29
0.08
-0.02
0.35
0.49
0.80
37
0.34
0.55
0.12
0.27
0.59
0.19
0.08
0.23
-0.06
38
0.34
0.54
0.12
0.27
0.58
0.19
0.08
0.23
-0.06
39
0.34
0.54
0.12
0.27
0.57
0.19
0.08
0.25
-0.07
40
0.35
0.54
0.12
0.26
0.57
0.19
0.08
0.23
-0.06
41
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
42
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
43
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
44
-1.25
-0.23
0.02
-0.02
-0.04
0.06
0.00
-0.05
-0.08
107
A Anhang
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
45
-1.24
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
46
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
47
1.24
0.23
-0.02
0.02
0.04
-0.06
0.00
0.04
0.08
48
-0.82
-0.12
-0.06
0.04
0.00
0.04
0.09
-0.02
-0.12
49
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
50
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
51
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
52
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.04
0.08
53
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
54
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
55
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
56
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
57
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.04
0.08
58
0.83
0.12
0.06
-0.04
0.00
-0.04
-0.09
0.03
0.12
59
0.19
-0.62
-0.91
-0.24
0.07
0.10
0.28
-0.38
-0.32
60
-0.20
0.61
0.90
0.24
-0.07
-0.11
-0.28
0.39
0.31
61
-0.20
0.61
0.90
0.24
-0.06
-0.11
-0.28
0.38
0.31
62
-0.20
0.61
0.91
0.24
-0.06
-0.12
-0.28
0.40
0.29
63
-0.20
0.61
0.91
0.24
-0.07
-0.11
-0.28
0.39
0.31
64
-0.19
0.61
0.90
0.24
-0.07
-0.12
-0.28
0.40
0.31
65
-0.20
0.61
0.90
0.25
-0.07
-0.11
-0.27
0.39
0.32
66
-0.19
0.61
0.91
0.24
-0.07
-0.11
-0.28
0.40
0.30
67
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
68
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
69
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
70
1.05
0.01
-0.08
-0.15
-0.04
0.20
0.07
-0.22
-0.51
71
1.08
0.20
-0.01
0.00
0.03
-0.06
-0.01
0.06
0.07
72
1.08
0.20
-0.01
0.00
0.03
-0.06
-0.01
0.06
0.07
73
1.05
0.20
0.00
0.00
0.03
-0.06
-0.02
0.05
0.07
74
1.05
0.20
0.00
0.00
0.03
-0.06
-0.02
0.05
0.07
75
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
108
A Anhang
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
76
-1.20
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.06
-0.08
77
1.21
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
78
-1.20
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
79
1.22
0.23
-0.02
0.01
0.04
-0.06
0.00
0.06
0.08
80
1.13
0.21
-0.02
0.01
0.04
-0.06
0.00
0.05
0.07
81
1.25
0.23
-0.02
0.01
0.04
-0.06
0.00
0.05
0.08
82
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
83
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.04
-0.08
84
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
85
-1.24
-0.23
0.02
-0.02
-0.04
0.06
0.00
-0.04
-0.08
86
1.21
0.23
-0.03
0.02
0.04
-0.06
0.01
0.04
0.07
87
1.20
0.22
-0.04
0.01
0.04
-0.06
0.01
0.00
0.05
88
-1.24
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
89
-1.24
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
90
-1.23
-0.23
0.02
-0.02
-0.04
0.06
0.00
-0.05
-0.08
91
-0.37
-0.10
1.15
-0.26
0.32
0.40
0.92
-0.07
0.09
92
0.27
0.13
-0.87
0.21
-0.10
-0.49
-0.82
-0.33
0.06
93
-0.24
0.03
0.72
-0.14
0.41
0.00
0.45
-0.55
0.22
94
-0.37
-0.10
1.15
-0.26
0.32
0.40
0.92
-0.07
0.09
95
-0.36
-0.10
1.14
-0.26
0.30
0.41
0.92
-0.06
0.08
96
-0.83
1.11
0.09
0.80
-0.46
-0.25
-0.10
-0.03
-0.07
97
-0.83
1.11
0.09
0.80
-0.47
-0.25
-0.11
-0.03
-0.06
98
-0.83
1.11
0.09
0.80
-0.46
-0.25
-0.11
-0.03
-0.07
99
-0.83
1.11
0.09
0.80
-0.46
-0.25
-0.10
-0.03
-0.07
100
-0.83
1.11
0.09
0.80
-0.46
-0.25
-0.10
-0.03
-0.07
101
0.83
-1.11
-0.08
-0.80
0.47
0.25
0.10
0.02
0.07
102
-0.83
1.11
0.09
0.80
-0.46
-0.25
-0.10
-0.03
-0.06
103
-0.63
0.77
0.54
1.08
-0.12
-0.28
-0.18
-0.37
-0.37
104
-0.62
0.69
-0.22
-0.78
0.14
-0.44
0.41
-0.10
0.37
105
-0.74
0.60
-0.02
-0.48
0.71
-0.02
-0.11
0.18
0.04
106
-0.74
0.60
-0.02
-0.48
0.71
-0.03
-0.11
0.18
0.04
109
A Anhang
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
107
-0.62
0.68
-0.22
-0.78
0.14
-0.44
0.41
-0.10
0.37
108
0.62
-0.69
0.22
0.78
-0.14
0.44
-0.41
0.10
-0.37
109
-0.74
0.60
-0.02
-0.48
0.71
-0.03
-0.11
0.18
0.04
110
-0.74
0.60
-0.02
-0.48
0.71
-0.03
-0.11
0.18
0.04
111
-0.62
0.68
-0.22
-0.78
0.14
-0.44
0.41
-0.10
0.37
112
-0.62
0.69
-0.22
-0.78
0.14
-0.44
0.41
-0.10
0.37
113
-0.74
0.60
-0.02
-0.47
0.71
-0.03
-0.11
0.18
0.04
114
-0.65
0.47
0.24
-0.32
0.95
0.05
-0.22
0.28
-0.04
115
-0.47
0.67
0.31
-0.06
0.51
-0.42
0.77
0.10
0.46
116
-0.47
0.67
0.31
-0.06
0.51
-0.42
0.77
0.10
0.46
117
-0.19
0.53
-0.83
0.68
0.56
-0.23
0.22
-0.14
-0.58
118
-0.29
-0.60
1.34
0.09
-0.94
0.16
-0.38
-0.10
0.36
119
-0.29
-0.61
1.34
0.09
-0.94
0.16
-0.38
-0.10
0.36
120
0.55
-0.23
0.10
0.42
-0.42
-0.46
0.62
-0.27
0.53
121
-0.37
-0.53
-0.78
0.90
0.60
0.82
-0.18
-0.10
0.45
122
-0.37
-0.52
-0.78
0.90
0.60
0.82
-0.18
-0.10
0.45
123
-0.37
-0.52
-0.78
0.89
0.59
0.82
-0.18
-0.10
0.44
124
-0.37
-0.53
-0.78
0.90
0.60
0.82
-0.18
-0.10
0.45
125
-0.38
-0.52
-0.78
0.90
0.61
0.82
-0.19
-0.10
0.45
126
-0.43
-0.22
0.78
-0.80
0.29
0.49
0.41
-0.20
-0.51
127
0.13
-0.30
-0.35
-0.04
-0.08
-0.73
0.10
-0.59
-0.03
128
0.51
-0.71
0.35
-0.41
-0.01
-0.42
0.47
-0.67
-0.21
129
-0.02
0.00
-0.07
0.09
0.06
-0.16
0.11
0.23
-0.23
130
0.03
-0.06
0.04
-0.04
0.01
-0.08
0.06
0.26
-0.22
131
-0.19
0.12
-0.54
0.25
-0.39
0.26
0.37
0.46
-0.04
132
0.04
-0.10
0.19
-0.14
-0.13
0.08
-0.09
0.17
0.16
133
-0.09
0.09
-0.17
0.15
-0.03
-0.07
-0.02
-0.29
0.48
134
0.62
-0.24
1.05
-0.65
0.84
-0.34
-0.47
0.04
-0.26
135
0.31
-0.55
-0.03
-0.93
1.14
0.28
-0.41
0.32
0.57
136
-0.34
0.52
0.31
0.46
-0.17
-0.39
0.76
-0.25
-0.23
137
-0.03
-0.14
0.11
0.02
-0.09
-0.06
-0.08
-0.05
-0.15
110
A Anhang
Variable
HK1
HK2
HK3
HK4
HK5
HK6
HK7
HK8
HK9
138
-0.12
0.24
-0.15
0.22
0.17
-0.17
-0.03
-0.73
0.65
139
-0.23
0.30
-0.28
0.35
0.07
-0.13
0.00
-0.78
0.75
140
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.09
141
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
142
0.48
0.04
-0.17
-0.50
-0.91
0.61
-0.02
-0.16
0.06
143
1.21
0.22
-0.04
0.01
0.04
-0.06
0.01
0.00
0.05
144
-0.58
0.33
0.31
-0.28
1.00
0.11
-0.30
0.16
-0.21
145
-0.69
0.56
-0.32
-0.46
0.29
0.18
-0.56
0.42
0.03
146
0.69
-0.53
0.31
0.51
-0.30
-0.17
0.55
-0.39
0.01
147
-0.07
0.10
-0.06
0.13
0.11
-0.11
-0.11
-0.34
0.34
148
-0.19
0.10
-0.62
0.27
-0.63
0.38
0.43
0.86
-0.10
149
0.08
-0.09
0.17
-0.14
0.11
-0.10
-0.03
-0.14
-0.06
150
-0.17
0.34
-0.30
-0.25
-0.18
0.60
0.35
0.04
0.71
151
-1.25
-0.23
0.02
-0.01
-0.04
0.06
0.00
-0.05
-0.08
152
0.19
-0.53
0.83
-0.68
-0.56
0.23
-0.22
0.14
0.58
153
0.00
-0.03
0.05
-0.03
-0.04
0.02
0.00
0.06
0.04
154
-0.04
0.04
-0.03
0.03
-0.06
0.10
-0.14
-0.44
0.30
155
0.54
-0.29
0.15
-0.48
-0.56
-0.02
-0.06
-0.36
-0.56
156
-0.35
0.79
-0.56
0.60
0.12
0.00
0.11
-0.10
0.31
157
-0.06
0.64
-0.77
0.81
0.25
-0.48
0.20
-0.05
0.19
158
-0.06
0.64
-0.77
0.81
0.25
-0.48
0.20
-0.05
0.19
159
-0.19
0.54
-0.83
0.68
0.56
-0.23
0.22
-0.14
-0.59
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
2
0.26
0.05
0.57
0.29
-0.44
-0.28
-0.50
0.23
0.24
3
-0.06
-0.16
-0.02
-0.76
0.75
-0.39
-0.17
-0.70
-0.10
4
-0.10
0.76
-0.29
0.04
0.17
-0.23
0.03
0.07
0.04
5
0.10
0.12
-0.21
0.22
0.34
0.06
0.05
-0.04
0.43
6
-0.21
0.44
-0.39
-0.15
-0.07
0.05
0.08
-0.08
-0.14
7
0.22
-0.44
0.40
0.15
0.07
-0.06
-0.08
0.08
0.14
8
0.21
-0.44
0.40
0.14
0.09
-0.05
-0.08
0.08
0.14
111
A Anhang
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
9
-0.22
0.44
-0.38
-0.16
-0.08
0.05
0.07
-0.07
-0.13
10
-0.15
0.20
-0.19
0.24
0.17
0.37
0.00
0.01
-0.02
11
-0.46
0.45
0.27
0.25
0.01
0.64
-0.37
0.31
0.12
12
-0.41
0.35
0.28
0.33
-0.09
0.42
-0.29
0.15
0.04
13
0.18
0.31
0.17
-0.31
0.18
-0.52
0.21
0.61
-0.16
14
-0.18
-0.31
-0.17
0.31
-0.18
0.52
-0.21
-0.61
0.16
15
-0.18
-0.31
-0.17
0.31
-0.18
0.52
-0.21
-0.61
0.16
16
-0.02
-0.42
0.09
0.35
0.26
-0.05
-0.02
0.16
-0.31
17
-0.01
-0.42
0.09
0.35
0.26
-0.04
-0.03
0.16
-0.30
18
0.36
0.25
0.08
0.00
-0.02
-0.10
0.01
0.08
0.00
19
-0.36
-0.25
-0.08
0.01
0.02
0.11
-0.01
-0.08
0.00
20
-0.36
-0.25
-0.08
0.00
0.02
0.11
-0.01
-0.09
0.01
21
0.01
0.42
-0.10
-0.35
-0.25
0.04
0.03
-0.16
0.30
22
0.35
0.26
0.08
-0.01
-0.03
-0.10
0.01
0.08
0.00
23
0.63
-0.06
0.07
0.37
0.17
0.05
-0.21
-0.21
0.09
24
0.64
-0.06
0.06
0.38
0.16
0.05
-0.21
-0.20
0.09
25
0.63
-0.06
0.07
0.38
0.15
0.05
-0.21
-0.20
0.10
26
0.01
0.16
-0.06
-0.16
0.20
-0.26
0.14
0.20
0.04
27
0.02
0.16
-0.06
-0.17
0.21
-0.26
0.14
0.20
0.04
28
0.00
-0.16
0.08
0.16
-0.20
0.27
-0.13
-0.20
-0.05
29
-0.12
-0.23
-0.05
-0.12
-0.24
0.29
0.06
-0.11
0.06
30
-0.15
-0.40
0.02
0.01
-0.14
0.35
0.00
-0.14
0.12
31
0.14
0.27
0.74
0.02
0.43
0.67
0.77
-0.04
-0.29
32
0.18
0.33
0.84
0.01
0.45
0.68
0.84
-0.06
-0.34
33
0.27
0.24
0.71
0.02
0.20
0.44
0.70
0.02
-0.26
34
0.26
-0.57
0.05
0.14
-0.03
0.37
0.01
-0.15
0.31
35
-0.41
-0.16
0.11
0.25
-0.03
0.08
-0.28
-0.27
-0.25
36
-0.04
0.10
-0.27
0.28
0.19
-0.07
-0.07
0.00
-0.27
37
-0.32
-0.21
-0.03
0.34
0.53
-0.26
0.06
0.28
0.12
38
-0.32
-0.22
-0.04
0.35
0.52
-0.26
0.06
0.28
0.11
39
-0.31
-0.22
-0.04
0.35
0.52
-0.27
0.06
0.28
0.12
112
A Anhang
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
40
-0.32
-0.22
-0.04
0.35
0.52
-0.26
0.06
0.28
0.12
41
-0.03
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.05
42
0.03
0.00
0.01
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
43
-0.03
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.05
44
-0.02
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.06
45
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
46
0.03
0.00
0.01
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
47
0.02
0.00
0.01
-0.01
-0.04
0.00
-0.03
-0.03
-0.06
48
-0.24
0.05
-0.03
-0.10
-0.14
-0.02
0.01
0.06
-0.33
49
-0.03
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.05
50
-0.02
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.05
51
-0.02
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.06
52
0.02
0.00
0.00
-0.01
-0.04
0.00
-0.03
-0.03
-0.06
53
-0.03
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.05
54
0.03
0.00
0.00
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
55
0.03
0.00
0.00
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
56
0.03
0.00
0.00
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
57
0.03
0.00
0.00
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
58
0.24
-0.05
0.03
0.10
0.14
0.02
-0.01
-0.06
0.33
59
-0.09
-0.10
0.06
-0.05
0.00
-0.03
0.06
0.11
0.04
60
0.09
0.08
-0.09
0.06
-0.02
0.01
-0.06
-0.10
-0.04
61
0.08
0.08
-0.09
0.06
-0.02
0.01
-0.06
-0.10
-0.04
62
0.09
0.07
-0.11
0.07
-0.02
0.00
-0.06
-0.10
-0.04
63
0.08
0.08
-0.09
0.06
-0.02
0.01
-0.06
-0.10
-0.04
64
0.09
0.07
-0.09
0.07
-0.02
0.01
-0.06
-0.10
-0.03
65
0.08
0.08
-0.08
0.06
-0.02
0.01
-0.06
-0.10
-0.05
66
0.09
0.07
-0.10
0.07
-0.03
0.00
-0.06
-0.10
-0.03
67
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
68
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
69
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
70
-0.07
0.28
-0.13
-0.25
-0.19
0.19
0.27
0.12
0.61
113
A Anhang
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
71
0.08
-0.03
-0.01
0.00
0.00
0.00
-0.02
-0.06
0.00
72
0.08
-0.03
-0.01
0.00
0.00
0.00
-0.02
-0.06
0.00
73
0.08
-0.04
-0.02
-0.01
0.01
0.00
-0.01
-0.07
0.00
74
0.08
-0.04
-0.02
-0.01
0.01
0.00
-0.01
-0.07
0.00
75
0.03
0.00
0.01
0.00
-0.04
0.00
-0.03
-0.03
-0.05
76
-0.04
0.01
0.00
0.01
0.04
0.00
0.04
0.03
0.05
77
0.04
-0.01
0.00
-0.01
-0.03
0.00
-0.03
-0.03
-0.04
78
-0.04
0.00
0.00
0.01
0.04
0.00
0.04
0.03
0.05
79
0.04
0.00
0.00
0.00
-0.04
0.00
-0.03
-0.03
-0.04
80
0.03
-0.01
0.00
-0.02
-0.03
-0.01
-0.03
-0.05
-0.06
81
0.03
0.00
0.01
-0.01
-0.04
0.00
-0.03
-0.03
-0.05
82
-0.02
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.06
83
-0.02
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.06
84
-0.03
0.00
-0.01
0.01
0.04
0.00
0.03
0.03
0.06
85
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
86
0.01
0.00
0.00
-0.02
-0.04
-0.01
-0.03
-0.04
-0.08
87
0.02
-0.01
0.02
-0.07
0.02
-0.02
-0.03
-0.08
-0.05
88
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
89
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.06
90
-0.02
0.00
0.00
0.01
0.04
0.00
0.03
0.03
0.07
91
-0.19
-0.19
0.07
0.19
0.03
0.02
-0.14
-0.11
-0.15
92
0.05
0.19
-0.39
-0.26
0.22
0.11
0.40
-0.01
0.02
93
-0.23
-0.06
-0.38
-0.03
0.34
0.17
0.28
-0.20
-0.20
94
-0.19
-0.19
0.07
0.19
0.03
0.03
-0.14
-0.11
-0.15
95
-0.19
-0.21
0.06
0.19
0.03
0.02
-0.15
-0.12
-0.16
96
-0.03
-0.04
0.01
-0.08
-0.03
0.05
0.04
-0.02
0.02
97
-0.04
-0.04
0.02
-0.09
-0.04
0.05
0.03
-0.03
0.03
98
-0.03
-0.04
0.01
-0.09
-0.03
0.06
0.03
-0.02
0.03
99
-0.03
-0.04
0.01
-0.09
-0.03
0.06
0.03
-0.02
0.02
100
-0.03
-0.04
0.00
-0.08
-0.03
0.05
0.03
-0.02
0.02
101
0.03
0.03
-0.02
0.09
0.03
-0.05
-0.01
0.02
-0.03
114
A Anhang
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
102
-0.03
-0.04
0.01
-0.08
-0.03
0.06
0.03
-0.02
0.02
103
0.56
-0.01
0.14
0.14
0.06
0.02
-0.04
0.02
-0.09
104
0.33
-0.09
0.05
-0.20
-0.17
0.01
0.06
0.04
0.03
105
0.09
0.23
0.01
-0.08
-0.15
-0.08
-0.08
-0.03
-0.27
106
0.09
0.23
0.01
-0.08
-0.15
-0.08
-0.08
-0.03
-0.26
107
0.33
-0.09
0.05
-0.20
-0.17
0.01
0.06
0.04
0.03
108
-0.32
0.09
-0.05
0.20
0.17
-0.01
-0.06
-0.04
-0.02
109
0.09
0.23
0.01
-0.08
-0.15
-0.07
-0.08
-0.03
-0.27
110
0.09
0.23
0.01
-0.08
-0.15
-0.07
-0.08
-0.02
-0.27
111
0.33
-0.09
0.05
-0.20
-0.17
0.01
0.06
0.04
0.02
112
0.33
-0.09
0.05
-0.20
-0.17
0.01
0.06
0.04
0.03
113
0.09
0.23
0.01
-0.08
-0.15
-0.08
-0.08
-0.02
-0.26
114
0.17
0.33
-0.05
0.01
-0.04
-0.10
-0.11
-0.09
-0.04
115
0.12
0.06
-0.09
-0.43
-0.16
-0.06
0.21
0.10
0.42
116
0.12
0.06
-0.09
-0.43
-0.16
-0.06
0.21
0.10
0.42
117
-0.42
0.09
0.07
-0.17
-0.27
-0.02
0.06
0.14
-0.14
118
0.00
-0.53
0.25
-0.30
-0.20
0.05
0.10
0.09
-0.19
119
0.00
-0.52
0.25
-0.30
-0.20
0.05
0.10
0.09
-0.19
120
0.25
-0.59
0.23
0.19
0.22
-0.20
-0.01
0.21
-0.48
121
0.49
-0.14
-0.05
-0.02
-0.07
0.12
-0.02
-0.07
-0.08
122
0.50
-0.15
-0.06
-0.02
-0.07
0.12
-0.01
-0.07
-0.08
123
0.50
-0.16
-0.06
-0.02
-0.08
0.12
-0.01
-0.07
-0.08
124
0.50
-0.15
-0.06
-0.02
-0.07
0.12
-0.01
-0.08
-0.08
125
0.49
-0.14
-0.05
-0.02
-0.07
0.12
-0.01
-0.08
-0.08
126
-0.03
0.34
-0.09
0.03
-0.17
0.15
0.00
-0.11
0.26
127
0.93
0.02
0.24
-0.16
-0.11
-0.04
0.16
0.21
0.21
128
0.79
0.28
0.30
-0.16
-0.49
0.00
-0.09
-0.01
-0.48
129
0.18
-0.30
-1.03
0.32
-0.38
0.26
0.02
0.63
-0.38
130
0.14
-0.21
-0.30
0.08
0.03
0.41
0.21
-0.19
-0.02
131
0.12
0.14
0.66
-0.19
0.05
-0.20
-0.69
0.06
0.20
132
0.12
0.14
-0.08
0.60
-0.50
0.47
0.27
0.74
0.34
115
A Anhang
Variable HK10
HK11
HK12
HK13
HK14
HK15
HK16
HK17
HK18
133
-0.38
0.57
0.81
-0.01
0.13
0.54
-0.55
0.17
0.24
134
0.13
-0.21
0.31
-0.12
-0.15
0.01
0.01
0.07
0.11
135
-0.68
-1.08
0.37
-0.63
-0.39
0.05
0.32
0.33
0.33
136
0.63
0.49
-0.42
0.34
0.31
-0.07
0.01
0.06
-0.09
137
-0.07
0.00
-0.45
0.22
-0.16
0.26
0.09
0.06
-0.04
138
-0.43
0.47
0.26
0.20
0.05
-0.01
-0.17
0.32
-0.16
139
-0.49
0.52
0.50
0.40
-0.05
-0.17
0.09
-0.17
0.00
140
-0.03
0.00
-0.01
0.00
0.04
0.00
0.03
0.02
0.05
141
-0.03
0.00
-0.01
0.00
0.04
0.00
0.03
0.02
0.05
142
-0.02
0.22
-0.11
-0.15
-0.20
0.05
-0.03
-0.14
-0.22
143
0.02
-0.01
0.02
-0.07
0.02
-0.02
-0.04
-0.08
-0.05
144
0.24
0.28
0.01
0.22
0.11
-0.14
-0.15
-0.04
-0.15
145
-0.28
0.29
-0.07
-0.12
-0.24
0.08
-0.18
-0.29
-0.25
146
0.26
-0.30
0.07
0.09
0.24
-0.07
0.19
0.26
0.30
147
-0.25
0.09
-0.07
0.86
-0.73
-0.34
0.74
-0.14
0.05
148
0.26
0.04
0.57
0.29
-0.44
-0.29
-0.49
0.23
0.25
149
0.00
0.10
0.01
-0.73
0.75
0.67
-0.74
0.29
-0.01
150
0.54
0.04
-0.40
0.18
0.50
0.13
0.13
-0.10
0.58
151
-0.03
0.00
-0.01
0.00
0.04
0.00
0.03
0.03
0.05
152
0.42
-0.09
-0.07
0.17
0.27
0.02
-0.06
-0.14
0.13
153
0.05
0.00
-0.06
0.05
-0.02
0.26
-0.08
0.41
-0.06
154
-0.28
0.19
0.75
0.32
-0.10
-0.70
0.50
-0.92
0.33
155
-0.01
-0.03
0.16
0.31
-0.07
-0.21
0.00
0.13
-0.38
156
0.17
-0.37
0.07
0.02
0.06
0.00
-0.01
0.00
-0.13
157
-0.05
-0.48
0.16
0.03
0.01
-0.04
-0.07
0.04
-0.29
158
-0.05
-0.48
0.16
0.03
0.00
-0.04
-0.06
0.03
-0.29
159
-0.41
0.08
0.07
-0.19
-0.26
-0.02
0.05
0.13
-0.14
Variable HK19
HK20
Variable HK19
HK20
2
0.13
0.25
81
0.00
-0.02
3
0.07
0.68
82
0.00
0.02
116
A Anhang
Variable HK19
HK20
Variable HK19
4
0.04
-0.02
83
0.00
0.02
5
-0.07
0.02
84
0.00
0.02
6
0.08
-0.03
85
0.00
0.02
7
-0.08
0.04
86
0.01
-0.02
8
-0.08
0.04
87
0.00
0.04
9
0.07
-0.03
88
0.00
0.01
10
0.11
0.23
89
0.00
0.01
11
0.58
0.35
90
0.00
0.01
12
0.37
0.42
91
-0.05
-0.06
13
0.17
0.01
92
-0.01
-0.15
14
-0.16
-0.01
93
-0.08
-0.28
15
-0.17
-0.01
94
-0.05
-0.06
16
0.09
-0.08
95
-0.05
-0.05
17
0.09
-0.08
96
-0.02
-0.01
18
0.06
0.02
97
-0.02
-0.02
19
-0.05
-0.02
98
-0.02
-0.02
20
-0.05
-0.02
99
-0.02
-0.02
21
-0.09
0.08
100
-0.02
-0.01
22
0.06
0.02
101
0.03
0.02
23
-0.08
0.03
102
-0.02
-0.01
24
-0.08
0.03
103
0.01
-0.04
25
-0.08
0.02
104
0.03
0.01
26
0.05
0.00
105
0.06
-0.01
27
0.05
0.00
106
0.06
-0.01
28
-0.06
0.00
107
0.03
0.01
29
-0.02
0.01
108
-0.03
-0.01
30
-0.09
-0.01
109
0.06
-0.02
31
-0.14
0.27
110
0.06
-0.01
32
-0.14
0.18
111
0.03
0.01
33
-0.15
0.14
112
0.03
0.01
34
-0.11
0.03
113
0.06
-0.01
117
HK20
A Anhang
Variable HK19
HK20
Variable HK19
HK20
35
-0.16
-0.17
114
0.02
0.04
36
0.02
-0.19
115
0.02
0.10
37
0.10
0.02
116
0.02
0.10
38
0.09
0.02
117
0.07
-0.09
39
0.10
0.02
118
0.07
0.10
40
0.10
0.02
119
0.07
0.10
41
0.00
0.02
120
0.15
-0.08
42
0.00
-0.02
121
0.01
-0.03
43
0.00
0.01
122
0.01
-0.02
44
0.00
0.02
123
0.01
-0.02
45
0.00
0.02
124
0.01
-0.02
46
0.00
-0.01
125
0.01
-0.02
47
0.00
-0.02
126
-0.08
0.01
48
0.12
-0.08
127
0.00
0.04
49
0.00
0.02
128
0.05
-0.09
50
0.00
0.02
129
-0.33
0.91
51
0.00
0.01
130
1.49
-0.10
52
0.00
-0.02
131
-0.07
0.32
53
0.00
0.02
132
-0.13
-0.91
54
0.00
-0.01
133
0.40
-0.16
55
0.00
-0.02
134
-0.01
0.09
56
0.00
-0.01
135
0.05
0.22
57
0.00
-0.01
136
0.24
0.06
58
-0.12
0.08
137
0.23
0.74
59
0.01
0.02
138
-0.93
0.26
60
-0.01
-0.01
139
-0.27
0.07
61
-0.02
-0.01
140
0.01
0.02
62
-0.02
0.00
141
0.01
0.02
63
-0.01
0.00
142
0.07
0.07
64
-0.01
0.00
143
0.00
0.04
65
-0.01
-0.01
144
0.04
0.00
118
A Anhang
Variable HK19
HK20
Variable HK19
HK20
66
-0.01
0.01
145
-0.06
-0.05
67
0.00
0.02
146
0.05
0.04
68
0.00
0.02
147
0.12
0.49
69
0.00
0.01
148
0.13
0.26
70
-0.06
0.05
149
-0.08
-0.10
71
0.01
0.03
150
-0.09
0.10
72
0.01
0.03
151
0.00
0.02
73
0.01
0.03
152
-0.07
0.09
74
0.01
0.03
153
-0.21
-0.21
75
-0.01
-0.02
154
0.22
-0.16
76
0.00
0.01
155
0.13
0.06
77
-0.01
0.00
156
0.05
0.00
78
0.00
0.01
157
0.05
-0.10
79
0.00
-0.01
158
0.05
-0.10
80
0.00
-0.01
159
0.07
-0.10
Tabelle A.8: Hauptkomponentenladung des ALLBUS-Datensatzes.
Variable
exponierter Schätzer
Erhebungsgebiet
4.813
Deutsche Staatsangehörigkeit
1.1794
Lebensstandard BRD ausreichend?
3.5234
Hängt die Zukunft im Osten von der Leistung ab?
6.3939
Sind Ihnen Bürger im anderen Teil der BRD fremd?
0.164
Ist der Leistungsdruck in den neuen Ländern zu hoch?
0.1491
Ist der Sozialismus eine gute Idee?
6.0497
Ist der Lebensstandard gerecht verteilt?
0.5748
Subjektive Schichteinstufung
0.7039
Selbsteinstufung
0.6548
Berufserfolgvergleich mit Vater
0.6027
Ist der Berufserfolg wie erwartet?
1.6656
Wie sind die Erwartungen für den zukünftigen Berufserfolg?
1.6652
119
A Anhang
Variable
exponierter Schätzer
Konflikt: Hauptschulabsolvent-Akademiker
2.037
Konflikt: Leute mit Kindern vs.Kinderlose
2.0429
Konflikt: Jung vs. Alt
0.2593
Konflikt: Arm vs. Reich
3.8366
Konflikt: Berufstätig vs. Rentner
3.8416
Konflikt: Ausländische Gastarbeiter vs. Deutsche
0.4896
Konflikt: Frauen vs. Männer
0.2629
Konflikt: Westdeutsche vs. Ostdeutsche
1.3505
Konflikt: Erwerbstätige vs Arbeitslose
1.3521
Konflikt: Christen vs. Muslime
1.3563
Soll jeder für sich selbst sorgen?
1.711
Fördern die Unternehmergewinne die Wirtschaft?
1.7127
Werden die Gewinne gerecht verteilt?
0.5928
Persönliche Lebensvorstellung realisiert?
1.3538
Gutes Geld für jeden, auch ohne Leistung
5.4593
Erhöht die Einkommensdifferenz die Motivation?
1.0972
Sind die Rangunterschiede akzeptable?
1.1411
Sind die sozialen Unterschiede gerecht?
1.5582
Ist die Alterssicherung ausreichend?
1.9046
Haben Sie Vertrauen in die Stadt?
0.1415
Sind Sie stolz Deutscher zu sein?
0.6989
Zuzug von: Aussiedlern aus Osteuropa
0.3317
Zuzug von: Asylsuchenden
0.329
Zuzug von: EU-Arbeitnehmern
0.3389
Zuzug von: Nicht-EU-Arbeitnehmern
0.3361
Machen Ausländer die unschönen Arbeiten?
0.1227
Belasten Ausländer unser soziales Netz?
8.1185
Bereichern Ausländer unsere Kultur?
0.1228
Verknappen Ausländer die Wohnungssituation?
0.1236
Stützen Ausländer die Rentensicherung?
0.1247
Nehmen Ausländer die Arbeitsplätze weg?
8.1579
120
A Anhang
Variable
exponierter Schätzer
Begehen Ausländer häufiger Straftaten?
7.9662
Schaffen Ausländer Arbeitsplätze?
0.2409
Wie werden Ausländer durch Behörden behandelt?
0.122
Einbürgerung: Sollte hier geborgen sein
0.1226
Einbürgerung: Deutsche Abstammung haben
0.1231
Einbürgerung: Deutsch sprechen
8.171
Einbürgerung: Lange hier gelebt haben
0.1221
Einbürgerung: Lebensstilanpassung
8.1733
Einbürgerung: In christlicher Kirche sein
8.143
Einbürgerung: Keine Straftaten
8.1687
Einbürgerung: Eigener Lebensunterhalt
8.1783
Einbürgerung: Zu Grundgesetz bekennen
4.2264
Ausländer: Mehr Anpassung
2.553
Ausländer: Heim bei knapper Arbeit
0.3812
Ausländer: Keine politischen Aktionen
0.3804
Ausländer: Unter sich heiraten
0.3772
Ausländer: Kontakt in der Familie?
0.3844
Ausländer: Arbeitskontakte?
0.3901
Ausländer: Nachbarschaftskontakte?
0.3852
Ausländer: Freundkontakte?
0.3836
Soll die doppelte Staatsbürgerschaft erlaubt werden?
0.1233
Soll es gleiche Sozialleistungen für Ausländer geben?
0.1232
Soll es ein kommunales Wahlrecht für Ausländer geben?
0.1235
Soll an Schulen auch Islamunterricht erlaubt werden?
4.7518
Ausländeranteilschätzung für Westen
6.263
Ausländeranteilschätzung Westen, kategorisiert
6.2743
Ausländeranteilschätzung für Osten
5.9412
Ausländeranteilschätzung Osten, kategorisiert
5.9541
Wie hoch ist der Ausländeranteil in der eigenen Wohnumgebung?
8.186
Lebensstilunterschied: Italiener in BRD
0.1322
Lebensstilunterschied: Aussiedler in BRD
7.6337
121
A Anhang
Variable
exponierter Schätzer
Lebensstilunterschied: Asylbewerber in BRD
0.1322
Lebensstilunterschied: Türken in BRD
7.8052
Lebensstilunterschied: Juden in BRD
6.7336
Wie angenehm als Nachbar: Italiener
8.1802
Wie angenehm als Nachbar: Aussiedler
0.1226
Wie angenehm als Nachbar: Asylbewerber
0.1234
Wie angenehm als Nachbar: Türke
0.1225
Wie angenehm als Nachbar: Jude
0.125
Haben Juden zu viel Einfluss?
7.6449
Fremder im eigenen Land durch Ausländer
7.4599
Vorkommen: Ausländer werden diskriminiert
0.125
Vorkommen: Eltern diskriminieren Türken
0.1242
Vorkommen: Unternehmer diskriminieren
0.1261
Verbundenheit zum Bundesland
0.0117
Verbundenheit mit alter BRD
29.1093
Verbundenheit mit ehemaliger DDR
0.0587
Verbundenheit zu Deutschland
0.0118
Verbundenheit zur EU
0.0128
Wichtigkeit: Eigene Familie
1.0023
Wichtigkeit: Beruf und Arbeit
1.0237
Wichtigkeit: Freizeit und Erholung
1.008
Wichtigkeit: Freunde und Bekannte
1.0067
Wichtigkeit: Verwandtschaft
1.0082
Wichtigkeit: Religion und Kirche
0.9595
Wichtigkeit: Politik
1.0021
Wichtigkeit: Nachbarschaft
0.3525
Wichtigkeit: Sichere Berufsstellung
0.3436
Wichtigkeit: Hohes Einkommen
0.1205
Wichtigkeit: Aufstiegschancen im Beruf
0.1205
Wichtigkeit: Anerkannter Beruf
0.3431
Wichtigkeit: Beruf mit viel Freizeit
2.891
122
A Anhang
Variable
exponierter Schätzer
Wichtigkeit: Interessante Tätigkeit
0.1208
Wichtigkeit: Selbstständige Tätigkeit
0.1206
Wichtigkeit: Verantwortungsvolle Tätigkeit
0.3422
Wichtigkeit: Beruf mit menschlichem Kontakt
0.3429
Wichtigkeit: Caritativ helfender Beruf
0.1205
Wichtigkeit: Sozial nützlicher Beruf
0.07
Wichtigkeit: Sinnvoll empfundener Beruf
0.0845
Wichtigkeit: Sichere Arbeitsbedingungen
0.0847
Wie ist Ihr Gesundheitszustand?
1.005
Wie häufig sehen Sie Fernsehen pro Woche?
0.3069
Wie häufig lesen Sie Zeitung pro Woche?
0.3079
Religiositätsskala
2.1514
Persönliche Belastung: Fluglärm
1.4149
Persönliche Belastung: Indust. Abfall
1.4243
Persönliche Belastung: Kernkraftwerke
1.4231
Persönliche Belastung: Industrieabgase
1.4219
Persönliche Belastung: Verkehrslärm, Autoabgase
1.4065
Vertrauen zu Mitmenschen
0.031
Nachts allein in eigener Umgebung
2.781
Nachts allein in anderer Umgebung
0.7437
Alter
0.8866
Geschlecht
0.9963
Konfession
2.8146
Welcher nichtchristliche Religion gehören Sie an?
1.0052
Was ist Ihr allgemeiner Schulabschluss?
1.4758
Berufsausbildungsabschluss
0.0919
Sind Sie in der Ausbildung?
0.1139
Arbeitsweg
0.3987
Dauer der Arbeitslosigkeit
0.9176
Nettoeinkommen
0.883
Haushaltseinkommen
1.1757
123
A Anhang
Variable
exponierter Schätzer
Herkunftsland, Vater
0.1226
Herkunftsland, Mutter
0.1222
Staatsangehörigkeit
12.4139
Sind Sie von Geburt an Deutsch?
7.4811
Auswanderung in ein anderes EU-Land denkbar?
0.0547
Seit wann sind Sie im Ort?
0.8387
Wohndauer
1.301
Typ der Wohnung
0.7772
Bundesland
4.4311
Größe der politischen Gemeinde
0.7955
Gemeindetyp
1.9382
Prozentualer Ausländeranteil
0.1219
Mehrpersonenhaushalt?
0.9919
Mehr als acht Personen?
0.9479
Anzahl der Personen
1.0998
Anzahl der Kinder
2.3123
Sind Sie Mitglied in einer Gewerkschaft?
1.6803
Art des Wohngebäudes
2.818
Zustand des Wohngebäudes
2.8185
Einschätzung Wohnumgebung
1.0097
Tabelle A.9: Exponierte Schätzer der Originalvariablen im Hauptkomponentenmodell des ALLBUSDatensatzes.
124
A Anhang
125
A Anhang
126
A Anhang
127
A Anhang
128
A Anhang
Abbildung A.1: Entscheidungsbaum mit der Zielvariable Wohnquartierszufriedenheit.
129
Eidesstattliche Erklärung
Hiermit erkläre ich, dass ich die vorliegende Arbeit selbstständig verfasst und keine anderen
als die angegebenen Quellen und Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate
kenntlich gemacht habe.
Dortmund, den
Unterschrift
Einverständniserklärung
Ich erkläre mich hiermit einverstanden, dass meine Masterarbeit nach §6 (1) des URG der
Öffentlichkeit durch die Übernahme in die Bereichsbibliotheken zugänglich gemacht wird.
Damit können Leser der Bibliothek die Arbeit einsehen und zu persönlichen wissenschaftlichen
Zwecken Kopien aus dieser Arbeit anfertigen. Weitere Urheberrechte werden nicht berührt.
Dortmund, den
Unterschrift
Herunterladen