Masterarbeit Modellierung der Einflussfaktoren auf die Zufriedenheit mit einem Wohnquartier Verfasser: Markus Terhürne Betreuer: Professor Dr. Christine Müller Professor Dr. Michael Nadler Statistik in den Ingenieurwissenschaften Technische Universität Dortmund Inhaltsverzeichnis 1 Einleitung 1 2 Problemstellung und Datenbeschreibung 4 3 Statistische Methoden 6 3.1 Korrespondenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.2 Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . 9 3.3 Ordinale Zielvariable und Odds Ratio . . . . . . . . . . . . . . . . . . . . . . 11 3.4 Generalisierte lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.5 Kategoriale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.5.1 Kumulatives Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.5.2 Sequentielles Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.5.3 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.6 Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.7 Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.8 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.8.1 AIC und BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.9.1 Rückwärtsselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.9.2 Vorwärtsselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.9.3 Gemischte Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.9.4 Fehlklassifikationsrate . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.10 Kategoriale Regression verknüpft mit der Hauptkomponentenanalyse . . . . . . 23 3.11 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.12 Multiples Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.9 4 Statistische Auswertung 4.1 4.2 28 Analyse des BBSR-Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1.1 Kumulative Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . 31 4.1.1.1 Voller Modellansatz ohne Wechselwirkungen . . . . . . . . . 32 4.1.1.2 Modellansatz mit Wechselwirkungen . . . . . . . . . . . . . 38 4.1.1.3 Modellansatz mit transformierte Zielvariable . . . . . . . . . 41 4.1.1.4 Zweistufige Modelierung der Lebenszufriedenheit . . . . . . 46 4.1.2 Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . 49 4.1.3 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.1.4 Zusammenfassung des BBSR-Datensatzes . . . . . . . . . . . . . . . . 63 Analyse des ALLBUS-Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 Kategoriale Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . 65 4.2.2 Kumulatives Hauptkomponentenmodell . . . . . . . . . . . . . . . . . 68 4.2.3 Zusammenfassung des ALLBUS-Datensatzes . . . . . . . . . . . . . . 71 5 Zusammenfassung 72 Literaturverzeichnis 75 A Anhang 77 Tabellenverzeichnis 3.1 Kontingenztabelle vor der Standardisierung. . . . . . . . . . . . . . . . . . . . 3.2 Kontingenztabelle des Zeilenprofils, wobei die Einträge aus Tabelle 3.1 durch die Zeilensumme normiert werden. . . . . . . . . . . . . . . . . . . . . . . . . 3.3 7 7 Kontingenztabelle des Spaltenprofils, wobei die Einträge aus 3.1 durch die Spaltensumme normiert werden. . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.1 Anzahl der Beobachtungen im BBSR-Datensatz für die Jahre 2000 bis 2011. . . 29 4.2 Variablen mit zu hoher Multikollinearität, die aus dem Datensatz zur Analyse entfernt werden müssen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 32 Variablen mit exponierten Schätzern und Varianzen die hinsichtlich ihres pWertes einen erhöhten Einfluss auf die Zielvariable besitzen. . . . . . . . . . . 36 4.4 Konfusionsmatrix des vollen Modells ohne Wechselwirkungen. . . . . . . . . . 38 4.5 Variablen der Wechselwirkungen mit exponierten Schätzern und Varianzen für das Modell mit Wechselwirkung. . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.6 Konfusionsmatrix des Modells mit Wechselwirkungen. . . . . . . . . . . . . . 41 4.7 Vergleich der Klassenstärke der neu gebildeten Zielvariable. . . . . . . . . . . 41 4.8 Variablen mit exponierten Schätzern und Varianzen, die auf Basis des Konfidenzintervalls bzw. des p-Wertes einen erhöhten Einfluss haben im Modell ohne 4.9 Wechselwirkung mit geänderter Zielvariable. . . . . . . . . . . . . . . . . . . 44 Konfusionsmatrix des vollen Modells mit Transformation der Zielvariable. . . . 44 4.10 Konfusionsmatrix des Modells mit Transformation der Zielvariable und Wechselwirkungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.11 Neue Klasseneinteilung der Zielvariable Zufriedenheit mit dem Leben. . . . . . 47 4.12 Variablen mit exponierten Schätzern und Varianzen für die Modellierung der Lebenszufriedenheit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.13 Konfusionsmatrix des Modells mit der Zielvariable Lebenszufriedenheit. . . . . 49 4.14 Cronbachs Alpha und Eigenwerte der kategorialen Hauptkomponentenanalyse. 51 4.15 Komponentenladung in den einzelnen Hauptkomponenten, wobei die Variablenbezeichnung im Anhang Tabelle A.6 auf Seite 101 zu finden ist. . . . . . . . . 58 4.16 Variablen mit exponierten Schätzern und Varianzen im Hauptkomponentenmodell. 61 4.17 Konfusionsmatrix des Hauptkomponentenmodells. . . . . . . . . . . . . . . . 61 4.18 Anzahl an Beobachtungen in den Jahren 1980 bis 2010. Die Befragung fand alle zwei Jahre statt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.19 Anzahl Beobachtungen in den einzelnen Kategorien der Zielvariable. . . . . . . 65 4.20 Cronbachs Alpha und Eigenwert zur Hauptkomponentenbestimmung für den ALLBUS-Datensatz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.21 Exponierte Schätzer der Hauptkomponenten und der Jahreszahl. . . . . . . . . 69 4.22 Konfusionsmatrix des Hauptkomponentenmodells im ALLUB-Datensatz. . . . 70 A.1 Variablen des BBSR-Datensatzes und ihre Bedeutung. . . . . . . . . . . . . . 79 A.2 Variablen mit exponierten Schätzern und Varianzen im vollen Modell des BBSRDatensatzes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 A.3 Variablen mit exponierten Schätzern und Varianzen im Modell mit Wechselwirkungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 A.4 Variablen mit exponierten Schätzern und Varianzen im Modell ohne Wechselwirkung mit transformierter Zielvariable. . . . . . . . . . . . . . . . . . . . . 95 A.5 Variablen mit exponiertem Schätzer im Hauptkomponentenmodell. . . . . . . . 98 A.6 Variablennummerierung für den BBSR-Datensatz, zur Erkennung in der Hauptkomponentenmatrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 A.7 Variablennummerierung für den ALLBUS-Datensatz, zur Erkennung in der Hauptkomponentenmatrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 A.8 Hauptkomponentenladung des ALLBUS-Datensatzes. . . . . . . . . . . . . . . 119 A.9 Exponierte Schätzer der Originalvariablen im Hauptkomponentenmodell des ALLBUS-Datensatzes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 1 Einleitung Um neue Wohnquartiere, wie zum Beispiel dem Quartier um den Phoenixsee in Dortmund, zukünftig besser planen zu können, ist es von Interesse, wie die Zufriedenheit der Bewohner maximiert werden kann. Dies ist vor allem wichtig, damit ein attraktives Wohnquartier für bestimmte Zielgruppen entsteht. Wünschenswert ist, dass diese Zielgruppe möglichst groß ist. Bisher ist noch nicht bekannt welche Faktoren eine starke Auswirkungen auf die Wohnquartierszufriedenheit haben. Daher wurden neue Quartiere bis jetzt immer nach subjektivem Empfinden geplant. In einer Studie von 2004 wurde aufgezeigt, dass vor allem eine unzureichende Nahversorgung die Zufriedenheit gefährdet, vgl. Steffen et al. (2004). Dafür wurden jedoch nur einzelne Stadtquartiere betrachtet. Damit jedoch festgestellt werden kann, welche Faktoren allgemein für eine höhere Zufriedenheit der Bewohner sorgen, müssen entsprechende Umfragen durchgeführt werden. Dabei ist es immer eine Schwierigkeit latente Variablen, wie die Zufriedenheit, abzufragen. Sinnvollerweise werden dafür verschiedene Kategorien gewählt, in denen sich die befragten Personen einsortieren können. Vor allem sind dabei jedoch die restlichen erhobenen Fragen interessant. Mit diesen kann versucht werden, die Wohnquartierszufriedenheit zu modellieren und so zu analysieren, mit welchen Merkmalen diese beeinflusst werden kann. Dieser Einfluss kann sowohl positiv als auch negativ sein. Da die Zufriedenheit mit Hilfe von Kategorien abgefragt wurden kann keine gewöhnliche Regression durchgeführt werden. Daher kann stattdessen die Eintrittswahrscheinlichkeit der Kategorie modelliert werden. Für die Analyse stehen zwei Datensätze zur Verfügung. Dafür wird zuerst ein Datensatz, genannt BBSR-Datensatz, analysiert, der Informationen über die Wohngegend enthält. Dieser Datensatz enthält als Variable die Zufriedenheit mit der unmittelbaren Wohnumgebung, die stellvertretend für das Wohnquartier gewählt wird. Diese Variable teilt die Zufriedenheit in sieben verschiedene Klassen ein, von sehr unzufrieden bis sehr zufrieden. Da der BBSR-Datensatz durch eine Befragung erhalten wurde, sind die vielen fehlenden Werte durchaus ein Problem bei der Modellierung. Dafür werden verschiedenen Lösungen analysiert. Durch die kategorialen Variablen müssen große Modelle aufgestellt werden, mit vielen Dummy-Variablen. Aufgrund der ordinalen Struktur in der Zielvariable, wird ein kumulatives Modell gewählt, dass diese Struktur ausnutzt und gleichzeitig keine zu starken Annahmen stellt. Da die unabhängigen Variablen jedoch untereinander zu stark korreliert sind, ist es nicht möglich ein Modell aufzustellen. Hierzu werden zwei 1 1 Einleitung unterschiedlichen Lösungsmöglichkeiten aufgezeigt. Zuerst wird die Korrelation der Variablen manuell betrachtet und es werden die Variablen entfernt, die eine zu hohe Korrelation aufweisen und für die Sachfrage nicht zwingend von Bedeutung sind. Mit dieser verringerten Anzahl an Variablen wird eine Modellierung durchgeführt. Die Schätzer werden entsprechend interpretiert und die Modellgüte betrachtet. Dabei wird jedoch festgestellt, dass diese nicht ausreichend ist. Die Fehlklassifikationsrate ist, auch wenn sie deutlich über einer zufälligen Verteilung liegt, zu hoch. Dazu ist es notwendig, die Klasseneinteilung zu verallgemeinern. Aus den vorherigen sieben Klassen werden drei neue gebildet. Mit diesen gelingt die Modellierung deutlich besser und die Fehlklassifikationsrate liegt in einem guten Bereich. Zusätzlich wird noch ein zweistufiger Modellansatz gewählt, da neben der Zufriedenheit mit dem Wohnquartier noch andere Zufriedenheitsvariablen vorhanden sind. Zuerst wird die Zufriedenheit mit dem Wohnquartier modelliert, jedoch ohne die anderen Zufriedenheitsvariablen. Danach wird mit demselben Modell die Zufriedenheit mit dem Leben durch die anderen Zufriedenheiten dargestellt. Dies ist plausibel und ermöglicht eine Verifizierung des Modellansatzes. Da sich sämtliche Zufriedenheiten positiv auf die Lebenszufriedenheiten auswirken und auch die Fehlklassifikationsrate gering ist, wird dieses Modell als geeignet betrachtet. Ein andere Lösungsansatz für die hohe Multikorrelation ist die vorherige Durchführung der kategorialen Hauptkomponentenanalyse. Dazu werden die unabhängigen Variablen zuerst mit Hilfe der Hauptkomponentenanalyse auf eine geringe Anzahl an Dimensionen projiziert. Danach werden die daraus resultierenden Hauptkomponenten als neue unabhängige Variablen aufgefasst und erneut ein Modell aufgestellt. Dabei wird versucht die Hauptkomponenten zu interpretieren und die Schätzer können zum einen für die Hauptkomponenten berechnet werden, jedoch auch auf die Originalvariablen transformiert werden. Diese Methodik hat den großen Vorteil, dass sie in jeder Datensituation anwendbar ist. Dies zeigt sich im zweiten Datensatz. Die Schätzer zeigen im Datensatz, dass vor allem ein hoher Ausländeranteil sich negativ auf die Zufriedenheit auswirkt. Verwunderlich ist zudem, dass Neubaugebiete die Zufriedenheit senken. Daher müssen die Ergebnisse mit Hilfe eines weiteren Datensatzes überprüft werden. Für die weitere Analyse wird ein zweiter Datensatz, der ALLBUS-Datensatz, gewählt. Der Vorteil dieses Datensatzes ist, dass dieser verschiedene Variablen enthält und so die Situation von einer anderen Seite beleuchtet. Hier werden vor allem die sozialen Aspekte betrachtet anstelle von Variablen die die Wohnsituation beschreiben. Da hier mehr Variablen vorhanden sind, ist eine gewöhnliche Modellierung nicht möglich und es wird direkt auf die Möglichkeit der kategorialen 2 1 Einleitung Hauptkomponentenanalyse zurückgegriffen. Als Zielvariable wird hier die Verbundenheit mit dem Wohnquartier gewählt. Da eine hohe Verbundenheit oftmals mit einer großen Zufriedenheit einhergeht. Auch diese Hauptkomponenten werden soweit möglich interpretiert und die Schätzer des Modells für die Hauptkomponenten und für die Originalvariablen berechnet. Die Modellgüte ist in diesem Datensatz höher als im vorherigen. Die Fehlklassifikationsrate ist dabei sehr gering, obwohl in diesem Fall die Verbundenheit in fünf verschiedene Kategorien einsortiert wird. Diese gute Modellierung könnte darauf hinweisen, dass soziale Aspekte bei der Zufriedenheit der Bewohner eine höhere Rolle spielen als es zu vermuten ist. Zudem zeigen die Schätzer auch hier erneut, dass ein hoher Ausländeranteil sich sehr negativ auswirkt. Hier wird dies jedoch differenziert und es zeigt sich, dass italienische Nachbarn die Zufriedenheit sogar stärken, während vor allem türkische Nachbarn und Asylbewerber die Zufriedenheit senken. Zudem sind soziale Interaktionen, wie Vereine und Gemeinschaften, für die Bewohner von großer Bedeutung für die Verbundenheit. Dies könnte auch ein Grund im ersten Datensatz für das schlechte Abschneiden der Neubaugebiete sein, da die soziale Anbindung in diesen noch nicht hergestellt werden kann. Weiterhin wirken sich Fluglärm, industrielle Abfälle und auch Kernkraftwerke in der Umgebung sehr negativ aus. Zunächst werden in Kapitel 2 die verwendeten Datensätze beschrieben und die Problemstellung vorgestellt. In Kapitel 3 wird ein Einblick in die Korrespondenzanalyse, sowie die kategoriale Hauptkomponentenanalyse gegeben. Außerdem wird das generalisierte lineare Modell und darauf aufbauend die kategoriale Regression vorgestellt, die ein Spezialfall des generalisierten linearen Modell ist. Bei der kategoriale Regression wird vor allem auf das kumulative und sequentielle Modell und die Schätzung der Parameter eingegangen. Um die Signifikanz der Parameter in einem Modell bestimmen zu können werden Konfidenzintervalle beschrieben. Mit Hilfe eines Gütemaßes, wie beispielsweise dem AIC oder BIC, kann eine Variablenselektion des Modells durchgeführt werden. Außerdem wird die kategoriale Regression mit der kategorialen Hauptkomponentenanalyse verknüft. Mit Hilfe dieser kann eine Dimensionsreduktion statt finden. Eine weitere Möglichkeit stellt der Eintscheidungsbaum dar, welcher ebenfalls beschrieben wird. In Kapitel 4 werden die Datensätze mit den zuvor vorgestellten Verfahren analysiert. Dabei findet die Analyse der Datensätze in getrennten Abschnitten statt. In Kapitel 5 werden die Ergebnisse zusammengesasst, die Auswertung diskutiert und ein Ausblick auf weitere Analysemöglichkeiten gegeben. 3 2 Problemstellung und Datenbeschreibung Die zentrale Fragestellung ist die Auswirkung einzelner Merkmale auf die Zufriedenheit der Bewohner mit ihrem Wohnquartier. Das Wohnquartier ist dabei nicht eindeutig definiert, vgl. Feldmann (2009). Es kann aus dem französischen für Stadtviertel hergeleitet werden und gilt seit den 60-er Jahren als sozialräumliches Wohnfeld. Hierbei ist es von Interesse, inwieweit die Zufriedenheit der Bewohner beeinflusst werden kann. Die einzelnen Merkmale können sich dabei sowohl positiv als auch negativ auswirken. Da zu erwarten ist, dass sich sehr viele Merkmale auf die Zufriedenheit der Bewohner auswirken, sind vor allem die Merkmale interessant, die die Zufriedenheit deutlich beeinflussen. Um einen Zusammenhang zwischen einzelnen Merkmalen und der Quartierszufriedenheit herzustellen gibt es verschiedene statistische Möglichkeiten. Eine deskriptiven Auswertung des Datensatzes ist für einen ersten Eindruck unverzichtbar. Der tatsächliche Zusammenhang zwischen der Zufriedenheit und den Merkmalen kann dann über ein Regressionsverfahren versucht werden zu modellieren. Mit Hilfe des gefundenen Modells kann angegeben werden, welche Merkmale sich wie stark auf die Zufriedenheit auswirken, und mit Hilfe eine Testverfahrens, ob diese Einflüsse signifikant zu einem globalen Niveau von 5% ist. Für die Auswertung der Fragestellung wurden der BBSR-Datensatz und der ALLBUS-Datensatz verwendet. Der BBSR-Datensatz ist eine vom Bundesamt für Bauordnung und Raumwesen jährliche Erhebung zur Wohnsituation in Deutschland, vgl. Ohder (2004). Diese Erhebung findet seit 1986 statt und wird seit 1990 auch im Osten Deutschlands, bedingt durch die Wende, durchgeführt. Für die Erhebung wurden teilweise in den Jahren verschiedene Fragestellungen untersucht. Über die Jahre hinweg können nur die Fragestellungen, die jährlich erhoben wurden für die Modellierung verwendet werden. Im Datensatz befinden sich 110 Variablen bei 46 672 Beobachtungen. Die Variablen des Datensatz sind hauptsächlich kategorial. Insgesamt sind 86 Variablen kategorial und 24 Variablen können als kardinalskaliert aufgefasst werden. Zudem wird durch eine Variable das Jahr der Befragung angegeben, wodurch auch ein zeitlicher Einfluss auf die Zufriedenheit untersucht werden kann. Die Variablen beschreiben die vorliegende Wohnsituation zu einem Großteil durch physische Variablen. So werden zum Beispiel Häusermerkmale oder Anzahl der in der Wohnung lebenden Personen abgefragt. Zudem wird in der Erhebung die Zufriedenheit der befragten Personen mit dem Wohnquartier, mit der Stadt, mit der eigenen Wohnung, mit den Umweltbedingungen und dem Leben. Die jährliche Umfrage des Bundesamt für Bauordnung und 4 2 Problemstellung und Datenbeschreibung Raumwesen ist repräsentativ für die Gesamtbevölkerung der Bundesrepublik Deutschland, da die Grundgesamtheit der Untersuchung alle während des Befragungszeitraumes in Privathaushalten lebenden deutsch sprechenden Personen ab 18 Jahren umfasst. Für das Auswahlverfahren wurde eine mehrfach geschichtete, mehrstufige Zufallsstichprobe gewählt. Die Befragung der Personen geschah entweder durch eine mündlich-persönliches oder ein telefonisches Interview. Die Art der Befragung lässt sich mit Hilfe einer Variable im Datensatz nachvollziehen. Durch die Befragung kann es zu persönlichen Effekten kommen, die die Beantwortung beeinflussen. Da nicht alle Fragen beantwortet werden, existieren im Datensatz fehlende Werte, diese sind mit negativen Ausprägungen versehen. Der ALLBUS-Datensatz besitzt 1 569 Variablen bei 54 243 Beobachtungen, vgl. GESIS - LeibnizInstitut für Sozialwissenschaften (2010). Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften wird jährlich durch das GESIS-Leibniz-Institut für Sozialwissenschaften durchgeführt. Da jedoch viele der Variablen für die zugrundeliegende Fragestellung irrelevant sind, wird dieser Datensatz für die Auswertung auf 172 Variablen gekürzt. Die Umfrage wird seit 1980 in zweijährigem Abstand durchgeführt. Die Grundgesamtheit der ALLBUS-Umfragen bestand bis einschließlich 1990 aus allen wahlberechtigten Personen in der alten Bundesrepublik und West-Berlin, die in Privathaushalten leben. Seit 1991 umfasst die Grundgesamtheit, aufgrund der Wiedervereinigung, auch die wahlberechtigten Personen der ehemaligen DDR. Die Erhebung der Daten erfolgt hierbei durch persönliche Interviews, die bis zum Jahr 2000 auf Papierfragebögen festgehalten wurden und seitdem mit Laptops unterstützt werden. Auch im ALLBUS-Datensatz sind die meisten Variablen kategorial. Hierbei sind 164 Variablen kategorial, 8 Variablen können als kardinalskaliert betrachtet werden. Das Jahr der Befragung ist erneut vorhanden, sodass ein Einfluss über die Jahre untersucht werden kann. Im Gegensatz zum BBSR-Datensatz sind bei der ALLBUS-Befragung hauptsächlich latente soziologische Fragen gestellt worden. Dadurch können die Ergebnisse aus dem BBSR-Datensatz ergänzt werden oder neue Erkenntnisse gewonnen werden. Zudem kann dadurch ein Einblick gewonnen werden, durch welche Faktoren die Zufriedenheit der Personen besser modelliert werden kann. Bei fehlenden Antworten wurden im ALLBUS-Datensatz die Ausprägungen der Variablen auf negative Werte gesetzt. Anstelle der Zufriedenheit mit dem Wohnquartier ist in diesem Datensatz die Verbundenheit mit dem Quartier erhoben worden. Beide Datensätze sind bereits aufbereitet und enthalten keine unplausible Werte, jedoch fehlende Werte, die mit negativer Ausprägung versehen wurden. 5 3 Statistische Methoden Für die Analyse der Daten aus der Immobilienentwicklung werden verschiedene statistischen Verfahren benötigt. Da die Zielvariablen der Datensätze und auch viele unabhängigen Variablen über ein kategoriales Messniveau verfügen, werden entsprechende kategoriale Verfahren benötigt. Zuerst wird die Korrespondenzanalyse allgemein erklärt. Darauf aufbauend die kategoriale Hauptkomponentenanalyse, die eine geeignete Methode darstellt um die hohen Dimensionen der Datensätze zu reduzieren. Danach werden ordinale Zielvariablen und Odds Ratios beschrieben. Darauf folgend das allgemeine generalisierte lineare Modell erläutert. Ein Spezialfall davon sind kategoriale Regressionsmodelle. Dabei wird zwischen dem kumulativen und dem sequentiellen Modell unterschieden. Das Schätzverfahren und die verschiedenen Gütekriterien werden zudem erläutert. Auf den Gütekriterien aufbauend werden verschiedene Selektionsverfahren erklärt. Zudem wird die kategoriale Hauptkomponentenanalyse mit der kategorialen Regression verknüpft und das multiple Testen beschrieben. Für die statistische Auswertung der Daten wird die Statistik-Software R in der Version 3.0.1 (R Core Team, 2013) wie auch die Statistik-Software SPSS in der Version 21.0.0.0 (IBM, 2012) verwendet. Für die Statistik-Software R wurde zudem das Paket „MASS“ (Venables und Ripley, 2002) verwendet. Dadurch können die Ergebnisse in beiden Programmen verifiziert werden und sind leichter reproduzierbar. 3.1 Korrespondenzanalyse Mit Hilfe der Korrespondenzanalyse können qualitative Merkmale visualisiert werden, vgl. Backhaus et al. (2011). Ähnlich wie die Hauptkomponentenanalyse und die Faktorenanalyse ist dies eine Methode zur Dimensionsreduktion. Dadurch können komplexe Sachverhalte vereinfacht dargestellt werden. Die qualitativen Merkmale können hierbei ein nominales oder ein ordinales Skalenniveau besitzen. Ordinal skalierte Merkmale werden dabei jedoch wie nominal skalierte behandelt. Zuerst werden die einzelnen Merkmale standardisiert. Dafür können diese entsprechend einer Kontingenztabelle dargestellt werden, vgl. Tabelle 3.1. Dazu wird die vorliegende Datenstruktur genutzt. In den einzelnen Zeilen stehen die Beobachtungen, die zum Beispiel an befragten Personen erhoben werden könnten. In den Spalten werden die Merkmale, wie zum Beispiel die einzelnen Fragestellungen, abgetragen. Dabei ist n der Stichprobenumfang und p die Anzahl 6 3 Statistische Methoden der Merkmale. Die einzelenen Einträge in der Kontingenztabelle 3.1 sind die Ausprägungen der Merkmale in der entsprechenden Beobachtungsnummer. Beobachtungen 1 .. . n P Merkmale M1 . . . Mp l11 . . . l1p .. .. .. . . . ln1 l·1 ... ... lnp l·p P l1· .. . ln· l Tabelle 3.1: Kontingenztabelle vor der Standardisierung. Die einzelnen Werte der Merkmale und Beobachtungen werden entsprechend der Kontingenztabelle 3.2 neu berechnet. Bei dieser Berechnung ergibt die Summe einer Zeile immer den Wert Eins, sodass auch der Gesamtwert, der unten Rechts in der Tabelle abzulesen ist, als Eins definiert wird. Dementsprechend ist die Summe aller Merkmale pro Beobachtung Eins und der Wert eines Merkmals, der an der unteren Summe abzulesen ist, gibt die entsprechende Gewichtung wieder. Diese Kontingenztabelle wird auch das Zeilenprofil genannt. Beobachtungen 1 .. . n P Merkmale M1 . . . Mp l11 . . . ll1p l1· 1· .. .. .. . . . ln1 ln· l·1 l ... ... lnp ln· l·p l P 1 .. . 1 1 Tabelle 3.2: Kontingenztabelle des Zeilenprofils, wobei die Einträge aus Tabelle 3.1 durch die Zeilensumme normiert werden. Die Berechnung des sogenannten Spaltenprofils kann Kontingenztabelle Tabelle 3.3 entnommen werden. Beobachtungen 1 .. . n P Merkmale M1 . . . Mp l11 . . . ll1p l·1 ·p .. .. .. . . . ln1 l·1 1 ... ... P l1· l .. . lnp l·p ln· l 1 1 Tabelle 3.3: Kontingenztabelle des Spaltenprofils, wobei die Einträge aus 3.1 durch die Spaltensumme normiert werden. Die Masse der Zeile i lässt sich darstellen durch pi· = p·j = l·j . l li· l und die Masse der Spalte j durch Um die Streuung in den Daten zu messen, wird die χ2 -Größe verwendet. Da hierbei 7 3 Statistische Methoden keine metrischen Daten vorliegen, ist die Stichprobenvarianz nicht sinnvoll berechenbar. Das χ2 -Maß ist durch χ2 = ⇐⇒ X (beobachtete Häufigkeit − erwartete Häufigkeit)2 erwartete Häufigkeit I X J X (lij − eij )2 χ = eij i=1 j=1 2 definiert, wobei die erwartete Häufigkeit durch eij = li· l·j l berechnet werden kann. Daher vergrö- ßert sich die Streuung, wenn die beobachteten Häufigkeiten von den erwarteten Häufigkeiten stark abweichen. Da diese Größe jedoch mit steigender Anzahl an Beobachtungen weiter wachsen würde, ist es nötig diese zu Standardisieren. Daher wird die mittlere quadratische Kontingenz betrachtet, die auch totale Inertia oder Gesamtträgheit genannt wird. Es gilt für die totale Inertia T = χ2 . l Die totale Inertia lässt sich in Trägheitsgewichte der Zeilen und Spalten zerlegen. Für diese gilt: Ti = 1 X (lij − eij )2 , l j eij Tj = 1 X (lij − eij )2 . l i eij Für den Wertebereich der Inertia gilt 1 ≤ T ≤ min{I, J} − 1. Die Korrespondenzanalyse versucht die vorhandene Streuung bei einer Dimensionsreduzierung möglichst gut zu erhalten, damit wenig Informationen aus den Daten verloren gehen. Für die Dimensionsreduzierung werden die einzelnen Beobachtungen zunächst standardisiert. Die standardisierten Werte werden durch die Gleichung zij = pij − êij p , êij l erhalten, wobei pij = ijl und êij = pi. · p.j ist. Die totale Inertia lässt sich mit den standardisierten P P Daten durch T = i j zij2 ausdrücken. Um einen geringen Informationsverlust zu garantieren, wird die Singulärwertzerlegung durchgeführt. Die standardisierten Beobachtungen werden in der Matrix Z zusammengefasst. Die Matrix Z lässt sich in Z = U ·S·V 0 zerlegen. Wobei die Matrix U die Zeilenelemente, die Matrix V die Spaltenelemente und die Matrix S die Singulärwerte enthält. Die Singulärwertmatrix S ist eine Diagonalmatrix mit den entsprechenden Singulärwerten auf 0 der Hauptdiagonalen. Die quadrierten Singulärwerte sind die Eigenwerte der Matrix X X 8 3 Statistische Methoden und werden auch als Trägheitsgewichte der Dimensionen bezeichnet. Dabei bezeichnet X die Datenmatrix, die die Struktur der Kontingenztafel 3.1 enthält. Sie summieren sich zur totalen P s2 Inertia auf, T = k s2k . Da jeder Singulärwert eine Dimension repräsentiert, kann durch Ak = Tk der Eigenwertanteil der entsprechenden Dimension berechnet werden. Anhand dieser Werte kann sich für die Anzahl der Dimensionen entschieden werden. Mögliche Verfahren sind der ScreePlot und der kumulierte Eigenwertanteil. Bei dem kumulierten Eigenwertanteil wird sich für die Anzahl der Dimensionen entschieden, die benötigt wird, um ein bestimmte Mindestanforderung des erklärenden Anteils zu erhalten. Die Anzahl r der zu wählenden Dimensionen ergibt sich durch r = min{r| r X s2 k k=1 T ≥ λ}, wobei der Wert λ frei gewählt werden kann. Hierbei sind Werte zwischen 0.7 und 0.9 üblich, vgl. Timm (2002). Die Wahl von λ hängt zusätzlich vom Datensatz ab. Beim Scree-Plot hingegen werden die einzelnen Singulärwerte sk grafisch abgetragen. Dabei wird der Wert der Singulärwerte auf der y-Achse gegen den Laufindex auf der x-Achse abgetragen. Ist in dieser Grafik ein „Knick“ zu finden, so ist die Anzahl r der Dimensionen zu wählen, die vor dem „Knick“ vorliegt. Die Begründung dafür ist ein „deutlicher“ Abfall in dem erklärenden Anteil der Dimensionen, sodass jeder Dimension die nach dem „Knick“ aufgenommen wird, einen geringer Anteil an Erklärung beisteuert, als dies die Werte vor dem „Knick“ können. Die Anzahl der Dimensionen, die gewählt werden, bleibt dabei jedoch ein heuristisches Verfahren und kann nicht eindeutig gewählt werden, hierbei müssen immer Interessen abgewogen werden und Kompromisse eingegangen werden. 3.2 Kategoriale Hauptkomponentenanalyse Die kategoriale Hauptkomponentenanalyse beruht auf der Korrespondenzanalyse, vgl. Bühl (2012). Der Vorteil der kategorialen Hauptkomponentenanalyse ist dabei, dass die Variablen ein beliebiges Skalenniveau besitzen können. Ähnlich wie bei der Korrespondenzanalyse wird die Singulärwertzerlegung als Grundlage zur Berechnung der Hauptkomponenten verwendet. Auch 0 hier wird die standardisierte Matrix Z in Z = U · S · V zerlegt. Für die Singulärwertzerlegung wird zunächst die Householdertransformation, vgl. Golub und van Loan (1989), angewendet und daraufhin der QR-Algorithmus angewendet, vgl. Dahmen und Reusken (2008) . Nomina- 9 3 Statistische Methoden le und auch ordinale Variablen können unverändert verwendet werden. Numerische Variablen werden für die kategoriale Hauptkomponentenanalyse zuerst in Klassen unterteilt. In der StatistikSoftware SPSS sind automatisch sieben Klassen voreingestellt. Diese können auf Wunsch auch manuell ausgewählt werden. Als Verteilung der metrischen Variablen wird zu optimalen Klasseneinteilung die Normalverteilung unterstellt. Durch die Singulärwertzerlegung werden die Eigenwerte der einzelnen Dimensionen berechnet, mit denen die Anzahl bestimmt werden kann. Da es sich hierbei um eine kategoriale Hauptkomponentenanalyse handelt, kann zusätzlich die Maßzahl Cronbachs Alpha betrachtet werden. Auch die Anzahl der Hauptkomponenten kann wie in der Korrespondenanalyse bestimmt werden. Bei zwei Dimensionen ist zudem die grafische Betrachtung möglich. Für die Analyse wird die kategoriale Hauptkomponentenanalyse jedoch lediglich zur Dimensionsreduzierung verwendet. Die dabei entstehenden Hauptkomponenten sind sowohl normiert als auch orthogonal zueinander, wodurch sie besonders geeignet für eine Modellierung sind. Besonders wichtig bei dieser Analyse sind die Komponentenladungen. Jede Hauptkomponente besitzt einen bestimmten Anteil an der Ladung der Ursprungsvariablen. So lassen sich die einzelnen Hauptkomponenten oftmals sinnvoll interpretieren. Zudem wird durch die Dimensionsreduzierung keine Variable entfernt. In den Hauptkomponenten finden sich Anteile jeder Variable wieder. Für die Dimensionsreduzierung werden für die Matrizen U , S und V , die aus der Singulärwertzerlegung erhalten werden, die entsprechend reduzierten Versionen verwendet. Mit den ersten r Spalten der Matrix U und V , sowie der Diagonalmatrix der ersten r Eigenwerte für die Matrix S, können die neuen Dimensionsvektoren 1, . . . , r berechnet werden, vgl. Greenacre (2007). Für die Normalisierung der neuen Dimensionen gibt es verschiedene Möglichkeiten, vgl. Backhaus et al. (2011). Bei der symmetrischen Normalisierung wird die Inertia gleichmäßig auf Spalten und Zeilen verteilt. Die Elemente der Matrix U und V werden dabei mit ûij = uij · √ sj √ pi. und v̂ij = vij · √ sj √ pi. normalisiert. Bei dem Zeilenprinzip, bei dem die Inertia nur auf die Zeilenpunkte übertragen wird, werden die Matrizen U und V mit ûij = uij · v̂ij = vij · √1 pi. mit ûij = uij · sj √ pi. und normalisiert. Während bei dem Spaltenprinzip die Matrizen U und V äquivalent √1 pi. und v̂ij = vij · sj √ pi. normalisiert werden, wobei hierbei die Inertia auf die Spaltenelemente übertragen wird. 10 3 Statistische Methoden 3.3 Ordinale Zielvariable und Odds Ratio Wenn der Zusammenhang zwischen Merkmalen x1 , . . . , xp und einer ordinalen Zielvariable dargestellt werden soll, müssen dafür alternative Lösungswege, als für eine metrische Zielvariable, gesucht werden, vgl. Kreienbrock und Schach (1997). Eine ordinale Zielvariable bedeutet dabei, dass für die Variable Y0 die Ausprägungen 1, . . . , k vorliegen. Anstelle der Modellierung der Ausprägungen von Y0 werden in diesem Fall die Wahrscheinlichkeiten für das Eintreten einer Ausprägung modelliert. Der Effekt der Modellierung ist, dass damit sämtliche Werte zwischen Null und Eins angenommen werden können. Um diesen Bereich weiter zu vergrößern werden die „Odds“ betrachtet, damit ist der Bereich der angenommen werden kann zwischen Null und unendlich. Die „Odds“ geben die Chance an, mit der ein Ereignis eintritt, sie sind definiert als Odds(P (Y0 = r|xj )) = P (Y0 =r|xj ) , 1−P (Y0 =r|xj ) wobei P (Y0 = r|xj ) die Eintrittswahrscheinlichkeit für Y0 = r, r ∈ {1, . . . , k}, ist, wenn xj , j = 1, . . . , p vorliegt. Darüber hinaus werden oft die Odds-Ratio betrachtet. Das Odds-Ratio setzt zwei verschiedene „Odds“ in ein Verhältnis. Damit wird betrachtet, ob ein Zustand xj eine erhöhte Chance besitzt, dass ein bestimmtes Ereignis Y0 = r eintritt, als in einem anderen Zustand xi . Es kann durch OR(xj , xi ) = Odds(P (Y0 =r|xj )) Odds(P (Y0 =r|xi )) bestimmt werden. Das OR gibt den Faktor an, um den die Chance, dass das Ereignis eintritt, verändert wird. Der Wertebereich des OR liegt zwischen Null und unendlich, wobei ein Wert größer Eins für eine erhöhte Chance und ein Wert kleiner Eins für eine kleinere Chance steht. Ist der Wert exakt Eins sind die Chancen bei beiden Merkmalsausprägungen gleich. 3.4 Generalisierte lineare Modelle Oftmals ist eine gewöhnliche lineare Regression aufgrund der vorliegenden Datensituation nicht möglich. Anstelle der Zielvariable eine Normalverteilung zu unterstellen, wird auf generalisierte lineare Modelle zurück gegriffen, bei denen die Verteilungsklasse der Zielvariable erweitert wird. Beim generalisierten Modell wird der Zusammenhang der Zielvariable Y1 , . . . , Yn und den dazugehörigen beobachteten Daten, xt = (xt1 , . . . , xtp ), t = 1, . . . , n, betrachtet. Wobei n die Anzahl der Beobachtungen und p die Anzahl der Variablen entspricht. Einflussvariablen können sowohl Variablen selbst, sowie Transformationen dieser, Dummy-Variablen oder Wechselwirkungen zwischen verschiedenen Variablen sein, vgl. Fahrmeir et al. (2007b). Die wesentliche Änderung des generalisierten Modells ist, dass die Normalverteilungsannahme dadurch ersetzt wird, dass 11 3 Statistische Methoden von einer Exponentialfamilie ausgegangen wird. Zur Exponentialfamilie gehören beispielsweise die Normalverteilung, die Poissonverteilung und die Binomialverteilung. Allgemein lässt sich eine Exponentialfamilie durch die Dichte f (yt |θt , φ, ωt ) = exp yt θt − b(θt ) ωt + c(yt , φ) , φ t = 1, . . . , n ausdrücken. θt kann dabei durch den bedingten Erwartungswert µt = E(Yt |xt ) mit θt = θ(µt ) bestimmt werden. Der Dispersionsparameter φ ist von t unabhängig und die verteilungsspezifischen Funktionen b(.) und c(.) sind bekannt. ωt sind die Gewichte, wobei ωt = 1 für ungruppierte Daten und ωt = ni für gruppierte Daten verwendet wird, vgl. Fahrmeir und Tutz (2001). Der Zusammenhang zwischen Y und xt ergibt sich über den linearen Prädiktor ηt = xt β, mit µt = h(ηt ), beziehungsweise ηt = g(µt ), t = 1, . . . , n. Dabei entspricht h(.) einer monotonen, differenzierbaren Funktion, welche bekannt ist. Die Link-Funktion, dessen Wahl oftmals bedeutsam ist, enspricht g(.) beziehungsweise der inversen Funktion h(.)−1 Die Varianzfunktion Var(µt ) ist verteilungsunabhängig und die bedingte Varianz hängt von µ ab, Var(Yt |xt ) = Var(µt )φ . ωt 3.5 Kategoriale Regressionsmodelle Die kategorialen Regressionsmodelle sind ein Spezialfall der generalisierten linearen Modelle, vgl. Tutz (1990). Die wichtigste Eigenschaft dabei ist, dass die abhängige Variable ein kategoriales Skalenniveau besitzt. Hierbei ist sowohl ein nominales als auch ein ordinales Skalenniveau möglich. Die abhängige Variable Y besitzt k mögliche Ausprägungen, es gilt Yi ∈ {1, . . . , k}. Für den Spezialfall k = 2 liegt das bekannte logistische Modell vor, wenn die logit-Funktion als Link-Funktion gewählt wird. Das Ziel der Modellierung ist im Allgemeinen, wie im Spezialfall, die Darstellung der Wahrscheinlichkeiten des Auftretens der Ausprägungen πr = P (Y0 = r), r = 1, . . . , k . Dabei wird die abhängige Variable mit Hilfe einer Referenzkategorie k umgeschrieben. Der Vektor y = (y1 , . . . , yq )0 , mit q = k − 1 lässt sich durch 1, y = r 0 yr = 0, sonst 12 3 Statistische Methoden mit r = 1, . . . , q darstellen. Für die Wahrscheinlichkeiten der einzelnen Klassen ergibt sich daraus πr = P (Y0 = r) = P (yr = 1), r = 1, . . . , q und für die Referenzkategorie gilt entsprechend Y0 = k ⇔ y = (0, . . . , 0)0 , P (Y0 = k) = 1 − π1 − . . . − πq . Der Nullvektor ergibt sich dadurch, dass y nur noch k − 1 Kategorien besitzt und wenn diese alle die Ausprägung Null besitzen die Referenzkategorie k vorliegt. Als Verteilungsannahme für die mehrkategoriale Zielvariable wird die Multinomialverteilung als Verallgemeinerung der Binomialverteilung angenommen. Es gilt y ∼ M (m, π), mit den Parametern m und π = (π1 , . . . , πq ). Bei einer ordinalen Zielvariable kann die Ordnungsstruktur der Variable ignoriert werden und eine multinomiale logistische Regression durchgeführt werden. Jedoch gehen dadurch wichtige Informationen verloren. Wird die Ordnungsstruktur berücksichtigt, so kann ein ordinales Modell verwendet werden. Dieses ist im Gegensatz zum multinomialen logistischen Modell parameterökonomischer. So ist bei einer zu großen Anzahl von Parametern das multinomiale logistische Modell im Gegensatz zum ordinalen Modell nicht mehr schätzbar. Ein weiterer Vorteile ist, dass das ordinale Modell deutlich leichter zu interpretieren ist. 3.5.1 Kumulatives Modell Das kumulative Modell ist ein ordinales Regressionsmodell. Zuerst wird für die abhängige Variable in diesem Modell angenommen, dass eine latente metrische Variable Ỹ existiert, die durch Y kategorisiert ausgedrückt werden kann. In der Soziologie ist ein häufiges Beispiel die Zufriedenheit von Personen, die tatsächlich sehr differenziert ist aber nicht beobachtbar, jedoch in Fragebögen häufig kategorisiert abgefragt wird. Zudem gilt der Zusammenhang Ỹ = −x0α + ε 13 3 Statistische Methoden in Abhängigkeit der unabhängigen Variablen xj = (x1j , . . . , xmj )0 , j = 1, . . . , n darstellen. Dabei beschreibt α = (α1 , . . . , αn )0 den Einfluss der Variablen x11 · · · x1n .. . 0 0 0 x0 = .. . = (x1 , . . . , xn ) = (x 1 , . . . , x m ) xm1 · · · xmn ohne Achsenabschnitt und ε der Fehlerterm mit Verteilungsfunktion F und Erwartungswert 0. Der Fehlervektor besitzt zudem die Verteilungsfunktion F . Der Parametervektor α erhält ein negatives Vorzeichen, damit die Schätzer leichter zu interpretieren sind. Dadurch gilt, dass ein positiver Schätzer sich positiv für die Wahrscheinlichkeit einer höheren Klasse auswirkt. Dieses sollte nur geändert werden, wenn die Kategorien der Zielvariable anders geartet sind, zum Beispiel wenn Kategorie Eins für „zufrieden“ und Kategorie Zwei „unzufrieden“ entspricht. Der Zusammenhang zwischen der kategorialen und der latenten Variablen erfolgt über Y0 = r ⇔ θ(r−1) < Y˜0 ≤ θr , mit −∞ = θ0 < θ1 < . . . < θq < θk = ∞ als Schwellenwerte auf dem latenten Kontinuum. Da die einzelnen Schwellen kumulativ erreicht werden, ergibt sich so der Modellname. Aus diesen geforderten Annahmen lässt sich die Wahrscheinlichkeit des Auftretens einer beliebigen Klasse r darstellen als P (Y0 = r|x) = P (θr−1 < Y˜0 ≤ θr |x) = P (Y˜0 ≤ θr |x) − P (Y˜0 ≤ θr−1 |x) = P (ε ≤ θr + x0 α) − P (ε ≤ θr−1 + x0 α) = F (θr + x0 α) − F (θr−1 + x0 α). Wird dabei θr als Parameter α0r für die Konstante angenommen, wird das kumulative Modell P (Y0 = r|x) = F (α0r + x0 α) − F (α0,r−1 + x0 α), mit r = 1, . . . , k erhalten. Dies lässt sich weiter vereinfachen zu P (Y0 ≤ r|x) = F (α0r + x0 α), 14 3 Statistische Methoden mit r = 1, . . . , k. Daraus ergeben sich die kumulativen Wahrscheinlichkeiten, die die Form eines binären Wahrscheinlichkeitsmodells besitzen, P (Y0 = 1|x) + . . . + P (Y0 = r|x) = P (Y0 ≤ r|x). Um die Formulierung des kumulativen Modells exakter angeben zu können, muss eine Wahl der Link-Funktion erfolgen. Wird für die Link-Funktion die logistische Funktion F (u) = exp(u) (1+exp(u)) gewählt, dann lässt sich die Wahrscheinlichkeit, dass mindestens Klasse r vorliegt, darstellen als P (Y0 ≤ r|x) = exp (α0r + x0 α) . (1 + exp (α0r + x0 α)) (3.1) Die Gleichung lässt sich nach dem Parameter α umstellen, sodass die logarithmierten Klassenwahrscheinlichkeiten betrachtet werden. Dazu wird zunächst die Wahrscheinlichkeit, dass eine höhere Klasse als r vorliegt P (Y0 > r|x) betrachtet. Diese lässt sich umstellen zu P (Y0 > r|x) = 1 − P (Y0 ≤ r|x), wobei mit Formel 3.1 gilt: 1 − P (Y0 ≤ r|x) = 1 − exp(α0r + x0 α) (1 + exp(α0r + x0 α)) = (1 + exp(α0r + x0 α)) − exp(α0r + x0 α) (1 + exp(α0r + x0 α)) = 1 . (1 + exp(α0r + x0 α)) Damit lässt sich Formel (3.1) darstellen als: exp(α0r + x0 α) P (Y0 ≤ r|x) = (1 + exp(α0r + x0 α)) ⇐⇒ ⇐⇒ ⇐⇒ P (Y0 ≤ r|x) = exp(α0r + x0 α) 1 P (Y >r|x) P (Y0 ≤ r|x) = exp(α0r + x0 α) P (Y0 > r|x) P (Y0 ≤ r|x) = α0r + x0 α . log P (Y0 > r|x) (3.2) Anhand der Formel (3.2) ist ersichtlich, dass die kumulierten logarithmierten Chancen einen linearen Zusammenhang besitzen. Bei der Wahl der passenden Link-Funktion ist zu beachten, 15 3 Statistische Methoden dass die logit-Funktion vor allem für gleichmäßige Klassenwahrscheinlichkeiten geeignet ist. Bei einem erhöhten Auftreten der höheren Kategorien eignet sich besonders die complementarylog-log-Funktion. Sind die niedrigeren Kategorien besonders stark besetzt, so kann die negative log-log-Funktion gewählt werden, vgl. Norušis (2011). 3.5.2 Sequentielles Modell Im Unterschied zum kumulativen Modell wird beim sequentiellen Modell davon ausgegangen, dass die verschiedenen Kategorien der Zielvariable nur sukzessive erreicht werden können, vgl. Tutz (1990). Dies ist eine erschwerte Annahme, die nicht immer getroffen werden kann. Die Verweildauer in den vorherigen Kategorien wird dabei nicht beobachtet. Bekannt ist wie beim kumulativen Modell nur die beobachtete Kategorie. Werden die Kategorien jedoch tatsächlich sukzessive erreicht, ist es sinnvoll diese Information mit in das Modell eingehen zu lassen. Bei dem sequentiellen Modell wird dies durch die dichotomen Übergänge erreicht. Als Modellgleichung kann für das sequentielle Modell Ỹ = −x0α + ε (3.3) in Abhängigkeit der unabhängigen Variablen xj = (x1j , . . . , xmj )0 , j = 1, . . . , n angenommen werden. Dabei beschreibt α = (α1 , . . . , αn )0 den Einfluss der Variablen x · · · x1n 11 .. .. 0 0 0 x = . . = (x1 , . . . , xn ) = (x 1 , . . . , x m ) xm1 · · · xmn 0 ohne Achsenabschnitt und ε der Fehlerterm mit Verteilungsfunktion F und Erwartungswert 0. Der Übergang der sukzessiven Kategorien der Zielvariable kann mit Hilfe dieser latenten Variable modelliert werden. Dabei gilt für den Übergang einer Kategorie r in die Kategorie r + 1, dass Y0 = r|Y ≥ r, falls Ỹr ≤ θr bzw. Y0 > r|Y ≥ r, falls Ỹr > θr , 16 3 Statistische Methoden mit θ1 ≤ . . . ≤ θk . Dieser Prozess stoppt, sobald der Übergang in die nächste Kategorie nicht mehr erfolgt. Die einzelnen Klassenwahrscheinlichkeiten, r−1 Y P (Y0 = r) = F (x α) (1 − F (x0 α)), 0 s=1 können mit der Verteilungsfunktion F speziell angegeben werden. Diese kann ebenso wie beim kumulativen Modell gewählt werden. 3.5.3 Schätzverfahren Als Schätzverfahren für ordinale Modelle wird, wie auch für die generalisierten Modelle, das Maximum-Likelihood-Prinzip angewendet, vgl. Fahrmeir et al. (2007a). Die Zielvariable Y ist, bedingt der unabhängigen Beobachtung x, Multinomialverteilt. Es gilt, Yi |x ∼ M (1, πi ), i = 1, . . . , n, mit n als Anzahl der Beobachtungen und πi = (πi1 , . . . , πi(k−1) ) als Parametervektor der Multinomialverteilung. Die einzelnen Wahrscheinlichkeiten πir = P (Yi = r|xi ) = P (yir = 1|xi ) = F (ηir ) − F (ηi(r−1) ) des Parametervektor πi sind über die linearen Prädiktoren ηi = α0r + x0 α von β abhängig, wobei β = (α01 , . . . , α0(k−1) ) ist. Die Likelihood-Funktion, die durch L(β) = n Y P (Yi1 = yi1 , . . . , Yi(k−q) = yi(k−1) ) i=1 = n Y i=1 n! yi(k−1) π1yi1 · · · π(k−1) yi1 ! · · · yi(k−1) ! · (n − yi1 − . . . − yi(k−1) )! · (n − πi1 − . . . − πi(k−1) )n−yi1 −...−yi(k−1) , angegeben werden kann, verwendet für jede der k Kategorien der Zielvariable eine dichotome Variable. Die Ausprägung der dichotomen Variable für jede Kategorie r, r = 1, . . . , k wird durch yir , i = 1, . . . , n beschrieben. Die Ausprägung der letzten Kategorie wird dabei durch yik = 1 − yi1 − . . . − yi(k−1) dargestellt und die Wahrscheinlichtkeit der letzten Kategorie πik 17 3 Statistische Methoden durch πik = 1 − πi1 − . . . − πi(k−1) . Da sich das Maximieren der Likelihood-Funktion aufgrund der zahlreichen Produkte schwierig gestaltet, wird die log-Likelihood, l(β) = n X (yi1 log(πi1 ) + . . . + yik log(πik )) + C, i=1 betrachtet. Dabei ist C die additive Konstante und anstelle der Produkte sind durch das Logarithmieren Summanden vorhanden, die das Maximierungsproblem vereinfachen. Durch das Ableiten der log-Likelihood-Funktion wird die Score-Funktion erhalten. Diese kann durch s(β) = n X x0i Di Σ0i (yi − πi ) i=1 angegeben werden. Erhalten wird diese Gleichung durch das Differential der log-LikelihoodFunktion nach β und entsprechendes umformulieren. Dabei ist Di = ∂ h(ηi ) ∂η und Σi die Kova- rianzmatrix. Die Funktion h(·) ist die Umkehrfunktion der Link-Funktion. Durch Nullsetzen der Scorefunktion, ŝ(β) = 0, wird der Maximum-Likelihood-Schätzer iterativ erhalten. Dazu kann das Fisher-Scoring-Verfahren verwendet werden, vgl. Fahrmeir et al. (2007a). Dies ist ein iteratives numerisches Verfahren, dass auf dem gewichteten Kleinste-Quadrate-Schätzer beruht. 3.6 Konfidenzintervall Da eine Punktschätzung für ein Odds-Ratio zwar möglich ist, jedoch keine große Auskunft gibt, da nicht bekannt ist, wie weit die Schätzung schwankt, ist es notwendig ein Konfidenzintervall anzugeben, vgl. Kreienbrock und Schach (1997). Ein Konfidenzintervall gibt an, in welchen Grenzen der wahre Parameter mit der Wahrscheinlichkeit 1 − α liegt. Ein Konfidenzintervall eines OR beruht dabei sinnvollerweise auf einem Konfidenzintervall eines Schätzers. Liegt ein ordinales Modell vor, so kann das Konfidenzintervall des Odds Ratio mit Hilfe der Parameterschätzer bestimmt werden. Da dieser Schätzer mit Hilfe der Maximum-LikelihoodMethode berechnet wurden, sind diese asymptotisch Normalverteilt. Das Konfidenzintervall für ein ordinales Regressionsmodell zum Niveau 1 − α kann durch q q ˆ ˆ ˆ ˆ c c exp βj − u1− α2 · Var(βj ) ; exp βj + u1− α2 · Var(βj ) 18 3 Statistische Methoden angegeben werden, wobei βj ; j = 1, . . . , m der j−te Parameterschätzer und u1− α2 das Quantil der entsprechenden Standardnormalverteilung ist. Die geschätzte Varianz des Schätzer ergibt sich 0 c βˆj ) = βˆj · Cov · βˆj , wobei Cov für die Kovarianzmatrix wiederum aus der Kovarianzmatrix: Var( steht. So lässt sich ein Konfidenzintervall angeben, mit dem direkt ersichtlich ist, in wie weit der geschätzte Wert schwankt. Liegt die Eins in dem Intervall, kann zum Niveau α nicht davon ausgegangen werden, dass eine veränderte Chance besteht. 3.7 Wald-Test Der Wald-Test wird verwendet um zu Testen, ob Parameter in einem logistischen bzw. ordinalen Modell signifikant von Null verschieden sind, vgl. Kreienbrock und Schach (1997). Der Test basiert auf der Annahme, dass die Parameter asymptotisch normalverteilt sind. Unter der Nullhypothese H0 wird getestet, ob der wahre Parameter gleich Null ist und somit die dazugehörige Variable keinen Einfluss auf die Zielvariable des Modells hat. Wird nur ein Parameter auf Signifikanz getestet, so lautet das Testproblem H0 : βj = 0 vs. H1 : βj 6= 0, j = 1, . . . , n , wobei n die Anzahl der Parameter im Modell ist. Es wird eine normierte Teststatistik verwendet Zj2 2 βbj = . Vd ar(βbj ) Da diese Teststatistik den Parameter standardisiert und quadriert, ist Zj2 unter H0 asymptotisch χ2 -verteilt mit einem Freiheitsgrad. Die Nullhypothese kann zu einem Niveau α abgelehnt werden, wenn die Teststatistik größer wird als das entsprechende Quantil der χ2 -Verteilung, Zj2 ≥ χ21,1−α , j = 1, . . . , n. Sollen mehrere Parameter gleichzeitig getestet werden, beispielsweise bei Dummy-Variablen, so lautet das Testproblem H0 : βi = βi+1 = . . . = βk = 0 19 vs. H1 : ∃βl 6= 0 , 3 Statistische Methoden mit 1 ≤ i ≤ k ≤ n und l ∈ {i, . . . , k}. Das multiple Analogon zur obigen Teststatistik lautet −1 b b b b d Z = (βi , . . . , βk ) · Cov βi , . . . , βk · (βb1 , . . . , βbl )0 . 2 d βbi , . . . , βbk die geschätzte Kovarianzmatrix, welche sich lediglich auf die zu Dabei ist Cov testenden Parameter bezieht. Die Teststatistik ist unter der Nullhypothese ebenfalls asymptotisch χ2 -verteilt. Die Freiheitsgrade ergeben sich aus der Anzahl der zu testenden Parameter. Die Nullhypothese kann verworfen werden, falls Z 2 > χ2k−i+1,1−α ist. 3.8 Gütekriterien Um die Güte eines generalisierten Modells zu beschreiben, können nicht die für linearen Modelle üblichen Maße verwendet werden, vgl. Burnham und Anderson (2004). Da es aber notwendig ist, die Güte eines Modells zu bestimmen, müssen dafür Alternativen betrachtet werden. Die Gütekriterien sind einerseits notwendig, um zu betrachten, ob die Daten ausreichend gut modelliert werden und andererseits um mit Hilfe einer Variablenselektion das „optimale“ Modell zu wählen. Dieses hängt daher immer von der Wahl des Gütekriteriums ab. Das adjustierte Bestimmtheitsmaß kann nicht für ordinale Regressionsmodelle verwendet werden, da dieses ausschließlich für lineare Modelle geeignet ist. Als Ersatz dafür kann ein Pseudo-Bestimmtheitsmaß betrachtet werden. Diese sind jedoch umstritten und es gibt viele verschiedene Definitionsversuche für ein Pseudo-Bestimmtheitsmaß. Für die Variablenselektion eignet sich das AIC oder das BIC am besten. Für die Betrachtung der generellen Modellgüte kann die Fehlklassifikationsrate verwendet werden. 3.8.1 AIC und BIC Das AIC, „Akaike information criterion“, ist ein Gütekriterium für generalisierte Modelle, vgl. Groß (2003). Dieses Kriterium fußt auf der log-Likelihood-Funktion der zu schätzenden Parameter. Da das Maximum dieser Log-Likelihood-Funktion jedoch negativ in das Kriterium eingeht, steht ein kleiner AIC-Wert für eine hohe Anpassungsgüte. Zudem enthält das Kriterium einen Strafterm für jeden zu schätzenden Parameter, sodass das Maß nicht automatisch mit dem Hinzufügen weiterer Einflussgrößen besser wird. Das AIC wird durch AIC = −2 · l(β) + 2((p − 1) + n) 20 3 Statistische Methoden berechnet, wobei das p hier für die Anzahl der zu schätzenden Parameter und n für die Anzahl an Beobachtungen steht. Dieses Kriterium ist relativ konservativ, das heißt es bevorzugt Modelle mit vielen Einflussgrößen. Ist ein Modell mit möglichst wenig Variablen gewünscht, so eignet sich dazu das BIC als Gütekriterium besser. Das BIC, „Bayesschen Informationskriteriums“, ist eine Modifizierung des AIC, vgl. Burnham und Anderson (2004). Das BIC enthält einen härteren Strafterm für das Hinzufügen weiterer Einflussgrößen. Es kann durch BIC = −2 · l(β) + log(n)((p − 1) + n), berechnet werden. Dies führt dazu, dass Modelle mit weniger Einflussgrößen bevorzugt werden, und so eine bessere Übersichtlichkeit gewährleistet werden kann. Diese Kriterien werden vor allem für die Variablenselektion gebraucht, bei der sie die Grundlage stellen, mit der die verschiedenen Modelle verglichen werden. 3.9 Variablenselektion Bei der Variablenselektion werden die Variablen ausgewählt, die nötig sind um das beste Modell zu erhalten. Um von einem besten Modell sprechen zu können, muss erst ein Kriterium ausgewählt werden, anhand dessen die Modelle verglichen werden. Ist nun ein Kriterium gewählt, wird versucht das Modell mit den Variablen aufzustellen die anhand des Kriteriums den besten Wert erzielen. Am einfachsten dafür ist es, sämtlich Modelle, d.h. alle vorstellbaren Variablenkombinationen, aufzustellen. Dann kann das Modell mit dem besten Wert gewählt werden. Oft ist es jedoch nicht möglich alle Modelle aufzustellen, da es zu viele Variablen gibt. Hierfür gibt es verschieden Selektionsverfahren. 3.9.1 Rückwärtsselektion Für die Rückwärtsselektion wird zuerst das volle Modell aufgestellt, d.h. das Modell mit sämtlichen Variablen, vgl. Groß (2003). Für dieses vollen Modelle wird der zugehörige Wert des ausgewählten Kriteriums berechnet. Im nächsten Schritt werden p Modelle aufgestellt, wobei p für die Anzahl der Variablen steht. In dem i-ten Modell wird die i-te Variable entfernt, mit 21 3 Statistische Methoden i = 1, . . . , p. Für jedes dieser Modelle wird nun die Güte berechnet und das Modell mit der höchsten Güte wird das neue Ausgangsmodell. Mit diesem neuen Ausgangsmodell wird nun genauso verfahren. Dies wird solange durchgeführt, bis der Güte-Wert des Ausgangsmodells besser ist, als sämtliche Güte-Werte die durch entfernen einer weiteren Variable entstehen. So wird ein gut angepasstes Modell gefunden, ohne sämtliche Modelle aufstellen zu müssen. 3.9.2 Vorwärtsselektion Bei der Vorwärtsselektion wird bei dem Modell ausschließlich mit Achsenabschnitt begonnen. Hierfür wird der zugehörige Wert des ausgewählten Kriteriums berechnet und im nächsten Schritt, wie bei der Rückwärtsselektion p Modelle aufgestellt. Hierbei wird jedoch keine Variable entfernt, sondern die entsprechende hinzugefügt. Auch hier wird dann das Modell mit dem besten Wert als neues Ausgangsmodell gewählt. Dies wird solange durchgeführt, bis keines der neuen Modelle einen besseren Güte-Wert aufweist, wie das entsprechende Ausgangsmodell. 3.9.3 Gemischte Selektion Zur Optimierung dieser Verfahren gibt es die gemischte Selektion, die sich sowohl Rückwärts, wie auch Vorwärts, anwenden lässt. Hierbei wird, z.B. bei der Rückwärtsselektion, für jedes neue Ausgangsmodell zuerst noch einmal jede Variable einzeln hinzugefügt, um zu erfahren, ob vielleicht doch eine Variable fälschlicherweise entfernt wurde. Ist der Güte-Wert mit einer Variable höher als die des Ausgangsmodells wird diese wieder hinzugefügt, ansonsten wird das Modell beibehalten und es kann der nächste Schritt der Rückwärtsselektion ausgeführt werden. Dies passiert nun bei jedem Schritt. Bei der Vorwärtsselektion wird genau umgekehrt verfahren. Die gemischte Selektion ist also ein kombiniertes Rückwärts-Vorwärts-Verfahren. Die gemischte Selektion bedeutet zwar mehr Rechenaufwand, liefert dafür meistens ein Modell mit höhere Güte. 3.9.4 Fehlklassifikationsrate Die Fehlklassifikationsrate gibt an, wie viel Prozent der Beobachtungen im Modell falsch klassifiziert werden. Eine geringe Fehlklassifikationsrate ist daher wünschenswert. Zur Berechnung der Fehlklassifikationsrate wird F = Kf Kf + Kr 22 3 Statistische Methoden berechnet, wobei Kr die richtig klassifizierten und Kf die falsch klassifizierten Beobachtungen sind. Dadurch ist der Wert der Fehlklassifikationsrate normiert zwischen Null und Eins. Gibt es mehr als zwei Klassen ist zudem die Art der Fehlklassifikation interessant. Hierbei ist eine Fehlklassifikation über mehrere Klassen schlechter, als eine Fehleinschätzung um nur eine Klassenstufe. Dafür kann eine Konfusionsmatrix aufgestellt werden. Dabei werden die tatsächlichen den modellierten Klassen gegenübergestellt. Auf der Hauptdiagonalen sind die richtig klassifizierten und auf der Nebendiagonalen die Beobachtungen, die lediglich um eine Klasse falsch eingestuft wurden. In den Ecken der Matrix sind die grob falsch klassifizierten Beobachtungen. Grade diese Beobachtungen sind von Interesse und sollten nicht zu zahlreich vorhanden sein, da diese vom vorhandenen Modell nicht erfasst werden können. 3.10 Kategoriale Regression verknüpft mit der Hauptkomponentenanalyse Wird im Datensatz zunächst mit Hilfe der Hauptkomponentenanalyse die Dimensionsanzahl reduziert, so lässt sich mit Hilfe der Hauptkomponenten eine Regression durchführen, vgl. Jolliffe (1986). Dieses Verfahren anzuwenden ist immer dann sinnvoll, wenn zu viele Variablen vorliegen und diese untereinander hoch korreliert sind. Liegt dementsprechend eine hohe Multikollinearität vor, so können die Modelle oftmals nicht oder nur fehlerhaft berechnet werden. Bei der Hauptkomponentnenanalyse kann dabei zum einen die Anzahl der Variablen reduziert und zum anderen existiert dabei keine Multikollinearität mehr. Das Modell der Hauptkomponentenregression lässt sich durch Ỹr = −Z 0 γ + εr r = 1, . . . , k, beschreiben. Die Matrix Z setzt sich aus den Hauptkomponenten zusammen. Diese sind entsprechend dem Varianzanteil sortiert. Sie lässt sich ebenfalls schreiben als Z = AX, dabei ist X die Datenmatrix und A die Matrix mit den p orthonormierten Eigenvektoren. Da A orthogonal ist, kann Xβ auch wie folgt geschrieben werden: Xβ = XAA0 β = Zγ. Somit ist γ = A0 β. Werden sämtliche Hauptkomponenten behalten, sind diese beiden Modelle äquivalent, da sich die Schätzer entsprechend umrechnen lassen. Der Schätzer für γ lässt sich mit Hilfe der MaximumLikelihood-Methode, wie in Kapitel 3.5.3 beschrieben, berechnen. Dieser Schätzer ist jedoch nur von geringem Interesse, da er den Einfluss der Hauptkomponenten beschreibt. Wichtiger ist der 23 3 Statistische Methoden Ursprungsschätzer β̂, der den Einfluss der Variablen des Datensatzes beschreibt. Der Schätzer β̂ bei der Hauptkomponentenregression lässt sich durch β̂ = Aγ̂ bestimmen. Wird mit Hilfe der Hauptkomponentenanalyse jedoch die Dimension reduziert, ändern sich auch die entsprechenden Schätzer. Auch wenn das für die Regressionsmethode nachteilig ist, ist dies oftmals der eigentliche Sinn einer Hauptkomponentenregression. Für den Schätzer γ̃ wird dementsprechend die reduzierte Hauptkomponentenmatrix à zur Schätzung der MaximumLikelihood-Methode mit Hilfe der Kleinsten Quadrate verwendet. Zur Berechnung der Schätzer der Ursprungsvariablen β̃ wird die reduzierte Hauptkomponentenmatrix benötigt. Hierbei wird der Schätzer durch β̃ = Ad γ̂ bestimmt. Dabei ist d die Anzahl der verwendeten Hauptkomponenten, mit der die Hauptkomponentenmatrix reduziert wird. Durch die Dimensionsreduktion findet auch eine Varianzreduktion vom Regressionskoeffizienten statt. Der Vorteil der verringerten Varianz bringt jedoch den Nachteil einer Verzerrung des Schätzers β̃ mit sich. Daher ist es hierbei besonders wichtig, genügend Hauptkomponenten mit ins Modell aufzunehmen, um die Verzerrung gering zu halten. Um zu entscheiden, welche Hauptkomponenten bei der Hauptkomponentenregression verwendet werden sollten, gibt es verschiedene Möglichkeiten. Zum einen können Hauptkomponenten weggelassen werden die nur eine sehr kleinen Teil der Varianz erklären, wie in Kapitel 3.1. Eine andere Möglichkeit wäre, die Hauptkomponenten auszuwählen, die stark mit der Zielvariable korreliert sind. Dies können unter Umständen Hauptkomponenten sein, die nur wenig Varianz erklären. 3.11 Entscheidungsbaum Eine weitere Möglichkeit eine Modellierung mit ordinaler Zielvariable vorzunehmen ist der Entscheidungsbaum, vgl. Hastie et al. (2008). Dieser hat den Vorteil der relativ einfachen Verständlichkeit und guten Übersichtlichkeit. Der Nachteil ist oftmals eine geringe Komplexität, die zur vollständigen Modellierung nicht ausreicht. 24 3 Statistische Methoden Bei einem Entscheidungsbaum werden die Daten durch bestimmte Regeln modelliert. Dabei kann sowohl eine Klassifikationsregel, wie auch die Modellierung einer Zielvariable erfolgen. Bei einer binären Zielvariable wird für jede Variable überprüft, welche Ausprägungen eher für den Faktor „1“ und welche eher für den Faktor „0“ sprechen. Bei kategorialen Variablen findet dabei eine Unterteilung in sämtliche Kategorien statt. Die Überprüfung der Variablen erfolgt dabei hierarchisch. Zuerst wird die Variable, die den höchsten Erklärungsanteil für die Zielvariable besitzt ausgewertet. Dabei wird der ursprüngliche Datensatz in mehrere neue Datensätze aufgeteilt. Die Aufteilung hängt dabei von den Ausprägungen der Variable ab. Die neuen Datensätze werden erneut aufgeteilt, mit der Variable, die in dieser Situation den größten Erklärungsgehalt besitzt. Dieses Verfahren wird solange fortgeführt bis alle Variablen im Modell enthalten sind oder eine gewisse Grenze erreicht wurde. Diese Grenze kann sowohl ein fest vorgegebener Maximalwert an Variablen sein, als auch ein Mindestmaß an Erklärung, das bei jeder weiteren Variable unterschritten werden würde. Wie der Erklärungsgehalt gemessen werden soll, kann frei entschieden werden. Eine mögliche Variante ist hierfür der F-Test. Die Wahl der Methode sollte im Bezug auf die unabhängige Variable gewählt werden. Wird ein Testverfahren als Methode gewählt, so kann zusätzlich eine Bonferroni-Holm-Adjustierung für multiples Testen vorgenommen werden. Wie mit der unabhängigen Variable umgegangen wird hängt von der Skalierung ab. Bei binären Variablen ist die Unterteilung des Datensatzes auf die zwei Ausprägungen notwendig. Bei nominalen oder ordinalen Variablen mit mehr als zwei Ausprägungen, kann entweder für jede Ausprägung eine Unterteilung stattfinden oder es werden verschiedene Ausprägungen zusammengefasst. Dabei werden oftmals zwei Gruppen gebildet, sodass ähnlich wie bei den binären Variablen verfahren werden kann. Bei kardinalskalierten Variablen ist es sinnvoll, diese in Intervalle einzuteilen, sodass das Verfahren der ordinalen und nominalen Variablen verwendet werden kann. Oftmals handelt es sich dabei um zwei Intervalle, die jeweils größer oder kleiner eines bestimmten Wertes sind. Da das Verfahren hierarchisch durchgeführt wird, lässt sich dieses auch grafisch anschaulich darstellen. Die Hierarchie dieses Verfahrens birgt jedoch auch Probleme. Da dieses Prinzip Abhängigkeiten und Synergien der Variablen unberücksichtigt lässt, besteht die Gefahr, dass das gefundene Modell nicht das beste Modell ist. Eine Möglichkeit dieses zu umgehen wäre eine gemischte Selektion der Variablen, ähnlich wie bei einer Regressionsanalyse. Da dieses jedoch viel Rechenzeit in Anspruch nehmen würde, wird in der Praxis auf einen interaktiven Entscheidungsbaum 25 3 Statistische Methoden zurückgegriffen. Der Unterschied zum klassischen Entscheidungsbaum liegt darin, dass der Benutzer selbst wählen kann, wann welche Variablen hinzugefügt werden sollen. Da der Benutzer so verschiedene Szenarien ausprobieren kann, ist dies ein Vorteil gegenüber dem klassischen Entscheidungsbaum. Der Nachteil hierbei ist, dass die Szenarien subjektiv vom Benutzer gewählt werden und auf Erfahrungswerten des Benutzers beruhen. Zur praktischen Ausführung muss zudem angegeben werden, wie viele Variablen maximal aufgenommen werden dürfen und in wie viele Ausprägungen diese unterteilt werden dürfen. Ansonsten besteht die Gefahr, dass die Rechenzeit zu groß wird. Da durch die verschiedenen Bewertungskriterien die Variablen untereinander schwer vergleichbar sind, ist es notwendig ein weiteres Maß zu finden, um beurteilen zu können, welche dieser Variablen letztendlich ausgewählt werden. Dazu wird der Datensatz durch eine Zufallsauswahl in zwei Datensätze aufgeteilt. Diese werden Validations- und Trainingsdatensatz genannt. Die Variable mit der geringsten Missklassifikationsrate im Validationsdatensatz wird ausgewählt. Der Algorithmus, mit dem ein solcher Entscheidungsbaum bestimmt werden kann, heißt CHAID (chi-square automatic interaction detection). Zusätzlich kann die Klassifikation mit einer Verlustfunktion verbunden werden, sodass Fehlentscheidungen unterschiedlich gewichtet werden. Der große Vorteil eines Entscheidungsbaums gegenüber eines logistischen Modells ist der Umgang mit fehlenden Werten. Während ein kategoriales Modell sämtliche Beobachtungen mit fehlenden Werten aus der Untersuchung ausschließen muss, ist es beim Entscheidungsbaum möglich, diese als weitere mögliche Ausprägung aufzufassen. Dies ist oftmals sinnvoll, da ein fehlender Wert, der durch eine fehlende Angabe einer bestimmten Person entstanden ist, durchaus eine Aussage besitzen kann. 3.12 Multiples Testen Um auch bei mehreren Testverfahren von einem Niveau α sprechen zu können, wird das Multiple Testen benötigt, vgl. Rüger (2002). Wenn das globale Niveau bei mehreren Tests nicht angepasst wird, ist der Fehler erster Art bei den einzelnen Tests noch kontrollierbar, jedoch steigt der globale Fehler über das gewünschte Niveau. Um diesem Effekt zu vermeiden, wird das Bonferroni-Holm Verfahren angewendet. Hierbei werden zuerst die einzelnen p-Werte der Größe nach aufsteigend sortiert und dann mit einem angepassten Niveau verglichen. Lässt sich der kleinste p-Wert nicht mehr verwerfen, 26 3 Statistische Methoden kann keine Nullhypothese abgelehnt werden. Ist dieser kleiner als das entsprechende Niveau, wird diese Nullhypothese verworfen und dann wird mit dem zweitkleinsten p-Wert identisch verfahren. Das angepasste Niveau wird dabei stufenweise gesteigert. Es gilt, pv ≤ α für v ∈ {1, 2, ..., u}, (m − v + 1) wobei u die Anzahl der Parameter ist, die getestet werden sollen. Dieses Verfahren ist weniger konservativ als das Multiple Testen nach Bonferroni, bei dem das globale Niveau für jeden einzelnen Test durch die Anzahl der gesamten Tests geteilt wird. 27 4 Statistische Auswertung Die beschriebenen Methoden werden in diesem Kapitel verwendet um passende Datensätze zur Fragestellung zu analysieren. Um die Einflüsse auf die Zufriedenheit der Bewohner der Stadtquartiere zu analysieren, werden zwei verschiedene Datensätze verwendet. Ziel ist es, genau zu differenzieren, welche Merkmale eines Quartiers eine positive oder negative Auswirkung haben. Diese können entsprechend verändert werden, um die Zufriedenheit der Bewohner zu steigern. Problematisch ist dabei der Versuch ein Empfinden zu quantifizieren. Dieses wird in beiden Datensätzen, wie in der Soziologie üblich, über Fragebögen versucht. Die Zufriedenheit wird in eine Skala unterteilt, bei der der Bewohner sich entscheiden kann, wie zufrieden oder unzufrieden er ist. Wichtig ist, dabei eine gelungene Balance zu finden, zwischen zu vielen und zu wenigen Kategorien. Bei zu vielen Kategorien können die befragten Personen verwirrt und willkürlicher antworten, bei zu wenigen Kategorien wird die Zufriedenheit nicht differenziert genug betrachtet. Sind für die Analyse zu viele Kategorien vorhanden, sodass die einzelnen Kategorien zu schwach besetzt und keine exakte Aussage getroffen werden kann, so können diese zusammengefasst werden. Der Nachteil dabei ist ein Informationsverlust. Zu Bedenken ist, dass einzelne Personen in identischen Situationen über eine unterschiedliche Zufriedenheit verfügen können. Dies kann mit ausreichender Stichprobengröße ausgeglichen werden. Im ersten Datensatz, dem BBSR-Datensatz, werden vor allem Merkmale abgefragt, die die Wohnumgebung beschreiben. Die sozialen Faktoren spielen dabei eine untergeordnete Rolle. Die Ergebnisse dieses Datensatzes werden mit einem zweiten Datensatz überprüft, oder wenn möglich, ergänzt. Der ALLBUS-Datensatz, der dafür verwendet wird, enthält vor allem soziale Faktoren, die sich auf die Quartierszufriedenheit auswirken können. Zusätzlich kann durch die Modellierung der beiden Datensätze erahnt werden, ob eher soziale oder die Wohnsituation beschreibende Merkmale die Zufriedenheit darstellen können. 4.1 Analyse des BBSR-Datensatzes Bei Betrachtung des BBSR-Datensatzes fällt zunächst auf, das die Anzahl der Beobachtungen über die Jahre leicht variieren, vgl. Tabelle 4.1. Dabei ist das Jahr 2000 das Jahr mit der höchsten Beobachtungsanzahl. Die Anzahl in den anderen Jahren schwankt etwa um 4 000 Beobachtungen herum und verfügt somit über eine 28 4 Statistische Auswertung Jahreszahl 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Anzahl Beobachtungen 5 732 3 920 3 900 4 009 3 989 4 007 3 252 3 286 3 698 3 544 3 387 3 948 Tabelle 4.1: Anzahl der Beobachtungen im BBSR-Datensatz für die Jahre 2000 bis 2011. ausreichende Anzahl zur Analyse. Zusätzlich ist auffällig, dass viele Variablen über eine sehr hohe Anzahl an fehlenden Werten verfügen. Diese sind hierbei mit negativen Ausprägungen gekennzeichnet. Dadurch gibt es zwei Möglichkeiten zur Analyse der Daten. Die Beobachtungen mit fehlenden Werte können für die Analyse ausgeschlossen werden oder die fehlenden Werte werden als eigene Kategorie aufgenommen. Zum einen gibt es kaum Beobachtungen, die in keiner Variable einen fehlenden Wert besitzen. Somit müssten die Variablen mit zu vielen fehlenden Werten zuerst vollständig eliminiert werden. Zum anderen können die fehlenden Werte in den einzelnen Variablen durchaus Aussagekraft besitzen, da die Fragen zu den entsprechenden Variablen oftmals bewusst nicht beantwortet wurden. Daher wird sich dafür entschieden, die fehlenden Werten beizubehalten und für die Analyse als eigenständige Kategorie zu betrachten. Deskriptiv betrachtet lässt sich ein Anstieg der Zufriedenheit über die Jahre in diesem Datensatz feststellen, ob dieser jedoch bei einer komplexeren Analyse besteht, wird später festgestellt. Dazu ist es sinnvoll ein Modell zu entwickeln, dass die Zufriedenheit in Abhängigkeit der vorhandenen Variablen stellt. Da es im BBSR-Datensatz verschiedene Zufriedenheitsvariablen gibt werden diese zunächst genauer betrachtet. Es existieren dabei die Zufriedenheit mit der Stadt oder Gemeinde, die Zufriedenheit mit der Wohnung, mit der unmittelbaren Wohnumgebung, mit den Umweltbedingungen und die Zufriedenheit mit dem Leben. Die Zufriedenheit mit der unmittelbaren Wohnumgebung ist dabei die gesuchte Zielvariable, die die Zufriedenenheit mit dem Wohnquartier widerspiegelt. Jedoch wäre es sachlich falsch, die Zufriedenheit mit dem Leben als unabhängige Variable und die Quartierszufriedenheit dabei als abhängige Variable zu betrachten. Daher wird für diesen Datensatz ein zweistufiger-Modellierungsansatz gewählt. Hierbei wird zuerst die Zufriedenheit mit der unmittelbaren Wohnumgebung mit den anderen Variablen, die 29 4 Statistische Auswertung keine Zufriedenheit widerspiegeln, modelliert. Danach wird die Lebenszufriedenheit mit sämtlichen Zufriedenheitsvariablen dargestellt. Dies erscheint plausibler und so kann überprüft werden, wie weit sich die Lebenszufriedenheit aus den einzelnen Zufriedenheiten ergibt. Zudem ist der Einfluss der anderen Variablen auf die Zufriedenheit mit dem Wohnquartier nicht verfälscht durch die Lebenszufriedenheit. Da die Datensituation so bestimmt werden konnte, ist eine Wahl der Modellierung notwendig. Drei verschiedene Ansätze werden dafür zunächst versucht. Zum einen ist es in einiger Literatur üblich, bei den vorhandenen sieben Ausprägungen der Zielvariable Zufriedenheit mit der unmittelbaren Wohnumgebung, eine gewöhnliche lineare Regression durchzuführen, bei der die eigentlich ordinale Zielvariable als metrisch aufgefasst wird. Der Nachteil dabei ist, das hierfür bewusst ein Fälschung der Datensituation vorgenommen wird. Der Vorteil dafür ist die einfache und erprobte Methodik. Außerdem ist ein Entscheidungsbaum möglich, bei dem die Variablen an verschiedenen Ästen auch graphisch gut dargestellt werden können. Der besondere Vorteil dabei ist die leichte Interpretation und der sinnvolle Umgang mit fehlenden Werten. Der Nachteil dabei ist eine geringe Komplexität, die der Datensituation nicht gerecht wird. Die letzte und vielversprechende Möglichkeit ist die kategoriale Regression. Hierbei wird eine Regression durchgeführt, die eine ordinale Zielvariable akzeptiert und sinnvoll umsetzt. Hierbei können auch Vorhersagen und Klassifizierungen vorgenommen werden. Ein Nachteil dabei ist die hohe Komplexität, die bei der großen Anzahl an Variablen die Berechnung deutlich verlangsamt. Eine Möglichkeit dem zuvor zu kommen, ist eine vorhergegangen kategoriale Hauptkomponentenanalyse. Diese kann die Variablenanzahl deutlich reduzieren und mit diesen neuen Variablen könnte eine kategoriale Regression erneut durchgeführt werden. Die aufgestellten Modell werden hinsichtlich ihrer Güte, unter anderem anhand der Fehlklassifikation, und ihrem Plausibilitätsgehalt überprüft. Für die Interpretation ist es sinnvoll, die Effekte der einzelnen Merkmale auf die Quartierszufriedenheit zu schätzen. So kann festgestellt werden, welche Quartierseigenschaften sich positiv beziehungsweise negativ auswirken. Gegen das Aufstellen eines gewöhnlichen linearen Modells spricht das Vorliegen einer ordinalen Zielvariable. Da bei einem gewöhnlichen linearen Modell eine metrische Zielvariable vorausgesetzt wird, müssen hier andere alternative Modelle aufgestellt werden. Die vorhandene ordinale Zielvariable künstlich als metrisch aufzufassen würde dabei zu einer großen Verfälschung führen. Zum einen müsste die Variable umkodiert werden, da die Programmiersprache SPSS eine ordinale Variable in einem gewöhnlichen Modell nicht akzeptiert, zum anderen sind auch Vorhersagen nicht sinnvoll möglich. Hierbei könnten Dezimalzahlen vorhergesagt 30 4 Statistische Auswertung werden oder auch Werte außerhalb der vorhandenen Skala. Darum muss die Modellierung der Klassenwahrscheinlichkeit vorgezogen werden. Die einfachste Möglichkeit hierbei wäre, die vorhandenen sieben Ausprägungen auf zwei zu verkleinern, in die Ausprägungen „zufrieden“ und „unzufrieden“. Diese Möglichkeit geht jedoch mit einem großen Informationsverlust einher. Daher wird im folgenden ein ordinales Regressionsmodell verwendet. Dabei wird sich für ein kumulatives Regressionsmodell entschieden. Gegen ein sequentielles Modell spricht, dass die Zufriedenheitsstufen nicht sukzessive erreicht werden können. Die Annahme, das jeder Mensch zuerst vollständig unzufrieden ist und mit verschiedenen Merkmalseigenschaften langsam an Zufriedenheit gewinnt ist zweifelhaft und wird daher nicht verwendet. Zuerst wird mit der „logit“-Funktion als Link-Funktion gearbeitet. Hierbei sind jedoch auch andere Link-Funktionen denkbar, die zusätzlich getestet werden. Die Vorgehensweise ist hierbei ein volles Modell aufzustellen und dieses mit Hilfe der Rückwärtsselektion zu verkleinern. Als Gütemaß wird dabei auf das BIC zurückgegriffen. Um allgemein festzustellen, ob das Modell die Daten gut beschreibt, wird die Fehlklassifikationsrate, die Konfusionsmatrix und das AIC, sowie das BIC verwendet. Da jedoch die einzelnen Variablen die die Zufriedenheit beschreiben, nicht als unabhängige Variablen gewählt werden können, wird hierbei ein zweistufiger Modellansatz gewählt. Dabei wird zuerst die Zufriedenheit mit dem Stadtquartier modelliert, ohne dabei die anderen Zufriedenheitsvariablen zu verwenden. Danach wird die Lebenszufriedenheit mittels der untergeordneten Zufriedenheitsvariablen modelliert. 4.1.1 Kumulative Regressionsanalyse Für das Modell mit der Zielvariable „Zufriedenheit mit unmittelbaren Wohnumgebung“ wird zuerst als Link-Funktion die „logit“-Funktion gewählt und somit ein kumulatives logistisches Modell aufgestellt. Die ordinale Zielvariable der Zufriedenheit mit dem Quartier hat dabei sieben verschiedene Ausprägung, wobei „1“ für sehr unzufrieden und „7“ für sehr zufrieden steht. Das Modell berechnet dabei die Wahrscheinlichkeiten einzelner Beobachtungen in eine der vorhandenen Klassen zu gehören. Die Klasse mit der höchsten Wahrscheinlichkeit wird für die Beobachtung vorhergesagt. Die Schätzer, die bei der Modellbildung berechnet werden, geben dabei Anhaltspunkte, welche Merkmale sich positiv oder negativ auf die Quartierszufriedenheit auswirken. 31 4 Statistische Auswertung 4.1.1.1 Voller Modellansatz ohne Wechselwirkungen Das gebildete volle Modelle enthält sämtliche Variablen des Datensatzes. Diese Variante wird ohne Wechselwirkungen gebildet, sodass hierbei ein reiner Längsschnitt betrachtet wird. Im nächsten Schritt werden dann die Wechselwirkungen mit den Jahren und somit auch ein Querschnitt betrachtet. Zuvor jedoch mussten einige Variablen entfernt werden, da diese eine zu starke Multikollinearität aufwiesen, vgl. Tabelle 4.2. Dabei wurden die Variablen ausgewählt, die zu mindestens 80% mit Variablenname heizk heizextr hwwpausc wwgeld wwpausch turnus betrtur betrjah foe-Variablen aus_kue westost1 fam_ka caticapi hh-Variablen persein2 fam_elt beamter kinder1 kinder2 Bedeutung Monatliche Heizkostenpauschale Durchschnittliche monatl. Heizkosten (extra) Wie hoch ist die monatliche Pauschale für Heizung und Warmwasser? Monatlicher Zahlbetrag als Warmwassergeld Monatliche Warmwasserpauschale Turnus oder Zeitabstand für die Zahlung von Warmwasser und Heizung Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird Höhe des jährlichen Betrages normalerweise Staatliche Förderung Ist eine separate Küche vorhanden West- oder Ostdeutschland (Berlin zugehörig zu Ostdeutschland) Keine Angabe bei Familienstand Befragungstyp Personen im Haushalt berufstätig/Studenten Anzahl Einkommensbezieher im Haushalt Bei den Eltern lebend Beamter Anzahl Kinder unter 6 Jahren Anzahl Kinder unter 12 Jahren Tabelle 4.2: Variablen mit zu hoher Multikollinearität, die aus dem Datensatz zur Analyse entfernt werden müssen. anderen Variablen- oder Variablengruppen übereinstimmten. Durch die reduzierte Anzahl an Variablen konnten Konvergenzschwierigkeiten der Schätzer bei der Modellberechnung umgangen werden. Bei den meisten dieser Variablen, gibt es vergleichbare Variablen, die einen ähnlichen Inhalt vorweisen, sodass der Informationsverlust gering gehalten werden kann. So ist zur Variable „westost1“ die Variable „westost2“ vorhanden, die lediglich die Zugehörigkeit Berlins in West-Berlin und Ost-Berlin spaltet, im Gegensatz zur anderen Variable. Für die Variablen der Kinderanzahl gibt es eine Variable, die die Kinderanzahl von Kindern bis 16 Jahren enthält. Für die Variable der seperaten Küche existiert die Abfrage eines zusätzlichen Gäste-WC’s, die eine hohe Korrelation aufweisen. Die staatlichen Förderungsvariablen haben eine hohe Korrelation 32 4 Statistische Auswertung mit vielen anderen Variablen des Datensatzes und müssen daher vollständig eliminiert werden, damit eine Analyse der Daten stattfinden kann. Die Heizkostenvariablen werden durch die Mietkosten abgedeckt. Auch auf die anderen Variablen musste aufgrund der hohen Korrelation verzichtet werden, obwohl diese keine inhaltlich äquivalenten Variablen aufweisen. Eine weitere Methode ist eine vorher durchgeführte Hauptkomponentenanalyse für kategoriale Variablen. Der Nachteil bei der Methodik ist die erschwerte Interpretation. Der große Vorteil dabei ist, dass keine Variablen manuell aus dem Datensatz entfernt werden müssen. Diese Methodik ist daher weniger heuristisch. Diese beiden Methoden zur Vermeidung von Multikollinearität können so später verglichen und getestet werden. Für das volle Modell ohne Wechselwirkungen, zu7_umg = α0 + α1 xjahr + α2 xbula + α3 xschulab2 + α4 xstudium + α5 xfam_stan2 + α6 xfam_kind + α7 xkinder3 + α8 xhhgrupp2 + α9 xgeggeb + α10 xgegzent + α11 xgeghaus + α12 xgegweinh + α13 xwgalt2 + α14 xwgjung2 + α15 xwgfam2 + α16 xwgarb2 + α17 xwgakad2 + α18 xwgausl2 + α19 xverh_da + α20 xkon_aus + α21 xkon_deu + α22 xumzplan + α23 xwila_zz + α24 xerw_stat + α25 xsich_ap + α26 xverein + α27 xpkw2 + α28 xgeschl + α29 xalter + α30 xaus_balk + α31 xaltgeb_4 + α32 xhaustyp + α33 xzust_geb + α34 xerw_sta3 + α35 xteilvoll + α36 xbst_zz3 + α37 xangest + α38 xsgtyp + α39 xortsgro + α40 xstadt1 + α41 xstadt2 + α42 xzuzOrt + α43 xzuzWohn + α44 xwohnstat + α45 xmiete + α46 xbeu_miet + α47 xtransfer + α48 xqumeter + α49 xraeume + ε , (4.1) können die Schätzer für die Merkmale erhalten werden, vgl. Tabelle A.2 auf Seite 85. Die einzelnen Parametervektoren α stehen dabei für die Dummy-Variablen αi = (αi,1 , . . . , αi,t ). Dabei steht t für die Anzahl der Kategorien der einzelnen Variablen. Die genauen Bedeutungen der einzelnen Variablen des BBSR-Datensatzes sind dem Anhang auf Seite 79 in Tabelle A.1 zu entnehmen. Der AIC-Wert des Modells beträgt 131 159.61, der BIC-Wert liegt bei 132 736.6. Diese Werten besitzen zwar noch keine Aussagekraft, damit können jedoch zukünftige Modelle verglichen werden. 33 4 Statistische Auswertung Variable exponierter Schätzwert exponierte Varianz jahr 1.0754 1.0000 geggeb1 1.0872 1.0083 geggeb2 1.0254 1.0083 gegzent1 1.0955 1.0007 gegzent2 0.5043 1.0002 gegzent3 0.9793 1.0016 gegzent4 0.8572 1.0064 geghaus1 0.9867 1.0124 geghaus2 1.0419 1.0139 geghaus3 0.9771 1.0076 gegweinh1 1.2062 1.0070 gegweinh2 0.9103 1.0069 gegweinh3 1.0511 1.0009 wgalt21 0.7142 1.0004 wgalt22 0.7943 1.0103 wgalt23 0.8652 1.0145 wgalt24 0.9231 1.0150 wgalt25 1.0854 1.0112 wgjung21 1.3214 1.0007 wgjung22 1.2305 1.0106 wgjung23 1.4481 1.0122 wgjung24 1.5021 1.0085 wgjung25 1.6194 1.0012 wgfam21 0.8332 1.0007 wgfam22 0.8144 1.0125 wgfam23 0.8033 1.0124 wgfam24 0.8512 1.0116 wgfam25 0.9170 1.0019 wgarb21 1.3873 1.0006 wgarb22 1.0978 1.0142 wgarb23 0.9957 1.0136 34 4 Statistische Auswertung Variable exponierter Schätzwert exponierte Varianz wgarb24 0.9294 1.0161 wgarb25 0.9639 1.0062 wgakad21 0.7516 1.0143 wgakad22 0.8428 1.0138 wgakad23 0.9782 1.0164 wgakad24 1.1485 1.0069 wgakad25 1.4227 1.0005 wgausl21 1.5675 1.0108 wgausl22 0.9731 1.0127 wgausl23 0.7519 1.0154 wgausl24 0.5496 1.0044 wgausl25 0.3444 1.0019 verh_da1 1.5203 1.0131 verh_da2 1.0951 1.0132 verh_da3 0.5829 1.0017 kon_aus0 0.8798 1.0070 kon_aus1 1.2117 1.0106 kon_aus2 1.1211 1.0130 kon_deu1 1.3571 1.0005 kon_deu2 1.9930 1.0001 umzplan1 0.8658 1.0040 umzplan2 1.0429 1.0120 umzplan3 1.6808 1.0159 erw_stat1 1.0303 1.0074 erw_stat2 0.8100 1.0092 sich_ap1 1.0322 1.0111 sich_ap2 0.8955 1.0168 sich_ap3 0.8550 1.0046 sich_ap4 0.8495 1.0008 sich_ap5 0.8844 1.0004 haustyp 0.9740 1.0069 35 4 Statistische Auswertung Variable exponierter Schätzwert exponierte Varianz zust_geb1 2.5893 1.0152 zust_geb2 1.5980 1.0120 zust_geb3 1.2536 1.0157 zust_geb4 0.9777 1.0015 zust_geb5 0.8845 1.0001 teilvoll1 0.8743 1.0057 teilvoll2 0.9162 1.0031 teilvoll3 0.8015 1.0008 bst_zz31 0.9891 1.0114 bst_zz32 1.4710 1.0113 bst_zz33 0.8435 1.0032 bst_zz34 1.1221 1.0003 bst_zz35 1.0110 1.0007 bst_zz36 0.8834 1.0020 bst_zz37 0.9885 1.0002 bst_zz38 8.2192 1.0000 ortsgro1 1.8023 1.0073 ortsgro2 0.9566 1.0069 stadt11 2.3587 1.0139 stadt12 2.5716 1.0138 wohnstat1 0.7782 1.0118 wohnstat2 0.7271 1.0007 wohnstat3 0.8341 1.0099 wohnstat4 0.7642 1.0022 wohnstat6 0.8126 1.0001 qumeter 1.0006 1.0003 Tabelle 4.3: Variablen mit exponierten Schätzern und Varianzen die hinsichtlich ihres p-Wertes einen erhöhten Einfluss auf die Zielvariable besitzen. Alle exponierten Schätzer können der Tabelle A.2 im Anhang auf Seite 85 entnommen werden. In der Tabelle 4.3 sind die exponierten Schätzer aufgelistet, die hinsichtlich des Konfidenzin- 36 4 Statistische Auswertung tervalls, beziehungsweise des p-Wertes den größten Einfluss haben. Die p-Werte der Variablen sind jedoch alle sehr nahe bei Null, sodass sie nicht darstellbar sind. Wird die Signifikanz der einzelnen Variablen zum Niveau 5% multiple getestet, so kann nur bei wenigen Kontrollvariablen die Nullhypothese, dass diese keinen Einfluss haben, nicht abgelehnt werden. Für die kategorialen Variablen gilt dabei, dass die Dummy-Variablen zusammen getestet werden müssen. Durch die Schätzwerte, ist zu erkennen, dass die Zufriedenheit mit der Wohnumgebung bei Menschen in Einfamilienhäusern wesentlich höher ist, als bei Menschen in Hochhäusern. Dies ist an der Variable „Haustyp“ zu erkennen. Zudem sind Menschen in Wohnumgebungen die aus reinen Wohnungen bestehen zufriedener, als wenn sich in dieser häufig Geschäfte und Betriebe befinden. Die Chance auf eine erhöhte Zufriedenheit beträgt dabei fast 10%. Dies gibt der Schätzer für die Variable „geggeb“ wieder. Interessanterweise steigt die Zufriedenheit in Wohngebieten mit überwiegend Altbauten gegenüber reinen Neubaugebieten, wie es die Variable „geghaus“ zeigt. Hier sinkt die Chance um etwa 7% auf eine hohe Zufriedenheit, wenn die Person in einem Neubaugebiet wohnt. Das bedeutet, dass Neubaugebiete tendenziell unzufriedenere Bewohner haben, als ältere Gebiete. Dieser Effekt ist überraschend und muss daher noch genauer untersucht werden. Dies wird in diesem Datensatz in einem zweiten Modellansatz mit Hilfe von Wechselwirkungen geschehen. Zusätzlich kann im zweiten Datensatz die soziologische Komponente dafür näher betrachtet werden. Es ist möglich, dass in den Neubaugebieten eine soziale Anbindung an die unmittelbare Wohnumgebung noch fehlt und daher die Zufriedenheit sinkt. Während eine Wohngegend mit vielen älteren oder jüngeren Menschen die Zufriedenheit stärkt, so sinkt diese, umso mehr junge Familien in der Umgebung wohnen. Wohngegenden in denen ein hohes Einkommen vorliegt sind tendenziell zufriedener als Wohngegenden mit geringem Einkommen. Dies zeigen die „wg-Variablen“ sehr deutlich. Am deutlichsten sinkt die Zufriedenheit mit einer Wohngegend bei einem höheren Ausländeranteil. Wobei hier vor allem ein sehr großer Ausländeranteil sich besonders negativ auswirkt. Die Wahrscheinlichkeit in eine höhere Zufriedenheitsklasse zu gelangen sinkt um fast 300%. Dieser Effekt verstärkt sich weiter, wenn es öfter zu Auseinandersetzungen mit Ausländern kommt. Bei einem guten oder normalen Verhältnis steigt die Zufriedenheit wieder leicht. Auch ein unsicherer Arbeitsplatz, Variable „sich_ap“, wirkt sich negativ auf die Zufriedenheit mit der Wohnumgebung aus, wobei dies eher als Kontrollvariable zu betrachten ist. Zusätzlich stärkt der Wunsch in der Wohngegend zu bleiben die Zufriedenheit, wie die Variable „umzplan“ aufzeigt. Über die Jahre hinweg steigt die Zufriedenheit der Bewohner mit dem Wohnquartier an, hier scheint es eine positive Entwicklung 37 4 Statistische Auswertung zu geben. Die Konfusionsmatrix zeigt dabei, dass vor allem das untere Dreieck der Matrix stark besetzt ist, vgl. Tabelle 4.4. Fehlentscheidungen von mehreren Kategorien sind ein eher seltener Fall. Die unteren Klassen werden dabei geringer vorhergesagt, als die höheren Klassen. Die Fehlklassifikationsrate liegt bei 61.24%. Dieser Wert wird versucht zu verbesserern. Modellklassifizierung 1 2 3 4 5 6 P7 1 19 6 15 39 222 307 125 733 2 17 8 10 44 376 550 143 1 148 Wahre Klasse 3 4 5 12 15 10 2 2 2 15 9 5 42 49 43 701 1 141 1 648 956 2 190 5 862 173 422 1 530 1 901 3 828 9 100 6 7 5 2 3 0 4 2 20 9 1 356 572 9 317 6 231 4 328 6 356 15 033 13 172 P 80 23 60 246 6 016 25 413 13 077 44 915 Tabelle 4.4: Konfusionsmatrix des vollen Modells ohne Wechselwirkungen. Es sind zwar sämtliche Klassen besetzt, doch ist deutlich das grade die unteren drei Klassen bei der Vorhersage dieses Modells deutlich unterbesetzt sind. Eine Variablenselektion mittels der Rückwärtsselektion, auf Basis des BIC, entfernt nur wenige Variablen und kann so das Modell nicht deutlich verbessern. 4.1.1.2 Modellansatz mit Wechselwirkungen Ein weiterer interessanter Ansatz ist das Hinzufügen von Wechselwirkungen. Da dadurch weitere Variablen in das Modell aufgenommen werden, müssen vorher welche entfernt werden, damit die Berechnung weiterhin möglich ist. Ein Modell mit sämtlichen Variablen inklusive Wechselwirkungen ist zur Berechnung der Schätzer nicht möglich. Daher werden zuerst Variablen, die bei der Variablenselektion entfernt werden, die bei dem Wald-Test auf Signifikanz einen erhöhten p-Wert aufweisen und die sachlogisch für die Analyse nicht zwingend benötigt werden entfernt. Als Wechselwirkungen, die von Interesse sind, sind vor allem die Wechselwirkungen mit den Erhebungsjahren, da so die Möglichkeit eines Querschnittes gegeben wird. Zudem sind 38 4 Statistische Auswertung Wechselwirkungen mit der Variable der Neubaugebiete interessant, da dieser Effekt genauer betrachtet werden soll. Das entsprechende Modell, dass nach einer Rückwärtsselektion entsteht, zu7_umg = α0 + α1 xjahr + α2 xwestost2 + α3 xkinder3 + α4 xgeggeb + α5 xgegzent + α6 xgeghaus + α7 xgegweinh + α8 xwgalt2 + α9 xwgjung2 + α10 xwgfam2 + α11 xwgarb2 + α12 xwgakad2 + α13 xwgausl2 + α14 xverh_da + α15 xumzplan + α16 xsich_ap + α17 xpkw2 + α18 xgeschl + α19 xalter + α20 xaus_balk + α21 xaltgeb_4 + α22 xhaustyp + α23 xzust_geb + α24 xerw_sta3 + α25 xbst_zz3 + α26 xsgtyp + α27 xortsgro + α28 xstadt1 + α29 xzuzOrt + α30 xzuzWohn + α31 xwohnstat + α32 xmiete + α33 xbeu_miet + α1,2 xjahr xwestost2 + α1,3 xjahr xwgalt2 + α1,4 xjahr xwgausl2 + α1,5 xjahr xgeghaus + α2,1 xgeghaus xortsgro + α2,2 xgeghaus xstadt1 + α2,3 xgeghaus xwestost2 + ε, enthält interessante Wechselwirkungen. Die einzelnen Parametervektoren α stehen dabei für die Dummy-Variablen αi = (αi,1 , . . . , αi,t ). Dabei steht t für die Anzahl der Kategorien der einzelnen Variablen. Die Schätzer für die einzelnen Variablen können der Tabelle A.3 im Anhang auf Seite 89 entnommen werden. Die exponierten Schätzer nur für die Wechselwirkungen finden sich in Tabelle 4.5. Die Wechselwirkung suggeriert, dass die Zufriedenheit in Neubaugebieten über die Jahre hinweg zunimmt, sodass die neu geplanten Neubaugebiete eine höher Quartierszufriedenheit bieten als ältere. Die Zufriedenheit in Wohnquartieren mit vielen älteren und jüngeren Menschen nimmt jedoch über den Zeitverlauf ab. Die Wechselwirkungen der Variable "geghaus“, die das Wohnquartier beschreiben, zeigt, dass Neubaugebiete vor allem in Städten mit unter 20 000 Einwohner für eine geringe Zufriedenheit sorgt. Bei Städten mit über 20 000 Einwohner besitzen ältere Wohngebiete gegenüber Neubaugebieten keine erhöhe Chance auf zufriedene Bewohner. Dies unterstreicht die Möglichkeit, das vor allem die soziale Anbindung in älteren Wohngebieten in kleineren Städten oder Gemeinden für eine erhöhte Zufriedenheit sorgt. Im Osten ist die Zufriedenheit mit den Neubaugebieten geringer als im Westen der Republik. Durch das Hinzufügen der Wechselwirkung verliert das Modell jedoch an Güte, dies ist am AIC, das 132 356.62 beträgt und das BIC das bei 133 768.1, aber auch an der Fehlklassifikation, die auf 61.9% gestiegen ist, zu erkennen. Auch die Konfusionsmatrix macht einen deutlich schlechteren Eindruck, vgl. Tabelle 4.6. 39 4 Statistische Auswertung Variablenname 1. Haupteffekt 2. Haupteffekt jahr westost22 jahr wgalt21 jahr wgalt22 jahr wgalt23 jahr wgalt24 jahr wgalt25 jahr wgausl21 jahr wgausl22 jahr wgausl23 jahr wgausl24 jahr wgausl25 jahr geghaus1 jahr geghaus2 jahr geghaus3 geghaus1 ortsgro1 geghaus2 ortsgro1 geghaus3 ortsgro1 geghaus1 ortsgro2 geghaus2 ortsgro2 geghaus3 ortsgro2 geghaus1 stadt11 geghaus2 stadt11 geghaus3 stadt11 geghaus1 stadt12 geghaus2 stadt12 geghaus3 stadt12 westost22 geghaus1 westost22 geghaus2 westost22 geghaus3 exponierter Schätzwert 0.9611 0.9647 1.0300 1.0192 1.0235 1.0210 1.0930 1.0877 1.0789 1.0332 1.0303 0.9913 0.9653 0.9939 0.2003 0.0105 0.5275 1.2789 1.5712 1.1574 0.1629 0.0062 0.5717 0.1588 0.0082 0.3472 0.9340 0.8018 0.6729 exponierte Varianz 1.0000 1.0001 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0081 1.0063 1.0006 1.0080 1.0063 1.0006 1.0066 1.0032 1.0004 1.0071 1.0046 1.0007 1.0016 1.0009 1.0004 Tabelle 4.5: Variablen der Wechselwirkungen mit exponierten Schätzern und Varianzen für das Modell mit Wechselwirkung. Hierbei wird die dritte Klasse der Zufriedenheit mit dem Wohnquartier überhaupt nicht vorhergesagt. Die Fehlklassifikationsrate ist zwar nur knapp gestiegen, aufgrund der Konfusionsmatrix ist jedoch zu erkennen, dass diesem Modell keine gelungene Klassifizierung gelingt. Die Wahl einer anderen Link-Funktion scheint sinnvoll zu sein, da die Klassenstärke hier nicht als Gleichverteilt angesehen werden kann. Da vor allem die ersten drei Klassen deutlich schwächer besetzt sind, ist hier die Wahl der „negativen log-log“ als Link-Funktion angebracht. Werden die vorher beschriebenen Modelle jedoch mit Hilfe dieser Link-Funktion neu berechnet, so ändert sich weder die Modellgüte, noch die Schätzer wesentlich. Im Gegenteil, die ersten Klassen 40 4 Statistische Auswertung Modellklassifizierung 1 2 3 4 5 6 P7 1 13 24 0 34 241 301 120 733 2 17 15 0 45 387 550 134 1 148 Wahre Klasse 3 4 5 6 4 6 18 22 12 0 0 0 56 52 36 716 1 152 1 745 934 2 173 5 741 171 425 1 560 1 901 3 828 9 100 6 7 6 0 5 3 0 0 25 16 1 499 651 9 233 6 455 4 265 6 047 15 033 13 172 P 52 99 0 264 6 391 25 387 12 722 44 915 Tabelle 4.6: Konfusionsmatrix des Modells mit Wechselwirkungen. werden bei der Schätzung noch schwächer besetzt. Daher bietet sich auch diese Methode hier nicht an. 4.1.1.3 Modellansatz mit transformierte Zielvariable Als Ausweg wird die Zielvariable selbst transformiert. Anstelle der bisher vorhandenen sieben Klassen, werden diese auf drei neue reduziert. Die erste drei Klassen bilden dabei die Klasse der „unzufriedenen“, die vierte und fünfte Klasse die „zufriedenen“ und die letzten beiden Klassen, die sechste und siebte werden in die „sehr zufriedene“ Klasse transformiert. Dadurch sind die Klassen nicht ganz so deutlich ungleich besetzt. Dies erleichtert die Modellierung erheblich. Wie Klasse Unzufrieden Zufrieden Sehr zufrieden Anzahl Beobachtungen 3 782 12 929 28 211 Tabelle 4.7: Vergleich der Klassenstärke der neu gebildeten Zielvariable. in Tabelle 4.7 entnommen werden kann, ist die erste Klasse immer noch deutlich schwächer besetzt, hat jedoch mit fast 4 000 Beobachtungen eine ausreichend große Fallzahl. Zu erwarten ist bei den neuen Modellen nicht nur eine deutlich geringe Fehlklassifikationsrate, aufgrund der geringen Anzahl an Klassen, sondern auch eine bessere Abbildung der Klasse der unzufriedenen Bewohner. Erneut wird das Modell aus Gleichung 4.1 verwendet, jedoch mit veränderter Zielvariable. 41 4 Statistische Auswertung Variablenname exponierter Schätzwert exponierte Varianz jahr 1.0752 1.0000 geggeb1 1.1709 1.0095 geggeb2 1.0062 1.0096 gegzent1 1.2697 1.0008 gegzent2 0.6061 1.0003 gegzent3 1.0997 1.0016 gegzent4 0.9806 1.0075 geghaus1 1.0022 1.0143 geghaus2 1.1000 1.0156 geghaus3 1.0801 1.0079 wgalt21 0.8768 1.0004 wgalt22 0.9695 1.0120 wgalt23 1.0385 1.0171 wgalt24 1.1410 1.0176 wgalt25 1.2675 1.0134 wgjung21 0.9048 1.0009 wgjung22 0.9883 1.0124 wgjung23 1.1341 1.0142 wgjung24 1.1856 1.0098 wgjung25 1.2239 1.0015 wgfam21 0.9862 1.0008 wgfam22 1.0292 1.0146 wgfam23 1.0090 1.0145 wgfam24 1.0628 1.0135 wgfam25 1.0879 1.0022 wgarb21 1.3092 1.0006 wgarb22 1.1325 1.0156 wgarb23 1.0348 1.0166 wgarb24 0.9446 1.0193 wgarb25 0.9576 1.0094 wgakad21 0.7612 1.0173 42 4 Statistische Auswertung Variablenname exponierter Schätzwert exponierte Varianz wgakad22 0.8554 1.0157 wgakad23 1.0539 1.0181 wgakad24 1.2060 1.0060 wgakad25 1.3548 1.0005 wgausl21 1.4173 1.0127 wgausl22 0.9004 1.0151 wgausl23 0.6637 1.0182 wgausl24 0.4788 1.0066 wgausl25 0.3133 1.0027 verh_da1 1.5654 1.0154 verh_da2 1.1381 1.0156 verh_da3 0.6141 1.0022 kon_aus0 0.8649 1.0062 kon_aus1 1.1806 1.0119 kon_aus2 1.0857 1.0148 kon_deu1 1.4041 1.0005 kon_deu2 1.6181 1.0001 umzplan1 0.9070 1.0047 umzplan2 1.1044 1.0133 umzplan3 1.8157 1.0175 erw_stat1 0.8740 1.0086 erw_stat2 0.8144 1.0105 sich_ap1 1.0259 1.0116 sich_ap2 0.9485 1.0196 sich_ap3 0.8905 1.0061 sich_ap4 0.8258 1.0010 sich_ap5 0.9965 1.0005 aus_balk1 1.1073 1.0142 aus_balk2 1.0534 1.0115 altgeb_4 0.9997 1.0040 haustyp 0.9759 1.0079 43 4 Statistische Auswertung Variablenname exponierter Schätzwert exponierte Varianz zust_geb1 3.2154 1.0178 zust_geb2 2.2878 1.0142 zust_geb3 1.6626 1.0178 zust_geb4 1.3969 1.0021 zust_geb5 1.5161 1.0001 erw_sta31 0.7496 1.0077 erw_sta32 0.8121 1.0069 erw_sta33 0.8486 1.0081 erw_sta34 0.9929 1.0006 erw_sta35 0.8355 1.0017 erw_sta36 0.8358 1.0020 erw_sta37 0.8425 1.0052 ortsgro1 1.5508 1.0086 ortsgro2 0.9241 1.0081 stadt11 2.2490 1.0165 stadt12 2.3962 1.0166 stadt21 1.4366 1.0195 stadt22 1.3367 1.0179 stadt23 1.4839 1.0177 Tabelle 4.8: Variablen mit exponierten Schätzern und Varianzen, die auf Basis des Konfidenzintervalls bzw. des p-Wertes einen erhöhten Einfluss haben im Modell ohne Wechselwirkung mit geänderter Zielvariable. Die Fehlklassifikationsrate beträgt in diesem Modell in etwa 34.89% und die Konfusionsmatrix hat eine starke Hauptdiagonale, vgl. Tabelle 4.9. Der Wert des AIC beträgt 70 417 und der des BIC liegt bei 71 979. Daher scheint dieses Modell durchaus geeignet die Daten zu modellieren. Modellklassifizierung 1 2 3 P Wahre Klasse 1 2 3 235 134 55 1 430 3 147 2 286 2 117 9 647 25 864 3 782 12 928 28 205 P 424 6 863 37 628 44 915 Tabelle 4.9: Konfusionsmatrix des vollen Modells mit Transformation der Zielvariable. 44 1.0 1.2 ● 0.8 ● ● 0.6 Chance auf eine höhere Zufriedenheit 1.4 4 Statistische Auswertung 0.4 ● ● 1 2 3 4 5 Höhe des Ausländeranteils, kategorisiert in fünf Stufen Abbildung 4.1: Veränderung der Chance auf eine erhöhte Zufriedenheit mit wachsendem Ausländeranteil. 45 4 Statistische Auswertung Zu Erkennen ist anhand der Konfusionsmatrix, dass hierbei keine Klasse unbesetzt ist. Die erste Klasse ist zwar weiterhin die schwächste Klasse, aber hat immerhin eine Größe von 424 vorhergesagten Beobachtungen. Zudem ist die Fehlklassifikationsrate bei einer befriedigenden Größe. Die Tendenzen der Schätzer bleiben dabei erhalten, vor allem ein hoher Ausländeranteil sorgt für ein unzufriedenes Wohnquartier, vgl. Tabelle 4.8. Erhofft wäre hierbei, dass ein gewisser Anteil an Ausländern einen positiven Effekt auf das Quartiert hat und ab einem bestimmten Prozentsatz die Zufriedenheit ins negative verkehrt. Die Schätzer legen jedoch nahe, dass ein geringer bis mittlerer Anteil an Ausländer im Quartier die Zufriedenheit der Bewohner leicht senken, und ein hoher Ausländeranteil die Zufriedenheit sehr stark senkt. Wird die Zufriedenheit grafisch gegen den Ausländeranteil abgetragen, wird sichtbar, dass keine Ausländer im Wohnquartier die Chance auf eine hohe Zufriedenheit erhöhen. Mit einem steigendem Anteil sinkt die Chance schnell stark ab, vgl. Abbildung 4.1. Die Neubaugebiete weisen eine geringere Zufriedenheit auf, wie ältere Wohngebiete. Eine erneute Betrachtung der Wechselwirkungen zeigen gleiche Erkenntnisse wie im vorherigen Modell. Hierbei ist besonders deutlich, dass die Neubaugebiete im Westen der Republik deutlich zufriedenere Bewohner haben, als der Osten der Republik. Die Chance auf eine erhöhte Zufriedenheit in einem Neubaugebiet im Westen steigt gegenüber dem im Osten um 56%. Die exponierten Schätzer für sämtliche Variablen befinden sich im Anhang auf Seite 95, Tabelle A.4. Bei diesem Modell steigen jedoch der Wert des AIC und des BIC. Das AIC liegt hier bei 70 815, der Wert des BIC ist auf 72 000 gestiegen. Auch die Fehlklassifikationsrate steigt etwas an, auf 35%. Die Konfusionsmatrix sieht ähnlich aus, jedoch ist die Hauptdiagonale etwas schwächer besetzt, vgl. Tabelle 4.10. Modellklassifizierung 1 2 3 P Wahre Klasse 1 2 3 243 137 52 1 375 2 920 2 121 2 164 9 871 26 032 3 782 12 928 28 205 P 432 6 416 38 067 44 915 Tabelle 4.10: Konfusionsmatrix des Modells mit Transformation der Zielvariable und Wechselwirkungen. 4.1.1.4 Zweistufige Modelierung der Lebenszufriedenheit Wird nun die Gesamtzufriedenheit der Bewohner mit den einzelnen Zufriedenheiten modelliert, so wird auch hier für die neue Zielvariable die Klassenaufteilung „unzufrieden“, „zufrieden“ 46 4 Statistische Auswertung und „sehr zufrieden“ gewählt. Wobei auch hier die Kategorie „unzufrieden“ die Klassen Eins, Zwei und Drei umfasst. Die Klassen Vier und Fünf werden „zufrieden“ zugeteilt und Sechs und Sieben werden zur Kategorie „sehr zufrieden“ transformiert. Klasse Anzahl an Beobachtungen unzufrieden 2 766 zufrieden 11 897 sehr zufrieden 18 284 Tabelle 4.11: Neue Klasseneinteilung der Zielvariable Zufriedenheit mit dem Leben. Anhand der Tabelle 4.11 kann erkannt werden, dass auch bei der Zufriedenheitsvariable ein Übergewicht in den letzten beiden Klassen vorherrscht. Durch die Zusammenlegung der Klassen in nur noch drei verschiedene ist diese Ungleichheit jedoch reduziert worden. Da in der Variable einige fehlende Beobachtungen vorhanden sind, können hierbei nur weniger Beobachtungen verwendet werden, wie bei den vorherigen Modellen. Die Modellgleichung besteht dementsprechend, zu7_leb = α0 + α1 xzu7_ort + α2 xzu7_wohn + α3 xzu7_umg + α4 xzu7_umw + ε nur aus den Zufriedenheitsvariablen. Dabei wird die Zufriedenheit mit dem Leben durch die Zufriedenheit mit der Stadt/Gemeinde, mit den Wohnung, mit der unmittelbaren Wohnumgebung und mit den Umweltbedingungen modelliert. Die einzelnen Parametervektoren αi stehen dabei für die Dummy-Variablen αi = (αi,1 , . . . , αi,t ). Dabei steht t für die Anzahl der Kategorien der einzelnen Variablen. Zum einen steht die Modellvalidierung im Vordergrund, zum anderen ist es interessant zu beobachten, ob sich die Lebenszufriedenheit einigermaßen aus den anderen Zufriedenheiten darstellen lässt. Variablenname exponierter Schätzwert exponierte Varianz zu7_ort1 0.8000 1.4272 zu7_ort2 0.8363 1.4223 zu7_ort3 1.0662 1.4150 zu7_ort4 1.2613 1.4122 zu7_ort5 1.4877 1.4110 zu7_ort6 2.3839 1.4110 zu7_ort7 2.7848 1.4114 zu7_wohn1 0.3726 1.7467 47 4 Statistische Auswertung Variablenname exponierter Schätzwert exponierte Varianz zu7_wohn2 0.3644 1.7389 zu7_wohn3 0.4770 1.7314 zu7_wohn4 0.6713 1.7274 zu7_wohn5 0.9758 1.7257 zu7_wohn6 1.8185 1.7254 zu7_wohn7 2.7619 1.7255 zu7_umg2 1.0130 1.1331 zu7_umg3 1.0580 1.1228 zu7_umg4 1.3395 1.1172 zu7_umg5 1.3917 1.1148 zu7_umg6 1.8206 1.1144 zu7_umg7 2.0181 1.1161 zu7_umw1 0.7505 1.0981 zu7_umw2 0.7543 1.0787 zu7_umw3 0.8278 1.0603 zu7_umw4 0.7507 1.0468 zu7_umw5 0.7560 1.0376 zu7_umw6 0.7969 1.0343 zu7_umw7 0.8176 1.0396 Achsenabschnitt 1|2 0.2741 1.9221 Achsenabschnitt 2|3 3.3776 1.9220 Tabelle 4.12: Variablen mit exponierten Schätzern und Varianzen für die Modellierung der Lebenszufriedenheit. Die exponierten Schätzer zeigen ein plausibles Modell. Mit dem Ansteigen der einzelnen Zufriedenheiten steigt auch die Chance auf eine erhöhte Lebenszufriedenheit. Zudem ist auffällig, dass eine hohe Zufriedenheit mit der Stadt/Gemeinde oder mit dem Wohnquartier sich am stärksten auf die Lebenszufriedenheit auswirkt. Eine hohe Stadtzufriedenheit kann die Chance auf eine hohe Lebenszufriedenheit um fast 280% erhöhen. Eine hohe Zufriedenheit mit dem Wohnquartier kann die Chance auf eine hohe Lebenszufriedenheit immerhin um über 200% erhöhen. Dies zeigt zudem, dass die Zufriedenheit mit dem Wohnquartier den befragten Personen 48 4 Statistische Auswertung durchaus wichtig ist, da sich diese stark auf die Lebenszufriedenheit auswirkt. Es erscheint also sinnvoll zu versuchen, das Wohnquartier möglichst angenehm zu gestalten um die Zufriedenheit der Bewohner zu maximieren. Die Fehlklassifikationsrate beträgt dabei 37%. Dies ist für die geringe Anzahl an Variablen ein sehr guter Wert. Modellklassifizierung 1 2 3 P Wahre Klasse 1 2 3 266 73 77 1 495 4 946 2 904 1 005 6 878 15 303 2 766 11 897 18 284 P 416 9 345 23 186 32 947 Tabelle 4.13: Konfusionsmatrix des Modells mit der Zielvariable Lebenszufriedenheit. Auch die Konfusionsmatrix sieht geeignet aus, vgl. Tabelle 4.13. Der Wert des AIC in diesem Modell beträgt 53 438.2, der Wert des BIC 53 681.88. Dieses Modell ist sehr zufriedenstellend und zeigt zudem die Plausibilität der Wahl der Modellform. 4.1.2 Kategoriale Hauptkomponentenanalyse Da die große Anzahl an Variablen, die zudem untereinander teilweise stark korreliert sind, ein Problem für die Modellierung darstellen kann es sinnvoll sein vorher eine Hauptkomponentenanalyse durchzuführen. Hierbei ist die Schwierigkeit, dass eine gewöhnliche Hauptkomponentenanalyse metrisch skalierte Variablen voraussetzt. Da dies in dem vorliegenden Datensatz nicht der Fall ist, wird eine kategoriale Hauptkomponentenanalyse durchgeführt. Da bisher manuell Variablen entfernt werden mussten um die Multikollinearität zu vermeiden ist dies eine Methode zur Vermeidung subjektiver Kriterien. Anstatt einige Variablen vollständig zu entfernen, werden hierbei Hauptkomponenten gebildet die möglichst viel Variabilität aller Variablen in sich vereinen. Der Nachteil dabei ist, dass keine direkten Aussagen über die Ursprungsvariablen mehr möglich sind. Die Schätzer der Hauptkomponenten können jedoch so transformiert werden, dass weiterhin auch die tatsächlichen Merkmalseinflüsse betrachtet werden können. Dabei gilt es zunächst die Anzahl der Hauptkomponenten zu bestimmen, die ausreichend sind, um einen Großteil des Datensatzes zu erklären. Da es sich bei den Daten oftmals um ordinal beziehungsweise nominal skalierte Merkmale handelt, wird zur Bestimmung der Anzahl der Hauptkomponenten sowohl die Varianz, wie auch das Cronbachs Alpha betrachtet. Die Variable „Jahre“ wird dabei nicht verwendet, diese wird später manuell zur Analyse hinzugefügt. Dadurch 49 4 Statistische Auswertung können weiter die Wechselwirkungen der einzelnen Hauptkomponenten mit den Jahren betrachtet werden. Dimension Cronbachs Alpha Eigenwert 1 0.931 12.389 2 0.884 7.895 3 0.853 6.332 4 0.776 4.278 5 0.748 3.831 6 0.741 3.723 7 0.736 3.669 8 0.707 3.314 9 0.695 3.187 10 0.668 2.937 11 0.630 2.649 12 0.610 2.514 13 0.601 2.458 14 0.579 2.334 15 0.570 2.290 16 0.555 2.212 17 0.539 2.136 18 0.512 2.023 19 0.484 1.916 20 0.467 1.856 21 0.461 1.836 22 0.438 1.762 23 0.422 1.715 24 0.405 1.667 25 0.389 1.624 26 0.377 1.593 27 0.376 1.590 28 0.369 1.574 29 0.359 1.549 50 4 Statistische Auswertung Dimension Cronbachs Alpha Eigenwert 30 0.342 1.510 31 0.336 1.497 32 0.333 1.491 33 0.322 1.467 34 0.299 1.418 35 0.276 1.374 36 0.261 1.347 37 0.256 1.337 38 0.236 1.303 39 0.207 1.257 40 0.168 1.200 Tabelle 4.14: Cronbachs Alpha und Eigenwerte der kategorialen Hauptkomponentenanalyse. Anhand der Tabelle 4.14 ist zu sehen, dass sowohl bei dem Wert des Cronbachs Alpha, wie auch beim Eigenwert, ein schneller steiler Abfall festzustellen ist. Da jedoch für die hohe Anzahl an Variablen nicht zu wenig Hauptkomponenten aufgenommen werden sollen, um die Originalschätzer nicht zu sehr zu verzerren, ist es notwendig genügend Hauptkomponenten auszuwählen. In der Grafik 4.2, in der die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen werden, zeigt sich ein Knick bei der einundzwanzigsten Hauptkomponente. Deutliche Knicks sind zwar schon vorher zu erkennen, diese beinhalten jedoch so wenig Hauptkomponenten, dass eine Modellierung zu großen Verzerrungen führen würde. Daher werden einundzwanzig Hauptkomponenten verwendet. Diese werden zuerst anhand der Ladungen, die sie von den einzelnen Variablen enthalten, versucht zu interpretieren. Dann wird die Modellierung der Wohnquartierszufriedenheit mit den Hauptkomponenten und der Jahreszahl als unabhängige Variablen durchgeführt. Dieses Modell wird hinsichtlich der Güte und der Schätzer überprüft. Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 1 -0.15 0.10 0.49 0.54 -0.59 0.98 0.73 0.44 -0.11 2 -0.20 0.42 0.97 0.44 0.07 -0.12 0.04 -0.06 -0.04 3 0.28 0.30 0.37 -0.43 0.08 -0.19 -0.01 -0.13 0.20 4 -0.21 0.40 0.97 0.48 0.07 -0.11 0.05 -0.07 -0.03 51 4 Statistische Auswertung Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 5 -0.28 0.37 0.94 0.50 0.07 -0.13 0.04 -0.06 -0.04 6 0.53 0.40 0.57 -0.57 -0.10 -0.08 0.04 -0.04 0.30 7 0.53 0.38 0.56 -0.62 -0.10 -0.12 0.02 -0.06 0.38 8 -0.41 -0.31 -0.38 0.51 0.05 0.17 0.02 0.08 -0.29 9 0.32 0.22 0.42 -0.38 -0.11 0.01 0.06 -0.01 0.24 10 -0.17 -0.55 0.15 -0.26 -0.19 -0.13 0.15 0.01 0.28 11 -0.40 -0.70 0.25 -0.14 -0.29 0.00 0.08 -0.03 0.23 12 1.04 0.23 -0.09 -0.02 -0.08 -0.04 0.00 0.25 -0.12 13 -0.12 -0.29 -0.13 0.11 0.35 -0.39 -0.06 -0.50 -0.01 14 -0.04 0.02 -0.08 -0.24 0.69 0.63 0.30 -0.08 0.37 15 0.10 -0.03 -0.02 -0.04 -0.03 0.03 0.05 0.04 0.02 16 -0.07 0.00 0.01 -0.03 0.09 0.04 0.03 -0.03 0.02 17 -0.38 -0.12 0.11 0.12 -0.24 -0.20 -0.10 -0.08 -0.09 18 -0.10 0.02 0.02 0.04 0.02 -0.02 -0.06 -0.03 -0.02 19 -0.05 -0.01 0.02 -0.02 0.06 0.04 0.02 -0.02 0.02 20 0.31 0.02 0.02 0.16 -0.66 -0.59 -0.30 0.17 -0.37 21 -0.27 -0.04 -0.03 -0.16 0.62 0.55 0.28 -0.15 0.34 22 -0.10 0.03 0.02 -0.05 0.18 0.16 0.06 -0.03 0.13 23 0.70 0.12 -0.08 -0.04 -0.02 -0.05 -0.05 0.14 -0.08 24 0.66 0.09 -0.11 -0.07 -0.10 -0.07 -0.05 0.19 -0.10 25 0.71 0.16 -0.10 0.06 -0.15 0.09 0.02 0.24 -0.12 26 1.06 -0.14 -0.12 -0.02 0.10 -0.04 0.17 0.02 -0.09 27 0.92 -0.13 -0.05 0.00 0.07 0.00 0.25 0.06 -0.19 28 0.26 0.26 -0.18 0.05 0.02 -0.01 0.02 0.26 0.03 29 -0.21 -0.01 0.13 -0.06 -0.04 -0.01 -0.08 0.21 0.04 30 -0.73 0.15 0.12 -0.02 0.06 -0.01 -0.11 -0.14 -0.02 31 -0.20 0.06 0.10 -0.22 0.12 0.02 -0.02 0.26 -0.06 32 -0.40 0.20 0.28 -0.14 0.18 0.02 -0.09 0.21 -0.05 33 -0.88 -0.13 0.04 0.14 -0.03 -0.01 -0.07 -0.18 -0.01 34 -0.76 -0.02 -0.01 0.09 0.01 0.03 -0.04 -0.09 -0.03 35 -0.10 0.05 0.06 -0.12 0.07 0.03 0.01 0.13 0.00 52 4 Statistische Auswertung Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 36 -0.33 -0.11 0.14 -0.18 0.16 -0.10 0.12 0.19 -0.14 37 0.18 -0.40 0.02 0.10 -0.40 -0.10 0.16 -0.38 0.35 38 -1.00 -0.20 0.02 0.20 -0.05 -0.02 -0.05 -0.20 -0.03 39 -0.49 0.07 0.04 -0.35 0.22 0.02 0.04 0.27 -0.25 40 -0.31 -0.14 -0.06 -0.09 0.38 -0.24 -0.28 0.06 -0.16 41 0.26 0.10 0.07 0.10 -0.38 0.28 0.28 -0.02 0.14 42 0.00 -0.21 0.10 0.19 -0.32 -0.17 0.15 -0.43 0.29 43 -0.20 0.02 0.11 0.20 -0.33 -0.04 0.10 -0.20 0.09 44 -0.11 0.41 0.01 0.07 0.22 0.04 -0.13 0.22 -0.27 45 -0.10 -0.38 -0.07 -0.11 -0.26 -0.07 0.18 -0.24 0.18 46 0.02 -0.46 -0.03 -0.18 -0.28 -0.04 0.23 -0.29 0.14 47 -0.42 0.18 0.22 -0.34 -0.04 0.00 -0.03 -0.07 -0.34 48 0.35 -0.29 -0.28 0.29 -0.03 -0.02 0.10 0.06 0.30 49 -0.49 -0.43 -0.47 -0.22 -0.16 0.10 0.07 -0.03 -0.23 50 0.19 0.22 0.28 0.06 0.13 -0.14 -0.10 -0.02 0.12 51 -0.05 0.36 0.35 0.01 0.02 -0.04 -0.12 -0.07 -0.04 52 -0.11 -0.22 -0.07 -0.17 -0.10 -0.01 0.18 -0.05 -0.19 53 0.10 0.32 0.23 0.10 0.01 -0.05 -0.07 -0.02 0.09 54 -0.08 -0.16 -0.04 -0.12 -0.07 0.00 0.17 -0.06 -0.17 55 0.46 0.40 -0.19 0.25 -0.09 0.39 -0.41 -0.59 0.03 56 -0.41 -0.34 0.18 -0.20 0.06 -0.32 0.41 0.55 -0.03 57 -0.38 -0.31 0.18 -0.18 0.06 -0.32 0.39 0.53 -0.04 58 -0.48 0.09 0.16 -0.41 -0.09 -0.03 0.10 0.01 -0.18 59 -0.20 0.76 -0.47 0.01 -0.05 -0.31 0.59 -0.14 -0.03 60 -0.18 0.55 -0.36 -0.03 0.00 -0.25 0.36 -0.10 -0.03 61 0.17 -0.50 0.32 0.01 -0.07 0.30 -0.41 0.22 -0.02 62 0.33 -0.21 0.19 0.07 0.26 -0.07 0.01 -0.10 -0.08 63 -0.06 0.03 0.02 0.05 -0.02 -0.07 0.11 -0.05 0.14 64 0.07 0.84 -0.49 0.27 -0.03 0.13 -0.03 0.01 0.01 65 -0.21 0.78 -0.48 0.07 -0.08 -0.24 0.60 -0.05 -0.04 66 -0.19 0.57 -0.31 0.01 0.10 -0.35 0.47 -0.22 0.01 53 4 Statistische Auswertung Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 67 0.26 -0.26 -0.08 0.51 0.32 -0.30 0.01 0.28 0.50 68 -0.06 0.22 0.00 -0.07 0.00 0.00 0.16 -0.06 -0.18 69 -0.12 0.12 0.06 -0.46 -0.28 0.29 -0.16 -0.20 -0.41 70 0.20 -0.14 -0.13 0.21 0.12 -0.12 -0.03 0.19 0.21 71 0.14 -0.46 0.14 0.41 0.21 -0.34 0.10 0.28 0.28 72 -0.06 -0.14 -0.04 0.16 0.09 -0.26 0.25 0.25 0.14 73 0.56 -0.53 0.33 -0.10 0.21 -0.08 0.43 -0.37 -0.47 74 0.04 -0.30 0.11 -0.15 -0.09 -0.04 0.30 -0.11 -0.06 75 0.18 -0.36 0.15 -0.13 -0.08 0.06 0.20 -0.15 -0.11 76 0.18 -0.22 0.20 -0.04 0.02 0.04 0.12 -0.09 -0.16 77 0.54 -0.28 0.27 0.10 0.31 -0.05 0.33 -0.29 -0.56 78 0.44 -0.23 0.33 0.15 0.32 0.00 0.16 -0.26 -0.52 79 0.68 -0.50 0.01 0.28 0.25 0.06 0.04 -0.08 -0.13 80 -0.04 0.08 0.11 0.13 0.25 -0.12 0.13 -0.31 0.06 Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 1 -0.55 -0.10 -0.32 0.30 0.19 -0.06 -0.03 0.04 -0.07 2 -0.05 -0.06 0.19 -0.13 -0.03 0.07 0.04 0.00 -0.08 3 -0.09 0.05 -0.13 0.14 0.10 0.02 0.08 -0.11 -0.05 4 -0.04 -0.07 0.19 -0.14 -0.03 0.06 0.04 0.00 -0.08 5 -0.04 -0.08 0.20 -0.14 -0.04 0.07 0.05 -0.01 -0.09 6 -0.14 0.06 -0.17 0.18 0.10 -0.04 -0.05 -0.06 0.13 7 -0.16 0.06 -0.18 0.23 0.12 -0.06 -0.06 -0.09 0.20 8 0.10 -0.06 0.12 -0.15 -0.08 0.04 0.04 0.07 -0.15 9 -0.13 0.04 -0.14 0.17 0.08 -0.04 -0.05 -0.05 0.14 10 -0.10 0.20 0.16 0.05 0.00 -0.41 0.01 0.16 -0.06 11 -0.07 0.17 0.15 -0.07 -0.04 -0.41 -0.06 0.22 -0.05 12 -0.06 -0.08 0.10 -0.16 -0.06 0.12 0.02 -0.04 -0.03 13 0.14 0.03 -0.16 0.33 0.21 0.08 0.08 0.09 -0.32 14 0.08 -0.08 0.16 -0.10 -0.12 0.07 -0.02 0.09 0.11 15 0.11 0.02 0.19 -0.50 0.94 -0.05 0.05 -0.03 0.02 54 4 Statistische Auswertung Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 16 -0.03 -0.03 -0.13 -0.01 0.03 0.16 0.72 0.64 0.38 17 -0.01 0.11 -0.14 0.11 0.21 -0.16 0.01 -0.03 -0.08 18 -0.11 -0.02 -0.17 0.48 -0.94 0.04 -0.06 0.04 -0.01 19 -0.01 -0.03 -0.12 -0.01 0.03 0.15 0.67 0.62 0.40 20 -0.09 0.07 -0.16 0.07 0.01 -0.01 0.14 0.06 0.00 21 0.09 -0.07 0.15 -0.07 0.00 0.01 -0.14 -0.06 -0.02 22 0.03 0.00 0.04 0.00 0.01 0.00 -0.04 0.00 0.05 23 -0.02 -0.05 0.08 -0.11 -0.04 0.08 0.02 -0.03 -0.02 24 -0.01 -0.04 0.09 -0.16 -0.04 0.07 -0.03 -0.01 0.02 25 -0.06 -0.05 0.07 -0.13 -0.05 0.04 -0.07 -0.01 0.12 26 -0.01 -0.05 0.01 -0.04 -0.01 0.04 -0.03 0.07 -0.09 27 -0.03 -0.04 -0.01 -0.06 -0.01 0.04 -0.02 0.05 -0.07 28 0.04 -0.15 0.02 0.10 0.08 0.24 -0.04 0.07 -0.04 29 -0.04 -0.04 0.26 -0.14 -0.28 -0.15 0.17 -0.04 0.12 30 0.01 0.12 -0.21 0.12 0.16 0.05 -0.01 -0.14 0.04 31 -0.06 0.05 0.07 -0.16 -0.20 -0.01 0.20 -0.20 0.02 32 -0.16 0.05 0.05 -0.06 -0.11 -0.04 0.27 -0.17 -0.11 33 -0.01 0.03 -0.11 0.12 0.06 -0.03 -0.06 -0.07 0.21 34 -0.02 0.09 -0.17 0.04 0.10 0.03 -0.06 -0.09 0.08 35 -0.05 0.00 0.03 -0.10 -0.14 0.01 0.15 -0.12 0.07 36 0.08 0.05 -0.10 -0.10 -0.07 0.12 0.04 -0.10 0.06 37 0.10 -0.16 0.12 0.04 -0.05 -0.03 -0.23 0.16 0.24 38 0.00 0.02 -0.04 0.04 0.04 -0.04 -0.05 -0.04 0.16 39 0.03 0.12 -0.15 -0.16 -0.05 0.05 0.14 -0.19 -0.01 40 -0.88 -0.46 0.14 -0.03 0.10 -0.06 -0.31 0.22 0.13 41 0.79 0.42 -0.14 0.04 -0.09 0.04 0.27 -0.20 -0.12 42 0.10 -0.31 0.12 -0.08 -0.08 0.21 -0.23 -0.02 0.45 43 0.35 -0.03 0.05 -0.18 -0.09 0.18 -0.17 -0.06 0.41 44 0.18 0.39 -0.08 0.13 0.08 -0.24 -0.21 0.21 0.14 45 -0.26 -0.38 0.01 -0.25 -0.09 0.33 0.30 -0.35 -0.15 46 -0.18 -0.30 -0.07 -0.24 -0.09 0.31 0.26 -0.30 -0.15 55 4 Statistische Auswertung Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 47 -0.04 0.12 -0.17 -0.26 -0.02 0.12 0.01 -0.18 0.16 48 0.00 -0.15 0.15 0.21 0.00 -0.10 0.06 0.11 -0.19 49 -0.16 -0.01 -0.21 -0.06 0.03 0.06 0.03 -0.21 0.19 50 0.16 0.00 0.15 -0.03 -0.05 -0.01 -0.03 0.13 -0.10 51 0.18 -0.14 0.11 -0.14 -0.10 0.12 -0.12 0.13 -0.07 52 -0.26 0.60 0.65 0.32 0.08 0.50 -0.02 -0.02 0.08 53 0.16 0.02 0.25 0.00 -0.06 0.15 -0.15 0.16 -0.02 54 -0.26 0.55 0.63 0.35 0.08 0.51 -0.01 -0.02 0.06 55 -0.34 0.27 0.05 -0.15 -0.06 -0.21 0.17 -0.11 0.00 56 0.28 -0.25 -0.06 0.15 0.06 0.19 -0.15 0.10 0.00 57 0.28 -0.25 -0.07 0.15 0.07 0.21 -0.16 0.10 -0.01 58 0.04 0.10 0.03 -0.32 -0.18 -0.08 -0.01 0.02 -0.01 59 -0.09 0.02 0.05 -0.08 -0.05 -0.17 -0.01 0.05 0.01 60 -0.03 0.04 0.05 -0.09 -0.07 -0.12 -0.03 0.04 0.07 61 0.03 0.00 0.04 -0.03 -0.02 0.04 -0.05 -0.02 0.11 62 -0.01 -0.01 -0.10 0.18 0.01 0.01 0.16 -0.07 -0.08 63 -0.19 0.33 -0.28 -0.38 -0.11 0.20 -0.23 0.30 -0.19 64 -0.02 -0.07 -0.05 0.12 0.08 0.13 -0.07 -0.10 0.22 65 -0.13 0.03 0.03 -0.06 -0.05 -0.17 -0.03 0.03 0.10 66 -0.06 -0.01 -0.01 0.02 0.00 -0.07 0.07 0.02 -0.12 67 -0.24 0.43 -0.36 -0.22 -0.04 0.20 -0.07 -0.12 0.16 68 0.06 -0.29 0.30 0.29 0.04 -0.26 0.22 -0.15 0.04 69 0.26 -0.39 0.36 0.22 0.05 -0.20 0.08 0.07 -0.10 70 0.00 0.04 0.07 0.13 0.04 -0.22 0.18 -0.32 0.29 71 -0.02 0.08 0.25 0.00 -0.02 -0.29 0.21 -0.18 0.06 72 -0.10 0.05 0.29 0.08 -0.01 -0.35 0.28 -0.29 0.12 73 0.00 0.14 -0.10 -0.14 -0.08 -0.15 -0.05 0.06 -0.02 74 -0.09 0.22 0.01 -0.16 -0.10 -0.20 -0.06 0.23 -0.20 75 -0.10 0.17 -0.05 -0.22 -0.09 -0.08 -0.04 0.17 -0.18 76 -0.05 0.07 -0.05 -0.16 -0.07 0.00 -0.02 0.02 -0.02 77 0.04 0.00 -0.08 0.03 0.00 -0.11 -0.04 -0.14 0.30 56 4 Statistische Auswertung Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 78 0.09 -0.05 -0.11 0.06 0.02 -0.07 -0.06 -0.17 0.36 79 0.05 -0.02 -0.12 0.22 0.09 -0.03 -0.05 -0.09 0.20 80 -0.07 -0.10 -0.23 0.35 0.20 0.22 0.23 -0.03 -0.45 Variable HK19 HK20 HK21 Variable HK19 HK20 HK21 1 0.05 0.01 0.10 41 0.04 0.04 -0.05 2 -0.11 0.08 0.01 42 -0.04 0.18 0.32 3 -0.09 0.10 -0.04 43 -0.20 -0.07 0.22 4 -0.11 0.08 0.01 44 -0.17 0.20 0.10 5 -0.12 0.07 0.01 45 0.06 -0.15 -0.17 6 0.02 0.00 0.02 46 -0.01 -0.11 -0.08 7 0.06 -0.06 0.06 47 -0.39 0.39 -0.16 8 -0.04 0.05 -0.03 48 0.33 -0.34 0.18 9 0.05 -0.03 0.05 49 -0.17 0.27 0.02 10 -0.01 -0.03 -0.10 50 0.09 -0.17 -0.01 11 -0.03 -0.03 -0.06 51 0.13 -0.21 0.01 12 -0.13 -0.03 -0.13 52 0.02 -0.01 -0.03 13 0.01 0.10 0.34 53 0.15 -0.38 -0.04 14 -0.12 -0.02 -0.06 54 0.05 0.02 0.00 15 0.14 0.02 0.04 55 -0.03 -0.03 0.13 16 -0.04 -0.04 -0.03 56 0.02 0.03 -0.12 17 0.20 0.07 0.19 57 0.02 0.04 -0.10 18 -0.14 -0.03 -0.03 58 -0.06 -0.01 0.12 19 -0.06 -0.06 -0.04 59 0.06 -0.01 -0.01 20 0.02 -0.08 0.01 60 0.08 -0.01 -0.03 21 -0.04 0.10 -0.03 61 0.02 -0.01 0.00 22 -0.02 -0.10 0.11 62 0.26 0.31 -0.06 23 -0.08 -0.03 -0.09 63 0.10 -0.04 -0.02 24 -0.13 -0.08 -0.10 64 0.14 -0.02 0.04 25 -0.04 -0.10 -0.03 65 0.11 -0.04 -0.07 26 -0.15 0.03 0.24 66 0.00 0.05 -0.02 57 4 Statistische Auswertung Variable HK19 HK20 HK21 Variable HK19 HK20 HK21 27 -0.18 0.00 0.29 67 0.05 0.05 -0.03 28 -0.22 0.13 0.51 68 -0.16 -0.02 0.07 29 0.58 0.50 0.13 69 -0.10 -0.07 0.09 30 -0.13 -0.48 -0.16 70 -0.25 -0.09 0.22 31 0.39 0.02 0.40 71 -0.30 -0.02 -0.01 32 0.22 -0.04 -0.09 72 -0.29 -0.08 -0.06 33 0.07 -0.11 0.10 73 0.00 -0.08 0.07 34 -0.18 -0.44 0.04 74 -0.10 -0.04 0.10 35 0.23 -0.12 0.30 75 -0.14 -0.10 0.22 36 0.09 -0.23 0.42 76 -0.09 -0.07 0.16 37 0.08 0.18 0.03 77 0.25 -0.09 -0.19 38 0.04 0.04 0.03 78 0.29 -0.09 -0.22 39 -0.04 -0.20 0.33 79 0.11 -0.09 0.01 40 -0.04 -0.03 0.06 80 -0.12 0.20 0.06 Tabelle 4.15: Komponentenladung in den einzelnen Hauptkomponenten, wobei die Variablenbezeichnung im Anhang Tabelle A.6 auf Seite 101 zu finden ist. Die einzelnen Hauptkomponenten können bezüglich ihrer Ladung versucht werden zu interpretieren. Die einzelnen Ladungen der Hauptkomponenten können dabei der Tabelle 4.15 entnommen werden. Die Variablenbezeichnung für die einzelnen Zahlen finden sich zur vereinfachten Darstellung im Anhang auf Seite 101, Tabelle A.6. Dabei ist die erste Hauptkomponente vor allem durch Variablen, die die Wohnung beschreiben, geladen, wie die Größe der Wohnung oder das Vorhandensein eines Gartens. In der zweiten Hauptkomponente haben Variablen, die nach der persönlichen Situation der befragten Person zielen, eine besonders hohe Ladung. Die dritte Hauptkomponente beschreibt die geografische Situation der Wohnung, durch das Bundesland und die West-Ost Einordnung. Die vierte Hauptkomponente ist mit Variablen, die die Stadt beschreiben, wie die Ortsgröße, hoch geladen. Die fünfte Hauptkomponente hat eine hohe Ladung bei Miet- und Heizkosten. Auch die sechste Hauptkomponente ist hauptsächlich mit Mietkostenvariablen geladen, zusätzlich noch mit dem Befragungstyp. Die siebte Hauptkomponente beschäftigt sich wieder mit der persönlichen Situation des Befragten. Die achte Hauptkomponente beschäftigt sich mit den möglichen Umzugsgedanken der befragten Person. In der neunten Hauptkomponenten ist die Anzahl der Personen beziehungsweise der Einkommens- 58 4 Statistische Auswertung 10 8 ● 6 ● 4 ● ● ● ● ● ● ● ● 2 Eigenwert der entsprechenden Hauptkomponente 12 ● 0 10 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20 30 40 Anzahl der Hauptkomponenten Abbildung 4.2: Scree-Plot bei dem die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen werden zur Bestimmung der Anzahl der Hauptkomponenten. 59 4 Statistische Auswertung bezieher besonders hoch geladen. Die Art des Wohngebietes besitzt eine hohe Ladung in der zehnten Hauptkomponente. Die elfte und zwölfte Hauptkomponente besitzt hohe Ladungen in den Variablen die sich mit der deutschen Staatsbürgerschaft beschäftigen. Die dreizehnte Hauptkomponente ist geladen mit Mietpreis, Einkommen und der Geschlechtsabfrage der befragten Person. Auch die vierzehnte Hauptkomponente besitzt hauptsächlich bei finanziellen Variablen eine hohe Ladung. In der fünfzehnten Hauptkomponente sind Fragen nach der deutschen Staatsbürgerschaft und der Wohndauer und der jetzigen Wohnung hoch geladen. In der sechzehnten Hauptkomponente sind neben den Mietpreisvariablen noch die Frage nach jungen Menschen in der Wohnumgebung hoch geladen. Mietpreisvariablen und Variablen die nach dem sozialen Umfeld der befragten Person fragen, haben in der siebzehnten Hauptkomponente eine hohe Ladung. In der achtzehnten Hauptkomponente sind Variablen die nach dem Einkommen und dem Wohngebiet fragen hoch geladen. Variablen, die nach der Wohnungssituation fragen, wie etwa nach einer separaten Küche, besitzen in der neunzehnten und zwanzigsten Variable eine hohe Ladung. In der einundzwanzigsten Hauptkomponente sind Variablen hoch geladen, die sich danach erkundigen, ob die befragte Person mit der Wohngröße und Wohnausstattung zufrieden sind. Für die Modellgleichung, zu7_leb = α0 + α1 xhk1 + α2 xhk2 + α3 xhk3 + α4 xhk4 + α5 xhk5 + α6 xhk6 + α7 xhk7 + α8 xhk8 + α9 xhk9 + α10 xhk10 + α11 xhk11 + α12 xhk12 + α13 xhk13 + α14 xhk14 + α15 xhk15 + α16 xhk16 + α17 xhk17 + α18 xhk18 + α19 xhk19 + α20 xhk20 + α21 xhk21 + α22 xjahr + ε, ergibt sich daher die Zufriedenheitsvariable weiterhin als abhängige, aber in diesem Fall die einzelnen Hauptkomponenten als unabhängige Variablen. Die Zufriedenheitsvariable bleibt dabei transformiert auf nur drei verschiedene Kategorien. Anhand der exponierten Schätzer, vgl. Tabelle 4.16, ist zu erkennen, das sich vor allem die erste und sechste Hauptkomponente auf die Zielvariable auswirken und die Chance auf eine höhere Zufriedenheit um mehr als 30% steigt. Auch in diesem Modell wirkt sich die Jahreszahl leicht positiv aus. Mit jedem weiteren Jahr steigt die Chance auf eine höhere Zufriedenheit um etwa 8%. 60 4 Statistische Auswertung Variablenname hk1 hk2 hk3 hk4 hk5 hk6 hk7 hk8 hk9 hk10 hk11 hk12 hk13 hk14 hk15 hk16 hk17 hk18 hk19 hk20 hk21 jahr Achsenabschnitt 1|2 Achsenabschnitt 2|3 exponierter Schätzwert 1.4575 1.1693 1.0143 1.2948 0.8644 1.3000 1.1151 0.9380 1.1438 0.8796 0.9968 1.0044 1.1744 1.0634 0.9541 1.0061 1.0655 0.8840 1.1120 0.9597 0.9738 1.0876 1.0464 ·1072 8.0224 ·1072 exponierte Varianz 1.0086 1.0082 1.0131 1.0143 1.0157 1.0238 1.0181 1.0129 1.0083 1.0145 1.0081 1.0106 1.0102 1.0087 1.0079 1.0077 1.0078 1.0079 1.0079 1.0079 1.0080 1.0000 1.0013 1.0168 Tabelle 4.16: Variablen mit exponierten Schätzern und Varianzen im Hauptkomponentenmodell. Die Fehlklassifikationsrate des Hauptkomponentenmodells beträgt 35.8%, mit einem AIC-Wert von 72 131.37 und einem BIC-Wert von 72 340.51. Auch hier zeigt die Konfusionsmatrix, vgl. Tabelle 4.17, eine starke Hauptdiagonale. Die erste Klasse ist schwach besetzt, aber nicht vollständig leer. Modellklassifizierung 1 2 3 P Wahre Klasse 1 2 3 53 28 22 1 256 2 520 1 962 2 482 10 398 26 267 3 791 12 946 28 251 P 103 5 738 39 147 44 988 Tabelle 4.17: Konfusionsmatrix des Hauptkomponentenmodells. Zusätzlich dazu lassen sich die Schätzer umrechnen. Aus den Schätzern für die Hauptkomponenten lassen sich die Schätzer für die Ursprungsvariablen berechnen. Zu beachten ist dabei eine leichte Verzerrung. Zudem lassen sich in diesem Fall keine Dummy-Variablen einführen und die Effekte für Variablen mit mehreren nominalen oder ordinalen Kategorien lassen sich 61 4 Statistische Auswertung lediglich linear betrachten. Wie in Tabelle A.5 auf Seite 98 im Ahang zu erkennen ist, sind auch hier gleiche Effekte wie in den vorherigen Modellen zu erkennen. Auch hier wirkt sich ein hoher Ausländeranteil erneut negativ auf die Zufriedenheit der Bewohner aus. Kontrollvariablen, wie Einkommen und Größe der Wohnung, erhöhen hier die Zufriedenheit der Bewohner zusätzlich. Dieses Modell bestätigt die vorher gewonnenen Erkenntnisse und sichert ein Vorgehen zur Modellierung, das allgemein anwendbar ist. Selbst wenn viele und untereinander hoch korrelierte Variablen vorliegen. 4.1.3 Entscheidungsbaum Eine andere Möglichkeit der Modellierung ist ein Entscheidungsbaum. Dabei wird die Klassifizierung für eine Zufriedenheitskategorie durch einen Baum ausgedrückt. An jedem Knoten werden die Beobachtungen durch eine Variable aufgeteilt, bis sie letztendlich in eine Kategorie einsortiert werden. Hierbei werden die fehlenden Werte als eigene Kategorie aufgefasst und der Baum der entwickelt wird kann grafisch betrachtet und dadurch leichter interpretiert werden. Zur Trennung der Beobachtungen werden dabei die Variablen gewählt, die die Daten möglichst gut separieren können. Auch hierbei wurde die Zielvariable in drei Kategorien eingeteilt. Der gewählte Entscheidungsbaum besitzt eine Tiefe von drei Knoten, dies bedeutet, dass anhand von drei Variablen die Entscheidung in welche Klasse eine Beobachtung gehört, gefällt wird, vgl. Abbildung A.1 im Anhang auf Seite 129. Dies ist notwendig, da ein noch komplexere Baum kaum noch erfassbar ist. Dies ist auch der Nachteil dieser Methodik, da eine leichte Interpretation nur bei geringer Komplexität möglich ist. Zusätzlich wurde für diesen Baum der Datensatz in einen Trainings- und einen Testdatensatz unterteilt. Im Trainingsdatensatz befinden sich dabei 80% zufällig ausgewählte Beobachtungen und im Testdatensatz die fehlenden 20%. Dadurch kann der Baum am Trainingsdatensatz erstellt werden und die Fehlklassifikationsrate am Testdatensatz überprüft werden. Die Variable am ersten Knoten im Entscheidungsbaum ist die Variable, die anzeigt, wie hoch der Ausländeranteil im Wohnquartier ist. Auch hier zeigt sich, dass ein hoher Ausländeranteil für eine geringe Zufriedenheit mit dem Wohnquartier einhergeht. Im nächsten Knoten versucht die Variable des denkbaren Umzugsgrundes die Daten weiter zu separieren. Hierbei ist auffällig, dass eine zu kleine Wohnung als möglicher Umzugsgrund die Zufriedenheit senkt, während ein Umzug aus beruflichen Gründen sich nicht merkbar auf die Zufriedenheit mit dem Wohnquartier auswirkt. Dies ist jedoch zu erwarten und keine besondere neue Erkenntnis. Im letzten Knoten 62 4 Statistische Auswertung gibt es in den verschiedenen Punkten jetzt unterschiedliche Variablen. Hierbei gibt es oftmals eher uninteressante Variablen, wie die Befragungsart, die keinen Erkenntnisgewinn für die Zufriedenheit liefern. Ersichtlich hierbei ist, dass sich ein schlechter Zustand des Hauses, sowie ein angespanntes Verhältnis zwischen Deutschen und ausländischen Bewohner negativ auswirkt. Insgesamt liefern die Regressionsmodelle jedoch einen höheren Informationsgehalt. Die Fehlklassifikationsrate liegt beim Trainingsdatensatz bei 37% und beim Testdatensatz bei 38.1%. Der Entscheidungsbaum bestätigt daher vor allem die Tatsache, dass sich ein hoher Ausländeranteil auf die Zufriedenheit negativ auswirkt, liefert jedoch keine neuen Informationen. 4.1.4 Zusammenfassung des BBSR-Datensatzes Der BBSR-Datensatz lieferte einige interessante Informationen, die es notwendig machen, einen weiteren Datensatz zur Analyse hinzuzuziehen. Der BBSR-Datensatz enthält die Zufriedenheit über mehrere Bereiche, von besonderem Interesse für die Analyse ist hierbei die Zufriedenheit mit dem Wohnquartier. Da sich die anderen Zufriedenheiten jedoch der Wohnquartierszufriedenheit nicht untergliedern lassen, musste hierbei sinnvollerweise ein zweistufiger Modellansatz gewählt werden. Da zuerst die Wohnquartierszufriedenheit modelliert wird, kann dabei ein geeignetes Modell gefunden werden. Bei den sieben verschiedenen Kategorien, die die Variable besitzt, ist die Fehklassifikationsrate zu hoch, daher werden die Kategorien zu dreien zusammengefasst. Dadurch können die Daten geeignet modelliert werden. Es zeigt sich, dass vor allem ein hoher Ausländeranteil für eine geringe Zufriedenheit sorgt. Dies ist durchgängig bei allen Modellen die eindeutigste Variable. Ein guter Zustand der Wohnung und ein hohes Einkommen hingegen bewirken eine erhöhte Zufriedenheit. Überraschenderweise zeigte sich, dass Neubaugebiete zu einer geringeren Zufriedenheit führen. Dies könnte aufgrund sozialer Kontakte der Fall sein. Mit dem zweiten Datensatz wird dies näher analysiert. Die Zufriedenheit mit dem Wohnquartier selbst entwickelt sich über die Jahre positiv. Bei den Neubaugebieten ist dabei zu sehen, dass sich die Neubaugebiete in den jüngeren Jahren die Zufriedenheit weniger senken, als Neubaugebiete in den früheren Jahren. Der hohe Ausländeranteil senkt jedoch die Zufriedenheit über die Jahre hinweg tendenziell noch weiter. Die Situation scheint sich eher noch zu verschärfen. Alles in allem gelingt mit der transformierten Zielvariable eine geeignete Modellierung, jedoch ist es von Interesse einen weiteren Datensatz mit der Methodik zu analysieren um diese zu verifizieren. Dazu ist es sinnvoll einen Datensatz auszuwählen, der eher die sozialen Aspekte im Hinblick 63 4 Statistische Auswertung auf die Wohnquartierszufriedenheit betrachtet, da im BBSR-Datensatz vor allem die physischen Aspekte enthalten waren. 4.2 Analyse des ALLBUS-Datensatz Nach der Analyse des BBSR-Datensatzes wird der ALLBUS-Datensatz betrachtet. Dies erscheint sinnvoll, da dieser einen anderen Aspekt betrachtet, als der BBSR-Datensatz. Hierbei wird vor allem auf die sozialen Interaktionen wert gelegt. Damit können die Interpretationen des BBSRDatensatzes ergänzt, untermauert oder auch widerlegt werden. Der große Unterschied liegt in der Anzahl an Variablen, die im ALLBUS-Datensatz enthalten ist. Zudem wurde diese Erhebung nur alle zwei Jahre durchgeführt. Jahreszahl 1980 1982 1984 1986 1988 1990 1991 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 Anzahl an Beobachtungen 2 955 2 991 3 004 3 095 3 052 3 051 3 030 3 548 3 450 3 518 3 234 3 781 2 820 2 946 3 421 3 448 2 827 Tabelle 4.18: Anzahl an Beobachtungen in den Jahren 1980 bis 2010. Die Befragung fand alle zwei Jahre statt. Anhand der Tabelle 4.18 ist zu erkennen, dass es in den einzelnen Jahren jeweils etwa 3 000 Beobachtungen gibt. Die Zahl schwankt leicht, da nicht immer gleich viele Personen geantwortet haben. Da in diesem Datensatz die Variable Zufriedenheit mit dem Wohnquartier nicht vorhanden ist, muss eine äquivalente Variable gefunden werden. Dazu wird die Variable Verbundenheit mit dem Wohnquartier gewählt. Hierbei ist anzunehmen, dass eine hohe Verbundenheit auch zu einer Zufriedenheit führen kann. Auch in dem ALLBUS-Datensatz sind die meisten Variablen 64 4 Statistische Auswertung kategorial und besitzen zum Teil sehr viele fehlende Werte. Daher wird hierbei die gleiche Methodik wie beim BBSR-Datensatz gewählt, dass die fehlenden Werte als eigene Kategorie aufgefasst werden. Die Zielvariable der Verbundenheit zum Wohnquartier enthält dabei fünf Kategorien, vgl. Tabelle 4.19. Hierbei ist jedoch die Klasse Null am stärksten vertreten. Die Wertung ist hierbei umgedreht zum BBSR-Datensatz, die Kategorie vier steht für die geringste Verbundenheit, anstelle von der höchsten Verbundenheit. Dadurch wirken sich hier exponierte Schätzer kleiner Eins positiv auf die Verbundenheit aus. Kategorie Anzahl Beobachtungen sehr hohe Verbundenheit 45 517 hohe Verbundenheit 2 424 normale Verbundenheit 3 691 wenig Verbundenheit 2 142 keine Verbundenheit 397 Tabelle 4.19: Anzahl Beobachtungen in den einzelnen Kategorien der Zielvariable. 4.2.1 Kategoriale Hauptkomponentenanalyse Da die Vorgehensweise des BBSR-Datensatz hierbei verifiziert werden soll, wird ähnlich vorgegangen. Beim Versuch mit dem ALLBUS-Datensatz zuerst ein volles Modell aufzustellen muss festgestellt werden, dass dies nicht möglich ist. Hierbei sind zu viele Variablen, mit einer zu hohen Multikollinearität vorhanden. Daher wird auf die kategoriale Hauptkomponentenanalyse zurückgegriffen. Dabei ist es zunächst von Bedeutung eine geeignete Anzahl an Hauptkomponenten zu wählen. Dimension Cronbachs Alpha Eigenwert 1 0.994 79.96 2 0.980 37.61 3 0.975 31.86 4 0.968 26.40 5 0.952 18.63 6 0.940 15.27 7 0.926 12.46 8 0.922 11.87 9 0.909 10.30 10 0.905 9.92 65 4 Statistische Auswertung 11 0.897 9.24 12 0.890 8.64 13 0.871 7.44 14 0.863 7.01 15 0.853 6.57 16 0.846 6.29 17 0.839 6.01 18 0.831 5.73 19 0.823 5.48 20 0.814 5.22 21 0.806 5.01 22 0.797 4.82 23 0.778 4.41 24 0.774 4.33 25 0.766 4.18 26 0.762 4.12 27 0.760 4.08 28 0.755 4.01 29 0.751 3.93 30 0.745 3.86 31 0.739 3.76 32 0.722 3.54 33 0.714 3.45 34 0.696 3.24 35 0.684 3.13 36 0.672 3.01 37 0.644 2.78 38 0.606 2.52 39 0.589 2.41 40 0.568 2.29 Tabelle 4.20: Cronbachs Alpha und Eigenwert zur Hauptkomponentenbestimmung für den ALLBUSDatensatz. 66 40 60 ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Eigenwert der entsprechenden Hauptkomponente 80 4 Statistische Auswertung 0 10 20 30 40 Anzahl der Hauptkomponenten Abbildung 4.3: Scree-Plot bei dem die Eigenwerte gegen die Anzahl der Hauptkomponenten abgetragen werden zur Bestimmung der Anzahl der Hauptkomponenten. Anhand der Tabelle 4.20 ist zu erkennen, dass die Eigenwerte zu Anfang stark abfallen. Da jedoch wieder darauf geachtet werden soll, nicht zu wenig Hauptkomponenten zu wählen, wird zusätzlich die Grafik 4.3 betrachtet. Hierbei fällt auf, dass ab zwanzigsten Hauptkomponente ein kleiner Knick zu erkennen ist. Daher werden für diesen Datensatz zwanzig Hauptkomponenten gewählt. Diese Wahl ist dabei wieder heuristisch und könnte auch anders gewählt werden. Mit der Ladung der Variablen in den einzelnen Hauptkomponenten, vgl. Tabelle A.8, wird versucht die Hauptkomponenten inhaltlich zu interpretieren. Die erste Hauptkomponente ist mit Variablen, die das Zusammenleben mit Ausländern beinhaltet, hoch geladen. In der zweiten Hauptkomponente sind vor allem Variablen, die die Einstellung zu sozioökonomischen Eigenschaften/Aspekten befragen, hoch geladen. In der dritten Hauptkomponente sind Variablen über den Medienkonsum geladen. Das soziale 67 4 Statistische Auswertung miteinander verfügt in der vierten Hauptkomponente über eine hohe Ladung. Die fünfte Hauptkomponenten lässt sich leider nicht sinnvoll interpretieren, da die Ladungen zu unterschiedlich sind. Die sechste Hauptkomponente enthält vor allem den beruflichen Erfolg und die Frage nach Fluglärm in der näheren Umgebung. Die siebte, achte, neunte und elfte Hauptkomponente lassen sich nicht sinnvoll interpretieren. Die zehnte Hauptkomponente befasst sich mit den Ängsten der befragten Personen. Variablen mit persönlichen Eigenschaften sind in den Hauptkomponenten zwölf, siebzehn, neunzehn und zwanzig hoch geladen. Die Hauptkomponenten dreizehn, vierzehn und sechzehn sind mit Variablen der Rahmenbedingungen des Wohnorts hoch geladen. Die persönliche Einstellungen zu gesellschaftlichen relevanten Themen sind in Hauptkomponente fünfzehn stark vertreten. In der achtzehnten Hauptkomponente geht es vor allem um die Einstellung zur Religion. 4.2.2 Kumulatives Hauptkomponentenmodell Mit den gewählten Hauptkomponenten kann die Modellgleichung, Verbundenheit = α0 + α1 xhk1 + α2 xhk2 + α3 xhk3 + α4 xhk4 + α5 xhk5 + α6 xhk6 + α7 xhk7 + α8 xhk8 + α9 xhk9 + α10 xhk10 + α11 xhk11 + α12 xhk12 + α13 xhk13 + α14 xhk14 + α15 xhk15 + α16 xhk16 + α17 xhk17 + α18 xhk18 + α19 xhk19 + α20 xhk20 + α21 xjahr + ε, aufgestellt werden. Dadurch werden die Schätzer für die einzelnen Hauptkomponenten und das Jahr erhalten. Variablenname exponierter Schätzer exponierte Varianz hk1 4.87 1.00 hk2 1.22 1.03 hk3 0.16 1.02 hk4 1.46 1.05 hk5 0.17 1.03 hk6 0.75 1.02 hk7 0.38 1.03 hk8 1.32 1.03 hk9 1.46 1.03 68 4 Statistische Auswertung hk10 1.45 1.03 hk11 1.45 1.03 hk12 0.74 1.02 hk13 0.88 1.02 hk14 0.91 1.03 hk15 1.37 1.02 hk16 0.87 1.01 hk17 0.59 1.01 hk18 0.99 1.02 hk19 0.90 1.01 hk20 0.87 1.01 Jahre 0.72 1.00 Achsenabschnitt 0|1 5.15 ·10237 1.00 Achsenabschnitt 1|2 1.49 ·10239 1.08 Achsenabschnitt 2|3 9.97 ·10239 1.09 Achsenabschnitt 3|4 9.21 ·10240 1.10 Tabelle 4.21: Exponierte Schätzer der Hauptkomponenten und der Jahreszahl. Die Schätzer zeigen dabei erneut, dass sich die Verbundenheit mit dem Wohnquartier im Laufe der Jahre steigert, vgl. Tabelle 4.21. Auffällig ist auch, dass sich die erste Hauptkomponente sehr negativ auf die Verbundenheit auswirkt. Hierbei sinkt die Chance auf eine erhöhte Zufriedenheit um fast 500%. Das ist die Hauptkomponente, die vor allem durch das Zusammenleben mit Ausländern geladen ist. Dies bestärkt die Auswertung des ersten Datensatzes. Die Fehlklassifikationsrate in diesem Modell liegt bei lediglich 9.5% und ist damit sehr gering. Dies dürfte vor allem an der großen Klasse Null liegen. Der Wert des AIC liegt hier bei 22 465,27, der Wert des BIC bei 22 687,76. Auch die Konfusionsmatrix verfügt über eine starke Hauptdiagonale, wobei vor allem die Klasse Null hoch besetzt ist, vgl. Tabelle 4.22. Die Klasse vier ist zwar schwach besetzt, aber nicht vollständig leer. Werden die exponierten Schätzer der Hauptkomponenten transformiert in die exponierten Schätzer der ursprünglichen Variablen, vgl. Tabelle A.9 im Anhang auf Seite 124, können die Erkenntnisse des BBSR-Datensatzes ergänzt werden. Dabei ist am auffälligsten, dass auch hier der Ausländeranteil eine große Bedeutung hat. Im Gegenteil zum BBSR-Datensatz ist dieser hier 69 4 Statistische Auswertung Modellklassifizierung 0 1 2 3 P4 Wahre Klasse 0 1 2 3 4 45 517 2 16 7 1 0 306 445 244 41 0 1 947 2 941 1 652 279 0 168 288 238 76 0 1 1 1 0 45 517 2 424 3 691 2 142 397 P 45 543 1 036 6 819 770 3 54 171 Tabelle 4.22: Konfusionsmatrix des Hauptkomponentenmodells im ALLUB-Datensatz. differenzierter erfragt. Es zeigt sich dabei, dass Italiener als angenehm und eher als Bereicherung empfunden werden. Bei Italienern in der Nachbarschaft steigt sogar die Wahrscheinlichkeit auf eine erhöhte Verbundenheit um fast 700%. Sind es anstelle von Italienern jedoch Türken, Juden oder Asylbewerber sinkt die Wahrscheinlichkeit um fast 700%. Das dies ausgerechnet bei diesen Gruppen vorkommt liegt vor allem an der Fragestellung. So ist es gut denkbar, dass Anstelle der Italiener auch andere europäische Nationalitäten erfragt werden könnten. Das eine Religionszugehörigkeit zum Judentum derart die Verbundenheit reduziert ist eher verwunderlich. Hierbei ist es bedauerlich, dass nicht differenziert auch nach muslimisch Gläubigen gefragt wurde. Ein allgemein hoher Ausländeranteil senkt auch bei dieser Modellierung die Chance auf eine hohe Verbundenheit um fast 800%. Eine gute Nachbarschaft, soziale Vereine und Tätigkeiten wirken sich positiv auf die Verbundenheit mit dem Wohnquartier aus. Die Wahrscheinlichkeit auf eine eine hohe Verbundenheit wird dabei immerhin noch um fast 150% erhöht. In Verbindung mit der Auswertung des BBSR-Datensatz kann dies eventuell eine Begründung für die negative Auswirkung von Neubaugebieten sein. Da den Bewohnern eine soziale Bindung sehr wichtig ist, diese aber in Neubaugebieten oftmals noch nicht vorhanden oder zumindest nur im verringerten Umfang, ist daher die Zufriedenheit geringer. Dies würde bedeuten, dass Neubaugebiete nicht an sich schlecht geplant sind, sondern die Bewohner eine Zeit brauchen, sich in diesen zu akklimatisieren. Zudem könnte die soziale Anbindung in Neubaugebieten direkt stärker gefördert werden. Die Belastung durch industriellen Abfall, Kernkraftwerke, Industrieabgase oder Verkehrslärm wirken sich erwartet negativ auf die Verbundenheit aus. Hier wird die Chance auf eine hohe Zufriedenheit um etwa 40% gesenkt. Die gleiche Tendenz war auch schon in der Auswertung des BBSR-Datensatzes zu erkennen. Verwunderlich ist hierbei höchstens, dass die Auswirkung nicht so stark ist, wie vermutet werden könnte. Dennoch bleiben Kernkraftwerke oder erhebliche Lärmbelastung ein klarer Faktor zur Senkung der Wohnquartiertszufriedenheit oder Verbundenheit mit diesem. Auch ist wieder zu erkennen, dass es über die Jahre eine Steigerung der 70 4 Statistische Auswertung Verbundenheit zum Wohnquartier gibt. Zusammenfassend lässt sich beim ALLBUS-Datensatz feststellen, dass die Modellierung deutlich besser gelingt als im BBSR-Datensatz. Die Fehlklassifikationsrate liegt hier nur bei 9.5%. Ein Grund dafür liegt sicherlich in der stark vertretenden Klasse Null. Dennoch bleibt der Eindruck, dass die sozialen Aspekte einen starken Einfluss auf die Verbundenheit zum Wohnquartier ausüben. Zudem bestätigt sich, dass der Ausländeranteil eine starke Auswirkung auf die Verbundenheit hat. Hierbei wird jedoch innerhalb der Ausländergruppierung unterschieden. Dadurch kann festgestellt werden, dass die Modellierung zeigt, dass vor allem türkische und jüdische Bewohner, sowie Asylbewerber die Verbundenheit zum Wohnquartier senken. 4.2.3 Zusammenfassung des ALLBUS-Datensatzes Mit Hilfe des ALLBUS-Datensatzes ließen sich die Ergebnisse des BBSR-Datensatzes weiter vertiefen. Überraschenderweise konnte die Datensituation des ALLBUS-Datensatzes sogar besser modelliert werden. Die Fehlklassifikationsrate war hierbei deutlich geringer. Es zeigt sich, dass sich die sozialen Aspekte stark auf die Zufriedenheit der Bewohner eines Wohnquartiers auswirken. Auch hier war jedoch der deutlichste Einfluss, der Ausländeranteil eines Quartiers. Ist dieser hoch führt es zu einer stark abfallenden Zufriedenheit. In diesem Datensatz konnte zudem erkannt werden, dass dies vor allem auf türkische, jüdische und Asylbewerber bezogen ist. Menschen mit italienischem Migrationshintergrund hingegen sorgen eher für eine steigende Zufriedenheit. Die Methodik der kategorialen Hauptkomponentenmethode in Verbindung mit einem kumulativen Modell erzeugt auch hier zufriedenstellende Ergebnisse. Es kann damit ein Verfahren verwendet werden, dass auf beiden Datensätze gute Ergebnisse erzielt und auch auf weitere Datensätze extrapoliert werden kann. 71 5 Zusammenfassung Die Überprüfung der Eigenschaften, die sich auf die Zufriedenheit mit einem Stadtquartier auswirken, konnten mit Hilfe der Datensätze gut gelingen. Hierzu wurden zwei verschiedene Datensätze ausgewertet, um einen genaueren Einblick zu erhalten, welche Faktoren positiv oder negativ auf die Zufriedenheit wirken. Zuerst wurde dafür der BBSR-Datensatz ausgewertet. Hierbei gab es die Variable Zufriedenheit mit der unmittelbaren Wohnumgebung, die modelliert werden sollte. Da diese Variable kategorial war, wurde ein kumulatives Modell aufgestellt. Die Zufriedenheit war in dieser Variable differenziert in sieben verschiedene Kategorien aufgeteilt. Da zudem noch die Lebenszufriedenheit und andere Zufriedenheiten erhoben wurden, wurde das Modell in zwei verschiedenen Stufen aufgeteilt. Zuerst wurde die Zufriedenheit mit dem Wohnquartier modelliert, danach die Lebenszufriedenheit mit Hilfe der anderen Zufriedenheiten. Da ein Modell mit der ursprünglichen Zielvariable nicht den gewünschten Erfolg brachte, da die Fehlklassifikationsrate zu hoch war, wurde die Zielvariable transformiert. Aus den vorherigen sieben Kategorien wurden drei gebildet. Mit diesen gelang eine gute Modellierung. Zusätzlich zu dieser wurde noch ein Modell gebildet, dass auf die kategoriale Hauptkomponentenanalyse aufbaute. Dazu wurde zuerst die Hauptkomponentenanalyse durchgeführt und eine geeignete Anzahl an Hauptkomponenten ausgewählt, diese wurden dann für die Modellierung verwendet. Die Schätzer konnten sowohl für die Hauptkomponenten, wie auch für die Ursprungsvariablen berechnet werden. Diese Modelle und auch das Modell mit der Zielvariable Lebenszufriedenheit hatten eine gute Fehlklassifikationsrate. Danach wurde mit dieser Methodik der ALLBUS-Datensatz analysiert. Da in diesem deutlich mehr Variablen vorhanden waren, wurde als erstes eine kategoriale Hautpkomponentenmethode durchgeführt. Mit der geeigneten Anzahl an Hauptkomponenten wurde dann erneut ein Modell aufgestellt. Hierbei diente als Zielvariable die Verbundenheit mit dem Wohnquartier, da die Zufriedenheit hierbei nicht erhoben wurde. Es wird jedoch angenommen, dass die Verbundenheit stark mit der Zufriedenheit zusammenhängt. Obwohl die Zielvariable in fünf verschiedenen Kategorien vorkommt, gelingt hier eine deutlich geringer Fehlklassifikationsrate. Da es in diesem Datensatz vor allem um den sozialen Aspekt geht, ist es möglich, dass diese sich deutlicher auf die Verbundenheit mit dem Wohnquartier auswirken. Bei beiden Datensätzen ist zu erkennen, dass sich die Zufriedenheit beziehungsweise Verbun- 72 5 Zusammenfassung denheit mit dem Wohnquartier über die Jahre leicht steigert. Fluglärm, industrieller Abfall und Kernkraftwerke in der näheren Umgebung senken dagegen die Zufriedenheit der Bewohner eines Stadtquartiers. Nachbarschaften mit einem hohen Anteil von jungen oder alten Menschen haben meist eine hohe Zufriedenheit, während junge Familien diese eher senken. Einfamilienhäuser sind für die Zufriedenheit zuträglich, gegenüber Hochhäusern, in denen die Bewohner eher zur Unzufriedenheit neigen. Eine reine Wohngegend gewährt die Chance auf eine höhere Zufriedenheit für die Bewohner, die bei einer gemischten Wohnsiedlung mit Geschäften sinkt. Ein überraschendes Ergebnis aus dem BBSR-Datensatz ist, dass Neubaugebiete sich schlechter auf die Zufriedenheit auswirken, als Gebiete mit älteren Wohnungen. Dieser Effekt wurde genauer betrachtet. Dabei wurde festgestellt, das vor allem die Neubaugebiete im Osten und in kleiner Ortschaften für eine geringe Zufriedenheit sorgen. Vermutet werden kann dabei, dass die Unzufriedenheit sich vor allem auf eine fehlende soziale Anbindung zurückzuführen lässt. Dieses wurde mit Hilfe des ALLBUS-Datensatzes genauer überprüft. Hierbei wurde festgestellt, dass soziale Kontakte und Vereine für die Verbundenheit mit einem Quartier tatsächlich eine große Bedeutung haben. Dies könnte die Vermutung bestätigen, dass den Bewohnern von Neubaugebieten vor allem die sozialen Kontakte fehlen. Am deutlichsten in beiden Datensätzen jedoch ist die steigernde Unzufriedenheit bei einem hohen Ausländeranteil. Schon im ersten Datensatz zeigt sich für jede Form der Modellierung, dass vor allem ein hoher Ausländeranteil für eine geringe Zufriedenheit verantwortlich ist. Dies scheint sich über die Jahre hinweg sogar noch zu verschlimmern. Mit dem zweiten Datensatz konnte diese Aussage etwas differenzierter getroffen werden. Da hier die Ausländergruppen unterteilt wurden, zeigte sich, das nur spezielle für eine hohe Unzufriedenheit sorgten. Die dabei abgefragten italienischen Mitbürger sorgen hingegen eher für eine höhere Zufriedenheit. Menschen mit türkischer Herkunft, mit jüdischer Religion oder Asylbewerber jedoch senken die Zufriedenheit in einem hohen Ausmaß, wenn diese in der Nachbarschaft stark vertreten sind. Vor allem die jüdischen Nachbarn verwundern, jedoch wurde in diesem Datensatz auch nicht nach anderen Religionszugehörigkeiten gefragt. Ein kleiner Ausländeranteil sorgt schon für eine geringe Zufriedenheit, dies nur in einem geringen Ausmaß. Erst wenn der Anteil sehr hoch ist folgt ein starker Einbruch in der Zufriedenheit. Dies scheint als tatsächlich Problem in den entsprechenden Wohnquartieren aufgefasst zu werden. Hier gibt es noch Optimierungspotenzial. Mit beiden Datensätzen zusammen konnte ein guter Eindruck gewonnen werden, welche Faktoren sich auf die Zufriedenheit der Bewohner von Stadtquartieren auswirken. Hierbei ist vor allem 73 5 Zusammenfassung der Ausländeranteil aufgefallen, der sich stark auf die Zufriedenheit auswirkt. Dieser könnte in weiteren Erhebungen noch genauer betrachtet werden. Zudem ist der soziale Aspekt, gerade im Bezug auf Neubaugebiete, interessant für eine nähere Untersuchung. Dadurch könnte die Zufriedenheit in diesen eventuell gesteigert werden. Außerdem wäre es interessant, neben der jüdischen Religionen auch andere abzufragen, wie zum Beispiel die muslimische Religion, die zumindest medial momentan eine höhere Präsenz hat. Festzustellen bleibt zudem, dass die Modellierung im zweiten Datensatz besser gelungen ist, zumindest mit einer geringeren Fehlklassifikationsrate. Dies scheint anzudeuten, dass die sozialen Aspekte einen großen Einfluss auf die Verbundenheit mit einem Wohnquartier besitzen. Im zweistufigen Ansatz im ersten Datensatz konnte zudem erkannt werden, dass die Zufriedenheit mit dem Wohnquartier einen sehr großen Einfluss auf die Lebenszufriedenheit besitzt. Daher ist es eine wichtige Aufgabe, die Wohnquartiere so angenehm wie möglich zu gestalten, um auch die Lebenszufriedenheit der Bewohner zu maximieren. 74 Literaturverzeichnis Backhaus, K., Erichson, B. und Weiber, R. (2011). Fortgeschrittene Multivariate Analysemethoden. Springer, Heidelberg [u.a.]. Bühl, A. (2012). SPSS 20; Einführung in die moderne Datenanalyse. Pearson, München. Burnham, K. P. und Anderson, D. R. (2004). Multimodel Inference. Understanding AIC and BIC in Model Selection. Sociological Methods and Research, 33(2):261–304. Dahmen, W. und Reusken, A. (2008). Numerik für Ingenieure und Naturwissenschaftler. Springer Verlag, Berlin. Fahrmeir, L., Kneib, T. und Lang, S. (2007a). Regression. Modelle, Methoden und Anwendungen. Springer Verlag, Berlin [u.a.]. Fahrmeir, L., Küstler, R., Pigeot, I. und Tutz, G. (2007b). Statistik. Der Weg zur Datenanalyse. Springer Verlag, Berlin [u.a.], 7. Auflage. Fahrmeir, L. und Tutz, G. (2001). Multivariate Statistical Modelling Based on Generalized Linear Models. Springer Verlag, Berlin [u.a.], 2. Auflage. Feldmann, P. (2009). Die strategische Entwicklung neuer Stadtquartiere unter besonderer Berücksichtigung innenstadtnaher oder innerstädtischer, brachgefallener Indurstrieareale. Immobilien Manager, Köln. GESIS - Leibniz-Institut für Sozialwissenschaften (2010). Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS. Golub, G. H. und van Loan, C. F. (1989). Matrix Computations. The Johns Hopkins University Press, Maryland. Greenacre, M. (2007). Correspondence Analysis in Practice. Chapman & Hall/CRC, Boca Raton, 2. Auflage. Groß, J. (2003). Linear Regression. Springer Verlag, Berlin [u.a.]. 75 Literaturverzeichnis Hastie, T., Tibshiranie, R. und Friedman, J. (2008). The elements of Statistical Learning. Data Mining, Inference an d Prediction. Springer Verlag, Berlin [u.a.]. IBM (2012). IBM SPSS Statistics. IBM Corporation, Armonk. Jolliffe, I. T. (1986). Principal Component Analysis. Springer Verlag, New York. Kreienbrock, L. und Schach, S. (1997). Epidemiologische Methoden. Gustav Fisher, Stuttgart [u.a.], 2. Auflage. Norušis, M. J. (2011). IBM SPSS Statistics 19 Advanced Statistical Procedures Companion. Prentice Hall, Upper Saddle River, New Jersey. Ohder, S. (2004). Methodenbericht zur BBSR-Umfrage. Bundesamt für Bauwesen und Raumordnung, München. R Core Team (2013). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. http://www.R-project.org/. Rüger, B. (2002). Test- und Schätztheorie Band II: Statistische Tests. Oldenbourg, München [u.a.]. Steffen, G., Baumann, D. und Betz, F. (2004). Integration und Nutzungsvielfalt im Stadtquartier. Weeber + Partner, Stuttgart, Berlin. Timm, N. H. (2002). Applied Multivariate Analysis. Springer Verlag, New York. Tutz, G. (1990). Analyse für kategoriale Daten mit ordinalem Skalenniveau. Vandenhoeck & Ruprecht, Göttingen. Venables, W. N. und Ripley, B. D. (2002). Modern Applied Statistics with S. Springer Verlag, New York, 4. Auflage. 76 A Anhang Variablenname Bedeutung za_nr ZA-Studiennummer version GESIS Archiv Version ID Identifikation BBSR jahr Erhebungsjahr hgewicht Haushaltsgewichtungsfaktor pgewicht Personengewichtungsfaktor bula Bundesland bik BIK Gemeindetyp sgtyp Stadt- und Gemeindetyp ortsgro Hat der Ort, in dem Sie wohnen, über oder unter 20.000 Einwohner? stadt1 Wohnen Sie im Ortskern oder außerhalb? stadt2 Wo wohnen Sie? zuzOrt Seit wann wohnen Sie in dieser Stadt oder Gemeinde? zu7_ort Wie zufrieden sind Sie mit dieser Stadt oder Gemeinde? zuzWohn Seit wann wohnen Sie in Ihrer jetzigen Wohnung? wohnstat Wie wohnen Sie? miete Wie hoch ist derzeit die monatl. Miete? beu_miet Halten Sie die jetzigen Mietkosten für angemessen? transfer Erhalten Sie Wohngeld? erwerb Wie sind Sie Eigentümer geworden? qumeter Größe der Wohnung insgesamt, Anzahl der Quadratmeter raeume Anzahl der Wohnräume der Wohnung beu_groe Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt? aus_kue Ist eine separate Küche vorhanden? aus_gast Ist ein zusätzliches Gäste-WC vorhanden? aus_iso Sind überwiegend isolierverglasten Fenstern vorhanden? aus_balk Ist ein Balkon oder eine Terrasse vorhanden? 77 A Anhang Variablenname Bedeutung aus_gart Ist ein eigener Garten oder eine Gartenbenutzung vorhanden? aus_platz Ist eine eigene Garage oder ein eigener Abstellplatz vorhanden? aus_stan Standard (Heizung, Warmwasser, Bad/Dusche, WC) vorhanden? aus_ok Entspricht die Ausstattung der Wohnung den Bedürfnissen? altgeb_4 Wann wurde das Haus etwa erbaut? haustyp Zustand des Gebäudes zust_geb Zustand des Hauses zu7_wohn Zufriedenheit mit der eigenen Wohnung zu7_umg Zufriedenheit mit der unmittelbaren Wohnumgebung zu7_umw Zufriedenheit mit den Umweltbedingungen geggeb Direktes Umfeld der Wohnung gegzent Art des Wohngebietes geghaus Sind überwiegend Alt- oder Neubauten vorhanden? gegweinh Sind überwiegend Einfamilienhäuser vorhanden? wgalt2 Ältere Menschen im Rentenalter sind hier vertreten wgjung2 Junge Leute sind hier vertreten wgfam2 Familien mit Kindern sind hier vertreten wgarb2 Leute mit geringem Einkommen sind hier vertreten wgakad2 Leute mit hohem Einkommen sind hier vertreten wgausl2 Ausländer und ausländische Familien sind hier vertreten verh_da Wie ist das Verhältnis zwischen Ausländern und Deutschen? trenn_da Zusammenleben von Ausländern und Deutschen gewünscht deutsch Haben Sie selbst die deutsche oder eine andere Staatsbürgerschaft? kon_aus Sind Kontakte zu Ausländern oder deren Familien vorhanden? kon_deu Sind Kontakte zu Deutschen oder deren Familien vorhanden? umzplan Vorhaben, innerhalb der nächsten 2 Jahre aus der Wohnung auszuziehen umzgrun Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund? umzpraef Wohin wollen Sie umziehen, wo wollen Sie dann wohnen? wila_zz Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage? erw_stat Berufstätigkeit kurz geschl Geschlecht der Zielperson 78 A Anhang Variablenname Bedeutung alter Darf ich fragen, wie alt Sie sind? erw_sta3 Student/Rentner? hhgroe Wie viele Personen leben ständig in Ihrem Haushalt? hhgrupp2 Einkommensklassen EURO ekdm Einkommensklassen DM zu7_leb Zufriedenheit mit Leben Tabelle A.1: Variablen des BBSR-Datensatzes und ihre Bedeutung. Variablenname exponierter Schätzwert exponierte Varianz jahr 1.0754 1.0000 bula2 0.8038 1.0013 bula3 1.1171 1.0029 bula4 1.0943 1.0004 bula5 1.0085 1.0202 bula6 1.1092 1.0019 bula7 0.7779 1.0021 bula8 1.1113 1.0071 bula9 1.2457 1.0065 bula10 0.8547 1.0004 bula11 1.0919 1.0041 bula12 0.9089 1.0021 bula13 1.0779 1.0015 bula14 0.9943 1.0039 bula15 0.9112 1.0018 bula16 0.9331 1.0019 schulab21 1.1580 1.0121 schulab22 1.0773 1.0121 schulab23 1.0195 1.0117 schulab24 0.8606 1.0006 studium1 0.9593 1.0125 studium2 0.9187 1.0063 79 A Anhang Variablenname exponierter Schätzwert exponierte Varianz studium3 0.8564 1.0012 studium4 1.0144 1.0077 studium5 0.8997 1.0017 fam_stan21 1.0978 1.0116 fam_stan22 1.0866 1.0103 fam_stan23 1.2511 1.0054 fam_stan24 1.0306 1.0065 fam_kind0 1.1369 1.0115 fam_kind1 1.0598 1.0095 kinder3 0.9952 1.0030 hhgrupp21 1.1302 1.0012 hhgrupp22 1.0994 1.0027 hhgrupp23 1.0327 1.0021 hhgrupp24 1.0051 1.0018 hhgrupp25 1.0285 1.0021 hhgrupp26 0.9622 1.0020 hhgrupp27 0.9418 1.0017 hhgrupp28 1.0996 1.0013 hhgrupp29 1.0041 1.0008 hhgrupp210 1.0048 1.0015 hhgrupp211 0.9482 1.0026 hhgrupp212 0.8795 1.0007 hhgrupp213 0.8703 1.0010 geggeb1 1.0872 1.0083 geggeb2 1.0254 1.0083 gegzent1 1.0955 1.0007 gegzent2 0.5043 1.0002 gegzent3 0.9793 1.0016 gegzent4 0.8572 1.0064 geghaus1 0.9867 1.0124 geghaus2 1.0419 1.0139 80 A Anhang Variablenname exponierter Schätzwert exponierte Varianz geghaus3 0.9771 1.0076 gegweinh1 1.2062 1.0070 gegweinh2 0.9103 1.0069 gegweinh3 1.0511 1.0009 wgalt21 0.7142 1.0004 wgalt22 0.7943 1.0103 wgalt23 0.8652 1.0145 wgalt24 0.9231 1.0150 wgalt25 1.0854 1.0112 wgjung21 1.3214 1.0007 wgjung22 1.2305 1.0106 wgjung23 1.4481 1.0122 wgjung24 1.5021 1.0085 wgjung25 1.6194 1.0012 wgfam21 0.8332 1.0007 wgfam22 0.8144 1.0125 wgfam23 0.8033 1.0124 wgfam24 0.8512 1.0116 wgfam25 0.9170 1.0019 wgarb21 1.3873 1.0006 wgarb22 1.0978 1.0142 wgarb23 0.9957 1.0136 wgarb24 0.9294 1.0161 wgarb25 0.9639 1.0062 wgakad21 0.7516 1.0143 wgakad22 0.8428 1.0138 wgakad23 0.9782 1.0164 wgakad24 1.1485 1.0069 wgakad25 1.4227 1.0005 wgausl21 1.5675 1.0108 wgausl22 0.9731 1.0127 81 A Anhang Variablenname exponierter Schätzwert exponierte Varianz wgausl23 0.7519 1.0154 wgausl24 0.5496 1.0044 wgausl25 0.3444 1.0019 verh_da1 1.5203 1.0131 verh_da2 1.0951 1.0132 verh_da3 0.5829 1.0017 kon_aus0 0.8798 1.0070 kon_aus1 1.2117 1.0106 kon_aus2 1.1211 1.0130 kon_deu1 1.3571 1.0005 kon_deu2 1.9930 1.0001 umzplan1 0.8658 1.0040 umzplan2 1.0429 1.0120 umzplan3 1.6808 1.0159 wila_zz1 1.4642 1.0023 wila_zz2 1.0475 1.0129 wila_zz3 0.8417 1.0132 wila_zz4 0.7788 1.0128 wila_zz5 0.7004 1.0021 erw_stat1 1.0303 1.0074 erw_stat2 0.8100 1.0092 sich_ap1 1.0322 1.0111 sich_ap2 0.8955 1.0168 sich_ap3 0.8550 1.0046 sich_ap4 0.8495 1.0008 sich_ap5 0.8844 1.0004 verein1 0.9027 1.0019 verein2 1.0337 1.0089 pkw21 1.0404 1.0055 pkw22 1.0000 1.0199 pkw23 0.9878 1.0023 82 A Anhang Variablenname exponierter Schätzwert exponierte Varianz pkw24 1.0356 1.0003 geschl2 1.1248 1.0163 alter 0.9999 1.0007 aus_balk1 1.1525 1.0127 aus_balk2 1.0918 1.0102 altgeb_4 0.9956 1.0035 haustyp 0.9740 1.0069 zust_geb1 2.5893 1.0152 zust_geb2 1.5980 1.0120 zust_geb3 1.2536 1.0157 zust_geb4 0.9777 1.0015 zust_geb5 0.8845 1.0001 erw_sta31 1.1264 1.0070 erw_sta32 1.1524 1.0058 erw_sta33 1.2156 1.0072 erw_sta34 1.4143 1.0006 erw_sta35 0.9895 1.0017 erw_sta36 1.0357 1.0017 erw_sta37 1.0655 1.0047 teilvoll1 0.8743 1.0057 teilvoll2 0.9162 1.0031 teilvoll3 0.8015 1.0008 bst_zz31 0.9891 1.0114 bst_zz32 1.4710 1.0113 bst_zz33 0.8435 1.0032 bst_zz34 1.1221 1.0003 bst_zz35 1.0110 1.0007 bst_zz36 0.8834 1.0020 bst_zz37 0.9885 1.0002 bst_zz38 8.2192 1.0000 angest1 0.6032 1.0153 83 A Anhang Variablenname exponierter Schätzwert exponierte Varianz angest2 0.6401 1.0162 angest3 0.5991 1.0021 sgtyp20 0.9005 1.0182 sgtyp30 0.9492 1.0162 sgtyp40 1.0121 1.0152 sgtyp50 1.0256 1.0030 ortsgro1 1.8023 1.0073 ortsgro2 0.9566 1.0069 stadt11 2.3587 1.0139 stadt12 2.5716 1.0138 stadt21 1.3281 1.0157 stadt22 1.2505 1.0153 stadt23 1.4597 1.0147 zuzOrt 1.0000 1.0000 zuzWohn 1.0000 1.0000 wohnstat1 0.7782 1.0118 wohnstat2 0.7271 1.0007 wohnstat3 0.8341 1.0099 wohnstat4 0.7642 1.0022 wohnstat6 0.8126 1.0001 miete 1.0002 1.0000 beu_miet1 0.8882 1.0147 beu_miet2 1.1155 1.0136 beu_miet3 1.3086 1.0003 transfer1 0.9638 1.0042 transfer2 0.8926 1.0109 transfer4 0.6899 1.0005 qumeter 1.0006 1.0003 raeume 0.9988 1.0036 Achsenabschnitt 1|2 143.2481 0.0006 Achsenabschnitt 2|3 144.2367 0.0018 84 A Anhang Variablenname exponierter Schätzwert exponierte Varianz Achsenabschnitt 3|4 145.0464 0.0182 Achsenabschnitt 4|5 145.9168 0.0220 Achsenabschnitt 5|6 147.1309 0.0239 Achsenabschnitt 6|7 148.7256 0.0257 Tabelle A.2: Variablen mit exponierten Schätzern und Varianzen im vollen Modell des BBSRDatensatzes. Variablenname 1. Haupteffekt 2. Haupteffekt exponierter Schätzwert exponierte Varianz jahr 1.0149 1.0001 kinder3 0.9891 1.0027 geggeb1 1.3709 1.0020 geggeb2 1.1711 1.0020 gegzent1 1.3092 1.0001 gegzent2 0.6189 1.0001 gegzent3 1.0210 1.0004 geghaus1 3.3846 1.0000 geghaus2 8.3846 1.0000 geghaus3 12.3846 1.0000 gegweinh1 1.0368 1.0015 gegweinh2 0.8793 1.0014 gegweinh3 1.1191 1.0003 wgalt22 0.0000 1.0000 wgalt23 0.0000 1.0002 wgalt24 0.0000 1.0001 wgalt25 0.0000 1.0000 wgjung21 0.6334 1.0002 wgjung22 0.6736 1.0107 wgjung23 0.7859 1.0122 wgjung24 0.8015 1.0090 wgjung25 0.9123 1.0002 85 A Anhang 1. Haupteffekt 2. Haupteffekt exponierter Schätzwert exponierte Varianz wgfam21 1.2646 1.0004 wgfam22 1.3267 1.0131 wgfam23 1.3554 1.0125 wgfam24 1.4685 1.0120 wgfam25 1.7503 1.0006 wgarb21 1.5456 1.0004 wgarb22 1.0385 1.0070 wgarb23 0.9979 1.0132 wgarb24 0.9119 1.0075 wgarb25 0.9887 1.0015 wgakad21 0.7662 1.0061 wgakad22 0.8458 1.0127 wgakad23 1.0211 1.0076 wgakad24 1.2055 1.0028 wgakad25 1.6334 1.0003 wgausl21 0.0000 1.0002 wgausl22 0.0000 1.0002 wgausl23 0.0000 1.0001 wgausl24 0.0000 1.0000 wgausl25 0.0000 1.0000 verh_da1 1.6005 1.0111 verh_da2 1.1368 1.0131 verh_da3 0.6408 1.0012 umzplan1 0.9386 1.0032 umzplan2 1.1152 1.0077 umzplan3 1.8354 1.0108 sich_ap1 1.3090 1.0025 sich_ap2 1.0676 1.0075 sich_ap3 1.0165 1.0017 sich_ap4 0.7932 1.0004 sich_ap5 1.1518 1.0002 86 A Anhang 1. Haupteffekt 2. Haupteffekt exponierter Schätzwert exponierte Varianz pkw21 1.1072 1.0022 pkw22 1.0442 1.0033 pkw23 1.0082 1.0007 pkw24 0.9493 1.0001 geschl2 1.1672 1.0157 alter 0.9999 1.0006 aus_balk1 1.2411 1.0120 aus_balk2 1.1839 1.0096 altgeb_4 0.9952 1.0035 haustyp 0.9747 1.0065 zust_geb1 3.1287 1.0093 zust_geb2 1.8029 1.0120 zust_geb3 1.3127 1.0088 zust_geb4 0.8474 1.0005 zust_geb5 1.0291 1.0000 erw_sta31 1.0664 1.0107 erw_sta32 1.0746 1.0018 erw_sta33 1.2743 1.0047 erw_sta34 0.9400 1.0003 erw_sta35 0.9832 1.0006 erw_sta36 0.9476 1.0013 erw_sta37 1.0829 1.0037 bst_zz31 0.9449 1.0108 bst_zz32 0.8212 1.0122 bst_zz33 0.7925 1.0014 bst_zz34 1.0367 1.0001 bst_zz35 0.8336 1.0003 bst_zz36 0.8367 1.0012 bst_zz37 1.7558 1.0000 bst_zz38 669.7906 1.0000 0.9108 1.0111 sgtyp20 87 A Anhang 1. Haupteffekt 2. Haupteffekt exponierter Schätzwert exponierte Varianz sgtyp30 1.0443 1.0048 sgtyp40 1.0336 1.0021 sgtyp50 1.1146 1.0011 ortsgro1 5.6315 1.0053 ortsgro2 0.7310 1.0052 stadt11 6.6644 1.0101 stadt12 7.1862 1.0104 zuzOrt 1.0000 1.0000 zuzWohn 1.0000 1.0000 wohnstat1 0.8224 1.0075 wohnstat2 0.7379 1.0003 wohnstat3 0.8856 1.0065 wohnstat4 0.8401 1.0011 wohnstat6 0.8274 1.0000 miete 1.0003 1.0000 beu_miet1 0.7217 1.0093 beu_miet2 0.9558 1.0131 beu_miet3 1.3161 1.0002 jahr westost22 0.9611 1.0000 jahr wgalt21 0.9647 1.0001 jahr wgalt22 1.0300 1.0000 jahr wgalt23 1.0192 1.0000 jahr wgalt24 1.0235 1.0000 jahr wgalt25 1.0210 1.0000 jahr wgausl21 1.0930 1.0000 jahr wgausl22 1.0877 1.0000 jahr wgausl23 1.0789 1.0000 jahr wgausl24 1.0332 1.0000 jahr wgausl25 1.0303 1.0000 jahr geghaus1 0.9913 1.0000 jahr geghaus2 0.9653 1.0000 88 A Anhang 1. Haupteffekt 2. Haupteffekt exponierter Schätzwert exponierte Varianz jahr geghaus3 0.9939 1.0000 geghaus1 ortsgro1 0.2003 1.0081 geghaus2 ortsgro1 0.0105 1.0063 geghaus3 ortsgro1 0.5275 1.0006 geghaus1 ortsgro2 1.2789 1.0080 geghaus2 ortsgro2 1.5712 1.0063 geghaus3 ortsgro2 1.1574 1.0006 geghaus1 stadt11 0.1629 1.0066 geghaus2 stadt11 0.0062 1.0032 geghaus3 stadt11 0.5717 1.0004 geghaus1 stadt12 0.1588 1.0071 geghaus2 stadt12 0.0082 1.0046 geghaus3 stadt12 0.3472 1.0007 westost22 geghaus1 0.9340 1.0016 westost22 geghaus2 0.8018 1.0009 westost22 geghaus3 0.6729 1.0004 Achsenabschnitt 1|2 28.4603 0.0004 Achsenabschnitt 2|3 29.4900 0.0011 Achsenabschnitt 3|4 30.2563 0.0021 Achsenabschnitt 4|5 31.1308 0.0146 Achsenabschnitt 5|6 32.3630 0.0180 Achsenabschnitt 6|7 33.9747 0.0204 Tabelle A.3: Variablen mit exponierten Schätzern und Varianzen im Modell mit Wechselwirkungen. 89 A Anhang Variablenname exponierter Schätzwert exponierte Varianz jahr 1.0752 1.0000 bula2 0.8074 1.0016 bula3 1.1464 1.0026 bula4 1.2019 1.0005 bula5 1.0190 1.0220 bula6 1.0852 1.0023 bula7 0.8205 1.0024 bula8 1.2145 1.0061 bula9 1.3012 1.0057 bula10 1.0391 1.0004 bula11 1.0288 1.0055 bula12 0.9280 1.0028 bula13 0.9824 1.0019 bula14 0.9232 1.0058 bula15 0.8988 1.0024 bula16 0.8972 1.0022 schulab21 1.2623 1.0141 schulab22 1.2032 1.0138 schulab23 1.2153 1.0126 schulab24 1.0832 1.0006 studium1 0.8815 1.0124 studium2 0.8277 1.0070 studium3 0.7571 1.0015 studium4 0.8917 1.0060 studium5 0.7814 1.0019 fam_stan21 1.1125 1.0129 fam_stan22 1.1110 1.0113 fam_stan23 1.2565 1.0058 fam_stan24 1.0386 1.0078 fam_kind0 1.2588 1.0130 fam_kind1 1.1697 1.0111 90 A Anhang Variablenname exponierter Schätzwert exponierte Varianz kinder3 0.9970 1.0034 hhgrupp21 1.1364 1.0013 hhgrupp22 1.1264 1.0030 hhgrupp23 1.0858 1.0024 hhgrupp24 1.0839 1.0018 hhgrupp25 1.0210 1.0024 hhgrupp26 0.9746 1.0022 hhgrupp27 0.9757 1.0019 hhgrupp28 1.1291 1.0013 hhgrupp29 1.0164 1.0009 hhgrupp210 1.0019 1.0016 hhgrupp211 0.9572 1.0027 hhgrupp212 0.8477 1.0008 hhgrupp213 0.9597 1.0009 geggeb1 1.1709 1.0095 geggeb2 1.0062 1.0096 gegzent1 1.2697 1.0008 gegzent2 0.6061 1.0003 gegzent3 1.0997 1.0016 gegzent4 0.9806 1.0075 geghaus1 1.0022 1.0143 geghaus2 1.1000 1.0156 geghaus3 1.0801 1.0079 gegweinh1 1.1619 1.0058 gegweinh2 0.8503 1.0089 gegweinh3 0.9861 1.0010 wgalt21 0.8768 1.0004 wgalt22 0.9695 1.0120 wgalt23 1.0385 1.0171 wgalt24 1.1410 1.0176 wgalt25 1.2675 1.0134 91 A Anhang Variablenname exponierter Schätzwert exponierte Varianz wgjung21 0.9048 1.0009 wgjung22 0.9883 1.0124 wgjung23 1.1341 1.0142 wgjung24 1.1856 1.0098 wgjung25 1.2239 1.0015 wgfam21 0.9862 1.0008 wgfam22 1.0292 1.0146 wgfam23 1.0090 1.0145 wgfam24 1.0628 1.0135 wgfam25 1.0879 1.0022 wgarb21 1.3092 1.0006 wgarb22 1.1325 1.0156 wgarb23 1.0348 1.0166 wgarb24 0.9446 1.0193 wgarb25 0.9576 1.0094 wgakad21 0.7612 1.0173 wgakad22 0.8554 1.0157 wgakad23 1.0539 1.0181 wgakad24 1.2060 1.0060 wgakad25 1.3548 1.0005 wgausl21 1.4173 1.0127 wgausl22 0.9004 1.0151 wgausl23 0.6637 1.0182 wgausl24 0.4788 1.0066 wgausl25 0.3133 1.0027 verh_da1 1.5654 1.0154 verh_da2 1.1381 1.0156 verh_da3 0.6141 1.0022 kon_aus0 0.8649 1.0062 kon_aus1 1.1806 1.0119 kon_aus2 1.0857 1.0148 92 A Anhang Variablenname exponierter Schätzwert exponierte Varianz kon_deu1 1.4041 1.0005 kon_deu2 1.6181 1.0001 umzplan1 0.9070 1.0047 umzplan2 1.1044 1.0133 umzplan3 1.8157 1.0175 wila_zz1 1.3795 1.0022 wila_zz2 1.1437 1.0143 wila_zz3 0.9322 1.0148 wila_zz4 0.8240 1.0137 wila_zz5 0.7867 1.0025 erw_stat1 0.8740 1.0086 erw_stat2 0.8144 1.0105 sich_ap1 1.0259 1.0116 sich_ap2 0.9485 1.0196 sich_ap3 0.8905 1.0061 sich_ap4 0.8258 1.0010 sich_ap5 0.9965 1.0005 verein1 0.9029 1.0015 verein2 1.0619 1.0088 pkw21 1.0154 1.0049 pkw22 0.9640 1.0179 pkw23 0.9076 1.0022 pkw24 0.8869 1.0004 geschl2 1.1404 1.0192 alter 1.0015 1.0008 aus_balk1 1.1073 1.0142 aus_balk2 1.0534 1.0115 altgeb_4 0.9997 1.0040 haustyp 0.9759 1.0079 zust_geb1 3.2154 1.0178 zust_geb2 2.2878 1.0142 93 A Anhang Variablenname exponierter Schätzwert exponierte Varianz zust_geb3 1.6626 1.0178 zust_geb4 1.3969 1.0021 zust_geb5 1.5161 1.0001 erw_sta31 0.7496 1.0077 erw_sta32 0.8121 1.0069 erw_sta33 0.8486 1.0081 erw_sta34 0.9929 1.0006 erw_sta35 0.8355 1.0017 erw_sta36 0.8358 1.0020 erw_sta37 0.8425 1.0052 teilvoll1 1.0592 1.0066 teilvoll2 1.1092 1.0034 teilvoll3 1.0271 1.0009 bst_zz31 1.1076 1.0126 bst_zz32 1.6122 1.0133 bst_zz33 0.9053 1.0034 bst_zz34 1.1517 1.0003 bst_zz35 0.9485 1.0009 bst_zz36 0.9515 1.0022 bst_zz37 1.5533 1.0001 bst_zz38 516.8255 1.0000 angest1 0.5923 1.0179 angest2 0.5927 1.0190 angest3 0.5837 1.0023 sgtyp20 0.9301 1.0215 sgtyp30 1.0023 1.0191 sgtyp40 1.0098 1.0180 sgtyp50 1.0670 1.0029 ortsgro1 1.5508 1.0086 ortsgro2 0.9241 1.0081 stadt11 2.2490 1.0165 94 A Anhang Variablenname exponierter Schätzwert exponierte Varianz stadt12 2.3962 1.0166 stadt21 1.4366 1.0195 stadt22 1.3367 1.0179 stadt23 1.4839 1.0177 zuzOrt 0.9999 1.0000 zuzWohn 1.0000 1.0000 wohnstat1 0.7351 1.0136 wohnstat2 0.7084 1.0009 wohnstat3 0.7862 1.0107 wohnstat4 0.7401 1.0027 wohnstat6 0.9336 1.0001 miete 1.0002 1.0001 beu_miet1 0.8520 1.0164 beu_miet2 1.0809 1.0152 beu_miet3 1.1325 1.0004 transfer1 0.9826 1.0051 transfer2 0.9573 1.0132 transfer4 0.7398 1.0006 qumeter 1.0003 1.0003 raeume 1.0032 1.0042 1|2 145.0182 0.0010 2|3 147.1682 0.0174 Tabelle A.4: Variablen mit exponierten Schätzern und Varianzen im Modell ohne Wechselwirkung mit transformierter Zielvariable. 95 A Anhang Variable exponierter Schätzwert Befragungstyp 1.8837 Bundesland 1.0587 BIK Gemeindetyp 1.0440 West-Ost-Variable 1 1.0643 West-Ost-Variable 2 1.0283 Stadt- und Gemeindetyp 1.2226 Besitzt Ort über oder unter 20.000 Einwohner? 1.2060 Wohnen Sie im Ortskern oder außerhalb? 0.8964 Wie wohnen Sie? 1.1676 Seit wann wohnen Sie in dieser Stadt oder Gemeinde? 0.8948 Seit wann wohnen Sie in Ihrer jetzigen Wohnung? 0.8405 Wohnen Sie hier zur Miete? 1.4284 Wie hoch ist derzeit die monatl. Miete? 0.8884 Sind Heizungs- und Warmwasserkosten in der Miete enthalten? 1.0206 Monatliche Heizkostenpauschale 1.0138 Durchschnittliche monatl. Heizkosten (extra) 0.9653 Wie hoch ist die monatl. Pauschale für Heizung und Warmwasser? 0.9044 Monatlicher Zahlbetrag als Warmwassergeld 0.9836 Monatliche Warmwasserpauschale 0.9676 Zeitabstand für die Zahlung von Heizung und Warmwasser 1.0449 Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird 0.9611 Höhe des jährlichen Betrages 0.9861 Zufriedenheit mit Mietkosten? 1.2360 Erhalten Sie Wohngeld? 1.1801 Wie sind Sie Eigentümer geworden? 1.3369 Größe der Wohnung insgesamt, Anzahl der Quadratmeter 1.4005 Anzahl der Wohnräume der Wohnung 1.3366 Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt? 1.1132 Eine separate Küche vorhanden? 0.8929 Ein zusätzlichen Gäste-WC vorhanden? 0.7744 Überwiegend isolierverglasten Fenstern 0.8380 96 A Anhang Variable exponierter Schätzwert Ein Balkon oder eine Terrasse vorhanden? 0.8486 Ein eigener Garten oder eine Gartenbenutzung vorhanden? 0.7336 Eine eigene Garage oder ein eigener Abstellplatz vorhanden? 0.7637 Standard (Heizung, Warmwasser, Bad/Dusche, WC) erfüllt? 0.9211 Die Ausstattung der Wohnung entspricht den Bedürfnissen 0.7430 Wann wurde das Haus etwa erbaut? 1.1358 Zustand des Gebäudes? 0.6973 Zustand des Hauses? 0.6783 Direktes Umfeld der Wohnung 0.7967 Art des Wohngebietes 1.2528 Überwiegend Alt- oder Neubauten vorhanden? 0.9842 Überwiegend Einfamilienhäuser vorhanden? 0.8901 Ältere Menschen im Rentenalter sind hier vertreten 0.9379 Junge Leute sind hier vertreten 0.9438 Familien mit Kindern sind hier vertreten 0.9540 Leute mit geringem Einkommen sind hier vertreten 0.6808 Leute mit hohem Einkommen sind hier vertreten 1.3757 Ausländer und ausländische Familien sind hier vertreten 0.7090 Das Verhältnis zwischen Ausländern und Deutschen hier ist 1.0906 Nachbarschaft mit Ausländer und Deutsche ist gut 1.0006 Haben Sie die deutsche oder eine andere Staatsbürgerschaft? 0.9515 Kontakte zu Ausländern oder deren Familien 1.1297 Kontakte zu Deutschen oder deren Familien 0.9881 Vorhaben, innerhalb von 2 Jahre aus der Wohnung auszuziehen 1.5315 Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund? 0.7025 Wohin wollen Sie umziehen, wo wollen Sie dann wohnen? 0.7197 Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage? 0.7058 Berufstätigkeit kurz 1.0496 Wie schätzen Sie die Sicherheit Ihres eigenen Arbeitsplatzes ein? 0.9753 Vereinbarkeit von Familie und Beruf ein Problem? 0.9959 Wie viele Pkw’s gibt es im Haushalt? 1.1115 97 A Anhang Variable exponierter Schätzwert Geschlecht der Zielperson 1.0148 Darf ich fragen, wie alt Sie sind? 1.2949 Sind Sie zur Zeit arbeitslos? 1.0851 Arbeitsstunden 1.0049 Student/Renter 1.0697 Angestellte/r 1.0182 Arbeiter/in 0.9408 Beamter/ Beamtin 1.0200 Welchen Schulabschluss haben Sie? 0.9671 Beruf/Studium 0.9344 Wie viele Personen leben ständig in Ihrem Haushalt? 1.0514 Anz. Kinder unter 6 J. im Haushalt 0.9811 Anz. Kinder 6 - 13 J. im Haushalt 1.0180 Anz. Kinder 14 - 17 J. im Haushalt 0.9998 Anz. Personen ab 18 J. im Haushalt 1.1120 Anz. Einkommensbezieher im Haushalt 1.0847 Einkommensklassen EURO 1.2732 Einkommensklassen DM 1.1096 Tabelle A.5: Variablen mit exponiertem Schätzer im Hauptkomponentenmodell. Variablennr. Variablenbeschreibung 1 Befragungstyp 2 Bundesland 3 BIK Gemeindetyp 4 West-Ost-Variable 1 5 West-Ost-Variable 2 6 Stadt- und Gemeindetyp 7 Besitzt Ort über oder unter 20.000 Einwohner? 8 Wohnen Sie im Ortskern oder außerhalb? 9 Wie wohnen Sie? 10 Seit wann wohnen Sie in dieser Stadt oder Gemeinde? 98 A Anhang Variablennr. Variablenbeschreibung 11 Seit wann wohnen Sie in Ihrer jetzigen Wohnung? 12 Wohnen Sie hier zur Miete? 13 Wie hoch ist derzeit die monatl. Miete? 14 Sind Heizungs- und Warmwasserkosten in dieser Miete enthalten? 15 Monatliche Heizkostenpauschale 16 Durchschnittliche monatl. Heizkosten (extra) 17 Wie hoch ist die monatliche Pauschale für Heizung und Warmwasser? 18 Monatlicher Zahlbetrag als Warmwassergeld 19 Monatliche Warmwasserpauschale 20 Zeitabstand in dem ein Betrag für Heizung und Warmwasser gezahlt wird 21 Der Betrag, der durchschnittlich für diesen Zeitraum bezahlt wird 22 Höhe des jährlichen Betrages 23 Zufriedenheit mit Mietkosten? 24 Erhalten Sie Wohngeld? 25 Wie sind Sie Eigentümer geworden? 26 Größe der Wohnung insgesamt, Anzahl der Quadratmeter 27 Anzahl der Wohnräume der Wohnung 28 Wie beurteilen Sie die Größe dieser Wohnung für Ihren Haushalt? 29 Eine separate Küche vorhanden? 30 Ein zusätzlichen Gäste-WC vorhanden? 31 Überwiegend isolierverglasten Fenstern 32 Ein Balkon oder eine Terrasse vorhanden? 33 Ein eigener Garten oder eine Gartenbenutzung vorhanden? 34 Eine eigene Garage oder ein eigener Abstellplatz vorhanden? 35 Standard (Heizung, Warmwasser, Bad/Dusche, WC) erfüllt? 36 Die Ausstattung der Wohnung entspricht den Bedürfnissen 37 Wann wurde das Haus etwa erbaut? 38 Zustand des Gebäudes? 39 Zustand des Hauses? 40 Direktes Umfeld der Wohnung 41 Art des Wohngebietes 99 A Anhang Variablennr. Variablenbeschreibung 42 Überwiegend Alt- oder Neubauten vorhanden? 43 Überwiegend Einfamilienhäuser vorhanden? 44 Ältere Menschen im Rentenalter sind hier vertreten 45 Junge Leute sind hier vertreten 46 Familien mit Kindern sind hier vertreten 47 Leute mit geringem Einkommen sind hier vertreten 48 Leute mit hohem Einkommen sind hier vertreten 49 Ausländer und ausländische Familien sind hier vertreten 50 Das Verhältnis zwischen Ausländern und Deutschen hier ist 51 Nachbarschaft mit Ausländer und Deutsche ist gut 52 Haben Sie selbst die deutsche oder eine andere Staatsbürgerschaft? 53 Kontakte zu Ausländern oder deren Familien 54 Kontakte zu Deutschen oder deren Familien 55 Vorhaben, innerhalb von 2 Jahre aus der eigenen Wohnung auszuziehen 56 Weshalb denken Sie daran wegzuziehen? Was ist der Hauptgrund? 57 Wohin wollen Sie umziehen, wo wollen Sie dann wohnen? 58 Wie beurteilen Sie heute Ihre eigene wirtschaftliche Lage? 59 Berufstätigkeit kurz 60 Wie schätzen Sie die Sicherheit Ihres eigenen Arbeitsplatzes ein? 61 Vereinbarkeit von Familie und Beruf ein Problem? 62 Wie viele Pkw’s gibt es im Haushalt? 63 Geschlecht der Zielperson 64 Darf ich fragen, wie alt Sie sind? 65 Sind Sie zur Zeit arbeitslos? 66 Arbeitsstunden 67 Student/Renter 68 Angestellte/r 69 Arbeiter/in 70 Beamter/ Beamtin 71 Welchen Schulabschluss haben Sie? 72 Beruf/Studium 100 A Anhang Variablennr. Variablenbeschreibung 73 Wie viele Personen leben ständig in Ihrem Haushalt? 74 Anz. Kinder unter 6 J. im Haushalt 75 Anz. Kinder 6 - 13 J. im Haushalt 76 Anz. Kinder 14 - 17 J. im Haushalt 77 Anz. Personen ab 18 J. im Haushalt 78 Anz. Einkommensbezieher im Haushalt 79 Einkommensklassen EURO 80 Einkommensklassen DM Tabelle A.6: Variablennummerierung für den BBSR-Datensatz, zur Erkennung in der Hauptkomponentenmatrix. Nr. Variablenbeschreibung 2 Erhebungsgebiet 3 Haben Sie die deutsche Staatsangehörigkeit 4 Sind Sie zufrieden mit der Bundesregierung? 5 Ist der Lebensstandard in der BRD ausreichend? 6 Hängt die Zukunft im Osten von der Leistung ab? 7 Sind Ihnen die Bürger im anderen Teil der BRD fremd? 8 Ist der Leistungsdruck in den neuen Ländern zu hoch? 9 Ist der Sozialismus eine gute Idee? 10 Ist der Lebensstandard gerecht verteilt? 11 Subjektive Schichteinstufung 12 Selbsteinstufung 13 Berufserfolgsvergleich mit Vater 14 Ist der Berufserfolg wie erwartet? 15 Wie sind die Erwartungen für den zukünftigen Berufserfolg? 16 Konflikt: Hauptschulabsolvent-Akademiker 17 Konflikt: Leute mit Kindern vs. Kinderlose 18 Konflikt: Jung vs. Alt 19 Konflikt: Arm vs. Reich 20 Konflikt: Berufstätig vs. Rentner 101 A Anhang Nr. Variablenbeschreibung 21 Konflikt: Ausländische Gastarbeiter vs. Deutsche 22 Konflikt: Frauen vs. Männer 23 Konflikt: Westdeutsche vs. Ostdeutsche 24 Konflikt: Erwerbstätige vs. Arbeitslose 25 Konflikt: Christen vs. Muslime 26 Soll jeder für sich selbst sorgen? 27 Fördern die Unternehmergewinne die Wirtschaft? 28 Werden die Gewinne gerecht verteilt? 29 Persönliche Lebensvorstellung realisiert? 30 Gutes Geld für jeden, auch ohne Leistung 31 Erhöht die Einkommensdifferenz die Motivation? 32 Sind die Rangunterschiede akzeptable? 33 Sind die sozialen Unterschiede gerecht? 34 Ist die Alterssicherung ausreichend? 35 Haben Sie Vertrauen in die Stadt? 36 Sind Sie stolz Deutscher zu sein? 37 Zuzug von: Aussiedlern aus Osteuropa 38 Zuzug von: Asylsuchenden 39 Zuzug von: EU-Arbeitnehmern 40 Zuzug von: Nicht-EU-Arbeitnehmern 41 Machen Ausländer die unschönen Arbeiten? 42 Belasten Ausländer unser soziales Netz? 43 Bereichern Ausländer unsere Kultur? 44 Verknappen Ausländer die Wohnungssituation? 45 Stützen Ausländer die Rentensicherung? 46 Nehmen Ausländer die Arbeitsplätze weg? 47 Begehen Ausländer häufiger Straftaten? 48 Schaffen Ausländer Arbeitsplätze? 49 Wie werden Ausländer durch Behörden behandelt? 50 Einbürgerung: Sollte hier geborgen sein 51 Einbürgerung: Deutsche Abstammung haben 102 A Anhang Nr. Variablenbeschreibung 52 Einbürgerung: Deutsch sprechen 53 Einbürgerung: Lange hier gelebt haben 54 Einbürgerung: Lebensstilanpassung 55 Einbürgerung: In christlicher Kirche sein 56 Einbürgerung: Keine Straftaten 57 Einbürgerung: Eigener Lebensunterhalt 58 Einbürgerung: Zu Grundgesetz bekennen 59 Ausländer: Mehr Anpassung 60 Ausländer: Heim bei knapper Arbeit 61 Ausländer: Keine politischen Aktionen 62 Ausländer: Unter sich heiraten 63 Ausländer: Kontakt in der Familie? 64 Ausländer: Arbeitskontakte? 65 Ausländer: Nachbarschaftskontakte? 66 Ausländer: Freundkontakte? 67 Soll die doppelte Staatsbürgerschaft erlaubt werden? 68 Soll es gleiche Sozialleistungen für Ausländer geben? 69 Soll es ein kommunales Wahlrecht für Ausländer geben? 70 Soll an Schulen auch Islamunterricht erlaubt werden? 71 Ausländeranteilschätzung für Westen 72 Ausländeranteilschätzung Westen, kategorisiert 73 Ausländeranteilschätzung für Osten 74 Ausländeranteilschätzung Osten, kategorisiert 75 Wie hoch ist der Ausländeranteil in der eigenen Wohnumgebung? 76 Lebensstilunterschied: Italiener in BRD 77 Lebensstilunterschied: Aussiedler in BRD 78 Lebensstilunterschied: Asylbewerber in BRD 79 Lebensstilunterschied: Türken in BRD 80 Lebensstilunterschied: Juden in BRD 81 Wie angenehm als Nachbar: Italiener 82 Wie angenehm als Nachbar: Aussiedler 103 A Anhang Nr. Variablenbeschreibung 83 Wie angenehm als Nachbar: Asylbewerber 84 Wie angenehm als Nachbar: Türke 85 Wie angenehm als Nachbar: Jude 86 Haben Juden zu viel Einfluss? 87 Fremder im eigenen Land durch Ausländer 88 Vorkommen: Ausländer werden diskriminiert 89 Vorkommen: Eltern diskriminieren Türken 90 Vorkommen: Unternehmer diskriminieren 91 Verbundenheit zum Bundesland 92 Verbundenheit mit alter BRD 93 Verbundenheit mit ehemaliger DDR 94 Verbundenheit zu Deutschland 95 Verbundenheit zur EU 96 Wichtigkeit: Eigene Familie 97 Wichtigkeit: Beruf und Arbeit 98 Wichtigkeit: Freizeit und Erholung 99 Wichtigkeit: Freunde und Bekannte 100 Wichtigkeit: Verwandtschaft 101 Wichtigkeit: Religion und Kirche 102 Wichtigkeit: Politik 103 Wichtigkeit: Nachbarschaft 104 Wichtigkeit: Sichere Berufsstellung 105 Wichtigkeit: Hohes Einkommen 106 Wichtigkeit: Aufstiegschancen im Beruf 107 Wichtigkeit: Anerkannter Beruf 108 Wichtigkeit: Beruf mit viel Freizeit 109 Wichtigkeit: Interessante Tätigkeit 110 Wichtigkeit: Selbstständige Tätigkeit 111 Wichtigkeit: Verantwortungsvolle Tätigkeit 112 Wichtigkeit: Beruf mit menschlichem Kontakt 113 Wichtigkeit: Karitativ helfender Beruf 104 A Anhang Nr. Variablenbeschreibung 114 Wichtigkeit: Sozial nützlicher Beruf 115 Wichtigkeit: Sinnvoll empfundener Beruf 116 Wichtigkeit: Sichere Arbeitsbedingungen 117 Wie ist Ihr Gesundheitszustand? 118 Wie häufig sehen Sie Fernsehen pro Woche? 119 Wie häufig lesen Sie Zeitung pro Woche? 120 Religiositätsskala 121 Persönliche Belastung: Fluglärm 122 Persönliche Belastung: Indust. Abfall 123 Persönliche Belastung: Kernkraftwerke 124 Persönliche Belastung: Industrieabgase 125 Persönliche Belastung: Verkehrslärm, Autoabgase 126 Vertrauen zu Mitmenschen 127 Nachts allein in eigener Umgebung 128 Nachts allein in anderer Umgebung 129 Alter 130 Geschlecht 131 Konfession 132 Welcher nichtchristliche Religion gehören Sie an? 133 Was ist Ihr allgemeiner Schulabschluss? 134 Berufsausbildungsabschluss 135 Sind Sie in der Ausbildung? 136 Arbeitsweg 137 Dauer der Arbeitslosigkeit 138 Nettoeinkommen 139 Haushaltseinkommen 140 Herkunftsland, Vater 141 Herkunftsland, Mutter 142 Staatsangehörigkeit 143 Sind Sie von Geburt an Deutsch? 144 Auswanderung in ein anderes EU-Land denkbar? 105 A Anhang Nr. Variablenbeschreibung 145 Seit wann sind Sie im Ort? 146 Wohndauer 147 Typ der Wohnung 148 Bundesland 149 Größe der politischen Gemeinde 150 Gemeindetyp 151 Prozentualer Ausländeranteil 152 Mehrpersonenhaushalt? 153 Mehr als acht Personen? 154 Anzahl der Personen 155 Anzahl der Kinder 156 Sind Sie Mitglied in einer Gewerkschaft? 157 Art des Wohngebäudes 158 Zustand des Wohngebäudes 159 Einschätzung Wohnumgebung Tabelle A.7: Variablennummerierung für den ALLBUS-Datensatz, zur Erkennung in der Hauptkomponentenmatrix. Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 2 -0.20 0.10 -0.65 0.29 -0.65 0.40 0.43 0.86 -0.10 3 -0.14 0.07 -0.31 0.12 -0.01 0.05 0.19 -0.38 -0.17 4 0.54 -0.25 -1.10 -0.47 -0.19 -0.28 0.10 0.23 -0.08 5 0.42 1.27 -0.44 -0.36 0.21 -0.14 0.10 0.08 -0.12 6 0.23 -0.04 -0.36 -0.14 -0.58 0.54 0.41 0.13 0.37 7 -0.22 0.04 0.35 0.13 0.56 -0.53 -0.41 -0.13 -0.37 8 -0.24 0.05 0.35 0.16 0.59 -0.54 -0.38 -0.11 -0.36 9 0.22 -0.04 -0.34 -0.12 -0.56 0.53 0.40 0.12 0.37 10 -0.01 -0.04 0.22 0.14 0.26 -0.16 -0.17 -0.63 0.38 11 0.08 -0.03 0.18 0.00 0.19 -0.19 -0.24 -0.65 0.58 12 0.14 -0.03 0.16 0.03 0.34 -0.32 -0.25 -0.50 0.48 13 0.15 0.96 0.42 -0.39 -0.22 0.93 -0.29 -0.37 0.12 106 A Anhang Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 14 -0.15 -0.96 -0.42 0.39 0.22 -0.93 0.29 0.37 -0.12 15 -0.15 -0.96 -0.42 0.39 0.22 -0.93 0.29 0.37 -0.12 16 -0.41 0.31 -0.73 -0.99 -0.37 -0.07 -0.06 -0.16 0.03 17 -0.41 0.31 -0.73 -1.00 -0.37 -0.07 -0.07 -0.16 0.04 18 0.56 -0.60 0.77 0.87 0.51 0.08 0.11 -0.18 -0.28 19 -0.56 0.59 -0.76 -0.87 -0.50 -0.08 -0.11 0.18 0.27 20 -0.56 0.59 -0.76 -0.87 -0.50 -0.07 -0.11 0.19 0.27 21 0.41 -0.31 0.73 1.00 0.37 0.07 0.07 0.17 -0.04 22 0.56 -0.59 0.76 0.88 0.50 0.07 0.11 -0.18 -0.27 23 -0.24 0.03 -0.20 -0.94 0.01 -0.13 -0.44 -0.13 -0.07 24 -0.25 0.03 -0.20 -0.94 0.01 -0.13 -0.44 -0.13 -0.07 25 -0.24 0.03 -0.20 -0.92 0.00 -0.12 -0.43 -0.11 -0.07 26 -0.22 -1.44 -0.15 0.34 -0.16 -0.80 -0.11 0.38 0.49 27 -0.22 -1.43 -0.15 0.34 -0.16 -0.80 -0.10 0.38 0.49 28 0.22 1.42 0.13 -0.33 0.17 0.81 0.12 -0.37 -0.49 29 0.35 1.22 0.12 0.22 -0.06 0.62 0.22 -0.26 -0.18 30 0.49 0.88 -0.15 0.24 -0.39 0.65 -0.02 -0.28 -0.14 31 0.06 0.13 -0.04 -0.07 -0.02 0.08 0.18 0.56 -0.16 32 0.04 0.04 -0.06 -0.09 -0.04 0.11 0.18 0.66 -0.16 33 0.06 -0.02 -0.32 0.08 0.03 0.15 0.29 0.78 -0.23 34 0.31 1.32 -0.04 -0.12 -0.17 0.54 0.17 -0.45 -0.11 35 -0.29 -1.21 0.31 0.13 0.15 -0.06 0.54 0.13 0.04 36 -0.50 -0.02 -0.16 0.29 0.08 -0.02 0.35 0.49 0.80 37 0.34 0.55 0.12 0.27 0.59 0.19 0.08 0.23 -0.06 38 0.34 0.54 0.12 0.27 0.58 0.19 0.08 0.23 -0.06 39 0.34 0.54 0.12 0.27 0.57 0.19 0.08 0.25 -0.07 40 0.35 0.54 0.12 0.26 0.57 0.19 0.08 0.23 -0.06 41 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 42 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 43 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 44 -1.25 -0.23 0.02 -0.02 -0.04 0.06 0.00 -0.05 -0.08 107 A Anhang Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 45 -1.24 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 46 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 47 1.24 0.23 -0.02 0.02 0.04 -0.06 0.00 0.04 0.08 48 -0.82 -0.12 -0.06 0.04 0.00 0.04 0.09 -0.02 -0.12 49 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 50 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 51 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 52 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.04 0.08 53 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 54 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 55 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 56 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 57 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.04 0.08 58 0.83 0.12 0.06 -0.04 0.00 -0.04 -0.09 0.03 0.12 59 0.19 -0.62 -0.91 -0.24 0.07 0.10 0.28 -0.38 -0.32 60 -0.20 0.61 0.90 0.24 -0.07 -0.11 -0.28 0.39 0.31 61 -0.20 0.61 0.90 0.24 -0.06 -0.11 -0.28 0.38 0.31 62 -0.20 0.61 0.91 0.24 -0.06 -0.12 -0.28 0.40 0.29 63 -0.20 0.61 0.91 0.24 -0.07 -0.11 -0.28 0.39 0.31 64 -0.19 0.61 0.90 0.24 -0.07 -0.12 -0.28 0.40 0.31 65 -0.20 0.61 0.90 0.25 -0.07 -0.11 -0.27 0.39 0.32 66 -0.19 0.61 0.91 0.24 -0.07 -0.11 -0.28 0.40 0.30 67 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 68 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 69 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 70 1.05 0.01 -0.08 -0.15 -0.04 0.20 0.07 -0.22 -0.51 71 1.08 0.20 -0.01 0.00 0.03 -0.06 -0.01 0.06 0.07 72 1.08 0.20 -0.01 0.00 0.03 -0.06 -0.01 0.06 0.07 73 1.05 0.20 0.00 0.00 0.03 -0.06 -0.02 0.05 0.07 74 1.05 0.20 0.00 0.00 0.03 -0.06 -0.02 0.05 0.07 75 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 108 A Anhang Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 76 -1.20 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.06 -0.08 77 1.21 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 78 -1.20 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 79 1.22 0.23 -0.02 0.01 0.04 -0.06 0.00 0.06 0.08 80 1.13 0.21 -0.02 0.01 0.04 -0.06 0.00 0.05 0.07 81 1.25 0.23 -0.02 0.01 0.04 -0.06 0.00 0.05 0.08 82 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 83 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.04 -0.08 84 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 85 -1.24 -0.23 0.02 -0.02 -0.04 0.06 0.00 -0.04 -0.08 86 1.21 0.23 -0.03 0.02 0.04 -0.06 0.01 0.04 0.07 87 1.20 0.22 -0.04 0.01 0.04 -0.06 0.01 0.00 0.05 88 -1.24 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 89 -1.24 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 90 -1.23 -0.23 0.02 -0.02 -0.04 0.06 0.00 -0.05 -0.08 91 -0.37 -0.10 1.15 -0.26 0.32 0.40 0.92 -0.07 0.09 92 0.27 0.13 -0.87 0.21 -0.10 -0.49 -0.82 -0.33 0.06 93 -0.24 0.03 0.72 -0.14 0.41 0.00 0.45 -0.55 0.22 94 -0.37 -0.10 1.15 -0.26 0.32 0.40 0.92 -0.07 0.09 95 -0.36 -0.10 1.14 -0.26 0.30 0.41 0.92 -0.06 0.08 96 -0.83 1.11 0.09 0.80 -0.46 -0.25 -0.10 -0.03 -0.07 97 -0.83 1.11 0.09 0.80 -0.47 -0.25 -0.11 -0.03 -0.06 98 -0.83 1.11 0.09 0.80 -0.46 -0.25 -0.11 -0.03 -0.07 99 -0.83 1.11 0.09 0.80 -0.46 -0.25 -0.10 -0.03 -0.07 100 -0.83 1.11 0.09 0.80 -0.46 -0.25 -0.10 -0.03 -0.07 101 0.83 -1.11 -0.08 -0.80 0.47 0.25 0.10 0.02 0.07 102 -0.83 1.11 0.09 0.80 -0.46 -0.25 -0.10 -0.03 -0.06 103 -0.63 0.77 0.54 1.08 -0.12 -0.28 -0.18 -0.37 -0.37 104 -0.62 0.69 -0.22 -0.78 0.14 -0.44 0.41 -0.10 0.37 105 -0.74 0.60 -0.02 -0.48 0.71 -0.02 -0.11 0.18 0.04 106 -0.74 0.60 -0.02 -0.48 0.71 -0.03 -0.11 0.18 0.04 109 A Anhang Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 107 -0.62 0.68 -0.22 -0.78 0.14 -0.44 0.41 -0.10 0.37 108 0.62 -0.69 0.22 0.78 -0.14 0.44 -0.41 0.10 -0.37 109 -0.74 0.60 -0.02 -0.48 0.71 -0.03 -0.11 0.18 0.04 110 -0.74 0.60 -0.02 -0.48 0.71 -0.03 -0.11 0.18 0.04 111 -0.62 0.68 -0.22 -0.78 0.14 -0.44 0.41 -0.10 0.37 112 -0.62 0.69 -0.22 -0.78 0.14 -0.44 0.41 -0.10 0.37 113 -0.74 0.60 -0.02 -0.47 0.71 -0.03 -0.11 0.18 0.04 114 -0.65 0.47 0.24 -0.32 0.95 0.05 -0.22 0.28 -0.04 115 -0.47 0.67 0.31 -0.06 0.51 -0.42 0.77 0.10 0.46 116 -0.47 0.67 0.31 -0.06 0.51 -0.42 0.77 0.10 0.46 117 -0.19 0.53 -0.83 0.68 0.56 -0.23 0.22 -0.14 -0.58 118 -0.29 -0.60 1.34 0.09 -0.94 0.16 -0.38 -0.10 0.36 119 -0.29 -0.61 1.34 0.09 -0.94 0.16 -0.38 -0.10 0.36 120 0.55 -0.23 0.10 0.42 -0.42 -0.46 0.62 -0.27 0.53 121 -0.37 -0.53 -0.78 0.90 0.60 0.82 -0.18 -0.10 0.45 122 -0.37 -0.52 -0.78 0.90 0.60 0.82 -0.18 -0.10 0.45 123 -0.37 -0.52 -0.78 0.89 0.59 0.82 -0.18 -0.10 0.44 124 -0.37 -0.53 -0.78 0.90 0.60 0.82 -0.18 -0.10 0.45 125 -0.38 -0.52 -0.78 0.90 0.61 0.82 -0.19 -0.10 0.45 126 -0.43 -0.22 0.78 -0.80 0.29 0.49 0.41 -0.20 -0.51 127 0.13 -0.30 -0.35 -0.04 -0.08 -0.73 0.10 -0.59 -0.03 128 0.51 -0.71 0.35 -0.41 -0.01 -0.42 0.47 -0.67 -0.21 129 -0.02 0.00 -0.07 0.09 0.06 -0.16 0.11 0.23 -0.23 130 0.03 -0.06 0.04 -0.04 0.01 -0.08 0.06 0.26 -0.22 131 -0.19 0.12 -0.54 0.25 -0.39 0.26 0.37 0.46 -0.04 132 0.04 -0.10 0.19 -0.14 -0.13 0.08 -0.09 0.17 0.16 133 -0.09 0.09 -0.17 0.15 -0.03 -0.07 -0.02 -0.29 0.48 134 0.62 -0.24 1.05 -0.65 0.84 -0.34 -0.47 0.04 -0.26 135 0.31 -0.55 -0.03 -0.93 1.14 0.28 -0.41 0.32 0.57 136 -0.34 0.52 0.31 0.46 -0.17 -0.39 0.76 -0.25 -0.23 137 -0.03 -0.14 0.11 0.02 -0.09 -0.06 -0.08 -0.05 -0.15 110 A Anhang Variable HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 HK9 138 -0.12 0.24 -0.15 0.22 0.17 -0.17 -0.03 -0.73 0.65 139 -0.23 0.30 -0.28 0.35 0.07 -0.13 0.00 -0.78 0.75 140 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.09 141 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 142 0.48 0.04 -0.17 -0.50 -0.91 0.61 -0.02 -0.16 0.06 143 1.21 0.22 -0.04 0.01 0.04 -0.06 0.01 0.00 0.05 144 -0.58 0.33 0.31 -0.28 1.00 0.11 -0.30 0.16 -0.21 145 -0.69 0.56 -0.32 -0.46 0.29 0.18 -0.56 0.42 0.03 146 0.69 -0.53 0.31 0.51 -0.30 -0.17 0.55 -0.39 0.01 147 -0.07 0.10 -0.06 0.13 0.11 -0.11 -0.11 -0.34 0.34 148 -0.19 0.10 -0.62 0.27 -0.63 0.38 0.43 0.86 -0.10 149 0.08 -0.09 0.17 -0.14 0.11 -0.10 -0.03 -0.14 -0.06 150 -0.17 0.34 -0.30 -0.25 -0.18 0.60 0.35 0.04 0.71 151 -1.25 -0.23 0.02 -0.01 -0.04 0.06 0.00 -0.05 -0.08 152 0.19 -0.53 0.83 -0.68 -0.56 0.23 -0.22 0.14 0.58 153 0.00 -0.03 0.05 -0.03 -0.04 0.02 0.00 0.06 0.04 154 -0.04 0.04 -0.03 0.03 -0.06 0.10 -0.14 -0.44 0.30 155 0.54 -0.29 0.15 -0.48 -0.56 -0.02 -0.06 -0.36 -0.56 156 -0.35 0.79 -0.56 0.60 0.12 0.00 0.11 -0.10 0.31 157 -0.06 0.64 -0.77 0.81 0.25 -0.48 0.20 -0.05 0.19 158 -0.06 0.64 -0.77 0.81 0.25 -0.48 0.20 -0.05 0.19 159 -0.19 0.54 -0.83 0.68 0.56 -0.23 0.22 -0.14 -0.59 Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 2 0.26 0.05 0.57 0.29 -0.44 -0.28 -0.50 0.23 0.24 3 -0.06 -0.16 -0.02 -0.76 0.75 -0.39 -0.17 -0.70 -0.10 4 -0.10 0.76 -0.29 0.04 0.17 -0.23 0.03 0.07 0.04 5 0.10 0.12 -0.21 0.22 0.34 0.06 0.05 -0.04 0.43 6 -0.21 0.44 -0.39 -0.15 -0.07 0.05 0.08 -0.08 -0.14 7 0.22 -0.44 0.40 0.15 0.07 -0.06 -0.08 0.08 0.14 8 0.21 -0.44 0.40 0.14 0.09 -0.05 -0.08 0.08 0.14 111 A Anhang Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 9 -0.22 0.44 -0.38 -0.16 -0.08 0.05 0.07 -0.07 -0.13 10 -0.15 0.20 -0.19 0.24 0.17 0.37 0.00 0.01 -0.02 11 -0.46 0.45 0.27 0.25 0.01 0.64 -0.37 0.31 0.12 12 -0.41 0.35 0.28 0.33 -0.09 0.42 -0.29 0.15 0.04 13 0.18 0.31 0.17 -0.31 0.18 -0.52 0.21 0.61 -0.16 14 -0.18 -0.31 -0.17 0.31 -0.18 0.52 -0.21 -0.61 0.16 15 -0.18 -0.31 -0.17 0.31 -0.18 0.52 -0.21 -0.61 0.16 16 -0.02 -0.42 0.09 0.35 0.26 -0.05 -0.02 0.16 -0.31 17 -0.01 -0.42 0.09 0.35 0.26 -0.04 -0.03 0.16 -0.30 18 0.36 0.25 0.08 0.00 -0.02 -0.10 0.01 0.08 0.00 19 -0.36 -0.25 -0.08 0.01 0.02 0.11 -0.01 -0.08 0.00 20 -0.36 -0.25 -0.08 0.00 0.02 0.11 -0.01 -0.09 0.01 21 0.01 0.42 -0.10 -0.35 -0.25 0.04 0.03 -0.16 0.30 22 0.35 0.26 0.08 -0.01 -0.03 -0.10 0.01 0.08 0.00 23 0.63 -0.06 0.07 0.37 0.17 0.05 -0.21 -0.21 0.09 24 0.64 -0.06 0.06 0.38 0.16 0.05 -0.21 -0.20 0.09 25 0.63 -0.06 0.07 0.38 0.15 0.05 -0.21 -0.20 0.10 26 0.01 0.16 -0.06 -0.16 0.20 -0.26 0.14 0.20 0.04 27 0.02 0.16 -0.06 -0.17 0.21 -0.26 0.14 0.20 0.04 28 0.00 -0.16 0.08 0.16 -0.20 0.27 -0.13 -0.20 -0.05 29 -0.12 -0.23 -0.05 -0.12 -0.24 0.29 0.06 -0.11 0.06 30 -0.15 -0.40 0.02 0.01 -0.14 0.35 0.00 -0.14 0.12 31 0.14 0.27 0.74 0.02 0.43 0.67 0.77 -0.04 -0.29 32 0.18 0.33 0.84 0.01 0.45 0.68 0.84 -0.06 -0.34 33 0.27 0.24 0.71 0.02 0.20 0.44 0.70 0.02 -0.26 34 0.26 -0.57 0.05 0.14 -0.03 0.37 0.01 -0.15 0.31 35 -0.41 -0.16 0.11 0.25 -0.03 0.08 -0.28 -0.27 -0.25 36 -0.04 0.10 -0.27 0.28 0.19 -0.07 -0.07 0.00 -0.27 37 -0.32 -0.21 -0.03 0.34 0.53 -0.26 0.06 0.28 0.12 38 -0.32 -0.22 -0.04 0.35 0.52 -0.26 0.06 0.28 0.11 39 -0.31 -0.22 -0.04 0.35 0.52 -0.27 0.06 0.28 0.12 112 A Anhang Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 40 -0.32 -0.22 -0.04 0.35 0.52 -0.26 0.06 0.28 0.12 41 -0.03 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.05 42 0.03 0.00 0.01 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 43 -0.03 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.05 44 -0.02 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.06 45 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 46 0.03 0.00 0.01 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 47 0.02 0.00 0.01 -0.01 -0.04 0.00 -0.03 -0.03 -0.06 48 -0.24 0.05 -0.03 -0.10 -0.14 -0.02 0.01 0.06 -0.33 49 -0.03 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.05 50 -0.02 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.05 51 -0.02 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.06 52 0.02 0.00 0.00 -0.01 -0.04 0.00 -0.03 -0.03 -0.06 53 -0.03 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.05 54 0.03 0.00 0.00 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 55 0.03 0.00 0.00 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 56 0.03 0.00 0.00 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 57 0.03 0.00 0.00 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 58 0.24 -0.05 0.03 0.10 0.14 0.02 -0.01 -0.06 0.33 59 -0.09 -0.10 0.06 -0.05 0.00 -0.03 0.06 0.11 0.04 60 0.09 0.08 -0.09 0.06 -0.02 0.01 -0.06 -0.10 -0.04 61 0.08 0.08 -0.09 0.06 -0.02 0.01 -0.06 -0.10 -0.04 62 0.09 0.07 -0.11 0.07 -0.02 0.00 -0.06 -0.10 -0.04 63 0.08 0.08 -0.09 0.06 -0.02 0.01 -0.06 -0.10 -0.04 64 0.09 0.07 -0.09 0.07 -0.02 0.01 -0.06 -0.10 -0.03 65 0.08 0.08 -0.08 0.06 -0.02 0.01 -0.06 -0.10 -0.05 66 0.09 0.07 -0.10 0.07 -0.03 0.00 -0.06 -0.10 -0.03 67 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 68 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 69 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 70 -0.07 0.28 -0.13 -0.25 -0.19 0.19 0.27 0.12 0.61 113 A Anhang Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 71 0.08 -0.03 -0.01 0.00 0.00 0.00 -0.02 -0.06 0.00 72 0.08 -0.03 -0.01 0.00 0.00 0.00 -0.02 -0.06 0.00 73 0.08 -0.04 -0.02 -0.01 0.01 0.00 -0.01 -0.07 0.00 74 0.08 -0.04 -0.02 -0.01 0.01 0.00 -0.01 -0.07 0.00 75 0.03 0.00 0.01 0.00 -0.04 0.00 -0.03 -0.03 -0.05 76 -0.04 0.01 0.00 0.01 0.04 0.00 0.04 0.03 0.05 77 0.04 -0.01 0.00 -0.01 -0.03 0.00 -0.03 -0.03 -0.04 78 -0.04 0.00 0.00 0.01 0.04 0.00 0.04 0.03 0.05 79 0.04 0.00 0.00 0.00 -0.04 0.00 -0.03 -0.03 -0.04 80 0.03 -0.01 0.00 -0.02 -0.03 -0.01 -0.03 -0.05 -0.06 81 0.03 0.00 0.01 -0.01 -0.04 0.00 -0.03 -0.03 -0.05 82 -0.02 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.06 83 -0.02 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.06 84 -0.03 0.00 -0.01 0.01 0.04 0.00 0.03 0.03 0.06 85 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 86 0.01 0.00 0.00 -0.02 -0.04 -0.01 -0.03 -0.04 -0.08 87 0.02 -0.01 0.02 -0.07 0.02 -0.02 -0.03 -0.08 -0.05 88 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 89 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.06 90 -0.02 0.00 0.00 0.01 0.04 0.00 0.03 0.03 0.07 91 -0.19 -0.19 0.07 0.19 0.03 0.02 -0.14 -0.11 -0.15 92 0.05 0.19 -0.39 -0.26 0.22 0.11 0.40 -0.01 0.02 93 -0.23 -0.06 -0.38 -0.03 0.34 0.17 0.28 -0.20 -0.20 94 -0.19 -0.19 0.07 0.19 0.03 0.03 -0.14 -0.11 -0.15 95 -0.19 -0.21 0.06 0.19 0.03 0.02 -0.15 -0.12 -0.16 96 -0.03 -0.04 0.01 -0.08 -0.03 0.05 0.04 -0.02 0.02 97 -0.04 -0.04 0.02 -0.09 -0.04 0.05 0.03 -0.03 0.03 98 -0.03 -0.04 0.01 -0.09 -0.03 0.06 0.03 -0.02 0.03 99 -0.03 -0.04 0.01 -0.09 -0.03 0.06 0.03 -0.02 0.02 100 -0.03 -0.04 0.00 -0.08 -0.03 0.05 0.03 -0.02 0.02 101 0.03 0.03 -0.02 0.09 0.03 -0.05 -0.01 0.02 -0.03 114 A Anhang Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 102 -0.03 -0.04 0.01 -0.08 -0.03 0.06 0.03 -0.02 0.02 103 0.56 -0.01 0.14 0.14 0.06 0.02 -0.04 0.02 -0.09 104 0.33 -0.09 0.05 -0.20 -0.17 0.01 0.06 0.04 0.03 105 0.09 0.23 0.01 -0.08 -0.15 -0.08 -0.08 -0.03 -0.27 106 0.09 0.23 0.01 -0.08 -0.15 -0.08 -0.08 -0.03 -0.26 107 0.33 -0.09 0.05 -0.20 -0.17 0.01 0.06 0.04 0.03 108 -0.32 0.09 -0.05 0.20 0.17 -0.01 -0.06 -0.04 -0.02 109 0.09 0.23 0.01 -0.08 -0.15 -0.07 -0.08 -0.03 -0.27 110 0.09 0.23 0.01 -0.08 -0.15 -0.07 -0.08 -0.02 -0.27 111 0.33 -0.09 0.05 -0.20 -0.17 0.01 0.06 0.04 0.02 112 0.33 -0.09 0.05 -0.20 -0.17 0.01 0.06 0.04 0.03 113 0.09 0.23 0.01 -0.08 -0.15 -0.08 -0.08 -0.02 -0.26 114 0.17 0.33 -0.05 0.01 -0.04 -0.10 -0.11 -0.09 -0.04 115 0.12 0.06 -0.09 -0.43 -0.16 -0.06 0.21 0.10 0.42 116 0.12 0.06 -0.09 -0.43 -0.16 -0.06 0.21 0.10 0.42 117 -0.42 0.09 0.07 -0.17 -0.27 -0.02 0.06 0.14 -0.14 118 0.00 -0.53 0.25 -0.30 -0.20 0.05 0.10 0.09 -0.19 119 0.00 -0.52 0.25 -0.30 -0.20 0.05 0.10 0.09 -0.19 120 0.25 -0.59 0.23 0.19 0.22 -0.20 -0.01 0.21 -0.48 121 0.49 -0.14 -0.05 -0.02 -0.07 0.12 -0.02 -0.07 -0.08 122 0.50 -0.15 -0.06 -0.02 -0.07 0.12 -0.01 -0.07 -0.08 123 0.50 -0.16 -0.06 -0.02 -0.08 0.12 -0.01 -0.07 -0.08 124 0.50 -0.15 -0.06 -0.02 -0.07 0.12 -0.01 -0.08 -0.08 125 0.49 -0.14 -0.05 -0.02 -0.07 0.12 -0.01 -0.08 -0.08 126 -0.03 0.34 -0.09 0.03 -0.17 0.15 0.00 -0.11 0.26 127 0.93 0.02 0.24 -0.16 -0.11 -0.04 0.16 0.21 0.21 128 0.79 0.28 0.30 -0.16 -0.49 0.00 -0.09 -0.01 -0.48 129 0.18 -0.30 -1.03 0.32 -0.38 0.26 0.02 0.63 -0.38 130 0.14 -0.21 -0.30 0.08 0.03 0.41 0.21 -0.19 -0.02 131 0.12 0.14 0.66 -0.19 0.05 -0.20 -0.69 0.06 0.20 132 0.12 0.14 -0.08 0.60 -0.50 0.47 0.27 0.74 0.34 115 A Anhang Variable HK10 HK11 HK12 HK13 HK14 HK15 HK16 HK17 HK18 133 -0.38 0.57 0.81 -0.01 0.13 0.54 -0.55 0.17 0.24 134 0.13 -0.21 0.31 -0.12 -0.15 0.01 0.01 0.07 0.11 135 -0.68 -1.08 0.37 -0.63 -0.39 0.05 0.32 0.33 0.33 136 0.63 0.49 -0.42 0.34 0.31 -0.07 0.01 0.06 -0.09 137 -0.07 0.00 -0.45 0.22 -0.16 0.26 0.09 0.06 -0.04 138 -0.43 0.47 0.26 0.20 0.05 -0.01 -0.17 0.32 -0.16 139 -0.49 0.52 0.50 0.40 -0.05 -0.17 0.09 -0.17 0.00 140 -0.03 0.00 -0.01 0.00 0.04 0.00 0.03 0.02 0.05 141 -0.03 0.00 -0.01 0.00 0.04 0.00 0.03 0.02 0.05 142 -0.02 0.22 -0.11 -0.15 -0.20 0.05 -0.03 -0.14 -0.22 143 0.02 -0.01 0.02 -0.07 0.02 -0.02 -0.04 -0.08 -0.05 144 0.24 0.28 0.01 0.22 0.11 -0.14 -0.15 -0.04 -0.15 145 -0.28 0.29 -0.07 -0.12 -0.24 0.08 -0.18 -0.29 -0.25 146 0.26 -0.30 0.07 0.09 0.24 -0.07 0.19 0.26 0.30 147 -0.25 0.09 -0.07 0.86 -0.73 -0.34 0.74 -0.14 0.05 148 0.26 0.04 0.57 0.29 -0.44 -0.29 -0.49 0.23 0.25 149 0.00 0.10 0.01 -0.73 0.75 0.67 -0.74 0.29 -0.01 150 0.54 0.04 -0.40 0.18 0.50 0.13 0.13 -0.10 0.58 151 -0.03 0.00 -0.01 0.00 0.04 0.00 0.03 0.03 0.05 152 0.42 -0.09 -0.07 0.17 0.27 0.02 -0.06 -0.14 0.13 153 0.05 0.00 -0.06 0.05 -0.02 0.26 -0.08 0.41 -0.06 154 -0.28 0.19 0.75 0.32 -0.10 -0.70 0.50 -0.92 0.33 155 -0.01 -0.03 0.16 0.31 -0.07 -0.21 0.00 0.13 -0.38 156 0.17 -0.37 0.07 0.02 0.06 0.00 -0.01 0.00 -0.13 157 -0.05 -0.48 0.16 0.03 0.01 -0.04 -0.07 0.04 -0.29 158 -0.05 -0.48 0.16 0.03 0.00 -0.04 -0.06 0.03 -0.29 159 -0.41 0.08 0.07 -0.19 -0.26 -0.02 0.05 0.13 -0.14 Variable HK19 HK20 Variable HK19 HK20 2 0.13 0.25 81 0.00 -0.02 3 0.07 0.68 82 0.00 0.02 116 A Anhang Variable HK19 HK20 Variable HK19 4 0.04 -0.02 83 0.00 0.02 5 -0.07 0.02 84 0.00 0.02 6 0.08 -0.03 85 0.00 0.02 7 -0.08 0.04 86 0.01 -0.02 8 -0.08 0.04 87 0.00 0.04 9 0.07 -0.03 88 0.00 0.01 10 0.11 0.23 89 0.00 0.01 11 0.58 0.35 90 0.00 0.01 12 0.37 0.42 91 -0.05 -0.06 13 0.17 0.01 92 -0.01 -0.15 14 -0.16 -0.01 93 -0.08 -0.28 15 -0.17 -0.01 94 -0.05 -0.06 16 0.09 -0.08 95 -0.05 -0.05 17 0.09 -0.08 96 -0.02 -0.01 18 0.06 0.02 97 -0.02 -0.02 19 -0.05 -0.02 98 -0.02 -0.02 20 -0.05 -0.02 99 -0.02 -0.02 21 -0.09 0.08 100 -0.02 -0.01 22 0.06 0.02 101 0.03 0.02 23 -0.08 0.03 102 -0.02 -0.01 24 -0.08 0.03 103 0.01 -0.04 25 -0.08 0.02 104 0.03 0.01 26 0.05 0.00 105 0.06 -0.01 27 0.05 0.00 106 0.06 -0.01 28 -0.06 0.00 107 0.03 0.01 29 -0.02 0.01 108 -0.03 -0.01 30 -0.09 -0.01 109 0.06 -0.02 31 -0.14 0.27 110 0.06 -0.01 32 -0.14 0.18 111 0.03 0.01 33 -0.15 0.14 112 0.03 0.01 34 -0.11 0.03 113 0.06 -0.01 117 HK20 A Anhang Variable HK19 HK20 Variable HK19 HK20 35 -0.16 -0.17 114 0.02 0.04 36 0.02 -0.19 115 0.02 0.10 37 0.10 0.02 116 0.02 0.10 38 0.09 0.02 117 0.07 -0.09 39 0.10 0.02 118 0.07 0.10 40 0.10 0.02 119 0.07 0.10 41 0.00 0.02 120 0.15 -0.08 42 0.00 -0.02 121 0.01 -0.03 43 0.00 0.01 122 0.01 -0.02 44 0.00 0.02 123 0.01 -0.02 45 0.00 0.02 124 0.01 -0.02 46 0.00 -0.01 125 0.01 -0.02 47 0.00 -0.02 126 -0.08 0.01 48 0.12 -0.08 127 0.00 0.04 49 0.00 0.02 128 0.05 -0.09 50 0.00 0.02 129 -0.33 0.91 51 0.00 0.01 130 1.49 -0.10 52 0.00 -0.02 131 -0.07 0.32 53 0.00 0.02 132 -0.13 -0.91 54 0.00 -0.01 133 0.40 -0.16 55 0.00 -0.02 134 -0.01 0.09 56 0.00 -0.01 135 0.05 0.22 57 0.00 -0.01 136 0.24 0.06 58 -0.12 0.08 137 0.23 0.74 59 0.01 0.02 138 -0.93 0.26 60 -0.01 -0.01 139 -0.27 0.07 61 -0.02 -0.01 140 0.01 0.02 62 -0.02 0.00 141 0.01 0.02 63 -0.01 0.00 142 0.07 0.07 64 -0.01 0.00 143 0.00 0.04 65 -0.01 -0.01 144 0.04 0.00 118 A Anhang Variable HK19 HK20 Variable HK19 HK20 66 -0.01 0.01 145 -0.06 -0.05 67 0.00 0.02 146 0.05 0.04 68 0.00 0.02 147 0.12 0.49 69 0.00 0.01 148 0.13 0.26 70 -0.06 0.05 149 -0.08 -0.10 71 0.01 0.03 150 -0.09 0.10 72 0.01 0.03 151 0.00 0.02 73 0.01 0.03 152 -0.07 0.09 74 0.01 0.03 153 -0.21 -0.21 75 -0.01 -0.02 154 0.22 -0.16 76 0.00 0.01 155 0.13 0.06 77 -0.01 0.00 156 0.05 0.00 78 0.00 0.01 157 0.05 -0.10 79 0.00 -0.01 158 0.05 -0.10 80 0.00 -0.01 159 0.07 -0.10 Tabelle A.8: Hauptkomponentenladung des ALLBUS-Datensatzes. Variable exponierter Schätzer Erhebungsgebiet 4.813 Deutsche Staatsangehörigkeit 1.1794 Lebensstandard BRD ausreichend? 3.5234 Hängt die Zukunft im Osten von der Leistung ab? 6.3939 Sind Ihnen Bürger im anderen Teil der BRD fremd? 0.164 Ist der Leistungsdruck in den neuen Ländern zu hoch? 0.1491 Ist der Sozialismus eine gute Idee? 6.0497 Ist der Lebensstandard gerecht verteilt? 0.5748 Subjektive Schichteinstufung 0.7039 Selbsteinstufung 0.6548 Berufserfolgvergleich mit Vater 0.6027 Ist der Berufserfolg wie erwartet? 1.6656 Wie sind die Erwartungen für den zukünftigen Berufserfolg? 1.6652 119 A Anhang Variable exponierter Schätzer Konflikt: Hauptschulabsolvent-Akademiker 2.037 Konflikt: Leute mit Kindern vs.Kinderlose 2.0429 Konflikt: Jung vs. Alt 0.2593 Konflikt: Arm vs. Reich 3.8366 Konflikt: Berufstätig vs. Rentner 3.8416 Konflikt: Ausländische Gastarbeiter vs. Deutsche 0.4896 Konflikt: Frauen vs. Männer 0.2629 Konflikt: Westdeutsche vs. Ostdeutsche 1.3505 Konflikt: Erwerbstätige vs Arbeitslose 1.3521 Konflikt: Christen vs. Muslime 1.3563 Soll jeder für sich selbst sorgen? 1.711 Fördern die Unternehmergewinne die Wirtschaft? 1.7127 Werden die Gewinne gerecht verteilt? 0.5928 Persönliche Lebensvorstellung realisiert? 1.3538 Gutes Geld für jeden, auch ohne Leistung 5.4593 Erhöht die Einkommensdifferenz die Motivation? 1.0972 Sind die Rangunterschiede akzeptable? 1.1411 Sind die sozialen Unterschiede gerecht? 1.5582 Ist die Alterssicherung ausreichend? 1.9046 Haben Sie Vertrauen in die Stadt? 0.1415 Sind Sie stolz Deutscher zu sein? 0.6989 Zuzug von: Aussiedlern aus Osteuropa 0.3317 Zuzug von: Asylsuchenden 0.329 Zuzug von: EU-Arbeitnehmern 0.3389 Zuzug von: Nicht-EU-Arbeitnehmern 0.3361 Machen Ausländer die unschönen Arbeiten? 0.1227 Belasten Ausländer unser soziales Netz? 8.1185 Bereichern Ausländer unsere Kultur? 0.1228 Verknappen Ausländer die Wohnungssituation? 0.1236 Stützen Ausländer die Rentensicherung? 0.1247 Nehmen Ausländer die Arbeitsplätze weg? 8.1579 120 A Anhang Variable exponierter Schätzer Begehen Ausländer häufiger Straftaten? 7.9662 Schaffen Ausländer Arbeitsplätze? 0.2409 Wie werden Ausländer durch Behörden behandelt? 0.122 Einbürgerung: Sollte hier geborgen sein 0.1226 Einbürgerung: Deutsche Abstammung haben 0.1231 Einbürgerung: Deutsch sprechen 8.171 Einbürgerung: Lange hier gelebt haben 0.1221 Einbürgerung: Lebensstilanpassung 8.1733 Einbürgerung: In christlicher Kirche sein 8.143 Einbürgerung: Keine Straftaten 8.1687 Einbürgerung: Eigener Lebensunterhalt 8.1783 Einbürgerung: Zu Grundgesetz bekennen 4.2264 Ausländer: Mehr Anpassung 2.553 Ausländer: Heim bei knapper Arbeit 0.3812 Ausländer: Keine politischen Aktionen 0.3804 Ausländer: Unter sich heiraten 0.3772 Ausländer: Kontakt in der Familie? 0.3844 Ausländer: Arbeitskontakte? 0.3901 Ausländer: Nachbarschaftskontakte? 0.3852 Ausländer: Freundkontakte? 0.3836 Soll die doppelte Staatsbürgerschaft erlaubt werden? 0.1233 Soll es gleiche Sozialleistungen für Ausländer geben? 0.1232 Soll es ein kommunales Wahlrecht für Ausländer geben? 0.1235 Soll an Schulen auch Islamunterricht erlaubt werden? 4.7518 Ausländeranteilschätzung für Westen 6.263 Ausländeranteilschätzung Westen, kategorisiert 6.2743 Ausländeranteilschätzung für Osten 5.9412 Ausländeranteilschätzung Osten, kategorisiert 5.9541 Wie hoch ist der Ausländeranteil in der eigenen Wohnumgebung? 8.186 Lebensstilunterschied: Italiener in BRD 0.1322 Lebensstilunterschied: Aussiedler in BRD 7.6337 121 A Anhang Variable exponierter Schätzer Lebensstilunterschied: Asylbewerber in BRD 0.1322 Lebensstilunterschied: Türken in BRD 7.8052 Lebensstilunterschied: Juden in BRD 6.7336 Wie angenehm als Nachbar: Italiener 8.1802 Wie angenehm als Nachbar: Aussiedler 0.1226 Wie angenehm als Nachbar: Asylbewerber 0.1234 Wie angenehm als Nachbar: Türke 0.1225 Wie angenehm als Nachbar: Jude 0.125 Haben Juden zu viel Einfluss? 7.6449 Fremder im eigenen Land durch Ausländer 7.4599 Vorkommen: Ausländer werden diskriminiert 0.125 Vorkommen: Eltern diskriminieren Türken 0.1242 Vorkommen: Unternehmer diskriminieren 0.1261 Verbundenheit zum Bundesland 0.0117 Verbundenheit mit alter BRD 29.1093 Verbundenheit mit ehemaliger DDR 0.0587 Verbundenheit zu Deutschland 0.0118 Verbundenheit zur EU 0.0128 Wichtigkeit: Eigene Familie 1.0023 Wichtigkeit: Beruf und Arbeit 1.0237 Wichtigkeit: Freizeit und Erholung 1.008 Wichtigkeit: Freunde und Bekannte 1.0067 Wichtigkeit: Verwandtschaft 1.0082 Wichtigkeit: Religion und Kirche 0.9595 Wichtigkeit: Politik 1.0021 Wichtigkeit: Nachbarschaft 0.3525 Wichtigkeit: Sichere Berufsstellung 0.3436 Wichtigkeit: Hohes Einkommen 0.1205 Wichtigkeit: Aufstiegschancen im Beruf 0.1205 Wichtigkeit: Anerkannter Beruf 0.3431 Wichtigkeit: Beruf mit viel Freizeit 2.891 122 A Anhang Variable exponierter Schätzer Wichtigkeit: Interessante Tätigkeit 0.1208 Wichtigkeit: Selbstständige Tätigkeit 0.1206 Wichtigkeit: Verantwortungsvolle Tätigkeit 0.3422 Wichtigkeit: Beruf mit menschlichem Kontakt 0.3429 Wichtigkeit: Caritativ helfender Beruf 0.1205 Wichtigkeit: Sozial nützlicher Beruf 0.07 Wichtigkeit: Sinnvoll empfundener Beruf 0.0845 Wichtigkeit: Sichere Arbeitsbedingungen 0.0847 Wie ist Ihr Gesundheitszustand? 1.005 Wie häufig sehen Sie Fernsehen pro Woche? 0.3069 Wie häufig lesen Sie Zeitung pro Woche? 0.3079 Religiositätsskala 2.1514 Persönliche Belastung: Fluglärm 1.4149 Persönliche Belastung: Indust. Abfall 1.4243 Persönliche Belastung: Kernkraftwerke 1.4231 Persönliche Belastung: Industrieabgase 1.4219 Persönliche Belastung: Verkehrslärm, Autoabgase 1.4065 Vertrauen zu Mitmenschen 0.031 Nachts allein in eigener Umgebung 2.781 Nachts allein in anderer Umgebung 0.7437 Alter 0.8866 Geschlecht 0.9963 Konfession 2.8146 Welcher nichtchristliche Religion gehören Sie an? 1.0052 Was ist Ihr allgemeiner Schulabschluss? 1.4758 Berufsausbildungsabschluss 0.0919 Sind Sie in der Ausbildung? 0.1139 Arbeitsweg 0.3987 Dauer der Arbeitslosigkeit 0.9176 Nettoeinkommen 0.883 Haushaltseinkommen 1.1757 123 A Anhang Variable exponierter Schätzer Herkunftsland, Vater 0.1226 Herkunftsland, Mutter 0.1222 Staatsangehörigkeit 12.4139 Sind Sie von Geburt an Deutsch? 7.4811 Auswanderung in ein anderes EU-Land denkbar? 0.0547 Seit wann sind Sie im Ort? 0.8387 Wohndauer 1.301 Typ der Wohnung 0.7772 Bundesland 4.4311 Größe der politischen Gemeinde 0.7955 Gemeindetyp 1.9382 Prozentualer Ausländeranteil 0.1219 Mehrpersonenhaushalt? 0.9919 Mehr als acht Personen? 0.9479 Anzahl der Personen 1.0998 Anzahl der Kinder 2.3123 Sind Sie Mitglied in einer Gewerkschaft? 1.6803 Art des Wohngebäudes 2.818 Zustand des Wohngebäudes 2.8185 Einschätzung Wohnumgebung 1.0097 Tabelle A.9: Exponierte Schätzer der Originalvariablen im Hauptkomponentenmodell des ALLBUSDatensatzes. 124 A Anhang 125 A Anhang 126 A Anhang 127 A Anhang 128 A Anhang Abbildung A.1: Entscheidungsbaum mit der Zielvariable Wohnquartierszufriedenheit. 129 Eidesstattliche Erklärung Hiermit erkläre ich, dass ich die vorliegende Arbeit selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate kenntlich gemacht habe. Dortmund, den Unterschrift Einverständniserklärung Ich erkläre mich hiermit einverstanden, dass meine Masterarbeit nach §6 (1) des URG der Öffentlichkeit durch die Übernahme in die Bereichsbibliotheken zugänglich gemacht wird. Damit können Leser der Bibliothek die Arbeit einsehen und zu persönlichen wissenschaftlichen Zwecken Kopien aus dieser Arbeit anfertigen. Weitere Urheberrechte werden nicht berührt. Dortmund, den Unterschrift