Die Clusteranalyse • Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt O- und V-Analyse, wobei die O-Analyse die verbreitetere Anwendung ist • Grundlegende Idee Bildung von Gruppen, die in sich möglichst homogen sind, während die Unähnlichkeit zwischen den Gruppen möglichst groß sein soll Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Grundsätzliches Vorgehen bei der Clusteranalyse 1) Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare 2) Ähnlichstes Paar wird zum ersten Cluster zusammengefasst 3) Erneute Berechnung der Ähnlichkeitsmaße für alle nun noch n-1 Elemente 4) Erneute Zusammenfassung des ähnlichsten Paars - entweder durch Bildung eines neuen Clusters - oder schon bestehenden Clustern wird ein weiteres Element zugeschlagen maximal n-1 mal wiederholt Abbruch der Clusterbildung, wenn gewünschte Clusterzahl erreicht Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Gängige Distanz- und Ähnlichkeitsmaße 1) Euklidische Distanz – „Luftlinie“ 2) Quadrierte Euklidische Distanz 3) Manhattan-Distanz – „US-Taxifahrer“ 1/r 4) Minkowski-Distanz r m d x x jk i1 ij ik 5) Tschebyscheff 6) Cosinus, Pearson Korrelation -> Ähnlichkeitsmaße 7) weitere Maße für andere Skalenniveaus Maße haben jeweils Eigenarten, die das Ergebnis beeinflussen Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Zu beachten bei der Clusteranalyse Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse Bei stark unterschiedlichen Wertebereichen: Variablen mit großen Wertebereichen dominieren das Ergebnis Lösung: Standardisierung der Variablen zur Vermeidung von Skaleneffekten Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Bestimmung der Distanz von Clustern 1) Nächstgelegener Nachbar 2) Entferntester Nachbar 3) Linkage zwischen den Gruppen 4) Linkage innerhalb der Gruppen 5) Zentroid-, Median-Clustering 6) Ward Methoden haben ebenfalls jeweils Eigenarten, die das Ergebnis beeinflussen Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Darstellung der Ergebnisse erfolgt mittels • Zuordnungsübersicht • Dendrogramm • Eiszapfendiagramm Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Zu beantwortende Fragen und Probleme der Clusteranalyse • Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß • Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster • Ausreißer sinnvoll: iteratives Verfahren, Testen verschiedener Varianten und Auswahl der überzeugendsten, interpretierbaren Lösung • „hierarchischer“ Ansatz der Clusteranalyse Durchführung einer Diskriminanzanalyse • Rechenbarkeit Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie Anwendung der Clusteranalyse • klassisches Verfahren der Datenreduktion • Zusammenfassung von Objekten Empirische Regionalforschung: Objekte sind i.d.R. Regionen Identifizierung „ähnlicher“ Regionen Instrument der Regionsabgrenzung und -typisierung • Zusammenfassung von Variablen Identifizierung „ähnlicher“ Variablen, die sich gegenseitig beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind; Zielsetzung ähnlich der Faktorenanalyse, Haupteinsatzgebiet dann Konstruktion von Indikatoren Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie