Struktur der Methodenausbildung (Grundstudium) (wie: Stufen eines Forschungsprojekts) - Teil Ia: Von der Fragestellung über die Operationalisierung zur Datenerhebung/ Datenkonstruktion (wissenschafts theoretische Grundlagen, Operationalisierung und Messung, Verfahren der Datenerhebung, Untersuchungsdesigns) - Teil Ib: Deskriptiv- und inferenzstatistische Modelle der sozialwissenschaftlichen Datenanalyse (Deskription von Gesamtheiten on Stichproben auf Grundgesamtheiten; Zusammenhänge von (je zwei) Merkmalen) 1 - Teil II: Grundlegende multivariate Modelle der sozialwissenschaftlichen Datenanalyse (Drittvariablenkontrolle/Elaboration von Zusammenhängen durch Teilgruppenvergleich (Tabellenanalyse) auf nominalem Messniveau und durch partielle Korrelation auf metrischem Messniveau; multiple Regression und Pfadanalyse zur Analyse von metrischen Daten) Parallel: SPSS-Übungen 2 Deskriptiv- und inferenzstatistische Modelle der sozialwissenschaftlichen Datenanalyse (Methoden Ib) (Gliederung für die ersten Sitzungen) 1. 1.1 Einleitung ................................................................................................. 1 Deskriptivstatistische versus inferenzstatistische Modelle der sozialwissenschaftlichen Datenanalyse ......................................................................... 1 1.2 Charakteristische Gesichtspunkte der statistischen Analyse .................... 2 1.3 Integration der deskriptivstatistischen und inferenzstatistischen Aspekte in der vorliegenden Arbeit ........................................................................ 3 Literaturverzeichnis ............................................................................................... 5 2. 2.1 Probleme von Messmodellen .................................................................. 6 Messen als strukturerhaltende (homomorphe) Abbildung eines empirischen Relationengebildes in ein „numerisches“ Relationengebilde6 2.2 Messniveaus (nach Stevens) und Konstruktion von Skalen mit diesen Messniveaus .............................................................................................. 8 2.2.1 Nominalskalen......................................................................................... 10 2.2.2 Ordinalskalen .......................................................................................... 14 2.2.2.1 Ordinal formulierte Items (Rating-Methoden, Schätzskalen) ................ 15 2.2.2.2 Rangordnung und Paarvergleich ............................................................. 16 2.2.3 Intervallskalen ......................................................................................... 17 2.2.4 Ratioskalen (Verhältnisskalen, absolute Skalen) .................................... 18 2.3 Die verbreitetesten Skalierungsverfahren (Thurstone-Skala, Likert-Skala, Guttman-Skala) ....................................................................................... 18 2.4 Probleme der Indexbildung ..................................................................... 30 2.5 Objektivität, Zuverlässigkeit (Reliability) und Gültigkeit (Validity) als Gütekriterien von Messungen ................................................................ 30 2.6 Messen als strukturerhaltende (homomorphe) Abbildung vs. sonstiges Messen..................................................................................................... 32 Literaturverzeichnis ............................................................................................. 33 3 Modelle der Deskriptiv- und Inferenzstatistik Probleme von Messmodellen Messen als homomorphe (strukturerhaltende) Abbildung eines empirischen Relationengebildes in ein „numerisches“ Relationsgebilde. Beispiele für empirische Relationen: - „autoritärer als“ - „intelligenter als“ 4 Beispiel für Homomorphie auf nominalem Messniveau Empirie: Menge der Individuen dadurch strukturiert, dass sie „äquivalente“ Stellung im Beruf haben oder nicht. Messwerte: Gleiche oder ungleiche Codes (Messwerte) X Homomorphie (Strukturerhaltung) Für alle A und B: ⇔ (A ~ B) ( X (A) = X (B)) Messwert von A A äquivalent zu B genau dann wenn 5 Beispiel für Homomorphie auf ordinalem Messniveau: Messung der Intelligenz - Empirische Realität: Person A löst Aufgaben schneller als B. (Dies ist in dem Beispiel die Vorgängerrelation bzw. Ordnungsrelation in der Empirie.) - Wertebereich der Messung: Der Wertebereich der Messung ist durch Ordnungsrelation unter den Zahlenwerten strukturiert: z.B. IQ (A) = 110 > IQ (B) = 100 Homomorphie: (A beweglicher als B) (Empirisches Relationengebilde) genau dann, wenn (IQ (A) > IQ (B)) („Numerisches“ Relationengebilde) 6 - Weitere Relation: ÄquivalenzRelation Empirie: A „in äquivalenter Berufsgruppe“ wie B Gleichheitsrelation Wertebereich der Messung: Code (A) = Code (B) Zulässig wäre z.B. die folgende Zuordnung von Stellungen im Beruf: Angestellte AN Arbeiter AR Nicht zulässig im Sinne der Homomorphie wäre die Zuordnung: Angestellte A Arbeiter 7 - Nominales Messniveau Beispiel: Äquivalente Berufsgruppen erhalten gleiche Berufscodes zugeordnet. Manche Klassifikationen sind im allgemeinen Gebrauch: Konfession: katholisch, protestantisch, ohne Familienstand: ledig, verheiratet, geschieden, verwitwet Bei offenen Fragen aber sind die Kategorien oft erst zu entwickeln, wie nun an dem Beispiel „Motive für das Studium der Sozialwissenschaften“ gezeigt werden soll. (Ziel: Intersubjektivität (Objektivität) der Konstruktion des Kategorienschemas und der Vercodung) 8 Motive für das Studium der Sozialwissenschaften (Empirische Klassifikation von Antworten) Anderen helfen wollen Realitätsbewältigung Keine sonstige Qualifikation Allgemeines Interesse an gesellschaftlichen und politischen Phänomenen Veränderung von Gesellschaft Eher zufällig Prestige des Berufs Emanzipatorisch Soziale Grundeinstellung Interesse am Gegenstand des Faches Bildung durch Breite des Studium Hohes Einkommen 9 Motive für das Studium der Sozialwissenschaften (Empirische Klassifikation von Antworten) Anderen helfen wollen 5 Realitätsbewältigung 3 Keine sonstige Qualifikation 1 Allgemeines Interesse an gesellschaftlichen und politischen Phänomenen 4 6 Veränderung von Gesellschaft Eher zufällig Prestige des Berufs Emanzipatorisch Soziale Grundeinstellung Interesse am Gegenstand des Faches Bildung durch Breite des Studium 2 Hohes Einkommen 10 Genauere Erläuterung der verwendeten Definitionen: Äquivalenzrelation (~: Äquivalenzzeichen) Beispiel: Die Menge der Untersuchungseinheiten ist strukturiert durch die Relation „gleiche Stellung im Beruf“. Für je 2 Personen A und B: A ~ B oder A ~ B [eindeutige Bestimmtheit] Für jede Person gilt: A ~ A [reflexiv] Für je 2 Personen A und B gilt: (A ~ B) ⇒ (B ~ A) [symmetrisch] Für je 3 Personen A, B, C gilt: [(A ~ B), (B ~ C)] ⇒ [A ~ C] [transitiv] Beispiel: „Gleichheit“ ist eine Äquivalenzrelation 11 „Ähnlichkeit“ ist keine Äquivalenzrelation Beispiel: Das Berufsprestige X von Personen P, Q etc. soll klassifiziert werden. A B C Berufsprestige 2 2 4 (P und Q ähnlich) : ⇔ ( | X (P) – X (Q) | ≤ 2) Diese Ähnlichkeitsrelation ist nicht transitiv: Aber: (A und B ähnlich) und (B und C ähnlich) A und C nicht ähnlich. Die Ähnlichkeitsrelation führt nicht zu einer 1-1-deutigen Zuordnung, d.h.: Es handelt sich nicht um ein nominales Messmodell. Beispiel: Falls A zu Klasse 1 gehört und C zu Klasse 2, so müsste gelten: B gehört zur Klasse 1, weil es ähnlich zu A ist. B gehört zur Klasse 2, weil es ähnlich zu C ist. Bei einem nominalen Messmodell aber muss die Zuordnung 1-1-deutig sein. 12 Messen im strengen Sinne auf nominalem Messniveau: Strukturierte Menge in Empirie (E, ~) (Menge, in der Äquivalenzrelation definiert ist) Strukturierte Menge möglicher Messwerte (M, =) (Menge, in der Gleichheitsrelation definiert ist) (Äquivalenzrelation in Empirie) (Gleichheitsrelation im Messwertbereich) (E,~): „Empirisches Relationengebilde“ (M, =): „ Numerisches Relationengebilde“ 13 Funktional äquivalente Nominalskalen Messniveau Zulässige Transformationen (T) nominal 1-1-deutige Abbildungen (bijektiv) (X1 = X2) ⇔ (T (X1) = T (X2)) Skala 1 „Arbeiter“ „Angestellte“ „Selbstständige“ Skala 2 „ARB“ „ANG“ „SEL“ Skala 3 1 2 3 Aber: „3“ heißt nicht: - „3 mal so viel wie 1“ „Abstand zwischen 3 und 2 ist so groß wie der zwischen 2 und 1“ - „3 ist größer als 1“ (Sondern nur: Wie Rückennummern der Fußballspieler: „1“: Torwart, „9“: Mittelstürmer) 14 Funktional äquivalente Skalen zur Klassifikation der Motive Skala 1 X Y Z Skala 2 A B C Skala 3 1 2 3 Falsch: Skala 1 Skala 2 X A Y B Z C Skala 1 Skala 2 X A Y B Z C 15 Ordinales Messniveau Struktur in Empirie: „Vorgängerrelation“ (Ordnungsrelation in Empirie) Struktur im Bereich der Messwerte: Ordnungsrelation im numerischen Bereich Homomorphie: (A autoritärer als B) genau dann, wenn (Aut (A) > Aut (B)) 16 Ordnungsrelation (Symbol: „<“; lies: „kleiner als“, „weniger als“) Für alle Individuen A und B der UntersuchungsMenge M gilt: ∨ (A = B) · (A < B) ∨· (A > B) ∨ ( · : ausschließendes oder) D.h. die 2-stellige Relation muss eindeutig definiert sein für jedes Paar aus der Menge M. Für jedes A aus M: gilt: A < A (nicht reflexiv) Für jedes Paar (A, B) mit Einheiten aus M gilt: (A < B) ⇒ (B < A) (nicht symmetrisch) Für alle A, B, C auf M gilt: (A < B und B < C) ⇒ (A < C) (transitiv) 17 Vorform ordinalen Messens: „Eigentümer haben Vorteile auf Konsumenten und Arbeitnehmer.“ 1 stimme völlig zu 2 stimme eher zu Strenges ordinales Aufwand: 3 teils/ teils Messen Kosten 4 lehne eher ab erfordert der 5 lehne völlig ab größeren Löst Erfragung einer Rangordnung das Problem? Wichtigste Aufgabe der Sozialwissenschaften? A) Aufklären B) Helfen C) Gerechte Gesellschaftsordnung Wichtigste: 1) ... 2) ... 3) ... Beispiel für eine Antwort: 1) Wichtigste: B 2) C Aber: 3) A Die Transitivität wird hier nicht getestet; das ordinale Messmodel kann auf diese Weise nicht durch die Empirie falsifiziert werden. 18 Beispiel: Der von Inglehart entwickelte Index ist kein falsifizierbares Messmodell, sondern eine operationale Fest-legung der Polarität Post-materialismus versus Materialismus. Auch wenn der tatsächliche Werteraum vieldimensional ist, kann man – mit Informationsverlust – eine Projektion in ein eindimensionales Konzept vornehmen. Genau dies macht Inglehart mit seiner Index-Konstruktion. Vorgabe von Inglehart: Zwei materialistische Ziele: 1) Ruhe und Ordnung 2) Preisstabilität Zwei postmaterialistische Ziele: 1) Bürgereinfluss 2) Freie Meinungsäußerung Der Befragte muss die 4 Ziele in eine Rangordnung (von 1 bis 4) bringen („forced choice“). 19 Definitorische Eindimensionalität: Postmaterialist: Beide Ziele postmaterialistisch. Postmaterialistischer Mischtyp: 1. Ziel postmaterialistisch; 2.Ziel materialistisch. Materialistischer Mischtyp: 1. Ziel materialistisch; 2.Ziel postmaterialistisch. Materialist: Beide Ziele materialistisch. 20 Viele Untersuchungen des Raums Werte und gesellschaftlich-politischer Einstellungen sind eher verträglich mit folgendem Modell von mir: Individualismus/ Wert: Selbstentfaltung („Postmaterialismus“) Sozialismus/ Wert: Gleichheit Wirtschaftsliberalismus/ Wert: Hoher Lebensstandard („Materialismus“) Ethnozentrismus/ Familismus/ Wert: Zugehörigkeit zur eigenen Gemeinschaft Aus dieser zweidimensionalen Perspektive konstruiert Inglehart eine Polarität zwischen zwei Orientierungen, die eher unabhängig variieren, als dass sie sich ausschließen. 21 Paarvergleich Hierbei handelt es sich um strenges ordinales Messen, das Messmodell lässt sich an der Empirie testen. Vorgehensweise: Jedes Individuum muss beantworten: A wichtiger als B? B wichtiger als C? A wichtiger als C? Eine Ordnungsrelation muss Transitivität erfüllen: Falls (A > B und B > C), dann muss auch gelten: A>C Falls ein hoher Prozentsatz der Personen dies nicht erfüllt, so ist dies ein deutlicher Hinweis auf die Mehrdimensionalität der Entscheidungssituation. Das eindimensionale, ordinale Messmodell wird dann verworfen. 22 Anzahl der Paarvergleiche: n n! = k k!(n − k )! mit k = 2 Bei n = 5 Kategorien: 5 5! = = 10 2 2!3! (Dies ist bereits viel.) Bei n = 10 Kategorien: 10 10! = = 45 2 2!8! (Dies ist wohl zu viel.) 23 Funktional äquivalente Skalen auf ordinalem Messniveau Beispiel: Intelligenzmessung Empirie IQ Schulnoten in Frankreich A 110 16 ∨ ∨ 100 10 ∨ ∨ 90 5 löst Aufgaben schneller als B löst Aufgaben schneller als C 24 Zulässige Transformationen auf ordinalem Messniveau: Monotone Abbildungen a) Monoton steigend: (X1 < X2) genau dann, wenn (T(X1) < T(X2)) b) Monoton fallend: (X1 < X2) genau dann, wenn (T(X1) > T (X2)) 25 Die Abbildung im Beispiel (IQ und französische Schulnoten) ist monoton steigend; eine monoton fallende Abbildung wäre auch zulässig: Beispiel: Zusammenhang von IQ und deutschen Schulnoten. Informationsgehalt Ordinale Aussagen sind informativer als nominale Aussagen. (A > B) impliziert: (A = B) Ferner gilt bezüglich der zulässigen Transformationen: Monotone Abbildungen sind unter anderem auch ein-ein-deutige Abbildungen. 26 [Geben Sie ein Zitat aus dem Dokument oder die Zusammenfassung eines interessanten Punktes ein. Sie können das Textfeld an einer beliebigen Stelle im Dokument positionieren. Verwenden Sie die Registerkarte 'Textfeldtools', wenn Sie das Format des Textfelds 'Textzitat' ändern möchten.] Fundamentales („Richtiges“) ordinalem Messniveau: Empirisches Relationengebilde (E, V) Messen Numerisches Relationengebilde (M, <) Vorgängerrelation Homomorphie: (VAB) ⇔ (X (A) < X (B)) (lies: A ist der Vorgänger von B) Z.B. AggressionsMessung von A Z.B.: „A zeigt weniger aggressive Handlungen als B.“ 27 auf Fundamentales („Richtiges“) Messen Messen als homomorphe Abbildung. ist Testbares Messmodell Measurement „by fiat“ („Operationalismus“: Schichtung ist das, was durch die operationale Definition erfasst wird.) 28 Guttman-Skala Messmodell als testbares ordinales (measurement by fiat) Punkt-Items versus monotone Items Punkt-Items: J2: Haben Sie im Fach ... die Note 2? Graphik der Reaktionsmuster 1 P 0 11 2 33 Tatsächliche Note P = Wahrscheinlichkeit mit „ja“ zu antworten 29 Monotone Items: I1 „Ist Ihre Note schlechter als 1?“ I2 „Ist Ihre Note schlechter als 2?“ 1 P I1 0 1 I3 I2 2 3 I5 I4 4 5 Tatsächliche Note P = Wahrscheinlichkeit mit „ja“ zu antworten 30 Beispiel: Bogardus` Messung sozialer Distanz (zu einer Minorität) (Diese Messung ist theoretisch abgeleitet.) 1) Close kinship by marriage 2) Personal chum in one`s club 3) One`s street-neighbor 4) Employment in one`s occupation 5) Citizenship in one`s country 6) As visitors (only) to one`s country 7) In (ex)clude in (from) one`s country (Bundesrepublik: Gastarbeiter ja - als befristete Beschäftigung -, aber nicht Staatsbürger) 31 Mit der Guttmann-Skala werden sowohl die Positionen der Items als auch die Positionen der Personen auf demselben Kontinuum bestimmt. Die Befragten lassen sich nach der Gesamtpunktzahl anordnen und die Items nach der Anzahl der positiven Antworten. Testbares Modell, indem der Koeffizient der Reproduzierbarkeit berechnet wird: 1 - Anzahl der inkonsistenten Reaktionen Anzahl der gesamten Reaktionen Konvention: Koeffizient sollte ≥ 0,90 sein. Modelle sind Konstruktionen. Man testet ein Modell, indem man die tatsächlichen Beobachtungen mit den unter der Modellannahme zu erwartenden Beobachtungen vergleicht. 32 Guttmann-Skalierung sexueller Erfahrung (Koeffizient der Reproduzierbarkeit gleich 0,935) Sequence 1. Embrace 2. Lip kiss 3. Manual manipulation of the clad femal breast, by the male 4. Kissing with tongue contact 5. Manual manipulation of the nude female breast, by the male 6. Kissing of the female breast 7. Manual manipulation of the female genitalia, by the male 8. Manual manipulation of each other’s genitalia 9. Sexual intercourse 10. Manual manipulation of the male genitalia to orgasm, by the female 11. Sucking of the female breast 12. Bare genital contact, without intromission 13. Interfemoral relations 14. Oral contacts with male genitalia 15. Oral contacts with female genitalia 33 Intervallskalen: Vergleich von Intervallen ist zulässig, da es eine Messeinheit gibt. Beispiel: Celsius: Temperaturskalen Einheit festgelegt durch: 0° Celsius: Wasser gefriert 100° Celsius: Wasser kocht 30° Celsius ist nicht doppelt so warm wie 15° Celsius. ┌ Solche Verhältnisse zu vergleichen, erfordert einen absoluten Nullpunkt; bei Temperatur: - 273° Celsius └ 100° - 70°: Unterschied drückt doppelt so viel an Wärmebewegung aus wie das Intervall 15° - 0°. 34 Falls x1 − x2 f ( x1 ) − f ( x2 ) =c = c, so: f ( x3 ) − f ( x4 ) x3 − x4 f (x ) = ax + b (a = 0) für (Zulässige Transformation: Lineare Abbildungen) Beziehung zwischen der Celsiusskala und der Fahrenheitsskala: 9 t F = tC + 32 5 Welches Messniveau Fahrenheitskala? erzielt also Beispiel: Kalenderdatum a steht für die Einheit bzw. Schrittlänge b steht für den Bezugspunkt Zulässige Transformationen: Lineare Abbildungen f ( x ) = ax + b (a = 0) 35 die Beispiel: Ein einfacher additiver Index setzt Vergleichbarkeit von Intervallen voraus. die Bildet man einen Schichtindex als einfachen additiven Index aus drei Indikatoren I1, I2, I3 (z.B. Schulbildung, Berufsprestige, Einkommen) Index = (I1 + I 2 + I 3 ) / 3 , dann ist dazu die Vergleichbarkeit der Intervalleinheiten von I1, I2 und I3 erforderlich. 36 Ratioskalen (Verhältnisskalen) Vergleich von Verhältnissen ist zulässig, da es zusätzlich einen absoluten Nullpunkt gibt. Beispiel: Anzahlen: Zeit (Einkommen, ...) etc. (Alter, ...), Geld x1 f ( x1 ) Falls = r , so : =r x2 f ( x2 ) für f (x ) = ax(a ≠ 0) (Zulässige Transformationen: Linear homogene Abbildungen) 37 Skala 1 A1 A2 A3 - Skala 2 x1 x2 x3 (Äquivalente Skalen für f (x) = ax mit a = 0) f (x1) f (x2) f (x3) Beispiel: Temperaturskala Die Kelvin-Skala ist eine Ratioskala. Absoluter Nullpunkt der Temperatur: -273° Celsius tKelvin = tCelsius + 273 [Kelvin Ratio Skala; Celsius ... Skala aufgrund der Transformation?] Daten auf der Basis von Intervallskalen und Ratioskalen nennt man zusammenfassend: metrische Daten (Nicht-metrisch: nominal und ordinal) 38 Skalierungsverfahren zur Realisierung eines bestimmten Messniveaus 1) Version mit Trennung von Eichung und Erhebung Thurstones Methode der gleich erscheinenden Intervalle Beispiel: Messung von Streikbereitschaft Sammlung geeigneter Statements) Aussagen (Items, Experten zur Eichung der „Skala“ (hier: Betriebsräte) Streikbereitschaft schwach stark Die Experten ordnen „Intensitätsgrad“ bzw. Streikbereitschaft zu. den Items die Stärke den der Beispiel-Item: „Für die Mehrzahl der Arbeitnehmer war und ist selbstverständlich, dass die Arbeiter in der Gewerkschaft sind.“ 39 Selektionskriterien für die ca. 5-12 Items: - Ganzen Wertebereich abdecken - Geringe Streuung der Einschätzung der Experten 2) Version mit gleichzeitiger Eichung und Erhebung Likert-Skala (Verfahren der summierten Einschätzungen) - Sammlung einer Vielzahl von Items zu dem zu messenden Konzept - Die Befragten geben für die Items ihre Einschätzung auf einer Rating-Skala (Schätzskala) an. 1 2 3 4 5 völlige Ablehn- teils/teils Zustim- völlige Ablehnung mung Zustimung mung 40 - Selektion der ca. 5-12 Items für das Messinstrument (Skala) Für jede Person: Summierung der Schätzwerte über alle Items. (Richtung beachten) Betrachtung folgender Teilgruppen: 25 % der Personen mit den höchsten Gesamtwerten 25 % der Personen mit den niedrigsten Gesamtwerten Mit diesen beiden (Extrem-) Gruppen werden die trennschärfsten Items für die Skala ausgewählt. Trennschärfe: Differenz der durchschnittlichen Gesamtwerte für die beiden Extremgruppen. Insgesamt: Einerseits weniger Aufwand („keine Experten“), andererseits ist das Messinstrument abhängig von der befragten Personengruppe. Ferner müssen die Befragten sehr viele Items einschätzen, was viel Interviewzeit erfordert. 41 Beispiel: „The authoritarian personality“ (Adorno et al.) Kausalmodell: Persönlichkeitsvariablen (potentielle Vorurteile, Vorurteilsanfälligkeit) Bestimmte Art der Sozialisation Autoritarismus (gemessen durch die F-Skala) Bündel von Einstellungen (bestehende Vorurteile) Faschismus (prognostiziert durch die F-Skala) Ethnozentrismus (gemessen durch die E-Skala) 42 Entsprechendes Verhalten Antisemitismus (gemessen durch die AS-Skala) Die trennschärfsten 5 Items: „Sex crimes, such as rape and attacks on children, deserve more than mere imprisonment; such criminals ought to be publicly whipped.” “Obedience and respect for authority are the most important virtues children should learn.” “Human nature being what it is, there will always be war and conflict.” “Every person should have a deep faith in some supernatural force higher than himself to wich he gives total allegiance and whose decisions he does not question.” “He is, indeed, contemptible who does not feel an undying love, gratitude, and respect for his parents.” 43 Kritik: - Zur Thurstone-Skala: „Gleich erscheinende Intervalle“ ist bloß ein Anspruch, der aber nicht streng getestet wird. Insofern ist dies auch noch „measurement by fiat“ und nur pragmatisch als Annäherung an „gleich erscheinende Intervalle“ zu interpretieren. - Zur Likert-Skala: Die Summierung von Einschätzungen unterstellt Vergleichbarkeit von Intervallen; streng genommen darf man dies erst auf metrischem Messniveau; es wird also pragmatisch davon ausgegangen, die Einschätzungen seien in den Abständen vergleichbar, ohne dass dies gesondert getestet wird. 44 Messniveau nominal nicht metrisch ordinal Intervallskalen metrisch Ratioskalen (Verhältnisskalen) Welche Vergleiche sind zulässig – im Sinne der Homorphie – für die Messwerte? Gleichheit/ Ungleichheit Ordnungsrelation („größer als“) (> ; <) Vergleiche von Intervallen (Distanzen) (+ ; -) Vergleiche von Verhältnissen (* ; /) 45 Zulässige Transformationen der Skalen? (Äquivalente Skalen) Beispiele ein-ein-deutige Abbildungen Geschlecht Berufsgruppen (a = b) ⇔ f (a) = f (b) Konfession Monotone Abbildungen (z. Bildungsniveau B. monoton steigend) Militärische Ränge (x1 < x2) ⇒ (f (x1) < f (x2)) Lineare Abbildungen Temperatur: Celsius f (x) = ax + b ( a ≠ 0) Kalenderzeit a > 0 : monoton steigend a < 0 : monoton fallend Linear homogene AbbildTemperatur: Kelvin ungen f (x) = ax ( a ≠ 0) Alter Einkommen Der Informationsgehalt einer Aussage steigt mit dem Messniveau: Linear homogene Abbildungen sind insbesondere linear. Lineare Abbildungen sind insbesondere monoton. Monoton Abbildungen sind insbesondere ein-ein-deutig. 46 Graphisch: ein-ein-deutige Abbildung y ● λ λ● λ● ● λ ● λ ● λ x 47 Monotone Abbildung (hier: monoton steigend) y x 48 Lineare Abbildung y f (x) = ax + b (hier: a > 0, d.h.: „steigend“) x y Beispiel für „fallend“ (a < 0) x 49 Linear homogene Abbildung y f (x) = ax x 50 Welches Messniveau benötigt man, um die Messwerte eines Befragten für verschiedene Indikatoren addieren zu können? - Man benötigt eine Einheit, um Intervalle vergleichen zu können. D.h. man benötigt eine Intervallskala. (Metrische Daten: Intervallskala oder Ratioskala) - Beispiel: Das Likert-Verfahren der summierten Einschätzungen erfordert also metrische Daten. - Beispiel: Ein Index erfordert metrische Daten. k I = ∑α j I j j =1 Z.B.: Schicht-Index = (Bildungsindikator + Berufsprestige + Einkommen) / 3 (Die Indikatoren werden vorher vergleichbar gemacht („standardisiert“).) 51 Inhaltsverzeichnis Kap. 3 3. Eindimensionale empirische Häufigkeitsverteilungen und charakteristische Maßzahlen ................................................35 3.1 Eindimensionale empirische Häufigkeitsverteilungen .........35 3.1.1 Diskrete und stetige Merkmale .........................................36 3.1.2 Häufigkeitsverteilungen ...................................................36 3.1.3 Typische Verteilungsformen ............................................43 3.1.4 Empirische versus theoretische Verteilungen ...................46 3.1.5 Kumulative empirische Häufigkeitsverteilungen..............48 3.2 Charakteristische Maßzahlen einer eindimensionalen empirischen Verteilung........................................................51 3.2.1 Lagemaße.......................................................................... 51 3.2.2 Streuungsmaße ................................................................. 63 3.2.3 Maße für die Schiefe und Wölbung ..................................66 3.2.4 Konzentrationsmaße für die Verteilung metrischer Merkmale ......................................................................... 68 3.2.5 Streuungsmaße für nominales Messniveau.......................72 Literaturverzeichnis ................................................................... 76 52 Eindimensionale empirische (Häufigkeits-) Verteilungen D.h.: Inspektion eines Merkmals bzw. einer Variablen. Es handelt sich um die Verteilung der Bevölkerung bzw. der Befragten auf Merkmalsausprägungen oder auf Variablenwerte. Man unterscheidet drei Arten der Darstellung: Graphisch, tabellarisch, Maßzahlen. 53 Tabellarische Darstellung einer Häufigkeitsverteilung am Beispiel der berufliche Stellung der Befragungspersonen (Daten des ALLBUS 2004) Gültig Fehlend Landwirt Akademischer freier Beruf Sonstige Selbständige Beamter, Richter, Berufssoldat Angestellter Arbeiter In Ausbildung Mithelfender Familienangehöriger Gesamt Trifft nicht zu Prozent ,5 Gültige Prozente ,9 Kumulierte Prozente ,9 32 1,1 2,3 3,2 138 4,7 9,8 13,1 92 3,1 6,5 19,6 664 413 49 22,5 14,0 1,7 47,3 29,4 3,5 66,9 96,3 99,8 3 ,1 ,2 100,0 1406 47,7 100,0 1505 51,1 35 1540 2946 1,2 52,3 100,0 Häufigkeit 13 Keine Angabe Gesamt Gesamt 1406 (= 47,7 %) der Befragten sind hauptberuflich erwerbstätig. Die gültigen Prozente beziehen sich auf diese Befragten. Die kumulierten (aufaddierten) Prozente beziehen sich auf die Reihenfolge der Codierung und machen deshalb erst für ordinale Information Sinn. In dem Beispiel lässt sich noch sagen, dass die ersten drei Kategorien die 0,9 + 2,3 + 9,8 = 13,1 % Selbstständigen umfassen. Die Mithelfenden stehen aber bereits an einer anderen Stelle: Selbstständige inklusive Mithelfende umfassen 13,1 + 0,2 = 13,3 %. 54 Graphische Darstellung (Zulässige Interpretationen hängen vom Messniveau ab) Stabdiagramm für nominales Merkmal Erwerbstätigkeit nach Stellung im Beruf (Daten des ALLBUS 2004) Stellung im Beruf 50,0% Anzahl in % 40,0% 30,0% 20,0% 10,0% 0,0% g un ild sb Au n. na ilie m Fa f. el ith m in r ite be Ar irt r lte el n st te ge da ol An ,S er ht ic ,R te am ge Be di än st lb Se e tig ns uf so er rB ie re .F em ad Ak w nd La Die Höhen der gleich breiten Stäbe sind proportional zu den absoluten bzw. relativen Häufigkeiten. In diesem Beispiel kommt den Abständen zwischen den Stäben und ihrer Reihenfolge keine Bedeutung zu (nominales Messniveau). 55 Stabdiagramm für metrisches Merkmal Kinderanzahl der Befragungspersonen Befragte über 45 Jahre 40 37,4 Prozent 30 22,8 20 15,6 14 10 6,3 2,6 0,8 0 0 1 2 3 4 5 0,3 0,2 0,1 7 8 9 6 Kinderanzahl der Befragungspersonen Befragte 18-45 Jahre 50 47,4 Prozent 40 30 23,8 20 18,6 10 7,6 1,5 0,7 0,3 0,1 5 6 8 0 0 1 2 3 4 Daten: ALLBUS 2004 Der Vergleich der beiden Balkendiagramme zeigt, dass bei Befragten über 45 Jahren das Muster „zwei Kinder“ mit Abstand am häufigsten auftritt. Bei den jüngeren Befragten haben die relativ meisten (noch) kein Kind. Die Anordnung und Abstände zwischen den Stäben sind interpretierbar. Information ausschöpfen, d.h. hier: Anordnung (1 < 2 < 3 ...) und Vergleich von Verhältnissen („doppelt so viel wie“) interpretierbar. 56 Kreisdiagramm, Stabdiagramm und Streifendiagramm für ein nominales Merkmal 57 In dem Beispiel veranschaulicht das Stabdiagramm, dass SPD und CDU/CSU die Größenordnung von Volksparteien haben. Das Kreisdiagramm zeigt, dass CDU/CSU und FDP zusammen etwa die Hälfte der Stimmen erhielten, sodass sie die Regierung bilden konnten. 58 Beispiel für ein klassifiziertes metrisches Merkmal: Gruppiertes monatliches Nettoeinkommen (ALLBUS 2004) Gültig 0-499 € 500-999 € 1.000-1.499 € 1.500-1.999 € 2.000-2.499 € 2.500-2.999 € 3.000-3.499 € 3.500-3.999 € 4.000 € und mehr Gesamt Fehlen System d Gesamt Gültige Kumulierte Prozente Prozente 15,9 15,9 25,5 41,4 24,9 66,4 15,7 82,1 7,8 89,9 4,4 94,3 2,5 96,8 1,0 97,8 Häufigkeit 329 528 516 324 161 91 52 21 Prozent 11,2 17,9 17,5 11,0 5,5 3,1 1,8 ,7 46 1,6 2,2 2068 70,2 100,0 878 29,8 2.946 100,0 Daraus geht hervor, dass etwa 90 % der Befragten ein Nettoeinkommen von weniger als 2.500 EUR erzielen. 59 100,0 Histogramm für klassifiziertes metrisches Merkmal ( - Stäbe „benachbart“ - „Flächige“ Darstellung) Einkommen (Histogramm und Polygon) ALLBUS 2004 30 Häufigkeit in % 25 20 15 10 5 0 0-499 500999 10001499 15001999 2000- 25002499 2999 30003499 3500- >4000 3999 Einkommen in € (Polygon: Um die Darstellung zu „glätten“, kann man die Funktionswerte der Klassenmitten verbinden) Die Höhe der Stäbe entspricht den Besetzungszahlen der Einkommensklassen. Aussage der Grafik: Mittlere („durchschnittliche“) Einkommenswerte sind häufiger als extrem hohe und als extrem niedrige Werte. 60 Empirische Verteilungsfunktion für das Beispiel des Einkommens (ALLBUS 2004) 100 90 Kumulierte Häufigkeit in % 80 70 60 50 40 30 20 10 0 0-499 500999 10001499 15001999 20002499 25002999 30003499 35003999 >4000 Einkommen in € In dem Beispiel verfügen 15,9 % der Befragten über ein Einkommen unter 499 €, 41,4 % über ein Einkommen unter 999 € etc. Durch Verbindung der Funktionswerte der Klassenmitten kann man die Funktion wieder wie beim Übergang vom Histogramm zum Polygon glätten. 61 Charakteristische Maßzahlen einer eindimensionalen empirischen Verteilung (Lage- und Streuungsmaße, Konzentrationsmaße) Lagemaße (insbes. Mittelwerte) Metrisches Messniveau: Beispiel: Einkommen x Arithmetisches Mittel n x = ∑ xi / n i =1 62 Geometrisch: Balkenwaage λ Das arithmetische Mittel ist der Schwerpunkt der Verteilung. Gewichte x 1 2 Gewichte = 4*1+1*2+2*3 = 12 4 3 X x= 64 =4 16 5 6 7 Gewichte = 3*2+2*3 = 12 Dies bedeutet, dass die „Balkenwaage“ im arithmetischen Mittel im Gleichgewicht ist. 63 Gewogenes arithmetisches Mittel Beispiel für ein gewogenes arithmetisches Mittel: Nettoeinkommen nach Berufshauptgruppe (ALLBUS 2004) Berufshauptgruppe Wissenschaftler+Techniker Leitungsberufe Buerokräfte u.ae. Handelsberufe Dienstleistungsberufe Landw., Forst., Fisch. Gütererzeugungsberufe Sonstige Gesamt Häufigkeit 283 91 249 Durchschnittseinkommen (€) 1984 2756 1361 1571 1310 103 105 30 353 48 1.261 1407 1456 1907 Das durchschnittliche Einkommen errechnet sich also durch Gewichtung der jeweiligen Mittelwerte x mit nj, wobei hier k = 8 Gruppen vorliegen. j k x gew = = ∑n j =1 j ⋅ xj n (283 ⋅ 1984) + (91 ⋅ 2756) + (249 ⋅ 1361) + (103 ⋅ 1571) + (105 ⋅ 1310) + (30 ⋅ 1407 ) + (353 ⋅ 1456) + (48 ⋅ 1907 ) 1261 2098234 = = 1663,94 1261 64 Man kann also feststellen, dass das durchschnittliche Nettoeinkommen aller berufstätigen Befragten der ALLBUS-Stichprobe (Ost- und Westdeutschland) bei ungefähr 1.664 € liegt. Leitungsberufe sowie Wissenschaftler und Techniker liegen am deutlichsten über dem Durchschnitt. Sonstige Dienstleistungsberufe (außer: Wissenschaftler/ Techniker, Leitung, Büro, Handel) sowie Bürokräfte sind am unterprivilegiertesten bzgl. des Einkommens. [Vgl. auch: Erklärung der Einkommensunterschiede durch die Stellung im Beruf (Varianzanalyse).] Durchschnittsrang 65 Berechnet man das arithmetische Mittel für Rangzahlen (1 = 1. Rang, 2 = 2. Rang, ..., n = n. Rang), so erhält man den Durchschnittsrang. Beispiel: Lebensziele Im ALLBUS 2002 wurden 14 Variablen zu Lebenszielen erfragt, von denen hier fünf ausgewählt wurden. Jedes vorgegebene Lebensziel sollten die Befragten nach ihrer subjektiven Wichtigkeit einordnen in die Rangreihe 1 = unwichtig bis 7 = außerordentlich wichtig. Um die relative Wichtigkeit der verschiedenen Lebensziel in der gesamten Befragtengruppe zu charakterisieren, ist der Durchschnittsrang besonders geeignet. Inhaltlich ergibt sich, dass die Leistung im Beruf am wichtigsten eingeschätzt wird, gefolgt von den etwa gleich bewerteten „postmaterialistischen“ Werten der Selbstverwirklichung bzw. der Phantasie/Kreativität. Ein hoher Lebensstandard liegt auch noch deutlich über der Mitte der Skala, Macht/Einfluss jedoch bereits nicht mehr. Lebensziele Wert Wichtig: hoher Lebensstandard Wichtig: Macht und Einfluss Wichtig: Phantasie und Kreativität Wichtig: Leistung im Beruf Wichtig: Selbstverwirklichung Durchschnittsr Wichtigkeit insgesamt ang (Rang) 4,62 4. 3,58 5. 5,74 3. 6,03 1. 5,76 2. 66 Mittelwert auf ordinalem Messniveau: Median Graphische Verdeutlichung des Konzepts des Medians z (für stetiges Merkmal) % der Bevölkerung 1 2 1 2 Autoritarismus Z Median: Messwert, oberhalb und unterhalb dessen jeweils die Hälfte der Befragten mit ihren Werten liegen. 67 Diskrete Merkmale - Ungerade Zahl von Messwerten; angeordnet: x1 ≤ x2 ≤ ... ≤ x2k + 1 Mittlerer Wert: xk + 1 (k Werte unterhalb) (x1, ..., xk) (k Werte oberhalb) (xk + 2, ..., x2k + 1) Beispiel: 21 Messwerte; k = 10; x11 ist der Medianwert. - Gerade Zahl von Messwerten; angeordnet: x1 ≤ x2 ≤ ... ≤ x2k Mittlerer Wert: Zwischen xk und xk + 1 Beispiel: 20 Messwerte; k = 10; der Medianwert liegt zwischen den Messwerten x10 und x11. xk + x k + 1 2 , falls zusätzlich metrisches Messniveau vorausgesetzt wird. Zum Addieren ist eine Intervall-Einheit notwendig. 68 Klassifizierte Werte Beispiel: Einkommen Kumulierte Anteile 1 2 aj z bj Einkommen Durch lineare Interpolation (Unterstellt: Gleichmäßige Verteilung innerhalb der Medianklasse) lässt sich der genaue Medianwert in der Medianklasse bestimmen. 69 kumulierte relative Häufigkeit 1 2 pj j −1 ∑p i =1 z aj Medianklasse Nach dem Strahlensatz: 70 bj i j −1 1 − ∑ pi z − aj 2 i =1 = bj − a j pj (pi = Anteil der Einkommensklasse) Befragten in der i-ten Die Tabelle (s.o.) enthält die kumulierten Häufigkeiten für das Nettoeinkommen (ALLBUS 2004). Die Gruppe „1.000-1.499“ ist die Medianklasse, da unterhalb dieser Klasse weniger als 50 % (nämlich 41,4 %) und einschließlich dieser Klasse mehr als 50 % (nämlich 66,4 %) der Fälle liegen. Den Median errechnet man in diesem Beispiel nach der Formel: z = 1.000 + 50% − 41,4% ⋅ (1499 − 1.000) = 1.172,35 ≈ 1.172 24,9% Die lineare Interpretation setzt metrisches Messniveau voraus. Intervall-Vergleiche müssen zulässig sein. 71 Der Median ist unabhängig von Extremwerten. Oft sind die extremen Messwerte weniger verlässlich; wenn man auf metrischem Messniveau den Median verwendet, verzichtet man einerseits auf metrische Information, macht sich aber andererseits von den extremen Werten unabhängiger. Mittelwert auf nominalem Messniveau: Häufigster Wert bzw. Modalwert (bzw. Modus). Beispiel: Stellung im Beruf Angestellte/r ist die häufigste Stellung im Beruf. 72 Geometrisches Mittel Die Berechnung des geometrischen Mittels x := x ⋅ x ⋅ ...x von n Messwerten (xi > 0 für i = 1, ..., n) setzt Ratioskalenmessniveau voraus. g n 1 2 n Beispiel: Preisindex für die Lebenshaltung (gesamt) Jahr Preisanstieg gegenüber 1996 1997 1998 1999 2000 2001 2002 2003 1,5 1,9 0,9 0,6 1,4 2,0 1,4 1,1 dem Vorjahr in % (Quelle: Statistisches Bundesamt) Der mittlere Preisanstieg beträgt: 8 1,5 ⋅ 1,9 ⋅ 0,9 ⋅ 0,6 ⋅ 1,4 ⋅ 2,0 ⋅ 1,4 ⋅ 1,1 = 1,3 Das geometrische Mittel eignet sich also zur Berechnung von durchschnittlichen relativen Änderungen und besagt, dass eine konstante Änderungsrate x zum gleichen Gesamtergebnis geführt hätte. g 73 Beispiel: Einkommensverteilung für Selbstständige, Beamte und Angestellte (In der Graphik wird unterstellt: Alle drei Gruppen haben gleiches arithmetisches Mittel.) Beamte Angestellte Selbstständige x Der Mittelwert ist also keine hinreichende Charakterisierung der Verteilung eines Merkmals (einer Variablen). Eine zweite wichtige Information ist die Streuung eines Merkmals. 74 Streuungsmaße - Ein erstes grobes Maß für die Streuung: Spannweite (range) xmax - xmin (Differenzbildung setzt metrisches Messniveau voraus.) Nachteil: Diese Maßzahl ist abhängig von den Extremwerten, die oft weniger verlässlich sind. 75 - Quartilsabstand ┌ p-tes Quantil: der Messwert Zp, unterhalb dessen ein Anteil p der Beobachtungswerte liegt. Dafür benötigt man ordinales Messniveau. % 1 4 Mögliche Messwerte Z1 4 Was für ein Typ von Maß ist dies? Bereits Streuung? 76 Bestimmung des p-ten Quantils: Anordnen: x1 ≤ x2 ≤ ... ≤ xn zp = xi, wobei: np < i < np + 1 i 1 [p < n < p + n ] (Oder: Falls np ganzzahlig und metrische Daten (Intervallskala): xnp + xnp +1 zp = 2 ) (Oder: Interpolieren bei klassifizierten Werten) p= 1 2 : Median └ 77 1. und 3. Quartil % 1 4 1 4 z Quartilsabstand: z 1 4 3 4 Mögliche Meßwerte Z3 − Z1 4 4 (Spannweite der mittleren 50 % der Messwerte) Wegen der Differenzbildung benötigt man metrisches Messniveau. Bei metrischen Daten kann man sich mit diesem Streuungsmaß von den Extremwerten unabhängiger machen. 78 Boxplot In SPSS kann mit Hilfe eines „Boxplot“ der Bereich der mittleren 50 % der Werte graphisch als „box“ betont werden, der durch die Centile z 75 und z 25 begrenzt wird 100 und auch den Median z 50 100 enthält. 100 Boxplot des monatlichen Nettoeinkommens 5000 € 2500 € 1500 € 1000 € 500 € 79 SPSS-Output der statistischen Kennwerte: Median, Centile Gruppiertes monatliches Nettoeinkommen Median Perzentile 25 1000 - 1249 € 500 - 749 € 50 1000 - 1249 € 75 1500 - 1999 € Die „Box“ repräsentiert die 50 % mittleren Werte der in Tabelle 3-7 gruppierten Nettoeinkommensklassen. Dies ist auch nachzuprüfen über die kumulierten Prozente: Ab 750 € bis 1.999 € sind es 11,6% + 15,9 % + 9,7 % + 16,2 % = 53,4 %. Sichtbar abgegrenzt ist die „Box“ durch das 1. Quartil ( z ), welches in der Gruppe der 500 – 749 € 25 100 Verdienenden liegt, und durch das 3. Quartil ( z ), 75 100 welches in der Gruppe der 1.500 – 1.999 € Verdienenden liegt. 80 Tab. 3-7: Gruppiertes monatliches Nettoeinkommen nach Geschlecht Geschlecht Mann gruppiertes monatliches Nettoeinkommen in Euro (ALLBUS 2004) 25 64 98 115 182 140 261 136 89 98 18 7 91 176 217 159 193 87 121 46 12 16 1 1 Gesamt 116 240 315 274 375 227 382 182 101 114 19 8 1233 1120 2353 0 - 299 € 300 - 499 € 500 - 749 € 750 - 999 € 1000 - 1249 € 1250 - 1499 € 1500 - 1999 € 2000 - 2499 € 2500 - 2999 € 3000 - 4999 € 5000 - 7499 € 7500 und mehr Gesamt Frau 4,9 % 10,2 % 13,4 % 11,6 % 15,9 % 9,7 % 16,2 % 7,7 % 4,3 % 4,9 % ,8 % ,4 % 100,0 % Boxplots des monatlichen Nettoeinkommens nach Geschlecht 5000 € 2500 € 1500 € 1000 € 500 € MANN FRAU Die Abbildung zeigt, dass das Medianeinkommen der Frauen unterhalb der mittleren 50 % der Einkommenswerte der Männer liegt. 81 Falls die Konstruktion des Streuungsmaßes metrisches Messniveau ausschöpfen soll: Abweichungen vom Durchschnitt b (Bezugspunkt) 1. Version: Durchschnittliche Abweichung n ∑x i =1 i −b /n [Minimaler Wert für Bezugspunkt b = Median] 82 2. Version: Varianz bzw. Standardabweichung n 2 ( ) x − b /n ∑ i i =1 [Minimaler Wert für Bezugspunkt b = n s = ∑ (x 2 i =1 s= i − x) / n 2 x] heißt Varianz. n 2 ( ) x − x / ∑ i n heißt Standardabweichung. i =1 (Veranschaulichung: „Im Schnitt liegen die Messwerte in einer Entfernung s vom Mittelwert x “) Vergleich von Streuungen: Variationskoeffizient s V := ( für x x = 0) (Voraussetzung: Ratioskala) 83 Ungleichheit der Einkommensverteilung (Variationskoeffizient) Hohe Ungleichheit (bzw. Streuung im Einkommen) 0,77 USA 0,77 Kanada Mittlere Ungleichheit Niedrige Ungleichheit 0,54 BRD 0,50 Schweden 0,48 Norwegen 0,46 Dänemark („Sozialstaatlich“) 84 („Feine („Wirtschaftsliberal“) Unterschiede auf mittlerem Normierung des Variationskoeffizienten Der Variationskoeffizient ist nicht normiert. Für x →0 folgt: s → ∞ x Deshalb gibt es den Vorschlag des normierten Quadrats des Variationskoeffizienten: V2 NV = 1+V 2 V 2 = 0 ↷ NV = 0 V2 →∞ ↷ 1 1 +1 V2 →1 Zum Wertebereich: 2 V2 = ∑ xi2 − nx 2 nx 2 x = n∑ i − 1 ≤ n − 1 i ∑ xj j (da die betrachteten Werte alle als xi ≥ 0 werden, sodass xi ein Anteil ≤ 1 ist) ∑ xj j 2 Aus der Obergrenze für V folgt: V2 1 ≤ 1− 2 1+V n 85 angenommen Wenn man die Ungleichheit der Einkommensverteilung von Ländern mit dem Variationskoeffizient misst, so kann man nur die relative Größe des Variationskoeffizienten bewerten, der Variationskoeffizient hat aber keine feste Obergrenze. Falls man den Variationskoeffizienten normiert, kann der Wert 1 für maximale Variabilität dennoch nicht angenommen werden. Die Ungleichheit der Einkommensverteilung lässt sich aber auch durch ein Konzentrationsmaß beurteilen, das zwischen maximaler Konzentration (Konzentrationsmaß = 1) und minimaler Konzentration (Konzentrationsmaß = 0) variiert. 86 Konzentrationsmaße für die Verteilung metrischer Merkmale Lorenzkurve Man ordnet (z. B.) Einkommensbezieher an: Die untersten 10 % (20 %, 30 %, ...) der Einkommensbezieher erhalten nur 4 % (9 %, 15 %, ...) des Einkommens. %-Satz des Einkommens 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 %-Satz der Einkommensbezieher [1966: 1,7 % der Haushalte verfügen über 31 % des Gesamtvermögens und 74 % des Produktivvermögens.] 87 Konzentrationsmaß von Gini FKonzentration KG = F∆ 1 ( F∆ = ) 2 (Also: 0 ≤ KG ≤ 1) (F = Fläche) Minimale Konzentration: Gleichverteilung; KG = 0 Maximale Konzentration: Einer verfügt über alles; die übrigen über nichts; KG = 1 88 Konzentrations-Fläche Maximale Fläche 1 F= 2 89 Fläche unterhalb der empirischen Verteilung 90 %-Satz des Einkommens 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 %-Satz der Einkommensbezieher 91 Trapezfläche: Grundseite mal mittlere Höhe H (xj) H (xj-1) xj-1 xj pj 92 FTrapez = p j H ( x j −1 ) + H ( x j ) 2 H ( x j −1 ) + H ( x j ) 1 k − ∑ pj 2 j =1 2 KG = 1 2 Klassifizierte Werte mit k Klassen [x0, x1 [ [x1, x2 [ ... [xk-1, xk] ┌ Bei der (maximalen) Konzentration der Verteilungsmasse von n Einheiten auf eine einzige Ein1 heit erhält man: KG = 1 n (Denn: H(x1) = H(x2) = ... = H (xn-1) = 0 ; H (xn) = 1) 1 Das normierte Gini-Maß G* = KG / (1- n ) würde bei └ maximaler Konzentration den Wert 1 annehmen. 93 Das Gini-Maß lässt sich auch als eine Art Variationskoeffizient darstellen, wobei die mittleren absoluten Differenzen auf (2 mal) die durchschnittliche Größenordnung bezogen werden: KG = 1 n2 ∑∑ y − y i i j j 2y Insgesamt misst das Gini-Maß die relative Konzentration (nicht die absolute Konzentration, auf wie viele Einheiten die Verfügungsmasse verteilt wird). 94 Beispiel: Gini-Koeffizienten für die Einkommens- und Vermögensverteilung in Ost- und Westdeutschland Verteilung der Netto-Äquivalenzeinkommen der Haushalte Gini-Koeffizient Westdeutschland 1993 1998 2003 0,25 0,26 0,26 Ostdeutschland 1993 1998 2003 0,20 0,21 0,23 Die Konzentration der Haushaltseinkommen ist in Ostdeutschland etwas geringer, nähert sich aber der westdeutschen an. Für Gesamtdeutschland hat der Gini-Koeffizient von 2005 (0,26) bis 2008 (0,30) zugenommen. Verteilung des Nettovermögens der Haushalte Westdeutschland 1993 1998 2003 Gini-Koeffizient 0,625 0,641 0,657 Ostdeutschland 1993 1998 2003 0,718 0,682 0671 Vermögen ist stärker konzentriert als Einkommen. Die Konzentration des Vermögens ist – anders als beim Einkommen – in Ostdeutschland höher als in Westdeutschland, beide Werte bewegen sich aber aufeinander zu. Quellen: u.a. Wolfgang Glatzer 2002; Richard Hauser 2002.(In: Glatzer et al.: Sozialer Wandel und gesellschaftliche Dauerbeobachtung. Opladen 2002.); Lebenslagen in Deutschland. Der 2. Armuts- und Reichtumsbericht der Bundesregierung. 2005. 95 Tabelle: Mittelwerte und Anteile von Zehnteln der Haushalte der Bundesrepublik am gesamten Nettovermögen Zehntel 1 2 3 4 5 6 7 8 9 10 Mittelwerte in 1.000 Euro 1993 1998 2003 Deutschland -2,1 -3,9 -7,9 2,4 1,3 0,8 6,3 5,9 6,1 12,5 13,4 16,2 23,9 27,3 34,9 50,7 58,5 70,5 105,7 112,1 123,6 160,3 171,2 190,0 227,3 247,0 275,8 474,7 504,3 624,1 1993 Anteil 1998 2003 -0,2% 0,2% 0,6% 1,2% 2,3% 4,8% 10,0% 15,1% 21,4% 44,7% -0,3% 0,1% 0,5% 1,2% 2,4% 5,1% 9,9% 15,1% 21,7% 44,4% -0,6% 0,1% 0,5% 1,2% 2,6% 5,3% 9,3% 14,2% 20,7% 46,8% Quelle: Lebenslagen in Deutschland. Der 2. Armuts- und Reichtumsbericht der Bundesregierung. 2005. Die unteren 50% verfügen nur über ca. 4% des Vermögens, während das oberste Dezil über ca. 47% verfügt. 96 Konzentrationsmaß von Herfindahl Beispiel: Die „Vermachtung von Märkten“ lässt sich z.B. durch die Konzentration des Umsatzes messen. xi: = Umsatz des i-ten Unternehmens yi: = Anteil des i-ten Unternehmes am Gesamtumsatz yi = xi 1 y = n n ∑x j =1 j (n = Anzahl der Unternehmen) KH : n =∑y i =1 n 2 i = ∑ ( yi − y ) 2 + i =1 relative Konzentration 1 n absolute Konzentration (Bei der Einkommensverteilung ist die absolute Konzentration i.a. nicht interessant, sondern nur die relative. Das Konzentrationsmaß von Gini ist eine andere Messung der relativen Konzentration.) 97 1 0 < ≤ KH ≤ 1 n Extremfälle: 1) Geringe Konzentration, wenn: 1a) Gleichverteilung auf n Unternehmen: KH = 1 n (Bei Gleichverteilung: Relative Konzentration gleich Null.) und 1b) sehr viele Unternehmen auf dem Markt (d.h. geringe absolute Konzentration). 2) Maximale Konzentration: Ein Unternehmen beherrscht den Markt: K H =1 98 Beispiele für die Berechnung von KH: - Einer hat alles (im Fall n = 1): 1 K H = ( y1 − y ) + = 1 1 2 1 1 In der Nähe dieser Situation (im Fall n = 2): Einer Anteil 0,9; Einer Anteil 0,1. + (0,1 – ½)2 (0,9 - ½)2 0,42 + 0,42 0,16 + 0,16 0,32 1/2 Relative Konzentration Absolute Konzentration KH = 0,82 99 Einer hat alles (im Fall n = 2): y1 = 1, y2 = 0 2 1 1 1 2 K H = (1 − 2 ) + 0 − + 2 2 1 1 + 4 4 1 2 1 2 Relative Konzentration Absolute Konzentration 1 100 Einer hat alles (im Fall n = 3): n = 3 : y1 = 1, y2 = 0, y3 = 0 1 2 1 2 1 2 1 K H = (1 − ) + (0 − ) + (0 − ) + 3 3 3 3 4 1 1 + + 9 9 9 2 3 1 3 Relative Konzentration Absolute Konzentration 1 101 Konzentrationsmaß für nominales Messniveau n K = ∑ fi 2 i =1 Minimale Konzentration bei Gleichverteilung: Ausprägungen: A1, ... , An Relative Häufigkeiten: f1, ... , fn Gleichverteilung: 1 1 n , ... , n Konzentration: 1 K= n Maximale Konzentration, falls alle Einheiten in einer Kategorie Aj. fj = 1 K=1 102 Streuungsmaß in der Version von Herfindahl (HF) n HF = 1 - ∑f i =1 2 i Maximale Streuung bei Gleichverteilung: 1 HF = 1 n Minimale Streuung bei Konzentration auf eine Kategorie: HF = 0 D.h.: Bei nominalem Messniveau (nicht bei metrischem) sind Konzentration und Streuung gegenläufig. 103 Das Konzentrationsmaß für nominales Messniveau lässt sich auch als (quadrierte) Länge des Vektors des Häufigkeits-Profils interpretieren: n (f1, ..., fn), wobei: ∑f i =1 i =1 n 2 f =< f , f >= ∑f i =1 2 i (Mit Hilfe des inneren Produkts < f, f > lässt sich dann n ableiten:) f = f −f 2 n ∑ i =1 2 2 + n f , wobei: f = n 1 2 fi = ∑ ( fi − ) n i =1 2 Konzentration Abweichung von der Gleichverteilung (bzw. Abweichung 1 vom Mittelwert n ) (Streuung) 104 ∑f i −1 n i 1 = n 1 + n Mittelwert (Mittlerer Anteil) Für ein metrisches Merkmal x lassen sich analog die „Länge“ (das „Potential“, die „Spannweite von Information“, die „Kombinationsmöglichkeiten“) darstellen als Durchschnitt plus Abweichungen vom Durchschnitt: x 2 = n ∑x i =1 2 i Gesamtpotential x 2 + x−x 2 n 2 x − x ( ) + ∑ i 2 n x = i =1 Potential des Durchschnitts 105 Potential der Abweichungen vom Durchschnitt (Streuung) Wozu wäre ein Streuungsmaß auf nominalem Messniveau hilfreich? Sobald man die Streuung etwa der Parteienwahl messen kann, lässt sich daraus eine Zusammenhangskonzeption z.B. für den Zusammenhang von Konfession und Wahl entwickeln: (Streuung der Parteienwahl) ─ (Streuung der Parteienwahl in den Konfessionsgruppen) Streuung der Parteienwahl Solche Konzepte nennt man: 1) Proportionale Reduktion der Streuung durch Kenntnis von Vorinformation bzw.: Die durch die Variabilität der Konfession erklärte Variabilität der Parteienwahl. (Erklärte qualitative Varianz) 2) Die durch die Vorinformation reduzierte Unsicherheit der Vorhersage der Parteienwahl. (Uncertainty Coefficient) 106 Streuungsmaße für nominales Messniveau Qualitative Varianz Merkmal A mit n Ausprägungen. fi: = Anteil der Personen mit Ausprägung Ai Qualitative Varianz von A n 1 = 1 − ∑ 2 i =1 f i 2 K Durch Vergleich mit dem Konzentrationsmaß K für Anteilswerte sieht man: Je größer die Streuung eines nominalen Merkmals, desto geringer ist die Konzentration des nominalen Merkmals. Abkürzung: Var (A) 107 Für metrisches Merkmal y mit n Ausprägungen lässt sich die Varianz (nach Gini) wie folgt ausdrücken: 1 2 s = ∑∑ f i f j ( yi − y j ) 2 i j 2 y yi = i-ter (Einkommens-) Wert, fi = Anteil der Befragten mit Wert yi Triviale Metrik (Abstandsmessung) auf nominalem Messniveau: dij = 1 für i ≠ j 0 sonst Per Analogieschluss: 1 1 1 ( ) Var A = ∑∑ f i f j = ∑ f i ∑ f j = ∑ f i (1 − f i ) 2 i j j ≠i 2 i n 1 n 2 = ∑ fi − ∑ fi 2 i =1 i =1 n 1 2 = 1 − ∑ f i 2 i =1 108 j j ≠i 2 i Beispiel: Stellung im Beruf (Alte Bundesländer) Selbstständige Mith. Fam. Beamte Angestellte Arbeiter ∑ 1975 9,2 5,0 8,3 34,6 42,9 100 % 2002 12,3 0,6 7,5 53,2 26,3 100 % 1975: Var (A) = ½ (1 – 0,0922 – 0,052 – 0,0832 – 0,3462 – 0,4292) = 0,339 2002: Var (A) = ½ (1 – 0,1232 – 0,0062 – 0,0752 – 0,5322 – 0,2632) = 0,314 Die Variation nach der Stellung im Beruf ist etwas geringer geworden, die Konzentration hat zugenommen. Der Anteil der Angestellten nahm von 34,6 auf 53,2 % zu, dies fällt am stärksten ins Gewicht. 109 Extremfälle: Gleichverteilung auf n Ausprägungen: (Minimale (relative) Konzentration, aber maximale Steuung) 1 1 Varianz ( A) = 1 − 2 n K Alle Untersuchungseinheiten haben die gleiche Merkmalsausprägung: (Maximale (absolute) Konzentration, aber minimale Streuung) Varianz (A) = 0 (K = 1) 110 Zweite relevante Maßzahl für die Streuung nominaler Merkmale: Mittlerer Informationsgehalt oder „Entropie“ (Oder auch: Unsicherheit bei der Vorhersage) ┌ Die Begründung für diese Maßzahl liefert die Informationstheorie: Informationsgehalt einer Nachricht: Je höher die Wahrscheinlichkeit p einer Nachricht (Ereignis) ist, desto geringer ist der Informationsgehalt. (Oder: desto einfacher die Vorhersagbarkeit.) Dies wird modelliert durch die Funktion: 1 h( p ) = log für p 0 ≤ p ≤ 1 Diese Funktion ist monoton fallend mit den Eigenschaften: h( p1 ⋅ p 2 ) = h( p1 ) + h( p 2 ) für unabhängige Ereignisse h(0 ) = ∞, h(1) = 0 └ 111 Mittlerer Informationsgehalt (Entropie) n =∑ I =1 1 f i log fi 112 Stellung im Beruf 1975: Entropie = –(– 0,220 – 0,150 – 0,207 – 0,367 – 0,363) = 1,307 Stellung im Beruf 2002: Entropie = –(– 0,258 – 0,031 – 0,194 – 0,336 – 0,351) = 1,170 Die Entropie (Streuung) ist also 2002 geringer. Es gibt weniger mithelfende Familienangehörige (von 5,0 auf 0,6 %), dies fällt am stärksten ins Gewicht. Die Streuung im Sinne der Entropie hat insofern abgenommen, als sich die Kategorie der Mithelfenden von dem Modell der Gleichverteilung (= maximale Entropie) am stärksten entfernt hat. Beide Maßzahlen – die qualitative Varianz bzw die Entropie – haben also ihre Plausibilität. 113 Extremfälle: Gleichverteilung auf n Einheiten (Kategorien) 1) Minimale (relative) Konzentration: 1 K= n 2) Maximale Streuung: a) Qualitative Varianz (A) (mit den Ausprägungen Ai; i = 1, ..., n) = 1 1 1 − 2 n K b) Unsicherheit bei der Vorhersage am größten. (Beispiel: Wetter z.B. bei uns) Informationsgehalt am größten. (Mittlerer Informationsgehalt =) Entropie = ln n 114 Alles entfällt auf eine Einheit (Kategorie). (1) Maximale (absolute und relative) Konzentration: K=1 (2) Minimale Streuung a) Qualitative Varianz (A) = 1 1 1 − = 0 2 n K b) Unsicherheit bei der Vorhersage am geringsten. (Beispiel: Wetter z.B. in den Tropen) Informationsgehalt am geringsten. (Mittlerer Informationsgehalt =) Entropie = 0 115 Gliederung zu den Grundlagen der Inferenzstatistik 4. Grundbegriffe der Wahrscheinlichkeitstheorie und theoretische Wahrscheinlichkeitsverteilungen ........................................................... 77 4.1 Grundbegriffe der Wahrscheinlichkeitstheorie ...................................... 77 4.1.1 Klassische, Häufigkeits- und axiomatische Definitionen der Wahrscheinlichkeit ................................................................................ 77 4.1.2 Verknüpfungen von Ereignissen ............................................................ 81 4.1.3 Zufällige Variablen ................................................................................ 85 4.1.4 Kombinatorik ......................................................................................... 86 4.2 Verteilung einer zufälligen Variablen .................................................... 90 4.2.1 Diskrete und stetige Verteilungen .......................................................... 90 4.2.2 Empirische versus theoretische Verteilungen ........................................ 93 4.2.3 Verteilungsfunktionen (Summenfunktionen) ........................................ 94 4.2.4 Lagemaße, Streuungsmaße und Zusammenhangsmaße ........................ 96 4.3 Spezielle theoretische Verteilungen ....................................................... 98 4.3.1 Diskrete Verteilungen ............................................................................ 98 4.3.2 Normalverteilung als zentrales Modell für stetige Merkmale ............. 105 4.3.3 Multivariate Verteilungen .................................................................... 108 Literaturverzeichnis .......................................................................................... 113 5. Grenzwertsätze und Schätzfunktionen ................................................. 114 5.1 Grenzwertsätze ..................................................................................... 114 5.1.1 Gesetz der großen Zahlen .................................................................... 114 5.1.2 Zentraler Grenzwertsatz ....................................................................... 116 5.2 Schätzfunktionen .................................................................................. 120 5.2.1 Kriterien für Schätzfunktionen............................................................. 120 5.2.2 Schätzverfahren .................................................................................... 122 5.3 Verteilungen wichtiger Schätz- und Testfunktionen ........................... 124 5.3.1 Verteilung des Stichprobenmittelwerts aus einer Normalverteilung ... 124 5.3.2 Die χ 2 -Verteilung............................................................................... 125 5.3.3 Die F-Verteilung .................................................................................. 126 5.3.4 Die t-Verteilung ................................................................................... 128 Literaturverzeichnis .......................................................................................... 130 116 6. 6.1 6.1.1 6.1.2 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 6.3.1 6.3.2 Auswahlverfahren zur Konstruktion von Stichproben.................. 131 Die einfache Zufallsauswahl ................................................................ 132 Auswahlfehler beim Ziehen mit und ohne Zurücklegen ..................... 135 Die Bestimmung des notwendigen Stichprobenumfanges .................. 139 Die Zufallsauswahl aus Schichten ....................................................... 141 Die proportional geschichtete Stichprobe ............................................ 142 Die optimal geschichtete Stichprobe ................................................... 143 Vergleich der Auswahlfehler ............................................................... 144 Praktische Gesichtspunkte ................................................................... 145 Disproportionale Schichtung................................................................ 145 Die mehrstufige Zufallsauswahl .......................................................... 145 Spezialfall: Die Klumpenstichprobe .................................................... 146 Auswahl aus Schichten und Klumpenstichprobe als Spezialfälle der mehrstufigen Zufallsauswahl ............................................................... 147 6.3.3 Vergleich der Auswahl aus Schichten und der Klumpenstichprobe ... 148 6.3.4 ALLBUS / ISSP 2000 als Beispiel ...................................................... 148 6.4 Praktische Durchführung der Zufallsauswahl...................................... 149 6.5 Die systematische Auswahl ................................................................. 150 6.6 Das Problem der Ausfälle .................................................................... 150 6.7 Das Quotenverfahren ........................................................................... 151 Literaturverzeichnis .......................................................................................... 153 7. Intervallschätzung und Testen......................................................... 154 7.1 Intervallschätzung und Testen als zwei Aspekte einer Sache ........... 154 7.2 Grundbegriffe des Testens .................................................................. 160 7.2.1 Fehler 1. und 2. Art ............................................................................. 160 7.2.2 Einseitige und zweiseitige Hypothesen .............................................. 163 7.2.3 Anwendung von Signifikanztests. ..................................................... 164 7.3 Konfidenzintervalle für Mittelwerte und Varianzen ........................... 165 7.4 Vergleich zweier Varianzen (F-Test).................................................. 169 7.5 Vergleich zweier Mittelwerte ............................................................. 170 7.6 Chi-Quadrat-Tests ............................................................................... 173 7.6.1 Der Chi-Quadrat-Anpassungstest ....................................................... 173 7.6.2 Der Chi-Quadrat-Unabhängigkeits-Test ............................................. 176 7.6.3 Likelihood-Ratio-Test ......................................................................... 180 7.7 Allgemeine Testtheorie und Entscheidungstheorie ............................ 180 Literaturverzeichnis ......................................................................................... 182 117 Bisher behandelt: Mittelwerte und Streuungsmaße von Verteilungen (in Abhängigkeit von Messniveau) zur Charakterisierung von empirischen Verteilungen (Deskriptivstatistik) Jetzt: Von Anteil oder Mittelwert in der Stichprobe auf Anteil oder Mittelwert in der Grundgesamtheit schließen. (Inferenzstatistik) Z.B.: Anteil der Wähler der Grünen in der Stichprobe, Schluss auf den Anteil in der Grundgesamtheit Z.B.: Durchschnittseinkommen in der Stichprobe; Schluss auf das Durchschnittseinkommen in der Grundgesamtheit Verteilungsmodelle Das zentrale Modell für nominales Messniveau ist das Modell der statistischen Unabhängigkeit (Gegenpol: Zusammenhang) (Beispiel: Wahl und Konfession nicht unabhängig) Das zentrale Modell für metrisches Messniveau ist das Modell der Normalverteilung („Glockenkurve“). (Beispiel: Mittlere Einkommen sind relativ häufiger als extremere Werte nach oben oder unten) 118 Inferenzstatistik Statistische Inferenz: = Schluss von einer Stichprobe auf die Grundgesamtheit Grundbegriffe der Wahrscheinlichkeitstheorie Zufälliges Ereignis: Beispiel: Person aus Zielgesamtheit wird in die Stichprobe gezogen. Vor Eintritt des Ereignisses ist Ergebnis nicht bekannt, aber: Die Wahrscheinlichkeit (Chance) muss vorher bekannt sein. Veranschaulichung der Stichprobenziehung: Urnenmodell (Lottozahlen: Stichprobe vom Umfang n = 6 ohne Zurücklegen aus Grundgesamtheit vom Umfang N = 49) 119 Bei einer Zufallstichprobe (d.h. vor der „Ziehung“ muss für jede Einheit der Zielgesamtheit präzise die Chance bekannt sein, in die Stichprobe zu gelangen) ist der Schluss auf die Grundgesamtheit mit hoher Wahrscheinlichkeit (bzw. Sicherheit) und mit geringer Fehlertoleranz möglich. Denn: Eine Zufallstichprobe (nicht: willkürliche Stichprobe) liefert mit hoher Wahrscheinlichkeit ein „repräsentatives“ Abbild der Grundgesamtheit, d.h. mit hoher Wahrscheinlichkeit nur geringe Abweichungen von der Grundgesamtheit. Klassischer Wahrscheinlichkeitsbegriff: Gleichwahrscheinlichkeit (Historisch entwickelt worden bzgl. der Glücksspiele) 120 Beispiel: Würfel: P{k } = 1 für k = 1, ..., 6 6 P{2,4,6} = P (A) = 3 6 Anzahl der günstigen Fälle Anzahl der möglichen Fälle Die Wahrscheinlichkeit P bezieht sich auf zufällige Ereignisse (äquivalent: Mengen von möglichen Ergebnissen). Beispiel: Münzwurf: P{Kopf } = 1 2 P{Zahl } = 1 2 121 Beispiel: P{k } = Lottozahlen 1 49 für k = 1, ..., 49 Eigenschaften des Wahrscheinlichkeitsbegriffs: Jedem zufälligen Ereignis E (äquivalent: Jeder Teilmenge der Grundmenge X möglicher Ergebnisse) wird eine Wahrscheinlichkeit P (E) zugeordnet mit: 0 ≤ P (E ) ≤ 1 P (sicheres Ereignis) = P (X) = 1 P (unmögliches Ereignis) = P (∅) = 0 ∞ ∞ P ∑ E = ∑ P E i = 1 i i = 1 i (σ-Additivität, d.h. Additivität für abzählbar unendlich viele Ereignisse) (Die Additivität gilt für Ereignisse, die einander ausschließen, bzw. für Mengen, die sich nicht überschneiden.) 122 Erläuterung zur Additivität E1 E2 E1 ∪ E2 vereinigt 123 E1 E2 E1 + E2 Vereinigung disjunkter Mengen Disjunkte Mengen: Ei ∩ E j = φ für i= j 124 Würfelbeispiel: E1 = {1,2} E2 = {2,5} 3 P({1,2} ∪ {2,5}) = P{1,2,5} = 6 2 P{1,2} = 6 ∑= 2 P{2,5} = 6 125 4 6 Modellcharakter der Wahrscheinlichkeitstheorie Axiomatische Definition der Wahrscheinlichkeit: Eine Funktion P, die jedem zufälligen Ereignis E einen Wert P (E) zuordnet mit den Eigenschaften: 0 ≤ P( E ) ≤ 1 P (sicheres Ereignis) = 1 P (unmögliches Ereignis) = 0 ∞ ∞ P ∑ E = ∑ P E i =1 i i =1 i nennt man Wahrscheinlichkeit. 126 Theoretische Wahrscheinlichkeitsverteilung versus empirische Verteilung Die axiomatische Definition der Wahrscheinlichkeit ist eine Wahrscheinlichkeit a priori, d.h. die Wahrscheinlichkeit ist im vorhinein bekannt. Beispiele: Modell der Gleichverteilung (Klassischer Wahrscheinlichkeitsbegriff), aber auch Modell disproportionaler Stichproben. A posteriori (im nachhinein) – Wahrscheinlichkeit: Auszählung der relativen Häufigkeiten bei der tatsächlichen Durchführung – z.B. eines Glückspiels. 127 Bsp: Tatsächliche Durchführung etwa eines Glücksspiels Modell des idealen Münzwurfs versus tatsächliche Durchführung Häufigkeit des Ergebnisses „K“ 1 2 0 50 100 150 200 250 300 350 n Münzwurf: Relative Häufigkeit des Ergebnisses „K“ in Abhängigkeit von der Anzahl der Durchführungen. 128 „Gesetz der großen Zahl“ Mit wachsendem Stichprobenumfang nähert sich die empirische Häufigkeitsverteilung (inclusive ihrer Lagemaße etc.) der theoretischen Häufigkeitsverteilung des idealen Wahrscheinlichkeitsmodells, dessen Realisierung im nachhinein (a posteriori) ausgezählt wird. 129 Beispiel für Angemessenheit der a posterioriWahrscheinlichkeit „Knabengeburt“ Amtliche Statistik liefert als Erfahrungswissen: P („Knabe“) = 0,52 Erklärung? 130 Ereignisse versus Mengen (Verknüpfungen etc.) Ereignisse Unmögliches Ereignis Mengen ∅ Sicheres Ereignis X (Grundmenge) E1 ∨ E2 (oder auch) E1 ∪ E 2 (Vereinigung) E1 ∨ E2 (entweder oder) E1 + E2 (Vereinigung disjunkter Mengen) E1 ∧ E2 (und) E1 ∩ E 2 (Durchschnitt) E1 , E2 schließen einander aus E1 ∩ E 2 = ∅ (disjunkte Mengen) ¬ E (nicht) E = X − E (Komplement) 131 Koalitionsarithmetik der Parteien A1: A2: A3: A4: A5: {SPD} {CDU/CSU} {Grüne} {FDP} {PDS} A1 ∪ A2 = {SPD, CDU/CSU} = : B1 „Linkes politisches Lager: A1 ∪ A3 ∪ A5 = {SPD, Grüne, PDS} = : B2 „Große Koalition: „Rechtes politisches Lager: {CDU/CSU, FDP} = : B3 B1 ∪ B2 = {SPD, CDU/CSU, Grüne, PDS} B1 ∪ B3 = {SPD, CDU/CSU, FDP} B1 ∩ B2 = {SPD} B1 ∩ B3 = {CDU/CSU} : Im Schnittpunkt der Optionen B1 und B3 : Im Schnittpunkt der Optionen B1 und B2 132 Additionstheorem A B Allgemeiner Fall P ( A ∪ B ) = P ( A) + P (B ) − P ( A ∩ B ) Beispiel: (s.o.): E1 ∩ E 2 = {2} 1 P( E1 ∩ E2 ) = 6 3 P( E1 ∪ E2 ) = 6 2 2 1 P ( E1 ) + P ( E2 ) − P ( E1 ∩ E2 ) = + − 6 6 6 133 Speziell: Für disjunkte Mengen (d.h. A ∩ B = ∅) P ( A + B ) = P ( A) + P (B ) A B 134 Bedingte Wahrscheinlichkeit: = Wahrscheinlichkeit, dass A eintritt unter der Bedingung, dass Ereignis B eingetreten ist bzw. vorliegt. P( A ∩ B ) P( A B ) := P (B ) unter der Bedingung von n( A ∩ B ) n( A ∩ B ) n = n(B ) = ( ) n B n Zwei Ereignisse heißen statistisch unabhängig :⇔ oder oder (P(A B ) = P( A)) (P(A B ) = P(A B )) ( P( A ∩ B) = P( A) ⋅ P( B)) 135 Beispiel: Sind Konfession (protestantisch, katholisch, ohne) und Wahl (CDU/ CSU, SPD, FDP, Grüne) statistisch unabhängig? 136 Wahl Count ROW PCT COL PCT TOT PCT CDU/CSU SPD FDP Die Grünen ROW TOTAL Protestantisch 341 41,8 38,8 19,5 386 47,4 55,5 22,1 69 8,5 56,6 3,9 19 2,3 35,8 1,1 815 46,6 Katholisch 517 63,2 58,8 29,5 249 30,4 35,8 14,2 33 4,0 27,0 1,9 19 2,3 35,8 1,1 818 46,7 Ohne 21 17,9 2,4 1,2 61 52,1 8,8 3,5 20 17,1 16,4 1,1 15 12,8 28,3 0,9 117 6,7 879 50,2 696 39,8 122 7,0 53 3,0 1750 100,0 Konfession COLUMN TOTAL P (CDU/CSU Katholisch) = 0,632 = 0,502 = P (CDU/CSU) ; d.h. es gibt mehr CDU/ CSU-Wähler unter den Katholiken als bei allen Befragten. (überproportional) P (CDU) ∙ P (Katholisch) = 0,502 ∙ 0,467 = 0,234 P ({CDU} ∩ {Katholisch}) = 0,295; d.h. es gibt mehr katholische CDU/ CSU-Wähler, als bei Unabhängigkeit der Merkmale zu erwarten. 137 137 Konstruiertes Beispiel für perfekte statistische Unabhängigkeit (auf nominialem Messniveau) Geschlecht w=B SPD-Grüne/ 364 Bündnis 90 = A CDU/CSU-FDP 336 = A 700 m=B 377 741 348 684 725 1425 741 700 364 P ( A) ⋅ P (B ) = ⋅ = = P( A ∩ B ) 1425 1425 1425 364 741 P(A B ) = = = P ( A) 700 1425 ( ) 377 = = P AB 725 ┌ Die drei äquivalenten Bedingungen für statistische Unabhängigkeit lauten: P ( A ∩ B ) = P ( A) ⋅ P (B ) P ( A B ) = P ( A) ( ) P(A B ) = P A B └ 138 Zentrales Modell für metrische Daten: Normalverteilung N (µ , σ ) Also: abhängig von den Parametern µ und σ Glockenkurve Idee: Mittlere Einkommen sind wahrscheinlicher als geringe oder hohe Einkommen. Das Einkommen X wird modelliert als: X = Mittelwert + ε wobei ε , die Abweichung vom Mittelwert ist. 139 f(x) x Die Wahrscheinlichkeitsdichte f lautet im Fall der Normalverteilung: f (x; µ ,σ ) = 1 2π ⋅ σ e − ( x− µ )2 2σ 2 „Dichte“: Fläche des Stabes um den Punkt x = Höhe · Intervallbreite (x − ε , x + ε ) D.h. wie dicht liegen die Beobachtungen in dem Intervall (x − ε , x + ε ) . 140 Erläuterung: π : Kreiszahl π (Kreisinhalt = (Für r = 1: π π = 3,14159... r2 (r = Radius des Kreises)) = Flächeninhalt des Kreises) ∞ 1 = 2,71828... e: Euler’sche Zahl e = ∑ n = 0 n! Eigenschaften: e a +b = e a ⋅ eb Umkehrfunktion: ln a + ln b = ln (a · b) 141 µ1 µ µ2 Mittelwert σ1 σ2 σ Streuungsmaß 2 [σ Varianz; σ Standardabweichung] 142 z-Transformation (Standardisierung) Jede beliebige Normalverteilung lässt sich durch Transformation auf die Standardnormalverteilung zurückführen. z-Transformation (Standardisierung): Falls X verteilt ist nach N ( (µ , σ ) , so gilt: z= X −µ σ ist nach N (0,1) verteilt. N (0,1): Standardnormalverteilung 143 Tabellen für die Standardnormalverteilung dokumentieren die folgende Funktion Φ (x): x Φ (x) 144 N ( µ ,σ ) a b Pµ σ (a < x ≤ b ) = , b−µ a−µ P0,1 σ < z ≤ σ = b−µ a−µ Φ − Φ σ σ 145 Die Hauptanwendung basiert auf dem Zentralen Grenzwertsatz: Liegt ein Merkmal vor, das von vielen Faktoren abhängt, die unabhängig und additiv wirken, wobei keiner der Faktoren dominiert, so folgt die Verteilung des Merkmals annähernd (asymptotisch, mit wachsendem Stichprobenumfang genauer) der (Gauß`schen) Normalverteilung. 146 (Voraussetzung: Metrisches Merkmal X wie z.B. Einkommen) Zieht man eine Stichprobe vom Umfang n (mit Zurücklegen) aus einer Grundgesamtheit mit Mittelwert µ und Varianz σ für das Merkmal X, das man untersucht, so sind alle Voraussetzungen für den Stichprobenmittelwert X erfüllt. X hat den Mittelwert μ und die Standardabweichung: 2 σx = σ n Nach dem Zentralen Grenzwertsatz: X −µ σ / n (asymptotisch) verteilt nach N (0,1) Asymptotisch: Mit wachsendem Stichprobenumfang wird die Annäherung an das Glocken-Modell immer besser. Konvention: n ≥ 30 als hinreichende Voraussetzung („asymptotisch“) Die Bedingung n ≥ 30 bedeutet für die Sozialwissenschaften i.a. kein Problem. 147 Würfelbeispiel Nach dem Zentralen Grenzwertsatz ist die Summe (oder der Durchschnitt) der Xi normalverteilt, gleichgültig wie die einzelnen Verteilungen Xi geartet sind. Die Approximation ist um so besser, je größer n und je ähnlicher die Verteilungen der einzelnen Zufallsvariablen Xi zur Normalverteilung sind. Aber auch, wenn die Verteilungen der einzelnen Zufallsvariablen Xi sehr verschieden von der Normalverteilung sind (z.B. Gleichverteilung auf die 6 Elemente 1, ..., 6 beim Würfelspiel), nähert sich die Summenvariable X (hier: die Summe der Augenzahlen bei n-maligem Würfeln) mit wachsendem n sehr rasch der Normalverteilung. Beim dargestellten Würfelbeispiel ist die Konvergenz der Wahrscheinlichkeitsfunktion gegen die Normalverteilung besonders gut, weil es sich um eine symmetrische Funktion handelt (siehe Abbildung). Die Variable X drückt die mit n Würfen eines Würfels erzielten Ergebnissummen aus. 148 p(x) 0,15 0,1 0,05 0 2 1 3 4 5 x 6 n=1 p(x) 0,15 0,1 0,05 0 3 2 4 5 6 7 8 9 11 10 12 x n=2 p(x) Normalverteilung 0,15 ( µ = 10,5; σ = 2,96) 0,1 0,05 0 3 4 5 6 7 8 9 10 11 12 n=3 149 13 14 15 16 17 18 x Es ist also die Summen- bzw. Durchschnittsbildung, die zum Modell der Normalverteilung führt. Dann muss man jedoch fragen, weshalb viele Messungen von einzelnen Variablen gut durch die Normalverteilung beschrieben werden können. In Anlehnung an Hagens Fehlertheorie kann man dazu folgende Überlegung z.B. für die Länge eines Menschen anstellen: Die Länge x eines Menschen ist bestimmt durch die Länge µ der Spezies Mensch und ansonsten von vielen kleinen Fehlerfaktoren εi. Unterstellt man als einfachste Approximation, dass sich die Einflüsse unabhängig und additiv verhalten, so kann man von dem Ansatz ausgehen: n x = µ + ∑εi i =1 Die zentrierte Variable x − µ ist also eine Summenvariable, welche nach dem Zentralen Grenzsatzwert unter sehr allgemeinen Voraussetzungen asymptotisch normalverteilt ist. Die Normalverteilung ist nicht nur als Modell für viele empirische Verteilungen geeignet, sondern auch die Grenzverteilung vieler theoretischer Verteilungen (Binomialverteilung, hypergeometrische Verteilung, Poisson-Verteilung etc.) 150 Schätzung des Einkommensdurchschnitts µ der Grundgesamtheit durch den Stichprobenmittelwert X Konvention in den Sozialwissenschaften: Sicherheitsniveau von 95 %. Man will Aussagen mit 95 % Sicherheit formulieren. N (0,1) X −µ = 0,95 − 1 , 96 < ≤ + 1 , 96 P0,1 σ/ n σ σ = P0,1 X − 1,96 < µ ≤ X + 1,96 n n Der Einkommensdurchschnitt µ der Bevölkerung der Bundesrepublik (Grundgesamtheit) liegt mit 95 % Sicherheit in dem folgenden Intervall um den Stichprobenmittelwert X : σ σ 1 , 96 , 1 , 96 X − X + n n Konfidenzintervall bzw. Vertrauensintervall 151 Berechnung: Z.B.: Für 2,5 % 0,025 = Φ ( x ) Eine Tabelle für die Standardnormalverteilung würde liefern: X = -1,96 Analog (oder aufgrund der Symmetrie): 0,975 = Φ ( x ) Eine Tabelle für die Standardnormalverteilung würde liefern: X = +1,96 Also: Φ (1,96) = 0,975 Φ (-1,96) = 0,025 Differenz = 0,950 D.h.: Bei der Standardnormalverteilung liegen 95 % der Werte im Intervall: (-1,96; + 1,96) P (-1,96; + 1,96) = 0,95 Für 99 % Sicherheit erhält man: σ σ P X − 2,58 < µ ≤ X + 2,58 = 0,99 n n D.h. mit größerer Sicherheit in dem „ungenaueren“ (größeren) Intervall. 152 Der Einfluss des Stichprobenumfangs Beispiel: Der Einkommensdurchschnitt in der Stichprobe sei x = 2000, σ = 1000 z.B. aus einer früheren Untersuchung bekannt und n = 100. Mit 95 % Sicherheit: Konfidenzintervall 1000 1000 2000 − 1,96 ⋅ 10 , 2000 + 1,96 ⋅ 10 ≈ ]1800, 2200] Falls der Stichprobenumfang größer ist (z.B. n = 2500), so ist das Konfidenzintervall – ceteris paribus – kleiner: 2000 − 1,96 1000 , 2000 + 1,96 1000 50 50 ≈ ] 1960, 2040 ] In den Allgemeinen Bevölkerungsumfragen der Sozialwissenschaften (ALLBUS) liegt der Stichprobenumfang bei etwa n = 3000. 153 Auswahlverfahren zur Konstruktion von Stichproben Die Art der Auswahlfehler. Stichprobenziehung hat Einfluss auf den Formeln für den Auswahlfehler des Mittelwertes ( σ x ): 2 S2 n σ = 2 x n 1 − N S2 n Ziehen ohne Zurücklegen aus einer endlichen Gesamtheit. Ziehen ohne Zurücklegen aus einer unendlichen Gesamtheit. σ2 Ziehen mit Zurücklegen. n Mit wachsendem Stichprobenumfang n streut der Stichprobenmittelwert x immer weniger um den Mittelwert µ der Grundgesamtheit. GrundGesamtheit Schätzung aufgrund der Stichprobe N 1 2 − S2 = x x ( ) ∑ i N − 1 i =1 N 1 σ 2 = ∑ ( xi − x ) 2 N i=1 1 n 2 ( ) s = x − x ∑ i n − 1 i =1 n 1 σˆ 2 = ∑ ( xi − x )2 n i =1 2 154 Die Bestimmung des notwendigen Stichprobenumfangs Wenn der Stichprobenmittelwert x höchstens um einen vorgegebenen Wert e (maximaler Zufallsfehler) vom Mittelwert µ der Grundgesamtheit abweicht und dies mit einer Sicherheitswahrscheinlichkeit 1 − α (Fehlerrisiko α ) gelten soll, so lässt sich aus diesen Forderungen der notwendige Stichprobenumfang berechnen. Da e=u 1− α ⋅ σ x , also 2 e = u 2 2 1− α 2 S2 n ⋅ ⋅ 1 − n N , so erhält man beim Ziehen ohne Zurücklegen aus einer endlichen Gesamtheit: n= 1 2 e 1 + N u1−α ⋅ S 2 Bei einer unendlichen Gesamtheit ergibt sich: u α ⋅S 1− 2 n= e 2 Je geringer die Fehlertoleranz, d.h. je genauer die Vorhersage sein soll, und je höher die geforderte Sicherheitswahrscheinlichkeit, und je größer die Streuung S ist, desto größer muss der Stichprobenumfang n sein. 155 Da σ (bzw. S) im voraus nicht bekannt sein dürfte, wird σ häufig aus einer früheren Erhebung oder einem Pretest geschätzt. Arbeitet man mit dem Modell der Normalverteilung, so kann man benutzen, dass der Streubereich ungefähr 6 • σ beträgt. Streut beispielsweise das Einkommen einer Gruppe (Normalverteilung unterstellt) zwischen 1.000 und 4.000, so kann die Streuung der Grundgesamtheit geschätzt werden durch: σ≈ (4.000 − 1000) = 500 6 Liegt ein dichotomes Merkmal vor, so gilt: σ= p (1 − p ) ≤ 1 2 Man kann somit σ durch 1 2 schätzen (vgl. Abbildung). Z.B. wenn P nahe 0 bzw. nahe 1 ist, wird der notwendige Stichprobenumfang dadurch sogar überschätzt. 156 σ max = 0,5 f (P) = σ 0,5 0,4 0,3 0,2 0,1 0 Mit der 0,75 0,5 0,25 0 konservativen Schätzung P 1 S= 1 2 (nach der Binomialverteilung) kann man für ein dichotomes Merkmal für den maximalen Zufallsfehler e = 0,05 bei 95 % Sicherheit (also u = 1,96) den notwendigen Stichprobenumfang berechnen (vgl. Tabelle). Mindeststichprobenumfänge bei verschiedenen Grundgesamtheitsumfängen Umfang Grundgesamtheit N 50 100 500 1.000 5.000 10.000 100.000 1.000.000 10.000.000 Notwendiger Stichprobenumfang n Auswahlsatz n in % N 44 79 217 278 357 370 383 384 384 88 79 43 28 7 3,7 0,38 0,038 0,0038 157 Mit wachsendem Umfang der Grundgesamtheit ist 1 N zu vernachlässigen, sodass der notwendige Stichprobenumfang schließlich nicht mehr von dem Umfang der Grundgesamtheit abhängt. u⋅S → 2 e für N → ∞ 1 e + N u⋅S 1 2 Der Grenzwert für eine unendliche Gesamtheit, der dem Wert beim Ziehen mit Zu- u⋅S rücklegen entspricht, ist n = = 384. e 2 Bei den angegebenen Voraussetzungen wäre dies also statistisch sogar hinreichend für ein dichotomes Merkmal zur Charakterisierung der Wohnbevölkerung der BRD von rund 80 Millionen, wenn man nicht noch weiter aufgliedern wollte nach regionalen oder sonstigen Gesichtspunkten – was allerdings in der Regel der Fall ist. Wenn die Analyse von Zusammenhängen im Zentrum der Analyse steht, benötigt man für die Bundesrepublik Stichproben im Umfang von 2000 – 3500 Personen, damit die einzelnen Zellen von Kreuztabellen noch hinreichend besetzt sind. 158 Die Zufallsauswahl aus Schichten Da der Auswahlfehler σ vom Stichprobenumfang n und von der Streuung der Stichprobe σ abhängt (σ x = σ / n ), so kann man ihn einerseits durch Vergrößerung der Stichprobe reduzieren und andererseits durch „Verringerung von σ “ . Weil σ selbst nicht beeinflussbar ist, behilft man sich mit der Einteilung der Grundgesamtheit in homogene Schichten (nach einem bestimmten Merkmal). Die Streuung in homogenen Schichten ist geringer als die Streuung in der Gesamtpopulation. Dies führt zu einer präziseren Parameterschätzung. Die mehrstufige Zufallsauswahl Vor allem um durch große räumliche und zeitliche Trennungen der Stichproben entstehenden hohen Kosten zu reduzieren, erfolgt die Auswahl häufig über mehrere Stufen. Man könnte sich z. B. vorstellen, dass erst Bundesländer, dann Gemeinden, Wohnblock oder Straßenzüge, Haushalte und anschließend Individuen ausgewählt werden. Dabei können auch einzelne Stufen übersprungen werden. Der Auswahlfehler ist bei einer mehrstufigen Auswahl in der Regel größer als bei einer einstufigen Auswahl. Er steigt, - je mehr Stufen existieren, je weniger Einheiten pro Stufen ausgewählt werden, je heterogener die Einheiten einer Stufe jeweils untereinander sind und je homogener sie intern sind. 159 Die folgende Übersicht fasst noch einmal in knapper Form die Möglichkeiten der Stichprobenziehung zusammen. Wichtig ist, dass sich der Forscher primär von inhaltlich-theoretischen Überlegungen leiten lassen sollte, wenn es um die Abwägung der verschiedenen Alternativen geht. Übersicht der möglichen Stichprobenziehungen Innerhalb der ausgewählten Teilmengen werden alle Einheiten in die Erhebung einbezogen Alle Teilmengen werden in die Erhebung einbezogen ja ja nein Vollerhebung Geschichtete Stichprobe nein Klumpenstichprobe Echte zweistufige Auswahl 160 Allbus / ISSP 2000 als Beispiel Die Stichprobe wird mit Auswahlverfahrens gezogen. Hilfe eines zweistufigen 1. Stufe: Es wurden 105 Gemeinden in Westdeutschland und 46 Gemeinden in Ostdeutschland ausgewählt. 2. Stufe: Die Zielpersonen wurden aus den Listen der Einwohnermeldeämter wie folgt ausgewählt: Ausgehend von einer Zufallszahl als Start wurde mit gleicher Schrittlänge die Anzahl der Zielpersonen realisiert. (Technisch ist dies eine Klumpenstichprobe, aber man darf wohl davon ausgehen, dass die Klumpen sich nicht systematisch unterscheiden.) 161 Zahlen für die Ost-West-Gewichtung: Mikrozensus 1997 und ALLBUS 2000 Mikrozensus 1997 West Ost Gesamt (NW) (NO) (N) Personen in Privathaushalten, 18 Jahre und älter 332.023 76.635 408.658 ALLBUS 2000 West Ost Gesamt (nW) (nO) (n) 2.036 1.102 3.138 Die Gewichtungsfaktoren für Analysen der erwachsenen Bevölkerung in Privathaushalten in ganz Deutschland lassen sich wie folgt berechnen: Im Westen: n nw x Nw N = Im Osten: n no x No N = 3.138 2.036 3.138 1.102 x x 332.023 = 1.25223 408.658 76.635 = 0.53400 408.658 Eine entsprechende Gewichtungsvariable ist im Datensatz des ALLBUS 2000 enthalten (V836). WEIGHT BY V836. Anschließend wird die gewünschte Auswertung durchgeführt. 162 Gliederung 8. 8.1. 8.2 8.2.1 8.2.2 8.2.3 Zweidimensionale Verteilungen und Zusammenhangsmaße ....... 183 Zweidimensionale Verteilungen und die verschiedenen Arten des Zusammenhangs von zwei Variablen ............................................. 183 Metrisches Messniveau ..................................................................... 191 Einfache Regression und der Pearson-Bravais’sche Produkt-Moment-Korrelationskoeffizient r ........................................ 191 Der Rangkorrelationskoeffizient Rho als Spezialfall von r ................ 206 Der Phi-Koeffizient als Spezialfall von r ............................................ 209 163 Beispiel für die Messung eines Zusammenhangs Stellung im Beruf Angestellte Beamte SPD 32 % 23 % Andere 68 % 77 % Wahl Prozentsatzdifferenz = 9 % = 0,09 Stellung im Beruf Angestellte Selbstständige SPD 32 % 13 % Andere 68 % 87 % Wahl Prozentsatzdifferenz = 19 % = 0,19 Der Zusammenhang – im Sinne von Strukturierung der Wahl durch die Stellung im Beruf –, gemessen durch die Prozentsatzdifferenz, ist im zweiten Fall stärker. 164 Arten der Assoziation bzw. des Zusammenhangs von zwei Merkmalen: (1) Das elementarste Konzept ist das der Prozentsatzdifferenz von Teilgruppen. Beispiel: 32 % der Angestellten und 23 % der Beamten wählten bei der Bundestagswahl 2002 die SPD. Die Prozentsatzdifferenz beträgt also 9 %. Selbstständige wählten zu 13 % die SPD, sodass die Prozentsatzdifferenz zu den Angestellten 19 % beträgt. Die Prozentsatzdifferenz ist in letzterem Fall größer, die Stärke der Strukturierung wird hier also durch den Kontrast von Teilgruppen gemessen. (2) Die Chi-Quadrat-basierten Assoziationsmaße messen die Abweichungen der beobachteten Daten von den bei statistischer Unabhängigkeit zu erwartenden Daten. (3) Die PRE-Maße (Proportional reduction of error) geben das Ausmaß wieder, in dem die Kenntnis einer Variablen die Vorhersage der anderen Variablen zu verbessern erlaubt („prädiktive“ Assoziation). (4) Den Unsicherheitskoeffizienten (Uncertainty Coefficient) aus der Informationstheorie könnte man in Analogie zu den PRE-Maßen ein PRU-Maß nennen: Proportional reduction of uncertainty. (5) Weiterhin gibt es Maße, die dadurch entstehen, dass alle Paare von Untersuchungseinheiten (häufig: Personen) unter dem Aspekt betrachtet werden, ob die Variable x (z.B. Schulabschluss) und die Variable y (z.B. Einkommen) beide gleichermaßen hohe oder niedrige Werte haben (konkordante Paare) oder entgegengesetzte Ausprägungen (diskordante Paare). Die Maßzahl gibt die Assoziation des Variablenpaars (z.B.: Schulabschluss, Einkommen) wieder. (6) Korrelationsmaße (z.B. der Produkt-Moment-Korrelationskoeffizient r) geben das Ausmaß wieder, in dem Änderungen in einer Variablen zusammen mit Änderungen in der anderen Variablen auftreten. 165 Um zu entscheiden, welches Assoziationsmaß für eine Fragestellung am geeignetsten ist, muss man sich vorher also einerseits über die Art der Assoziation, die man untersuchen will, im klaren sein und andererseits über die folgenden Kriterien für Assoziationsmaße: 1) Die Assoziationsmaße sollten interpretierbar sein, d.h. es sollte sich mehr sagen lassen, als dass eine Beziehung zahlenmäßig stärker ist als eine andere. Dies erfüllen die Chi-Quadratbasierten Maße eher nicht. Die PRE- und PRU-Maße hingegen lassen klarere Interpretationen zu. 2) Assoziationsmaße sind per Konvention auf folgende Weise normiert: Assoziationsmaß = 0 ⇔ keine Assoziation Assoziationsmaß = 1 ⇔ vollständige Assoziation Falls es eine Ordnungsrelation gibt: Assoziationsmaß = +1 ⇔ vollständige positive Assoziation Assoziationsmaß = -1 ⇔ vollständige negative Assoziation Nicht alle Chi-Quadrat-basierten Maße sind perfekt normiert. PRE-Maße können 0 sein, obwohl keine statistische Unabhängigkeit besteht, weil PRE-Maßen eine etwas andere Konzeption als die der statistischen Unabhängigkeit zugrunde liegt. 3) Sensibilität der Assoziationsmaß besagt, dass für verschiedene Tabellen auch die Assoziationsmaße verschieden sein sollten. Bei diesem Kriterium schneidet das PRE-Maß λ schlecht ab, da es zu grob ist, gleiches gilt für Q, s.u. 166 Absicherung eines Zusammenhangs beim Schluss von einer Stichprobe auf die Grundgesamtheit Die Absicherung geschieht durch statistische Tests: Beispiel: Der Zusammenhang zwischen den Merkmalen Konfession und Wahl soll untersucht werden. H0 (Nullhypothese): Es gibt keinen Zusammenhang zwischen den beiden Merkmalen. H1 (Alternativhypothese): Es gibt einen Zusammenhang zwischen den beiden Merkmalen. Mit Hilfe der Stichprobeninformationen wird entscheiden, ob sich die Nullhypothese zurückweisen lässt. 167 Maße für den Zusammenhang von Merkmalen (Variablen) (Zweidimensionale empirische Verteilungen) Metrisches Messniveau: Einfache Regression und Korrelation 168 Streudiagramm Beispiel: Wie hängen Einkommen Schulbildung (x) zusammen? (y) und Paare von Beobachtungswerten (x1, y1), (x2, y2), ..., (xn, yn) y (Einkommen) x (Schulbildung) 169 Wie findet man den zu den Daten am besten passenden linearen Trend? Gauß`sche Methode der kleinsten Quadrate Modell der linearen Regression Lineares Zusammenhangs- bzw. Prognosemodell Erklärungs- yˆ = a + bx y yˆ i − yi ŷi yi x xi 170 bzw. Paare von Beobachtungswerten: (x1, y1), (x2, y2), ..., (xn, yn) yˆ = prognostizierter Einkommenswert (auf Grund des i linearen Trends) Fehler der Prognose: Für Person i: y − yˆ (Absolute Abweichung des prognostizierten Wertes vom beobachteten Wert) i i Gesamtfehler der Prognose: ∑ (y − yˆ ) 2 n i =1 i i 171 Die Regressionsgerade ist dadurch bestimmt, dass sie die geringste Abweichung von den vorliegenden Daten aufweist („nach Luftlinienabstand“). Im Sinne der Vorhersage weist sie den geringsten Prognosefehler auf. Ein linearer Trend (geometrisch: Gerade) hat die allgemeine Form: y = a + bx Die Parameter a und b werden derart bestimmt, dass der n Prognosefehler f (a, b ) = ∑ ( yi − (a + bxi )) minimal wird. 2 i =1 ┌ └ ∂f ∂f = 0 partielle Ableitungen = 0, ∂ b ∂a 1 ∑ (xi − x )( yi − y ) s xy n b= = 2 1 2 sx ( xi − x ) ∑ n ┌ Hierbei: s xy = 1 ∑ (xi − x )( y i − y ) n Kovarianz zwischen x und y s xx = 1 (xi − x )2 = s x2 Varianz von x ∑ n └ a = y − bx 172 Maß für den Zusammenhang von x und y: Der Korrelationskoeffizient r (Pearson, [Voraussetzung: Metrisches Messniveau] Bravais) Idee: Schätzen ohne und mit Vorinformation 1. Situation: Schätzung des Einkommens ohne Vorinformation über die Schulbildung (Gesucht wird der Wert t, der den Prognosefehler n 2 ( ) y t − ∑ i minimiert. i =1 y minimiert diesen Fehler.) Schätzung: y 2 n Fehler: E = ∑ (y − y) 1 i =1 i 173 2. Situation: Schätzung des Einkommens mit Vorinformation y yˆ = a + bx ŷi x xi Schätzung: yi = a + bxi Vorinformation n Fehler: E = ∑(y 2 i =1 i 2 − yˆ i ) 174 Streuungszerlegung ∑ (y − y) 2 i = ∑ ( yi − yˆ i ) + ∑ ( yˆ i − y ) 2 Gesamtstreuung 2 Nicht erklärte Komponente der Streuung ∑ ( yˆ − y ) Erklärte Komponente der Streuung 2 r = 2 i ∑(y − y) 2 Anteil erklärter Varianz i Also ergibt sich eine erste Interpretationsformel: Prozentsatz (Anteil) erklärter Varianz Maßstab: 0 % - 100 % 175 Erklärungsmodell der linearen Regression yˆ = a + bx y yˆi − y y y x xi Erklärungsmodell: Der Schwerpunkt des interessierenden Phänomens y liegt in y (arithmetisches Mittel). Lineare Regression: Für x = xi : Das lineare Modell prognostiziert ŷi = a + bxi , als Effekt der Bedingung x = xi ergibt sich, dass ŷi um yˆ i − y über dem Durchschnitt y liegt. 176 Zweite Interpretationsformel: −E E r = E drückt die proportionale Reduktion 2 1 2 1 des Prognosefehlers aus. (PRE-Maße: Proportional Reducion of Error) [ E1 ≥ E2 ] r heißt Korrelationskoeffizient (nach Pearson, Bravais) rxy = 1 (xi − x )( yi − y ) ∑ sxy n = sx ⋅ s y 1 1 2 2 ( xi − x ) ( yi − y ) ∑ ∑ n n 177 Beispiel: Korrelation Varianz Einkommen in Abhängigkeit von der Schulbildung (in Deutschland) r = 0.24 , also: r2 = 5,6 % erklärte Regressionsschätzung: a = 207 b = 116 b ist der „Effekt“ der Schulbildung auf das Einkommen: Zuwachs: ∆y = b ⋅ ∆x y = 207 + 116 * x Für 9 Schuljahre erhält man: y = 207 + 116 * 9 = 1251 Für 10 Schuljahre erhält man: y = 207 + 116 * 10 = 1367 Für 13 Schuljahre erhält man: y = 207 + 116 * 13 = 1715 Beispiel: Einkommen in Abhängigkeit vom Berufsprestige Korrelation r = 0.39 , also r2 = 0.15 D.h. 15 % der Einkommensunterschiede lassen sich auf Unterschiede des Berufsprestiges zurückführen. Bzw.: Der Fehler bei der Vorhersage des Einkommens lässt sich durch Kenntnis der Vorinformation über das Berufsprestige um 15 % reduzieren. 178 Eigenschaften des Korrelationskoeffizienten: − 1 ≤ r ≤ +1 Vorzeichen von r: Richtung des Zusammenhangs Absolute Größe von r: Stärke des Zusammenhangs r = +1 vollständiger positiver Zusammenhang r = -1 vollständiger negativer Zusammenhang r=0 kein Zusammenhang 179 r = +1 Vollständiger positiver Zusammenhang Erklärung: 100 % Prognosefehler: E2 = 0 180 r = -1 Vollständiger negativer Zusammenhang Erklärung: 100 % Prognosefehler: E2 = 0 181 r=0 yˆ = y [ yˆ = a + bx; b = 0; d.h. Information x wird gar nicht verwendet für die Prognose.] Erklärungskraft: 0 % Prognosefehler: E1 = E2 D.h.: Keine Verbesserung Vorinformation x 182 der Prognose durch Beispiel für kurvilinearen Zusammenhang Intensität der Einstellung Links Rechts r misst nur den linearen Zusammenhang. Aber: r2 gibt an, wie viel % der Varianz die lineare Approximation der empirischen Realität erklärt. 183 Korrelation und Kausalität: Statistischer Zusammenhang und Wirkungszusammenhang - Der Korrelationskoeffizienz ist symmetrisch: rxy = r yx - Kausalität dagegen ist asymmetrischer Wirkungszusammenhang. - Statistischer Zusammenhang: Kovariieren bzw. korrelieren - Kausalzusammenhang: Ursache – Wirkung – Beziehung 184 Allbus (Allgemeine Bevölkerungsumfrage) - Gesamtbevölkerung: Es gibt keinen Zusammenhang zwischen Alter und Einkommen. (r = 0,045 ; r2 = 0,2 % erklärte Varianz) - Teilgruppe Beamte: r = 0,53 (r2 =) 28,1 % erklärte Varianz Die Streuung im Einkommen lässt sich zu 28,1 % durch das Alter erklären. Die Vorinformation über das Alter führt zu einer (proportionalen) Reduktion von 28,1 % bei dem Prognosefehler. 185 Streudiagramm (nur Beamte) BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE 8000 6000 4000 2000 0 20 30 40 50 ALTER: BEFRAGTE<R> 186 60 70 Output: R R Square ,530 ,281 B-Koeffizienten (nicht standardisierte Variablen) Einkommen = 53 * Alter + 101 Beispiel: Alter = 30 Auf Grund des linearen Modells prognostiziertes Einkommen: 1590 + 101 = 1691 53 * 30 Beta-Koeffizient (standardisierte Variablen) ZEinkommen = .53 * ZAlter Bei der einfachen Regression (d.h.: ein Prädiktor) gilt: β xy = ryx Hier also: β yx = ryx = .53 T-Testwert des Alters Signifikanz des T-Tests F-Testwert des Alters Signifikanz des F-Tests T = 5,226 = ,000 F = 27,310 = ,000 (= T2) Die Wahrscheinlichkeit, für die Prüfgröße einen so großen bzw. größeren Wert zu erhalten wie bzw. als in der vorliegenden Stichprobe, beträgt 0,00 %. 187 Signifikanztest für den Korrelationskoeffizienten Nullhypothese (H0) : ρ = 0 Alternativhypothese: (H1) : ρ ≠ 0 Prüfgröße: r ist verteilt nach tn-2 (t-Verteilung mit n – 2 2 1− r Freiheitsgraden) n−2 Beispiel: n = 62 ; Irrtumswahrscheinlichkeit α = 5% ; oder: Sicherheit 1 – α = 95%. Kritischer Wert: t 1 1− , n − 2 = 2,00 α r n − 2 = 2,00 1− r Daraus lässt sich berechnen: r = 0,25 2 Der Korrelationskoeffizient ist in diesem Fall (n = 62) signifikant (statistisch abgesichert), wenn: r > 0,25. Alternative: Significance (= Wahrscheinlichkeit, einen so großen bzw. größeren Wert für die Prüfgröße zu erhalten wie bzw. als in der vorliegenden Stichprobe) ist größer als 0,05. 188 Gliederung 8.3 Ordinales Messniveau ............................................. 210 8.3.1 Assoziationsmaße (und Distanzmaße) auf der Basis von Rangzahlen:Rho und Rho b........................................210 8.3.2 Assoziationsmaße auf der Basis von Paaren: Gamma, Kendalls Tau, Somers’d ............................................ 214 189 Messung des Zusammenhangs auf ordinalem Messniveau Beispiel: Schulabschluss (x) (1) Niedrig (2) Mittel (3) Hoch Links-Rechts-Selbsteinstufung (y) Links Mitte Rechts (1) (2) (3) 379 686 411 209 315 186 327 265 153 190 Inspektion von Paaren von Untersuchungseinheiten Ein Paar von Untersuchungseinheiten (A, B) heißt konkordant: ⇔ (Genau dann, wenn:) Person A rangiert auf Variable x höher als Person B und gleichzeitig: Person A rangiert auf Variable y höher als Person B. (Ein solches Paar ist also ein Anhaltspunkt für einen positiven Zusammenhang.) Ein Paar heißt diskordant: ⇔ Wenn A auf Variable x höher rangiert als B, aber A auf Variable y niedriger rangiert als B. (Ein solches Paar ist ein Anhaltspunkt für einen negativen Zusammenhang.) Nc = Anzahl konkordanter Paare Nd = Anzahl diskordanter Paare 191 Alle ordinalen Maßzahlen basieren auf der Bilanz: Nc -Nd Nc -Nd > 0: Mehr konkordante Paare als diskordante Paare; d.h. positiver Zusammenhang. Nc -Nd < 0: Mehr diskordante Paare als konkordante Paare; d.h. negativer Zusammenhang. Nc -Nd = 0: So viele konkordante Paare wie diskordante Paare, d.h. kein Zusammenhang. Die verschiedenen Maßzahlen unterscheiden sich durch die Art der Normierung von Nc -Nd. 192 Berechnungen für das Beispiel: Anzahl der konkordanten Paare: 379 * (315 + 186 + 265 + 153) + 686 * (186 + 153) + 209 * (265 + 153) + 315 * 153 = 716 412 Anzahl der diskordanten Paare: 327 * (686 + 411 + 315 + 186) + 265 * (411 + 186) + 209 * (686 + 411) + 315 * 411 = 1 039 489 Also: Nc < Nd 193 Eine erste Version der Normierung: γ := N −N N +N c d c d (Gamma) Eigenschaften: − 1 ≤ γ ≤ +1 Extremfälle: (γ = 1) ⇔ (γ = −1) ⇔ ( Nc = 0, d.h. es gibt keine ( Nd = 0, d.h. es gibt keine diskordante Paare.) konkordante Paare.) (γ = 0 ) ⇔ ( Nc = Nd, d.h. es gibt so viele konkordante wie diskordante Paare.) 194 Aber: Gamma ist eine zu grobe Maßzahl: Beispiel: 50 50 0 100 100 0 0 100 Die beiden Konstellationen sind recht verschieden, aber mit γ lässt sich dies nicht unterscheiden, denn γ ist in beiden Fällen gleich 1. Deshalb gibt es verfeinerte Maßzahlen, die im Folgenden dargestellt werden. 195 Tx = Anzahl der Paare, die (nur) in x übereinstimmen. („tie“ (englisch): gleichen Wert haben) Ty = Anzahl der Paare, die (nur) in y übereinstimmen. Txy = Anzahl der Paare, die in x und y übereinstimmen. Anzahl möglicher Paare aus n Personen: n n! n(n − 1) = = 2 2 (n − 2)! 2! n = N c + N d + Tx + Ty + Txy 2 196 Berechnungen für das Beispiel: Tx = 379 * (686 + 411) + 686 * 411 + 209 * (315 + 186) + 315 * 186 + 327 * (265 + 153) + 265 * 153 = 1 038 239 Ty = 379 * (209 + 327) + 209 * 327 + 686 * (315 + 265) + 315 * 265 + 411 * (186 + 153) + 186 * 153 = 920 629 153 ∗ 152 379 ∗ 378 686 ∗ 685 Txy = + + ... + 2 2 2 197 Eine genauere Messung des Zusammenhangs auf ordinalem Messniveau erhält man durch folgendes Herausrechnen der „ties“ („tie“: gleicher Wert). Bei asymmetrischer Fragestellung: Somers`d Nc − Nd d yx = n(n − 1) − Tx −T xy 2 Zur Reihenfolge der Indices: y = f (x) Bei symmetrischer Fragestellung: Kendalls τ b (Tau B) (Bezugsgröße: „Alle Paare ohne >ties<“) τb = Nc − Nd n(n − 1) n(n − 1) − − − − T T T T y xy x xy 2 2 198 Maßzahlen in dem Beispiel: Somers`D Kendall`s Tau B Gamma = - 0,121 = - 0,118 = - 0,184 Nach den Maßzahlen handelt es sich also um einen negativen Zusammenhang. Ein hoher Schulabschluss Selbsteinstufung als „links“. begünstigt die Asymmetrische Fragestellung, deshalb hier am besten geeignet: Somers`D 199 Wie strukturiert der Schulabschluss die LinksRechts-Selbsteinstufung? (Dies ist ein asymmetrische Fragestellung.) 1) Bezugspunkt: Verteilung aller Befragten bei der zu erklärenden Variablen (Allgemeine Verteilung) 31,2 % links; 43,3 % Mitte; 25,6 % rechts 2a) Verteilung der zu erklärenden Variablen unter der Bedingung eines hohen Schulabschlusses (Bedingte Verteilung; hier: Bedingung „hoher Schulabschluss“) Falls Schulabschluss „hoch“, so: 43,9 % links; 35,6 % Mitte; 20,5 % rechts Effekt des hohen Schulabschlusses auf Selbsteinstufung als links: 43,9 – 31,2 = 12,7 Prozentpunkte D.h. Befragte mit hohem Schulabschluss stufen sich deutlich überproportional (- verglichen mit allen Befragten -) als links ein. 200 2b) Falls Schulabschluss „niedrig“, so: 25,7 % links; 46,5 % Mitte; 27,8 % rechts (Bedingte Verteilung; hier: Bedingung „niedriger Schulabschluss“) Effekt von niedrigem Schulabschluss auf Selbsteinstufung als links: 25,7 % - 31,2 % = - 5,5 Prozentpunkte D.h. Befragte mit niedrigem Schulabschluss stufen sich unterproportional (- verglichen mit allen Befragten -) als links ein. 2c) Falls mittlerer Schulabschluss, so: 29,4 % links; 44,4 % Mitte; 26,2 % rechts 29,4 % - 31,2 % = - 1,8 % D.h. bei mittlerem Schulabschluss auch unterproportional links. 3) Insgesamt besteht der stärkste Effekt (P(Ai B j ) − P( Ai )) also darin, dass hohe Schulbildung die Selbsteinstufung als links begünstigt. 201 Crosstabulation: NV221 Allgemeiner Schulabschluss By NV109 Links-Rechts-Selbsteinstufung Count Exp Val Row Pct Col Pct Tot Pct NV109 -> Links Rechts 1.00 6.00 10.00 Row Total NV221 2.00 379 460.8 25.7 % 41.4 % 12.9 % 686 637.5 46.5 % 54.2 % 23.4 % 411 377.7 27.8 % 54.8 % 14.0 % 1476 50.4 % 3.00 209 221.6 29.4 % 22.8 % 7.1 % 315 306.7 44.4 % 24.9 % 10.7 % 186 181.7 26.2 % 24.8 % 6.3 % 710 24.2 % 5.00 327 232.6 43.9 % 35.7 % 11.2 % 265 321.8 35.6 % 20.9 % 9.0 % 153 190.6 20.5 % 20.4 % 5.2 % 745 25.4 % 915 1266 31.2 % 43.2 % Significance .0000 750 25.6 % Min E. F. 181.679 2931 100. % niedrig mittel hoch Column Total Chi-Square 77.97656 D.F. 4 Statistic Lambda .03724 Uncertainlty Coefficient .01200 Somers`D .012071 Eta 0.14633 Statistic Cramer`s V Contingency Coefficient Kendall`s Tau B Kendall`s Tau C Pearson`s R Gamma Number of Missing Observations = Symmetric .01987 With NV221 Dependent .00000 .01222 .01244 -.11811 -.11563 .16170 Value .11533 .16098 -.11814 -.11282 -.14516 -.18399 Significance .0000 .0000 .0000 120 202 Cells with E. F. < 5 None With NV109 Dependent - Absicherung des Zusammenhangs Nullhypothese (H0): Es gibt keinen Zusammenhang zwischen den Merkmalen. Alternativhypothese (H1): Es gibt einen Zusammenhang zwischen den Merkmalen. Unter der Annahme von H0 gibt es Prüfgrößen, die approximativ t-verteilt sind. Der Anwender inspiziert, ob die Significance (= Wahrscheinlichkeit, einen so großen bzw. größeren Wert für die Prüfgröße zu erhalten wie bzw. als in der vorliegenden Stichprobe) größer ist als 0,05. (Irrtumswahrscheinlichkeit α = 5% ; oder: Sicherheit 1 – α = 95%.) In dem Beispiel: Significance = 0,00 203 Gliederung 8.4. Abhängigkeit eines metrischen Merkmals von einem nominalem Merkmal: Eta (Einfache Varianzanalyse) ........................................................225 Abhängigkeit einer metrischen Variablen (y) von einer nominalen unabhängigen Variablen (x). Beispiel: Einkommen erklären durch Stellung im Beruf. BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE> (Allbus 2002) BEFR.: JETZIGE StandardabBERUFLICHE Mittelwert N weichung STELLUN LANDWIRT 1586,00 5 879,157 AKADEM.FREIER BERUF 4530,18 17 2907,772 SONST.SELBSTAENDIGE 2469,74 109 2032,131 2425,13 85 1200,451 BEAMT,RICHTER,SOLDAT 1730,53 659 1300,663 ANGESTELLTE 476,849 1297,61 340 ARBEITER IN AUSBILDUNG Insgesamt 537,50 1723,82 204 40 1255 284,284 1340,490 Effekte in der Varianzanalyse: Allgemeiner Durchschnitt als Bezugspunkt: y = 1724 j = 1: Landwirt j = 2: Akadem. Freier Beruf j = 3: Sonstige Selbstständige j = 4: Beamte j = 5: Angestellter j = 6: Arbeiter j = 7: In Ausbildung Schätzung mit Vorinformation über die Stellung im Beruf y1 = 1586 Effekt der Stellung im Beruf auf das Einkommen y = 4530 y − y = + 2806 y = 2470 y − y = + 746 y = 2425 y − y = + 701 y = 1731 y − y= + 7 y = 1298 y − y = - 426 y= y − y = - 1186 2 3 4 5 6 7 538 y − y = - 138 1 2 3 4 5 6 7 yi = Mittelwert der i-ten Gruppe Die Effekte besagen also, wie stark eine Gruppe über oder unter dem Durchschnitt liegt. 205 Zur Notation Die erklärende Gruppeneinteilung umfasst k = 7 Gruppen. j = 1: Landwirte y1,1, y2,1, ..., y5,1 n1 = 5 Landwirte (Person i = 1,...,5) j = 2: Akadem. Freier Beruf y1,2, y2,2, ..., y17,2 n2 = 17 Akadem. Freier Beruf j = 3: Selbstständig, sonstige j = 4: Beamte j = 5: Angestellte j = 6: Arbeiter j = 7: In Ausbildung 206 Konzept von Eta2 (Symbol: η ) 2 1. Situation: Ohne Vorinformation Geschätzt wird der Schwerpunkt der Verteilung: y (Arithmetisches Mittel) Fehler: E = ∑∑ (y k 1 j =1 i =1 ) 2 nj ij −y 207 2. Situation: Mit Vorinformation yj Prognose: für die j-te Stellung im Beruf nj E 2 = ∑∑ (yij − y j ) k 2 j =1 i =1 Streuungszerlegung: k nj ∑∑ ( y j =1 i =1 ij k nj k nj − y ) = ∑∑ ( yij − y j ) + ∑∑ ( y j − y ) 2 2 2 j =1 i =1 j =1 i =1 Gesamtstreuung nicht erklärte Komponente der Streuung erklärte Komponente der Streuung SStotal SSerror SSexplained 208 Eta 2 = SSexp lained SStotal 1 SSexp lained = n 1 SStotal n Interpretation von Eta2 η : Anteil erklärter Varianz 2 Im Beispiel: Die Unterschiede im Einkommen lassen sich zu 15,7 % auf (durch) Unterschiede in der Stellung im Beruf zurückführen (erklären). −E E Eta = E 2 1 2 1 (PRE-Maß: Proportional reduction of error) Im Beispiel: Der Fehler in der Vorhersage des Einkommens lässt sich durch Kenntnis der Stellung im Beruf um 15,7 % reduzieren. Erweiterung des Beispiels: Falls man in den beruflichen Stellungen die Ausdifferenzierungen nach Hierarchiestufen (Anzahl der Mitarbeiter, Entscheidungs- und Anweisungsbefugnis sowie Qualifikationsstufen) berücksichtigt, so lässt das Einkommen zu 39,3 % durch die Stellung im Beruf erklären. Mit einem geschlechtsspezifischen Berufsstrukturmodell lässt sich das Einkommen sogar zu 47,6 % erklären. 209 Darstellung der erklärten Varianz als Summe von Kovarianzen mal Effekten In der einfachen Varianzanalyse von y durch das Merkmal A lässt sich die Varianz anschaulich darstellen durch das Zusammenwirken der Kovarianz von y und 1A mit dem direkten Effekt y A − y von 1A i i i auf y. k ni 2 − ( y y ) Ai Erklärte Komponente der Varianz: ∑ n i =1 In der Varianzanalyse: ( ) nnii y A − y s y ,1Ai = s y,1Ai = nn ( y Ai i − y ) Die Kovarianz gewichtet also den Effekt mit dem Anteil der Kategorie. k Erklärte Komponente der Varianz ni = ∑ ( y Ai − y ) ⋅ ( y Ai − y ) n i =1 s y ,1 Ai Effekt von 1A (Diese Zerlegung mit Kovarianzen und Effekten gilt analog für die multiple Regression.) 210 i Im Beispiel: (- 0,55) ⋅ (- 138) = 75,87 (+ 38,01) ⋅ (+ 2806) = 106.654,83 (+ 64,79) ⋅ (+ 746) = 48.334,86 (+ 47,48) ⋅ (+ 701) = 33.282,14 (+ 3,68) ⋅ (+ 7) = 25,73 (- 115,41) ⋅ (- 426) = 49.164,81 (- 37,80) ⋅ (- 1186) = 44.831,75 Erklärte Komponente der Varianz: 282.369,99 Gesamtvarianz = 2.250.000 000 / 1254 = 1.794.258,37 Anteil erklärter Varianz = 282.369,99 1.794.258,37 = 0,157 bzw. 15,7 % 1) Ins Gewicht fällt also einerseits, dass insbesondere Freiberufler, aber auch sonstige Selbstständige und Beamte deutlich über dem Durchschnitt liegen, und andererseits, dass Arbeiter und insbesondere Auszubildende beim Einkommen deutlich unter dem Durchschnitt liegen. 2) Ins Gewicht fällt gleichzeitig, dass der Anteil der Arbeiter z.B. deutlich höher ist als der Anteil der Personen in Ausbildung. 211 Varianzanalyse Meine „pfadanalytische“ Veranschaulichung der erklärten Komponente der Varianz: y A1 − y 1A1 n1 (y A − y ) n y Ai − y 1Ai 1 ŷ y Ak − y ni ( y Ai − y ) n 1Ak nk (y A − y ) n k y Die erklärte Komponente der Varianz ist gleich der Kovarianz von ŷ . Die Kovarianz von y Prädiktoren 1 Ai und ŷ y und ergibt sich auch daraus, dass y mit den kovariiert und die Prädiktoren y Ai − y haben. 212 1 Ai einen Effekt ANOVA-Tabelle Quadratsumme BFR.:NETTOEINKOMM. Zwischen den 3,55E+08 EN OFFENE+LISTENANG. Gruppen (Kombiniert) A BEFR.: JETZIGE BERUFLICHE STELLUNG Innerhalb der Gruppen 1,90E+09 Insgesamt 2,25E+09 Zusammenhangsmaße Eta BFR.:NETTOEINKOMMEN OFFENE+LISTENANGABE BEFR.: JETZIGE BERUFLICHE STELLUNG Eta-Quadrat ,397 ,157 213 df 6 Mittel der Quadrate 59087049,4 38,835 ,000 1248 1521480,0 1254 F Signifikanz ANOVA (Analysis of variance) in allgemeiner Formulierung Varianzanalyse-Tabelle Quadratsumme Zwischen den Gruppen (=erklärt) degree of freedom (df) Mean Square (MS) k-1 SSbetween/ (k-1) n-k SSwithin/ (n-k) k ∑ ni ( yi − y )2 i =1 k ni ∑ ∑ (yij − yi )2 Innerhalb der Gruppen (=nicht erklärt) i =1 j =1 k ni ∑ ∑ (yij − y )2 Insgesamt F= MS between MS within n-1 i =1 j =1 ist unter Annahme von H0 verteilt nach Fk - 1, n – k . Nullhypothese (H0): Die Mittelwerte der Gruppen sind alle gleich. (Es gibt keine Effekte der Stellung im Beruf auf das Einkommen.) Alternativhypothese (H1): Es gibt Effekte. Die Nullhypothese wird zurückgewiesen, falls: Fempir. > Fkritisch oder falls: Significance ≤ .05 (Significance = Wahrscheinlichkeit bzgl. aller theoretisch möglichen Stichproben, einen so großen oder größeren Testwert zu erhalten wie bzw. als in der vorliegenden Stichprobe.) In dem Beispiel: Significance = 0,000 214 7.6.2 Der Chi-Quadrat-Unabhängigkeitstest Ist ein Zusammenhang (statistisch) signifikant, d.h. gesichert? Kreuztabelle: Parteipräferenz * Konfession (Allbus 2002) Parteipräferenz * Konfession Kreuztabelle Konfession Parteipräferenz CDU/CSU SPD F.D.P. B´90/Gruene PDS Gesamt Evang 260 292,6 334 283,2 33 30,8 40 45,1 11 26,3 678 678,0 Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Roem-Kath 352 260,7 203 252,3 19 27,4 28 40,2 2 23,4 604 604,0 Chi-Quadrat-Tests Asymptotische Signifikanz Wert Chi-Quadrat Pearson Anzahl der gültigen Fälle a. 219,75 df a 8 ,000 1652 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 14,33. 215 Keiner Religionsgem 101 159,7 153 154,5 23 16,8 42 24,6 51 14,3 370 370,0 Gesamt 713 713,0 690 690,0 75 75,0 110 110,0 64 64,0 1652 1652,0 Bezeichnungen nij = absolute Häufigkeit der Fälle mit Ausprägung Ai und Bj Randsummen: l ni+ oder ni. = ∑n j =1 ij (Zeilensummen) k n+j oder n.j = ∑ nij (Spaltensummen) i =1 216 Indifferenztafel Bei statistischer Unabhängigkeit zu erwartende absolute Häufigkeiten Katholisch und SPD: 252,3 690 SPD 604 Katholisch 1652 604 690 ⋅ ⋅1652 = 1652 1652 604 ⋅ 690 = 252,3 ; dagegen treten „Katholisch“ und 1652 „SPD“ tatsächlich nur unterproportional (nämlich nur 203 mal) gemeinsam auf. Katholisch und CDU: 604 ⋅ 713 = 260,7 ; dagegen kommen „Katholisch“ 1652 und „CDU/CSU“ tatsächlich überproportional (nämlich 352 mal) gemeinsam vor. 217 Test auf statistische Unabhängigkeit 2 χ ( - Unabhängigkeitstest; lies: Chi Quadrat) H0: A und B sind statistisch unabhängig in der Grundgesamtheit (Nullhypothese) H1: Alternativhypothese (Verneinung, d.h. keine statistische Unabhängigkeit) Kreuztabelle 1 A (Wahl) B (Konfession) ... ... j l 1 . . . i nij ni+ n+j n . . . k Vergleich von: - Beobachtete absolute Häufigkeit nij - Unter Annahme des Modells der statistischen Unabhängigkeit (d.h. unter Annahme von H0) zu erwartende absolute Häufigkeit nˆ ij 218 pij := P( Ai B j ) = P( Ai ) ⋅ P( B j ) H0 pi + := P( Ai ); p+ j := P( B j ) Diese Wahrscheinlichkeiten pi+ und p+j (bezogen auf die Grundgesamtheit) werden auf Grund der Stichprobe geschätzt. ˆij die unter Annahme des Modells der Für Zelle (i, j) bezeichnet n statistischen Unabhängigkeit (d.h. unter H0) zu erwartende (absolute) Häufigkeit: n pij = n pi+ p+j H0 nˆij = ni + n+ j n n n Wahrscheinlichkeiten pi+ und p+j geschätzt auf Grund der Stichprobe. 219 Der Vergleich von nij und nˆ ij wird zusammenfassend (über alle i und j hinweg) durchgeführt: k l Testgröße = ∑∑ i =1 j =1 (n − nˆ ) 2 ij ij nˆ ij Die Testgröße variiert mit n (z.B. mit der Verdopplung der Werte in einer Tabelle würde sich auch die Testgröße verdoppeln), was besagt, dass auf der Basis größerer Stichproben (d.h. mehr Information) kleinere Unterschiede als signifikant ausgewiesen werden können. Die Testgröße misst die Abweichung von der Nullhypothese (= statistische Unabhängigkeit). Diese Testgröße bildet den Maßstab für die Prüfung der Nullhypothese; ihre Verteilung ist aus der mathematischen Statistik bekannt. χ 2 ( k −1)⋅(l −1) -Verteilung. Diese rechnerisch bekannte Verteilung bildet den Maßstab für den Hypothesentest. Die Testgröße ist verteilt nach der Der Parameter df = (k – 1) * ( l – 1) heißt Freiheitsgrad (degree of freedom). 220 Freiheitsgrade df (degree of freedom) = (k – 1) ( l – 1) l- 1 Randverteilung k-1 Randverteilung Im Beispiel: k = 5, = 3, (k – 1) ( l – 1) = 8 Der Mittelwert von χ 2 ( k −1)(l −1) ist (k − 1)(l − 1) . Der Freiheitsgrad ist also ein Indikator für die Größenordnung der Situation bzw. Tabelle. Kritischer Wert nach Tabelle: χ 2 0,95;8 = 15,5 Wert der Testgröße für das empirische Beispiel: 219,75 221 Die χ 2 - Verteilung als Maßstab für die Testgröße ist in Form einer Tabelle verfügbar. Dabei sind die kritischen Werte für 5 % (bzw. 1 %) Irrtumswahrscheinlichkeit angegeben. (Konvention in den Sozialwissenschaften: 5 % Irrtumswahrscheinlichkeit; 95 % Sicherheit.) Wahrscheinlichkeit χ (2k − 1)( l − 1) 5% Kritischer Wert (für Nullhypothese) Für den Fall der statistischen Unabhängigkeit gilt: Die Testgröße ist gleich Null. 222 Significance 5% S Kritischer Wert (für Nullhypothese) Testwert (für die Stichprobe) Significance (S) = Wahrscheinlichkeit bzgl. aller theoretisch möglichen Stichproben, einen so großen oder größeren Wert zu erhalten, wie bzw. als in der vorliegenden Stichprobe. D.h.: Der Anwender muss inspizieren, ob: Significance ≤ .05 223 Extremwerte des Maßstabs: Statistische Unabhängigkeit Signifikanz Wert der Testgröße Significance χ S = 1.0 2 =0 χ χ empirisch χ ≥ „Sehr starke“ Abhängigkeit S ≤ .05 2 2 kritisch 2 sehr groß Im Beispiel: χ 2 8 = 219,75 224 S gegen 0 Im Beispiel: S = .0000 ..., aber nicht perfekt 0. Signifikanter Zusammenhang Falls die Nullhypothese („Kein Zusammenhang“) an den Daten zurückgewiesen werden kann, spricht man von einem signifikanten (significant (englisch): gesichert) Zusammenhang. [S ≤ .05] Dies ist die Konvention in den Sozialwissenschaften: 95 % Sicherheitswahrscheinlichkeit (Signifikanzniveau) 5 % Irrtumswahrscheinlichkeit Warnung: Falls man alle Variablen mit allen Variablen korreliert, sind 5 % der Zusammenhänge rein zufällig „signifikant“. Einfluss des Stichprobenumfangs Bei einer großen Stichprobe lassen sich Zusammenhänge noch als signifikant nachweisen. 225 auch kleine 8.5.1 Chi-Quadrat-basierte Maße (Kontingenzmaße) Zusammenhangsmaße auf Basis von χ werden durch Normierung 2 gewonnen, wobei insbesondere der Stichprobenumfangs neutralisiert wird. (Voraussetzung: Nominales Messniveau) Einfluss des ┌ Contingency coefficient χ χ +n 2 C= └ 2 0 ≤ C <1 ┌ Phi = 2 χ2 n hat ein Maximum von min {k − 1, l − 1}. Phi ist deshalb für 2 x 2-Tabellen (Vierfeldertafel) geeignet, nicht aber für größere Tabellen mit k und l größer 2. └ 226 Cramérs V V = x 2 n ⋅ min{k − 1, l − 1} 0 ≤V ≤1 (V kann den Wert 1 annehmen, was bei C nicht möglich ist.) In dem Beispiel erhält man für die Bundesrepublik: V = 0,26 Zugehöriger Test: χ 2 - Unabhängigkeitstest; der Test ergibt: Significance = 0,0 Maßzahlen und zugehörige Tests Die einzelnen Maßzahlen wie r oder auch τ b haben jeweils einen eigenen Signifikanztest, d.h. nicht den χ 2 - Test. Die allgemeine Struktur des Signifikanztests lautet aber auch dann: H0: Kein Zusammenhang H1: Zusammenhang ungleich Null 227 Symmetrische Maße Wert Nominalbzgl. Nominalmaß Cramer-V Kontingenzkoeffizient Anzahl der gültigen Fälle Näherungs weise Signifikanz ,258 ,343 1652 a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. 228 ,000 ,000 7.2 Grundbegriffe des Testens H0: Nullhypothese H1: Alternativhypothese Klassischer Hypothesentest (Beispiel: χ - Unabhängigkeitstest; Test, ob Zusammenhang vorliegt zwischen zwei (hier: nominalen) Merkmalen) 2 Nullhypothese: Kein Zusammenhang der Merkmale (bzw. statistische Unabhängigkeit) Alternativhypothese: Zusammenhang der Merkmale 229 Gedankenexperiment: Tatsächlicher H0 Zustand richtig H1 richtig Entscheidung Annahme von H0 richtig entschieden Fehler 2. Art Wahrscheinlichkeit = 1 - α Annahme von H1 Fehler 1. Art Wahrscheinlichkeit = α Wahrscheinlichkeit = β Richtig entschieden Wahrscheinlichkeit = 1 - β Konvention in den Sozialwissenschaften: α = 0,05 (5 % Irrtumswahrscheinlichkeit) 1 - α = 0,95 (95 % Sicherheitswahrscheinlichkeit) Warnung: Der β -Fehler ist nicht einfach das Komplement des α -Fehlers. Sondern es gilt nur die Aussage: Je kleiner der α - Fehler, desto größer der β - Fehler. 230 Beispiel: Einführung eines neuen Medikaments 95 % Sicherheitsniveau: Ein neues Medikament erst einsetzen, wenn es mit 95 % Sicherheit nicht mehr schadet als hilft. (Andererseits gibt es den β - Fehler, ein Medikament nicht einzusetzen, obwohl es mehr hilft als es schadet.) Wenn man diese Sicherheit für zu gering hält, kann man das Sicherheitsniveau erhöhen: 99 % Sicherheitsniveau: Ein neues Medikament erst einsetzen, wenn es mit 99 % Sicherheit nicht mehr schadet als hilft. (Andererseits steigt jetzt der β - Fehler, ein Medikament nicht einzusetzen, obwohl es mehr hilft als es schadet.) 231 Tatsächlicher (H0 richtig) Zustand Medikament negativ Entscheidung (Annahme von H0) Richtig Medikament nicht entschieden mit einsetzen Wahrscheinlichkeit = 1 - α (H1 richtig) Medikament positiv (Annahme von H1) Falsch Medikament entschieden mit Wahrscheinlicheinsetzen keit α Richtig entschieden mit Wahrscheinlichkeit 1 - β 232 Falsch entschieden mit Wahrscheinlichkeit β 8.5.2. Maße der prädiktiven Assoziation: Lambda, Unsicherheitskoeffizient, Goodmans und Kruskals Tau, Qualitative Varianzanalyse ................................235 Zusammenhangsmaße für nominales Messniveau Die Maßzahl Lambda (λ ) Beispiel: Kreuztabelle: Parteipräferenz * Konfession Anzahl Parteipräferenz CDU/CSU SPD F.D.P. B´90/Gruene PDS Gesamt Konfession Keiner Evang. Roem-Kath. Religionsgem. 260 352 101 334 203 153 33 19 23 40 28 42 11 2 51 678 604 370 233 Gesamt 713 690 75 110 64 1652 Vorhersage der Wahlentscheidung 1. Situation: Ohne Vorinformation über die Konfession Vorhersage: Modalwert (Mittelwert auf nominalem Messniveau) Im Beispiel: CDU/CSU Richtige Prognose für 713 Fälle Fehler: E1 = 1652 – 713 = 939 234 2. Situation: Mit Vorinformation über die Konfession Vorinformation Prognose Anzahl der falschen Prognosen Evangelisch SPD 678-334 Anzahl der falschen Prognosen bei den Protestanten Katholisch CDU 604-352 Anzahl der falschen Prognosen bei den Katholiken Ohne Konfession SPD 370-153 Anzahl der falschen Prognosen bei den Konfessionslosen E 2 = ∑ = 1652 − 839 = 813 − E 2 939 − 813 126 E 1 λ= = = = 13,4% (lambda) 939 939 E1 Proportionale Reduktion des Fehlers der Vorhersage der Wahlentscheidung durch Kenntnis der Konfession. 235 Im Beispiel: λ = 0,134 Der Prognosefehler bei der Vorhersage der Wahlentscheidung wird durch die Kenntnis der Konfession um 13,4 % reduziert. 0 ≤ λ ≤1 (λ = 0) ⇔ (E1 = E 2 ) ⇔ (Alle Spaltenmodalwerte fallen in die Modalzeile.) Wenn die bedingten Prognosen alle mit der Prognose ohne Vorinformation übereinstimmen, dann verbessert man sich mit der Vorinformation nicht in der Prognose. Beispiel für λ = 1 : (⇔ E 2 = 0) Wahl Konfession x x = besetzte Zelle (sonst leer) x x x x Genauer: =1 W ,K λ λ K ,W D.h.: <1 λ ist asymmetrische Maßzahl. 236 „Prognose“ versus „Varianz erklären“ Lambda ist ein PRE-Konzept, d.h. arbeitet als Maß der prädiktiven Assoziation mit der Grundidee der Prognose. Andererseits handelt es sich nicht um eine statistische Erklärung des Typus „Variation von y zurückführen auf Variation in x“. Beim Korrelationseffizienten und bei Eta dagegen kann man mit beiden Grundideen argumentieren. 237 Lambda ist ein relativ grobes Maß Fiktives Beispiel CDU SPD Protestantisch 51 49 Katholisch 100 0 Hier ist λ = 0, obwohl die bedingten Wahrscheinlichkeiten für die Wahlentscheidung in den Teilgruppen der Protestanten und der Katholiken recht verschieden sind. λ ist einfach interpretierbar, aber rechnerisch grob, da alle Änderungen jenseits der Modalhäufigkeiten nicht in die Maßzahl eingehen. 238 Rechnerisch genauer, weil alle Zellenhäufigkeiten in die Maßzahl eingehen: Uncertainty Coefficient Dieses Konzept ist aus der mathematischen Informationstheorie. Es geht um die Unsicherheit bei der Prognose eines Ereignisses y (z.B. Wahlentscheidung) ohne bzw. mit Vorinformation ( U y bzw. U y/x ). Uncertainty Coefficient U y −U y x Uy Hierbei handelt es sich um ein PRU-Konzept. (PRU = proportional reduction of uncertainty) Die Unsicherheit bei der Vorhersage der Wahlentscheidung wird durch Kenntnis der Konfession um 5,1 % reduziert. ┌ Erläuterung: Falls das zu prognostizierende Phänomen stark streut, so ist die Unsicherheit der Vorhersage hoch. Sichere bzw. häufige Ereignisse oder Phänomene mit geringer Streuung lassen sich einfacher vorhersagen. └ In dem Beispiel: Output für „Parteipräferenz (V98 neu) abhängig“ PRU = 0,051 239 Goodmans und Kruskals τ Streuung: Qualitative Varianz von y Var (y) Qualitative Varianz von y unter Bedingung x Var ( y x ) Maßzahl τ = Var ( y ) − Var ( y x ) Var ( y ) Es handelt sich also um die proportionale Reduktion der Streuung in der abhängigen Variablen y dadurch, dass die Ausprägungen der unabhängigen Variablen x festliegen. In dem Beispiel: τ = 0,037 (Goodman und Kruskal (1954) begründeten diese Maßzahl mit dem Vergleich von „random proportional prediction“ und „conditional proportional prediction“. Light und Margolin (1971) sowie Magidson (1981) kamen mit der qualitativen Varianzanalyse ebenfalls zu dieser Maßzahl.) 240 Richtungsmaße Nominal- bzgl. Nominalmaß Lambda Goodman-und-KruskalTau Unsicherheitskoeffizient Symmetrisch v98neu abhängig Konfession Befr.: abhängig v98neu abhängig Konfession Befr.: abhängig Symmetrisch v98neu abhängig Konfession Befr.: abhängig AsymptotiNäherungsscher weise Standard- Näherungsa b Wert fehler weises T Signifikanz ,136 ,023 5,697 ,000 ,134 ,000 ,029 4,352 ,138 ,026 ,037 ,007 ,000 ,059 ,008 ,000 ,053 ,051 ,007 ,007 7,079 7,079 ,000 d ,000 ,056 ,008 7,079 ,000 a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Basierend auf Chi-Quadrat-Näherung d. Chi-Quadrat-Wahrscheinlichkeit für Likelihood-Quotienten. 241 4,909 ,000 c c d d Kreuztabelle: Parteipräferenz (v98neu) * Konfession Befr.: Kreuztabelle (Allbus 2002) Konfession Befr.: v98neu CDU/CSU SPD F.D.P. B'90/Gruene PDS Gesamt Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Anzahl % von v98neu % von Konfession Befr.: % der Gesamtzahl Evang 260 36,5% 38,3% 15,7% 334 48,4% 49,3% 20,2% 33 44,0% 4,9% 2,0% 40 36,4% 5,9% 2,4% 11 17,2% 1,6% ,7% 678 41,0% 100,0% 41,0% 242 Roem-Kath 352 49,4% 58,3% 21,3% 203 29,4% 33,6% 12,3% 19 25,3% 3,1% 1,2% 28 25,5% 4,6% 1,7% 2 3,1% ,3% ,1% 604 36,6% 100,0% 36,6% Keiner Religionsgem 101 14,2% 27,3% 6,1% 153 22,2% 41,4% 9,3% 23 30,7% 6,2% 1,4% 42 38,2% 11,4% 2,5% 51 79,7% 13,8% 3,1% 370 22,4% 100,0% 22,4% Gesamt 713 100,0% 43,2% 43,2% 690 100,0% 41,8% 41,8% 75 100,0% 4,5% 4,5% 110 100,0% 6,7% 6,7% 64 100,0% 3,9% 3,9% 1652 100,0% 100,0% 100,0% Effekte der Konfession auf die Parteipräferenz: Evangelisch: Katholisch: Konfessionslos: SPD – Wahl CDU/CSU – Wahl B90/Grünen – Wahl PDS FDP CDU/CSU – Wahl 243 49,3 – 41,8 = + 7,5 % 58,3 – 43,2 = + 15,1 % 11,4 – 6,7 = + 4,7 % 13,8 – 3,9 = + 9,9 % 6,2 – 4,5 = + 1,7 % 27,3 – 43,2 = – 15,9 % Qualitative Varianzanalyse: Erklärung der Wahlpräferenzen CDU/CSU – Präferenz Bei allen Befragten : 43,2 % CDU/CSU – Präferenz Varianz: P (Ai)(1 – P (Ai)) = 0,432 ⋅ 0,568 = 0,245 Nicht erklärt ist die Varianz innerhalb der Konfessionen: Bei den Protestanten: 38,3% Varianz: 0,383 ⋅ 0,617 = 0,236 (D.h. etwas weniger Streuung) Bei den Katholiken: 58,3% Varianz: 0,583 ⋅ 0,417 = 0,243 (D.h. etwas mehr Streuung als bei den Protestanten, weil 0,617 größer als 0,583 ist. Die höchste Streuung gibt es im Fall: 0,5 ⋅ 0,5 ) Bei den Konfessionslosen: 27,3% Varianz: 0,273 ⋅ 0,727 = 0,198 (Dies ist die homogenste Gruppe.) Insgesamt nicht erklärte Varianz: ( ∑ P (B j ) ⋅ Var Ai B j j ) = 0,410 ⋅ 0,236 + 0,366 ⋅ 0,243 + 0,224 ⋅ 0,198 = 0,230 Erklärte Varianz bei der CDU/CSU – Präferenz 0,245 – 0,230 = 0,015 Anteil erklärter Varianz 0,015 = 6,1 % 0,245 244 Erklärte Varianz als gewogene Effektsumme Die erklärte Varianz erhält man auch als gewichtete Summe der ∑ P ( Ai ∩ B j ) (P ( Ai / B j ) − P ( Ai )) l Effekte: j =1 Effekt evangelisch: Effekt katholisch: Effekt konfessionslos: 38,3 – 43,2 = – 4,9 % 58,3 – 43,2 = + 15,1 % 27,3 – 43,2 = – 15,9 % Die Katholiken haben also eine deutlich überproportionale Parteipräferenz für die CDU/CSU, die Konfessionslosen deutlich unterproportional. Erklärte Varianz: = 0,157 ⋅ (-4,9 %) + 0,213 ⋅ (+15,1 %) + 0,061 ⋅ (-15,9 %) = 0,015 SPD – Präferenz Bei allen Befragten: 41,8 % Varianz: 0,418 ⋅ 0,582 = 0,243 Effekt evangelisch: Effekt katholisch: Effekt konfessionslos: 49,3 – 41,8 = +7,5 % 33,6 – 41,8 = – 8,2 % 41,4 – 41,8 = – 0,4 % Die Protestanten neigen überproportional, die Katholiken unterproportional zur SPD. Erklärte Varianz = 0,202 ⋅ (+0,075) + 0,123 ⋅ (-0,082) + 0,093 ⋅ (-0,004) = 0,005 Anteil erklärter Varianz = 0,005 = 2,1 % 0,243 245 FDP – Präferenz Bei allen Befragten: 4,5 % Varianz: 0,045 ⋅ 0,955 = 0,043 Effekt evangelisch: Effekt katholisch: Effekt konfessionslos: 4,9 % – 4,5 % = + 0,4 % 3,1 % – 4,5 % = – 1,4 % 6,2 % – 4,5 % = + 1,7 % Es gibt keine starken Effekte der Konfession. Erklärte Varianz = 0,020 ⋅ (+0,004) + 0,012 ⋅ (-0,014) + 0,014 ⋅ (+0,017) = 0,00015 Anteil erklärter Varianz = 0,00015 = 0,3 % 0,043 B’90/Grüne – Präferenz Bei allen Befragten: 6,7 % Varianz: 0,067 ⋅ 0,933 = 0,0625 Effekt evangelisch: Effekt katholisch: Effekt konfessionslos: 5,9 – 6,7 = – 0,8 % 4,6 – 6,7 = – 2,1 % 11,4 – 6,7 = + 4,7 % Die Konfessionslosen neigen überproportional zu den Grünen. Erklärte Varianz = 0,024 ⋅ (-0,008) + 0,017 ⋅ (-0,021) + 0,025 ⋅ (+0,047) = 0,000626 Anteil erklärter Varianz = 0,000626 = 1,0 % 0,0625 246 PDS – Präferenz Bei allen Befragten: 3,9 % Varianz: 0,039 ⋅ 0,961 = 0,037479 Effekt evangelisch: Effekt katholisch: Effekt konfessionslos: 1,6 – 3,9 = – 2,3 % 0,3 – 3,9 = – 3,6 % 13,8 – 3,9 = + 9,9 % Die Konfessionslosen neigen überproportional zur PDS. Erklärte Varianz = 0,007 ⋅ (-0,023) + 0,001 ⋅ (-0,036) + 0,031 ⋅ (+0,099) = 0,002872 Anteil erklärter Varianz = 0,002872 = 7,7 % 0,037479 Die PDS – Präferenz (zu 7,7 %) und die CDU/CSU – Präferenz (zu 6,1 %) lassen sich also am besten durch die Konfession bzw. Konfessionslosigkeit erklären. Insgesamt Varianz der Parteipräferenz: 0,245 + 0,243 + 0,043 + 0,0625 + 0,037479 = 0,630979 Erklärte Varianz bei Parteipräferenz: 0,015 + 0,005 + 0,00015 + 0,000626 + 0,002872 = 0,023648 Anteil erklärter Varianz = 3,747 % 247 Allgemeine Formulierung der Zusammenhänge Var (Ai) = P (Ai) (1 – P (Ai)) = ∑ (Pij (1 − P( Ai ))) l j =1 Pij Pij + − P( Ai ) = ∑ Pij 1 − j =1 P (B j ) P (B j ) l Pij Pij l P ( Aj ∩ B j ) + ∑ Pij ( ) − = ∑ P(B j ) − 1 P A i j P (B j ) P (B j ) j =1 P (B j ) Var (Ai/Bj) Effekt von Bj auf Ai Erklärte Komponente der Varianz Nicht erklärte Komponente der Varianz (=Streuung innerhalb der Bj) Var (A) = ∑ Var ( Ai ) = ∑ Pi (1 − Pi ) = 1 − ∑ Pi 2 k k k i =1 i =1 i =1 k l P Erklärte Varianz: ∑ ∑ Pij ij − P( Ai ) i =1 j =1 P (B j ) (Gewogene Effektsumme) 248 k l k P Erklärte Varianz = 1 − ∑ Pi 2 − ∑ ∑ Pij 1 − ij i =1 j =1 i =1 P (B j ) k Pij2 = ∑∑ − ∑ Pi 2 i =1 j =1 P (B ) i =1 j k l Goodman und Kruskal (1954) gaben die erklärte Varianz auch in folgender Form an: (P ∑∑ − Pi Pj ) Pj 2 ij (Abkürzende Notation: Pi = P( Ai ) , Pj = P (B j ) ) Beweis: Pij2 ∑∑ P − 2∑∑ Pij Pi + ∑∑ Pi 2 Pj Pij2 − 2∑ Pi ∑ Pij + ∑ Pi 2 ∑ Pj i j = ∑∑ P i i j j i j i j Pij2 = j ∑∑ P − ∑ P i Pi 2 i i j j i 249 j j 1 Darstellung der erklärten Varianz als Summe von Kovarianzen mal Effekten Die erklärte Varianz der Parteipräferenz lässt sich auch darstellen als Summe von Kovarianzen von Parteipräferenz und Konfession und entsprechenden Effekten der Konfession auf die Parteipräferenz. P ErklärteVarianz : ∑ ∑ (Pij − Pi Pj ) ij − Pi i j Pj Kovarianz Kovarianz S y , 1B = Pj ( y j − y ) j Pij S1A , 1B = Pj − Pi i j Pj Effekt Effekt (Varianzanalyse) (Qualitative Varianzanalyse) = Pij − Pi Pj Die Kovarianz ist bei nominalen Merkmalen gleich der Abweichung von der statistischen Unabhängigkeit. 250 Im Beispiel: CDU/CSU-Präferenz: Evangelisch Katholisch Konfessionslos (-0,020) · (-0,049) = 0,001 (+0,055) · (+0,151) = 0,008 (-0,036) · (-0,159) = 0,006 Σ = 0,015 Am stärksten ins Gewicht für die Erklärung fallen die Katholiken (0,008), gefolgt von den Konfessionslosen. SPD-Präferenz: Evangelisch Katholisch Konfessionslos (+0,031) · (+0,075) = 0,0023 (-0,030) · (-0,082) = 0,0025 (-0,001) · (-0,004) = 0,0000 Σ = 0,005 FDP-Präferenz: Evangelisch Katholisch Konfessionslos (+0,002) · (+0,004) = 0,000010 (-0,005) · (-0,014) = 0,000072 (+0,004) · (+0,017) = 0,000065 Σ = 0,00015 B’90/Grüne-Präferenz: Evangelisch Katholisch Konfessionslos (-0,003) · (-0,008) = 0,00003 (-0,008) · (-0,021) = 0,00016 (+0,011) · (+0,047) = 0,00049 Σ = 0,0006 PDS-Präferenz: Evangelisch Katholisch Konfessionslos (-0,009) · (-0,023) = 0,0002 (-0,013) · (-0,036) = 0,0005 (+0,022) · (+0,099) = 0,0022 Σ = 0,0029 Am stärksten ins Gewicht für die Erklärung fallen die Konfessionslosen. Insgesamt: Erklärte Varianz bei Parteipräferenz = 0,015 + 0,005 + 0,00015 +0,0006 + 0,0029 = 0,02365 Anteil erklärter Varianz = 0,02365 = 0,037 bzw. 3,7 % 0,63098 251 Qualitative Varianzanalyse Meine „pfadanalytische“ Veranschaulichung der erklärten Varianz: Pi1 − Pi Pi 1B1 Pij − Pi Pj Pi1 − Pi P1 1B j Pij − Pi Pj 1̂A i Pil − Pi Pl 1B l Pil − Pi Pl 1A i Die erklärte Varianz ist gleich der Kovarianz von 1A und 1̂A . Die i i Kovarianz von 1A und 1̂A ergibt sich auch daraus, dass 1A mit den Pij Prädiktoren 1B kovariiert und die Prädiktoren 1B einen Effekt − Pi Pj haben. i i i j j 252 8.6. Der Spezielfall der Vier-Felder-Tafel (für alle Messniveaus).............................................................249 Anschauliche Maßzahl: Prozentsatzdifferenz (Richtung der Prozentuierung: unabhängigen Variablen) Teilgruppen bilden nach der Beispiel: Gewerkschaftsmitgliedschaft (x) SPDAffinität (y) ja ja 60,1 nein 31,0 nein 39,9 69,0 100 % 100 % Prozentdifferenz: 60,1 % - 31,0 % = 29,1 % Gewerkschaftsmitglieder und Nicht-Mitglieder unterscheiden sich in der SPD-Affinität um 29,1 %. Output: SOMERS´ D = 0,29 WITH SPD DEPENDENT („Ordinal“ nur im Hinblick auf die Anordnung der Codierungen.) Asymmetrische Fragestellung, deshalb: SOMERS´D 253 Allgemein lautet eine Vierfeldertafel für die absoluten Häufigkeiten: x y a c Im Beispiel: 161 238 399 107 529 636 268 767 b d Prozentsatzdifferenz: a a+c b b+d 161 238 − = 0,601 − 0,310 268 767 (Zwei Teilgruppen bezüglich x, verglichen bezüglich erster Ausprägung von y.) ad − bc = (a + c) (b + d ) Nc = ad Nd = bc Tx = ac + bd Ty = ab + cd 254 Das asymmetrische Zusammenhangsmaß Somers`d lautete: d yx = [ y = f ( x)] Nc − Nd n(n − 1) − Tx − Txy 2 Nc − Nd = N c + N d + Ty ┌ In Vierfeldertafel: ad − bc (a + c) (b + d ) └ D.h.: Somers`d führt im Fall der Vierfeldertafel zur anschaulichen Maßzahl Prozentsatzdifferenz. 255 Berechnungen für das Beispiel: Gewerkschaftsmitgliedschaft (x) SPD-Identifia = 161 b = 238 kation (y) c = 107 d = 529 Somers`dyx = ad − bc (a + c) (b + d ) 161 ∗ 529 − 238 ∗ 107 = (161 + 107) (238 + 529) 85169 − 25466 = 268 ∗ 767 59703 = 20556 = 0,29 256 Effekte ja SPD nein Gewerkschaftsmitgliedschaft ja nein 60,1 31,0 39,9 69,0 100 % 100 % 38,6 (399) 61,4 (636) 100 % (1035) Effekt der Gewerkschaftsmitgliedschaft auf die SPD-Affinität: 60,1 – 38,6 = 21,5 % D.h.: Gewerkschaftsmitglieder liegen mit ihrer SPDAffinität 21,5 % über dem Durchschnitt. Effekt der Nicht-Gewerkschaftsmitgliedschaft auf die SPD-Affinität: 31,0 – 38,6 = -7,6 % D.h.: Nicht-Gewerkschaftsmitglieder liegen mit ihrer SPD-Affinität -7,6 % unter dem Durchschnitt. Die Effekte liegen also 21,5 % über bzw. 7,6 % unter dem Durchschnitt. Diese „Spannweite“ von 21,5 + 7,6 % ergibt die Prozentsatzdifferenz von 29,1 %. (Anteilswerte sind Spezialfälle des arithmetischen Mittels für y = 1A bzw. x = 1B. Deshalb sind die Effekte analog formuliert wie in der Varianzanalyse.) 257 Symmetrische Zusammenhangsmaße in Vier-Felder-Tafel: Phi versus Q a b a+b c d c+d a+c b+d γ heißt in diesem Fall: Q ad − bc Yules Q = ad + bc τ b = N −N N +N c c d d (und r) führen in diesem Spezialfall (Vier-Felder-Tafel) zu Phi: ad − bc Φ= (a + b) (c + d ) (a + c) (b + d ) (Lies: Phi) 258 Beispiel: Gewerkschaftsmitgliedschaft SPD-Identifikation Ja Nein Q (bzw. GAMMA) Φ (PHI) Ja 161 107 268 = 0,54 = 0,26 [KENDALL´S TAU B = 0,26] [PEARSON´S R = 0,26] 259 Nein 238 529 767 399 636 1035 Q (bzw. GAMMA) ist gröbere Maßzahl als (bzw. TAU B). Φ Beispiel: 150 0 0 150 100 0 100 100 b=c=0 b=0 Q= ad =1 ad Q= ad =1 ad (Situationen recht verschieden, aber gleiches Rechenergebnis.) 1 Φ= 2 ad Φ= =1 ad (Mit Φ kann man die Situationen gut unterscheiden.) (Q = 1) ⇔ (b = 0 oder c = 0) ( Φ = 1) ⇔ (b = 0 und c = 0) Also Empfehlung: Asymmetrische Maßzahl: %-Differenz (Spezialfall von Somers’D) Symmetrische Maßzahl: Phi (Spezialfall von 260 τ b und r) Berechnung für das Beispiel 100 0 100 100 100 ∗ 100 Φ= 100 ∗ 200 ∗ 200 ∗ 100 100 ∗100 = 100 ∗ 200 = 1 2 261 Die Kovarianz als Quasi-Maßzahl der Abweichung von der statistischen Unabhängigkeit Β A B a b Ā a + b = nA c d a + c = nB b + d = nB c + d = nA n Die Abweichung von der statistischen Unabhängigkeit lässt sich zum Beispiel messen als: P (A ∩ B) - P(A) ⋅ P(B) = a a+b a+c − ⋅ n n n a(a + b + c + d) − (a + b)(a + c) n2 ad - bc = n2 = Es wird nun gezeigt, dass dies genau die Kovarianz ist. 262 Wenn man Anteilswerte als Spezialfall von metrischen Konzepten erhalten will, vercodet man jeweils mit 1 und 0. B A 1 a c a+c 1 0 Kovarianz s AB = 0 b d b+d a+b c+d n 1 ∑ (x i − x)(y i − y) n = 1 1 1 x i y i − ∑ x i ∑ y i ∑ n n n = a a + b a + c n A∩ B n A n B − ⋅ = − ⋅ n n n n n n = P(A ∩ B) − P(A) ⋅ P(B) Die Berechnungsweise der Kovarianz wird nun dazu verwendet, die Varianzen sA2 = sAA bzw. sB2 = sBB zu bestimmen. s AB = ad - bc = P (A ∩ B) - P(A) ⋅ P(B) n2 s 2A = s AA = B A (a + b)(c + d) n A n A = = P (A) ⋅ P(A) n2 n2 = P (A)(1 − P(A)) a c b d A A a+b 0 0 c+d = P (A) − P(A) 2 s 2B = s BB (a + c)(b + d) n B n B = = 2 = P (B) ⋅ P( B) n2 n = P (B)(1 − P(B)) = P (B) − P(B) 2 263 B B a+c 0 0 b+d In dem Beispiel: P( A ∩ B ) − P( A) ⋅ P(B ) = 0,511 − 0,614 ⋅ 0,741 = 0,614 − 0,455 = 0,159 Die Kombination SPD-Präferenz und Gewerkschaftsmitgliedschaft ist um 15,9 % häufiger, als bei Unabhängigkeit zu erwarten. Die Kovarianz beträgt deshalb: 0,159 264 Phi als Spezialfall von r: r= r= s xy sxs y ad - bc n2 = n A n A nB nB n2 n2 s AB = s A sB = ad − bc n2 (a + b)(c + d) (a + c)(b + d) n2 n2 ad − bc =Φ (a + b)(c + d)(a + c)(b + d) Die Prozentsatzdifferenz mit SPD-Präferenz als abhängiger Variable beträgt: D A = 0,601 − 0,310 = 0,291 Die Prozentsatzdifferenz mit Gewerkschaftsmitgliedschaft als abhängiger 161 107 Variable lautet: DB = − = 0,404 − 0,168 = 0,236 399 636 Das Produkt der beiden asymmetrischen Maße ergibt genau Phi2. D A ⋅ DB = 0,291 ⋅ 0,236 = 0,068 = 0,26 2 = Phi 2 265 Phi als (geometrisches) Mittel der beiden Anteilsdifferenzen (Prozentsatzdifferenzen) Betrachtet man A als zu erklärende Variable, so lauten die Differenzen der bedingten Wahrscheinlichkeiten bzw. der Anteile: DA = P(A ∩ B) P(A ∩ B) − P(B) P( B) = a b − a+c b+d = s ad − bc = AB (a + c)(b + d) s 2B Dieser asymmetrische Koeffizient entspricht dem Beta-Koeffizienten der Regression. DB = P(B ∩ A) P(B ∩ A) − P(A) P(A) = a c − a+b c+d = s ad − bc = BA (a + b)(c + d) s 2A 2 So wie im metrischen Fall rxy = β xy ⋅ β yx gilt hier analog: Φ2 = DA ⋅ DB D.h. Phi ist das geometrische Mittel aus den beiden asymmetrischen Maßen DA und DB . 266 Übersicht: Maßzahlen für verschiedene Messniveaus Messniveau Maß der zentralen Tendenz NominalSkala (a) Streuungsmaß Nominale (qualitative) Varianz Mittlerer Informationsgehalt (Entropie) Modalwert (Modus) nichtmetrisch OrdinalSkala metrisch Cramérs V Kontingenzkoeffizient C Lambda-Koeffizient ( λ ) Unsicherheitskoeffizient U Goodmans und Kruskals τ Prozentsatzdifferenz D (4-Felder Tafel) Yules Q (4-Felder-Tafel) Phi-Koeffizient ( Φ ) (4-Felder-Tafel) Gamma ( γ ) Kendalls tau-b ( τ b ) Somers’d Median IntervallSkala Arithmetisches Mittel Verhältnis- bzw. Ratioskala Zusammenhangsmaß Spannweite Quartilsabstand Standardabweichung Varianz Variationskoeffizient (nur für Ratioskala) 267 Korrelationskoeffizient (r)