Sozialwissenschaftliche Methoden und Statistik I Universität Duisburg – Essen Standort Duisburg Integrierter Diplomstudiengang Sozialwissenschaften Skript zum SMS I Tutorium Von Mark Lutter Stand: April 2004 Teil I „Deskriptive Statistik“ Mark Lutter SMS I Tutorium Inhaltsverzeichnis Teil I „Deskriptive Statistik“ Seite 2 von 51 Seite 1. Grundbegriffe .................................................................................................. 04 • • • • • Deskriptive Statistik Inferenzstatistik Untersuchungseinheiten Variable Merkmalsausprägung 1.1 Unterschiedliche Typen von Variablen ................................................. 05 1.1.1 • • • Unterschieden nach Wertebereich ............................................................... 05 Qualitative vs. Quantitative Variablen Stetige vs. Diskrete Variablen Dichotome, Trichotome, Polytome Variablen 1.1.2 • Unterschieden nach Beobachtbarkeit .......................................................... 07 Manifeste vs. Latente Variablen 1.1.3 • • • • Unterschieden nach Messniveau .................................................................. 07 Nominalskalierte Variablen Ordinalskalierte variablen Intervallskalierte Variablen Ratioskalierte Variablen 2. Univariate Analyse ........................................................................................ 09 • • • • • Urliste, Primärtabelle Häufigkeitsverteilung Relative Häufigkeiten Prozentuale Häufigkeiten Kumulierte Häufigkeiten 2.1 Statistische Kennwerte................................................................................. 12 2.1.1 • • • • Lagemaße ....................................................................................................... 12 Modus Median Arithmetisches Mittel Exkurs: Symmetrieeigenschaften einer Verteilung / Schiefe 2.1.2 • • • • • Streuungsmaße .............................................................................................. 19 Range Quartilabstand Varianz Standardabweichung Variationskoeffizient Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 3 von 51 2.2 Graphische Darstellungsmöglichkeiten ................................................ 22 • • • • • • Balkendiagramm Kreisdiagramm Histogramm Polygonzug Boxplot Stem-And-Leaf-Display 2.3 Z-Transformation ......................................................................................... 25 3. Bivariate Analyse …………………………………………………………… 26 3.1 Zusammenhangsmaße für nominalskalierte Variablen .................. 26 • • • • • Chi-Quadrat Kontingenztabelle Indifferenztabelle Erwartete Häufigkeiten Phi Cramers V Kontingenzkoeffizient C Prozentsatzdifferenz 3.2 Zusammenhangsmaße für ordinalskalierte Variablen .................... 29 • • Spearmans rho Kendalls tau Koeffizienten Konkordante vs. diskordante Paare „ties“ 3.3 Zusammenhangsmaße für metrische Variablen ................................ 34 • Produktmoment Korrelation (Pearsons r) 3.3.1 Bivariate lineare Regression …………………………………………. 35 • • • • Streudiagramm Regressionsgerade Methode der kleinsten Quadrate Determinationskoeffizient Varianzzerlegung Regressionsanalyse mit SPSS 4. Kreuztabellenanalyse (SPSS)…..………………………………………… 45 • Zeilen-, Spalten-, Gesamtprozentwerte 5. Diverse Übungsaufgaben .............................................................................. 46 6. Literaturverzeichnis ……………………………………………………….. 51 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 4 von 51 1. Grundbegriffe Deskriptive Statistik (Beschreibende Statistik) • Die deskriptive Statistik dient der Aufbereitung, Darstellung und Komprimierung sozialwissenschaftlicher Daten • Konkret: Eine bestimmte Menge von Personen wird hinsichtlich bestimmter Eigenschaften befragt. Deren Antworten werden mittels tabellarischen und graphischen Darstellungen, Maßzahlen der zentralen Tendenz, Streuungsmaßen und Korrelationskoeffizienten aufbereitet und analysiert. • Die deskriptive Statistik gliedert sich in drei Bereiche: Univariate Analyse (die Verteilung einer Variablen wird analysiert) Bivariate Analyse (die Beziehung zweier Variablen zueinander wird analysiert) Multivariate Analyse (die Beziehung mehrerer Variablen zueinander werden analysiert) Inferenzstatistik (Schließende Statistik) • die Erkenntnisse der deskriptiven Statistik beziehen sich immer nur auf eine bestimmte Stichprobe, mittels der Inferenzstatistik soll geklärt werden, mit welcher Wahrscheinlichkeit die Ergebnisse der Stichprobe auch in der Population / Grundgesamtheit gelten. • Um von den Stichprobenergebnissen auf die Grundgesamtheit schließen zu können, kommt es besonders auf die richtige Auswahl an (reine Zufallsauswahl, systematische Auswahl, geschichtete Auswahl, usw.) • Die schließende Statistik liefert Verfahren, eine richtige Auswahl aus der Masse zu treffen und sie liefert die Regeln zur Verallgemeinerung der gewonnenen Stichprobenergebnisse Untersuchungseinheiten (auch: Merkmalsträger / Objekte / Fälle) • Die an einer Befragung oder an einem Experiment teilnehmenden Individuen • An ihnen werden bestimmte Eigenschaften / Merkmale erhoben (z.B. durch Befragung) • Konkrete Untersuchungseinheiten sind: Befragungspersonen, Versuchspersonen (Probanden), Haushalte, Organisationen, Nationen, etc. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 5 von 51 Variable • Die Variable ist das vom Forscher an der Untersuchungseinheit erhobene Merkmal. • Sie ist damit die den Forscher interessierende Eigenschaft an der Untersuchungseinheit • Diese Eigenschaften werden erhoben z.B. durch Befragung oder Beobachtung • Konkrete Variablen sind: Geschlechtszugehörigkeit, Arbeitszufriedenheit, monatliches Nettoeinkommen, Lebensalter, Industrialisierungsgrad von Nationen, etc. Merkmalsausprägung (auch: Werte; Messwerte) • die möglichen Werte, die eine Variable annehmen kann, heißen Merkmalsausprägungen • Bsp.: Die Variable „Geschlechtszugehörigkeit“ hat die beiden Merkmalsausprägungen „männlich“ und „weiblich“ 1.1 Unterschiedliche Typen von Variablen • unterschieden nach Wertebereich (1.1.1) • unterschieden nach Beobachtbarkeit (1.1.2) • unterschieden nach Skalen- bzw. Messniveau (1.1.3) 1.1.1 unterschieden nach Wertebereich Qualitative Variablen - Die Merkmalsausprägungen einer qualitativen Variablen unterscheidet man nur hinsichtlich ihrer unterschiedlichen Art - Qualitative Variablen sind immer diskret (s.u.) - Bsp.: Geschlechtszugehörigkeit, Parteipräferenz, ... Quantitative Variablen - Die Merkmalsausprägungen einer quantitativen Variablen unterscheidet man hinsichtlich ihrer unterschiedlichen Größe - Quantitative Variablen werden danach unterschieden, ob sie diskret oder stetig sind (s.u.) - Bsp: Lebensalter, Körpergröße, Schulnoten Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 6 von 51 Stetige / Kontinuierliche Variablen - eine stetige Variable kann innerhalb eines bestimmten Bereichs jeden beliebigen Wert annehmen - es existieren keine Lücken bzw. Sprungstellen - wie fein die Messung auch ist, stets kann in noch feineren Einheiten gemessen werden - zwischen zwei Messwerten sind also beliebig viele Zwischenwerte möglich - Bsp: Lebensalter, Einkommen, Blutdruck, ... Diskrete / Diskontinuierliche Variablen - Eine diskrete Variable kann nur bestimmte Werte annehmen - zwischen den Werten existieren Lücken bzw. Sprungstellen - Eine Frau kann beispielsweise 1, 2 oder evtl. 10 Kinder haben, aber: 3,5 Kinder kann sie nicht haben - Bsp.: Anzahl der Kinder in einem Haushalt, Geschlecht, Parteizugehörigkeit, ... - Allerdings werden in der Praxis oftmals diskrete Variablen als quasistetig aufgefasst Dichotome Variablen - eine Variable mit nur zwei Merkmalsausprägungen heißt dichotome Variable - Bsp.: die Variable Geschlecht besitzt nur die zwei Ausprägungen „weiblich“ und „männlich“ Trichotome Variablen - eine Variable mit drei Merkmalsausprägungen heißt trichotome Variable - Bsp.: die Variable Schichtzugehörigkeit mit den drei Ausprägungen „Unterschicht“, „Mittelschicht“, „Oberschicht“ Polytome Variablen - eine Variable mit mehr als drei Merkmalsausprägungen heißt polytome Variable - Bsp.: jede stetige Variable wie Einkommen oder Körpergröße Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 7 von 51 1.1.2 unterschieden nach Beobachtbarkeit Manifeste (empirische) Variablen - direkt beobachtbar bzw. direkt messbar - Bsp.: Körpergröße, Altersangaben, offizielle Parteizugehörigkeit, ... Latente (theoretische) Variablen - nicht direkt beobachtbar - können nur durch relevante Indikatoren (s.u.) messbar gemacht werden - Bsp.: Ausländerfeindlichkeit, Arbeitszufriedenheit, Anomie, ´wahre´ politische Meinung ... Indikatoren: Indikatoren sind manifeste Variablen, die als Ersatz für die latente Variable auftreten, da diese nicht direkt gemessen werden kann. In der Regel werden latente Variablen durch mehrere Indikatoren operationalisiert (messbar gemacht). Bsp: die latente Variable „Arbeitszufriedenheit“ ist nicht direkt messbar. Sie kann aber durch die möglichen Indikator-Variablen „Häufigkeit des Fernbleibens vom Arbeitsplatz“, sowie „Häufigkeit von Arbeitsplatzwechseln“ und/oder „subjektive Einschätzung des Betriebsklimas“ operationalisiert werden Oder: „Die“ Umweltverschmutzung ist nicht direkt beobachtbar. Sie kann aber messbar gemacht werden durch Indikatoren wie: „Wasserqualität von Flüssen“, „jährlicher CO2 Ausstoß“, „Anzahl der PKW pro Einwohner“, usw. 1.1.3 unterschieden nach Skalen- bzw. Messniveau Nominalskalierte Variablen - Die Klassifikation von Untersuchungseinheiten geschieht hinsichtlich ihres Besitzens oder Nicht-Besitzens einer bestimmten Merkmalsausprägung. - Die einzelnen Merkmalsausprägungen können nicht rangmäßig unterschieden werden - können also nicht in eine Reihenfolge gebracht werden; - sie stellen lediglich Benennungen von Kategorien dar - Die einzelnen Kategorien müssen a) vollständig sein und b) sich gegenseitig ausschließen - Die Nominalskala repräsentiert das niedrigste Messniveau - Bsp.: Geschlecht, Parteizugehörigkeit, Berufsstatus, Nationalität, ... Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 8 von 51 Ordinalskalierte Variablen - Wie nominalskalierte Variablen, zusätzlich gilt: - zwischen den Merkmalsausprägungen können „größer/kleiner“ Aussagen getroffen werden, - d.h. die einzelnen Merkmalsausprägungen können rangmäßig der Reihenfolge nach geordnet werden - Jedoch können keine genauen Abstände zwischen den Merkmalsausprägungen ausgemacht werden - Bsp.: Schulnoten, Schichtzugehörigkeit, Lebenszufriedenheit Intervallskalierte Variablen1 - hier können die Ausprägungen nicht nur rangmäßig geordnet werden, sondern die genauen Abstände zwischen den Ausprägungen können angegeben werden - zudem sind die Abstände immer gleich groß - Jedoch: Ein Nullpunkt kann willkürlich festgelegt sein und hat keine inhaltliche Bedeutung - Deswegen: Aussagen über Verhältnisse sind unzulässig! Bsp.: Proband A hat einen IQ von 100; Proband B einen von 110. Die Aussage: „A ist um 10% intelligenter als B“ ist völlig unsinnig! Es kann höchstens gesagt werden, dass B auf der gemessenen Intelligenzskala um 10 Punkte höher liegt als A. - Bsp.: Zeitrechnung, Temperatur in Celsius oder in Fahrenheit, Intelligenzmessung Ratioskalierte Variablen (auch: Verhältnisskala) - Repräsentiert das höchste Messniveau - Hier ist ein absoluter (natürlicher) Nullpunkt im Wertebereich vorhanden, z.B. ist der absolute Tiefpunkt, den die Temperatur je erreichen kann, gleichzeitig der Nullpunkt der Temperaturskala nach Kelvin. Null Grad Kelvin entspricht einer Temperatur von –273,15 Grad Celsius. - Deswegen: Aussagen über Verhältnisse sind zulässig - Bsp.: Temperatur in Kelvin, Körperlänge, Körpergewicht, Lebensalter, Einkommen, Ehedauer, ... 1 Für viele Analysezwecke ist die Unterscheidung zwischen Intervall- und Ratioskala entbehrlich; zusammenfassend werden beide Messniveaus auch Variablen auf metrischem Messniveau genannt, da metrisches Messniveau die Durchführung arithmetischer Rechenoperationen erlaubt. Außerdem: Variablen auf Ordinal-Skalenniveau werden in der Praxis oftmals als (quasi-)metrisch behandelt, damit arithmetische Rechenoperationen, wie z.B. Mittelwertbildung, durchgeführt werden können. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 9 von 51 2. Univariate Analyse Urliste, Primärtabelle Ausgangspunkt der univariaten Analyse sind die (Roh-)Daten, die nach der Erhebung eines Merkmals (z.B. durch Befragung) entstehen. Beispiel: Die 31 Teilnehmer eines Statistik-Tutoriums werden nach ihrer Semesterzahl befragt. Jede einzelne Befragung stellt eine Messung dar. Man erhält damit 31 Messwerte der Variable „Semesterzahl“. Der Größe nach aufgelistet bilden diese Daten eine geordnete Urliste ( = Primärtabelle): 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 Bereits erkennbar: die meisten Personen befinden sich im zweiten und dritten Semester. Die Häufigkeitsverteilung / Häufigkeitstabelle Die Primärtabelle lässt sich übersichtlicher darstellen, indem die einzelnen (der Größe nach geordneten) Merkmalsausprägungen mit der Häufigkeit ihres Auftretens (fi) versehen werden. xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 Wichtige Bezeichnungen: • Messwerte (xi): Die Merkmalsausprägungen / Messwerte der Variable X (Semesterzahl) werden als xi bezeichnet • absolute Häufigkeiten (fi): Die beobachtete Häufigkeit jeder Merkmalsausprägung wird mit fi (frequency) bezeichnet.2 • Anzahl der Fälle (n): Die Größe der Stichprobe wird mit n bezeichnet 2 Statt f i findet sich auch die Bezeichnung n i , so z.B. im Faulbaum-Skript Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 10 von 51 Weitere wichtige Darstellungsmöglichkeiten von Häufigkeiten: relative Häufigkeiten ( fn ) fn = fi n • Die relative Häufigkeit ergibt sich, wenn man die absolute Häufigkeit eines xi - Wertes durch die Anzahl der Fälle teilt • Relative Häufigkeiten können nur Werte zwischen 0 und 1 annehmen • Die Summe aller relativen Häufigkeiten ergibt 1 xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 fn 0,0323 0,3871 0,3226 0,1613 0,0644 0,0323 1 prozentuale Häufigkeiten / Prozentwerte ( %f i ) % fi = fi ⋅100 n bzw. % f i = f n ⋅100 • Die prozentualen Häufigkeiten ergeben sich, wenn man die relative Häufigkeit eines xi - Wertes mit 100 multipliziert • Prozentwerte sind besonders dann nützlich, wenn die Häufigkeitsverteilungen zweier unterschiedlich großer Stichproben verglichen werden sollen xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 fn 0,0323 0,3871 0,3226 0,1613 0,0644 0,0323 1 %f i 3,23 38,71 32,26 16,13 6,44 3,23 100% • 38,71 % der insgesamt 31 Teilnehmer des Statistik-Tutoriums befinden sich also im 2. Semester Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 11 von 51 kumulierte Häufigkeiten • die absoluten, relativen und prozentualen Häufigkeiten lassen sich auch sukzessive addieren (= kumulieren) f ci = kumulierte absolute Häufigkeiten f cn = kumulierte relative Häufigkeiten % f ci = kumulierte prozentuale Häufigkeiten xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 fn 0,0323 0,3871 0,3226 0,1613 0,0644 0,0323 1 %f i 3,23 38,71 32,26 16,13 6,44 3,23 100 % f ci 1 13 23 28 30 31 f cn 0,0323 0,4194 0,7420 0,9033 0,9677 1 % f ci 3,23 41,94 74,20 90,33 96,77 100 • an den kumulierten Häufigkeiten lassen sich Informationen der folgenden Art ablesen: 23 Personen, also 74,20 %, befinden sich in den ersten drei Semestern Oder: Nur knapp 10 % aller Personen befinden sich im fortgeschrittenerem 5. und 7. Semester Achtung: Messniveau beachten! • Absolute, relative sowie prozentuale Häufigkeiten dürfen erst ab ordinalem Messniveau kumuliert werden Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 12 von 51 2.1 Statistische Kennwerte / Maßzahlen • Während Häufigkeitstabellen Auskunft über die gesamte Verteilung einer Variablen geben, informieren statistische Maßzahlen über ganz bestimmte Eigenschaften einer Verteilung. • Maßzahlen dienen der Informationsverdichtung, denn: • sie liefern mit nur einer einzigen Zahl komprimierte Information über die charakteristischen Eigenschaften einer Verteilung • Statistische Maßzahlen zur Beschreibung einer univariaten Verteilung gliedern sch in zwei Gruppen: Lagemaße (auch: Maßzahlen der zentralen Tendenz; Zentralitätswerte) Streuungsmaße (auch: Dispersionsmaße) • • Während Lagemaße über Zentralität Auskunft geben, also den typischen (Modus), den zentralen (Median) oder den durchschnittlichen (arithmetisches Mittel) Wert einer Verteilung wiedergeben, so geben die Streuungsmaße an, inwieweit die Daten einer Verteilung von diesen „typischen“ Werten abweichen. Sie messen auf diese Weise den Grad der Heterogenität einer Verteilung und zeigen, wie gut oder wie schlecht die Lagemaße eine Verteilung repräsentieren Denn: haben wir eine relativ homogene Verteilung, d.h. weichen nur sehr wenig Messwerte von den Zentralitätswerten ab (= niedrige Streuung), dann sind die Zentralitätswerte sehr gute Repräsentanten der Verteilung. Haben wir stattdessen eine sehr heterogene Verteilung, d.h. weichen die Messwerte recht stark von den Zentralitätswerten ab (= hohe Streuung), dann repräsentieren die Zentralitätswerte die Verteilung nicht besonders gut. Die nachfolgende Tabelle zeigt, welche Maßzahlen im folgenden behandelt werden: Lagemaße Streuungsmaße Modus (h) Median ( ~x ) Arithmetisches Mittel ( x ) Range (R) (mittlerer) Quartilabstand (QA) Varianz (s 2 ) Standardabweichung (s) Variationskoeffizient (V) Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 13 von 51 2.1.1 Lagemaße / Maßzahlen der zentralen Tendenz / Zentralitätsmaße Modus (h) • Um den Modalwert zu ermitteln, stellt man sich die Frage „Welcher Messwert kommt am häufigsten vor?“ • Er ist anwendbar ab nominalem Messniveau Eingipflige, unimodale Verteilung: xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 Hier ist h = 2. Da wir hier nur einen Modalwert haben, handelt es sich um eine unimodale Verteilung. Bimodalität: (a) eindeutig bimodale Verteilung xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 12 1 n = 41 Hier ist h1 = 2 und h2 = 5 (b) nicht eindeutig bimodale Verteilung xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 13 1 n = 42 Hier ist auch h1 = 2 und h2 = 5 ACHTUNG: Nicht mit dem fi Wert verwechseln; der Modus ist immer der häufigste Messwert xi ; Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 14 von 51 x) Median ( ~ • Der Median ~x [lies „x Schlange“] ist der Wert, der eine der Größe nach geordnete Messwertreihe halbiert • Er ist anwendbar erst ab ordinalem Messniveau • 3 Arten der Berechnung, je nachdem ob a. ungerade Anzahl von Fällen b. gerade Anzahl von Fällen c. klassierte Daten vorliegen Medianberechnung bei ungerader Anzahl von Fällen - der Median ist hier der Messwert des mittleren Falles einer geordneten Messwertreihe - daher: zunächst die Daten der Größe nach ordnen, so wie in dieser geordneten Urliste: 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 (=ungerade Anzahl) der mittlere Fall wird mit folgender Formel berechnet: ( n + 1 ) 2 Hier: (31 + 1)/2 = 16 ACHTUNG: nicht 16, sondern der Messwert des 16. Falles ist der Median; demnach ~x = 3 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 Wie man auch den kumulierten absoluten Häufigkeiten entnehmen kann, gehört der 16. Fall zu Messwert 3: xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 fci 1 13 23 28 30 31 Allgemein sieht die Formel so aus: ~ x = x n +1 2 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 15 von 51 Medianberechnung bei gerader Anzahl von Fällen - bei gerader Anzahl von Fällen ist der Median der halbierte Wert der mittleren beiden Fälle Zunächst werden die mittleren beiden Fälle berechnet mit: n = 1. mittlerer Fall; 2 n + 1 = 2. mittlerer Fall 2 Bsp.: 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 32 = 16. Fall (= Messwert 3); 2 n = 32 (= gerade Anzahl) 32 + 1 = 17. Fall (=Messwert 3) 2 Der Median ist nun nichts anderes als das arithmetische Mittel (s.u.) der mittleren beiden Messwerte: ~x = 3 + 3 = 3 2 Allgemein sieht die Formel so aus: x n + x n +1 2 ~ x = 2 2 Zu beachten ist auch hier wieder, dass im Zähler zunächst die beiden mittleren Fälle [n/2 bzw. (n/2)+1] berechnet werden, die dann durch ihre entsprechenden Messwerte ausgetauscht werden müssen. Medianberechnung bei klassierten Daten Bei klassierten Daten berechnet sich der Median mit folgender Formel: ~x = U + 1 n − Fu 2 Fm Kb Mit: 1 n = dieser Wert gibt an, in welchem Intervall der Median liegen wird (Medianintervall) 2 U = exakte untere Grenze des Medianintervalls n = Anzahl der Fälle Fu = kumulierte Häufigkeit unterhalb des Medianintervalls (kum. Fälle unterhalb von U) Fm = Anzahl der Fälle im Medianintervall Kb = Intervallbreite (wird berechnet mit: exakte obere minus exakte untere Grenze einer Klasse) Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 16 von 51 Bsp.: Klasse Einkommensklasse (in Euro) 500 bis < 1000 1000 bis < 1500 1500 bis < 2000 2000 bis < 2500 2500 bis < 3000 1 2 3 = Medianintervall 4 5 Σ U n Fu 1n 2 fi 800 600 400 600 800 3200 = n = 1500 Fm = 400 = 3200 Kb = 499 (z.B. 1999-1500 = 499) = 800 + 600 = 1400 = 3200 : 2 = 1600; das Medianintervall ist die 3. Klasse, da die kumulierten Häufigkeiten der ersten 3 Klassen (800 + 600 + 400 = 1800) einen Wert >1600 ergeben Setzen wir nun diese Werte in die Formel ein, so erhalten wir für den Median einen Wert von: ~ x = 1500 + [(1600 – 1400)/400] ⋅ 499 = 1749,5 Wichtige Eigenschaft des Medians: • Unempfindlichkeit gegenüber Extremwerten (im Gegensatz zum arithmetischen Mittel) Arithmetisches Mittel ( x ) • Das arithmetische Mittel x [lies: „x quer“] ist der Durchschnittswert einer Verteilung • Setzt metrisches Messniveau voraus • Ist definiert als die Summe aller Messwerte, geteilt durch ihre Anzahl: n x + x 2 + x 3 + ... + x n x = 1 = n ∑x i =1 i n Oder einfacher: Die einzelnen Messwerte werden mit ihrer Häufigkeit multipliziert: n x = ∑ i =1 f i xi n Mark Lutter Bsp.: xi 1 2 3 4 5 7 Gesamt x = SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 17 von 51 fi 1 12 10 5 2 1 n = 31 ( 1 ⋅ 1 ) + ( 2 ⋅ 12 ) + ( 3 ⋅ 10 ) + ( 4 ⋅ 5 ) + ( 5 ⋅ 2 ) + 7 ⋅ 1 ) 31 = 2,96773 Zur Berechnung bei klassierten Daten: vgl. Benninghaus, a.a.O., S.137f. Wichtige Eigenschaften des arithmetischen Mittels: • Die Summe der Abweichungen aller Messwerte von ihrem arithmetischen Mittel ist gleich Null: n ∑ (x i =1 i − x) = 0 • Die Summe der quadrierten Abweichungen von ihrem arithmetischen Mittel ist kleiner als die Summe der quadrierten Abweichungen aller Messwerte von einem beliebigen anderen Wert • Die Addition (oder Subtraktion) einer bestimmten Zahl zu allen Einzelwerten einer Verteilung vergrößert (oder verkleinert) das arithmetische Mittel um diese Zahl • Das arithmetische Mittel ist - im Gegensatz zum Median - anfällig für Extremwerte Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 18 von 51 Symmetrieeigenschaften einer Verteilung Die drei Lagemaße geben auch Auskunft über die Schiefe einer Verteilung h=~ x =x die Verteilung ist symmetrisch h<~ x<x die Verteilung ist linkssteil / rechtsschief h>~ x>x die Verteilung ist rechtssteil / linksschief h>~ x>x h=~ x =x h<~ x<x Generell gilt: • Je näher die drei Werte beieinander liegen, desto weniger schief ist die Verteilung • Umgekehrt gilt: je stärker die drei Werte differieren, desto „schiefer“ ist die Verteilung „Die“ Schiefe (Sch) gibt es auch als Maßzahl: • Setzt metrische Daten voraus • Berechnet wird sie mit: n 3 ∑ (x − x) Sch = i = 1 Interpretation: • Sch < 0 • Sch > 0 • Sch = 0 i n die Verteilung ist rechtssteil die Verteilung ist linkssteil die Verteilung ist symmetrisch Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 19 von 51 Generell gilt auch hier: • Je näher der Wert bei Null liegt, desto weniger schief ist die Verteilung • Umgekehrt gilt: je weiter der Wert von Null entfernt liegt, desto „schiefer“ ist die Verteilung 2.1.2 Streuungsmaße • alle Streuungsmaße setzen metrisches Messniveau voraus • Ausnahme: Quartile, sowie Quartilabstand und mittlerer Quartilabstand: ab ordinalem Messniveau Range (R) (auch: Spannweite, Variationsbreite) • Ist definiert als die Differenz aus dem größten und dem kleinsten Wert: R= xmax − xmin Nachteil: • Da bei der Berechnung lediglich der größte und der kleinste Wert berücksichtigt werden, ist er a) stark von Ausreißerwerten abhängig und b) nichtssagend über die Streuung der übrigen Werte Quartilabstand (QA) / mittlerer Quartilabstand • Die Quartile Q1, Q2 und Q3 sind Messwerte, die eine Verteilung in Abschnitte zerlegen, in die jeweils 25% der Untersuchungseinheiten fallen3 • Damit trennen sie die Verteilung in 4 gleiche Abschnitte • Der Quartilabstand ist die Differenz zwischen dem dritten (Q3) und dem ersten (Q1) Quartil: QA = Q3 - Q1 Wobei : Q1 = x 1 n 4 ~ Q2 = x Q3 = x 3 n 4 Der mittlere Quartilabstand berechnet sich mit: 3 QA 2 vgl. hierzu ausführlich: Benninghaus, a.a.O., S. 145ff. (insb. S.147: Berechnung der Quartile bei klassierten Daten) Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 20 von 51 Varianz (s2) • Die Varianz ist definiert als die Summe der quadrierten Abweichungen der einzelnen Messwerte von ihrem arithmetischen Mittel, dividiert durch die Anzahl der Fälle: n s2 = ∑ f (x i =1 i i − x)2 n • An der Formel wird eine Parallele zum arithmetischen Mittel deutlich: während das arithmetische Mittel die Summe aller Messwerte durch ihre Anzahl dividiert, wird hier die Summe aller (quadrierten) Abweichungswerte durch ihre Anzahl dividiert: die Varianz ist also auch eine Art Durchschnittswert, nämlich die „durchschnittliche Streuung“ Standardabweichung (s) • Ist definiert als die Quadratwurzel aus der Varianz: s = s2 • Durch Ziehung der Wurzel wird die Quadrierung wieder rückgängig gemacht. Dadurch ist die „durchschnittliche Streuung“ in der ursprünglichen Maßeinheit der Variablen zu lesen. Variationskoeffizient (V) • Ist der Anteil der Standardabweichung am arithmetischen Mittel: V = s x • Im Gegensatz zu anderen Streuungsmaßen quantifiziert V die Variabilität einer Verteilung maßstabsunabhängig Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 21 von 51 • V eignet sich damit sehr gut als Streuungs-Vergleichsmaß bei mehreren Verteilungen • kann als Prozentzahl gelesen werden (s.u.) Bsp.: Berechnung der Streuungsmaße für die Variable Semesterzahl xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 Range: R = 7 – 1 = 6 Quartilabstand: Q3 = ¾ ⋅ 31 = 23,25.Fall Messwert 4 Q1 = ¼ ⋅ 31 = 7,75.Fall Messwert 2 QA = 4 – 2 = 2 Mittlerer QA = 2 : 2 = 1 Zur Berechnung der Varianz und der Standardabweichung empfiehlt es sich, eine Arbeitstabelle anzulegen: xi 1 2 3 4 5 7 Gesamt x ( xi − x ) fi 1 12 10 5 2 1 n = 31 -1,96773 -0,96773 0,03227 1,03227 2,03227 4,03227 ( x i − x ) 2 fi ( x i − x ) 2 3,87195 0,93649 0,00103 1,06557 4,13011 16,2591 3,87195 11,23788 0,0103 5,32785 8,26022 16,2591 Σ = 44,9673 = 2,96773 s2 = 44,9673 = 1,450558065 ≈ 1,50 31 s = 1,50 ≈ 1,225 Zur Interpretation der Standardabweichung und Varianz • der Zahlenwert der Standardabweichung steht im Prinzip für die „durchschnittliche Streuung“ einer Verteilung, wobei mit „Streuung“ die Gesamtabweichung aller Messwerte von ihrem arithmetischen Mittel gemeint ist. Die Varianz steht demnach für die „durchschnittliche quadrierte Streuung“ • deswegen ist die Standardabweichung im Vergleich zur Varianz besser zu interpretieren, da ihr Ergebnis wieder in der ursprünglichen Einheit, in der die Variable gemessen wurde, zu lesen ist. Für obiges Beispiel wäre eine Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 22 von 51 der folgenden Aussagen angemessen: „Die Messwerte streuen im Durchschnitt um 1,225 Semester um den Mittelwert“ Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel, denn: • Je geringer die Streuung, desto homogener ist eine Verteilung bzw. desto weniger weichen die einzelnen Messwerte von ihrem arithmetischen Mittel ab. Das bedeutet: je geringer die Standardabweichung, desto besser repräsentiert das arithmetische Mittel die gesamte Verteilung Zur Berechnung und Interpretation des Variationskoeffizienten: • wir erhalten einen Wert von V = 1,225/2,96773 = 0,4128 oder 41,28% • das bedeutet, die Streuung macht ca. 41% des Mittelwertes aus. Eine Verteilung weist keine Streuung auf wenn: • der Range gleich Null ist • die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel gleich Null ist • alle Messwerte gleich groß sind • alle Messwerte mit dem Mittelwert übereinstimmen • alle Messwerte mit dem Modus übereinstimmen • es nur einen Messwert gibt 2.2 Graphische Darstellungsmöglichkeiten von Häufigkeitsverteilungen In Abhängigkeit vom Messniveau existiert eine Vielzahl von graphischen Darstellungsmöglichkeiten: Nominales Messniveau: - Balkendiagramm (auch: Streifen- bzw. Säulendiagramm) - Kreisdiagramm Ordinales Messniveau: - Balkendiagramm (auch: Streifen- bzw. Säulendiagramm) - Kreisdiagramm - Boxplot (auch: box-and-whisker-plot) Metrisches Messniveau: - Histogramm - Polygon (auch: Polygonzug) - Boxplot (auch: Box-And-Whisker-Plot) - Stem-And-Leaf-Display bzw. Back-to-Back-Stem-And-Leaf-Display Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Balkendiagramm (auch: Streifen- bzw. Säulendiagramm) WAHLABSICHT, BUNDESTAGSWAHL; BEFR. 60 50 40 30 Prozent 20 10 0 CDU-CSU F.D.P. SPD REPUBLIKANER BUENDNIS90-GRUENE ANDERE PARTEI PDS WAHLABSICHT, BUNDESTAGSWAHL; BEFR. Kreisdiagramm WAHLABSICHT, BUNDESTAGSWAHL; BEFR. ANDERE PARTEI 1,1% PDS 6,0% REPUBLIKANER 2,5% BUENDNIS90-GRUENE CDU-CSU 8,6% 29,0% F.D.P. 4,5% SPD 48,2% Histogramm ALTER: BEFRAGTE<R> 400 300 Häufigkeit 200 100 Std.abw. = 17,49 Mittel = 48,7 N = 3234,00 0 20,0 30,0 25,0 40,0 35,0 50,0 45,0 ALTER: BEFRAGTE<R> 60,0 55,0 70,0 65,0 80,0 75,0 90,0 85,0 95,0 Seite 23 von 51 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Polygonzug 2,5 2,0 1,5 1,0 Prozent ,5 0,0 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 ALTER: BEFRAGTE<R> Boxplot 120 100 80 60 40 20 0 N= 3234 ALTER: BEFRAGTE<R> Statistiken ALTER: BEFRAGTE<R> N Gültig Fehlend Mittelwert Median Perzentile 25 = Q1 50 = Q2 75 = Q3 3234 0 48,72 47,00 34,00 47,00 63,00 Stem-And-Leaf-Display ALTER: BEFRAGTE<R> Stem-and-Leaf Plot Frequency 73,00 169,00 259,00 341,00 324,00 270,00 288,00 232,00 288,00 285,00 267,00 172,00 150,00 71,00 32,00 10,00 3,00 Stem width: Each leaf: Stem 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 & . . . . . . . . . . . . . . . . . Leaf 888888999 000011112222333344444 55555556666667777778888889999999 000000001111111112222222223333333444444444 555555566666666777777778888888899999999 0000000111111122222222333334444444 555555555666666677777778888888899999 0000011111222222333333444444 55555566666667777778888888899999999 000000011111111222222223333333444444 55555556666667777777888888999999 000011112222233334444 555556666777788899 001123344 5678& & & 8 case(s) Seite 24 von 51 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 25 von 51 2.3 Z-Transformation (Standardisierung von Variablen) • setzt metrische Daten voraus • Durch eine Z-Transformation werden Messwerte in eine Form umgewandelt, die es erlaubt, sie mit Werten derselben oder einer anderen Verteilung zu vergleichen • Sind z.B. zwei Variablen in unterschiedlichen Einheiten erfasst (eine in Euro, die andere in Jahren), dann erlaubt die Standardisierung beider Variablen deren Vergleichbarkeit • Erzeugt werden sie, indem man das arithmetische Mittel von jedem Messwert subtrahiert und die Differenz durch die Standardabweichung teilt: x −x xi → z i = i s • Z-Werte geben damit an, um wie viele (Standardabweichungs-)Einheiten ein Messwert oberhalb (bei positivem Vorzeichen) oder unterhalb (bei negativem Vorzeichen) vom Durchschnitt liegt Bsp.: xi 1 2 3 4 5 7 Gesamt fi 1 12 10 5 2 1 n = 31 x = 2,96773; ( xi − x ) zi = -1,96773 -0,96773 0,03227 1,03227 2,03227 4,03227 xi − x s -1,605 -0,790 0,025 0,843 1,659 3,292 s =1,225 • Durch die z-Transformation erhält man eine neue Verteilung mit folgenden Eigenschaften: zi = xi − x s -1,605 -0,790 0,025 0,843 1,659 3,292 fi 1 12 10 5 2 1 n = 31 das arithmetische Mittel ist immer Null ( z = 0) die Standardabweichung ist immer 1 ( s z = 1) Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 26 von 51 3. Bivariate Analyse • bei der bivariaten Analyse geht es darum, die Beziehung (Assoziation, Korrelation) zweier Variablen zueinander zu untersuchen • Konkret: es geht darum, Maßzahlen zu errechnen, die die Stärke (und die Richtung) des Zusammenhangs zwischen zwei Variablen ausdrücken • Diese Maßzahlen werden bezeichnet als Zusammenhangsmaße, Korrelationskoeffizienten oder Assoziationsmaße 3.1 Zusammenhangsmaße für nominalskalierte Variablen • Chi-Quadrat (χ 2 ) basierte Maßzahlen: Phi, Cramers V, Kontingenzkoeffizient C • Um diese Koeffizienten berechnen zu können, muss vorher Chi-Quadrat berechnet werden: Untersucht man den Zusammenhang zwischen zwei nominalskalierten Variablen, kann man deren Häufigkeiten in einer Kreuztabelle darstellen: Bsp.: Zusammenhang zwischen Lohnzufriedenheit (Variable X) und Beschäftigtenstatus (Variable Y) (Kontingenztabelle) Arbeiter Geringe 40 Lohnzufriedenheit (Zelle a) Hohe 10 Lohnzufriedenheit (Zelle c) 50 Σ Angestellter Σ 20 60 (Zelle b) 30 40 (Zelle d) 50 100 • Für die Berechnung von Chi-Quadrat muss zunächst aus der Kontingenztabelle eine Indifferenztabelle erstellt werden bzw. es müssen die erwarteten Häufigkeiten berechnet werden • Eine Kreuztabelle, in der die beobachteten (absoluten) Häufigkeiten ( f ) eingetragen sind, nennt man Kontingenztabelle • Eine Kreuztabelle, in der die erwarteten Häufigkeiten ( f e ) eingetragen sind, nennt man Indifferenztabelle • Erwartete Häufigkeiten sind die Häufigkeiten, die man in jeder Zelle der Kreuztabelle erwarten würde, wenn zwischen den beiden Variablen kein Zusammenhang besteht b Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 27 von 51 Berechnet werden die erwarteten Häufigkeiten für jede Zelle wie folgt: fe = Zeilensumme ∗ Spaltensumme Gesamtsumme Hier: 60 ∗ 50 = 30 100 60 ∗ 50 = 30 Zelle b: f e = 100 40 ∗ 50 = 20 Zelle c: f e = 100 40 ∗ 50 = 20 Zelle d: f e = 100 Zelle a: f e = Hier ist die Kontingenztabelle zusammen mit der Indifferenztabelle dargestellt: Geringe Lohnzufriedenheit Hohe Lohnzufriedenheit Σ Arbeiter Angestellter Σ fb=40 fe=30 fb=10 fe=20 50 fb=20 fe=30 fb=30 fe=20 50 60 40 100 • Da nun die erwarteten Häufigkeiten die Häufigkeiten sind, die man erwarten würde, wenn die beiden Variablen statistisch voneinander unabhängig sind (also kein Zusammenhang besteht) deutet die Differenz zwischen den erwarteten und den beobachteten Häufigkeiten auf einen Zusammenhang zwischen den beiden Variablen hin • je stärker diese Differenz ist, desto stärker ist auch der Zusammenhang. Umgekehrt: je kleiner die Differenz, desto geringer ist der Zusammenhang • Auf diesem Konzept des Vergleichs zwischen den beobachteten und den erwarteten Häufigkeiten beruht Chi-Quadrat: χ 2 =∑ (f b − fe )2 fe • Wie anhand der Formel sichtbar, nimmt Chi-Quadrat den Wert Null an, wenn alle fb´s und fe´s gleich sind Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 28 von 51 Berechnung von Chi-quadrat (Hierfür ist wieder die Anfertigung einer Arbeitstabelle sinnvoll): Zelle fb fe fb- fe (fb- fe)2 A B c d 40 20 10 30 30 30 20 20 10 -10 -10 10 100 100 100 100 ( fb − fe )2 fe 3,333 3,333 5 5 Σ=16,666 = χ2 • Der χ 2-Wert variiert zwischen 0 (kein Zusammenhang) und n (perfekter Zusammenhang) • Zur besseren Interpretation der genauen Stärke des Zusammenhangs werden nun die Chi-Quadrat basierten Maßzahlen (Phi, Cramers V, Kontingenzkoeffizient C) berechnet: • Sie sind deswegen besser zu interpretieren, da sie nur Werte zwischen 0 (kein Zusammenhang) und 1 (perfekter Zusammenhang) annehmen. Phi (Φ) (für 2x2 Tabellen bzw. Kreuztabellen mit 4 Zellen) Φ= χ 2 n Hier: Φ= 16,666 100 = 0,4081 Cramers V (für Tabellen größer als 2x2) V = χ2 n ⋅ min(r − 1; c − 1) mit r = Anzahl der Zeilen („rows“) c = Anzahl der Spalten („columns“) min = Nur der kleinere Wert geht in die Berechnung ein; z.B.: bei 3x4 Tabellen sieht die Formel so aus: V = χ2 n ⋅ (3 − 1) Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 29 von 51 Kontingenzkoeffizient C (für beliebige Tabellen) C= χ2 χ2 +n Merke: • Wenn χ 2 = 0 , dann ist auch Φ = 0, V = 0 und C = 0 • Wenn Φ = 1, dann ist χ 2 = n • Φ und V sind identisch bei 2x2 Tabellen Prozentsatzdifferenz • Ein weiteres, sehr einfaches Assoziationsmaß ist die sog. Prozentsatzdifferenz: vgl. dazu Benninghaus, a.a.O., S.199ff. 3.2 Zusammenhangsmaße für ordinalskalierte Variablen Spearmans Rho (rs) (auch: Rangkorrelationskoeffizient) • rs beschreibt den Zusammenhang zwischen zwei Rangreihen • die Berechnung erfolgt mit folgender Formel: 6 ⋅ ∑ di 2 rs = 1 − n ⋅ (n 2 − 1) mit: n = Anzahl der Fälle Σ di2 = Summe der quadrierten Rangplatzdifferenzen = Σ(xi - yi)2 Vorgehensweise: 1. 2. 3. 4. Umwandlung der Messwerte in Rangplätze Rangplatzdifferenzen bilden alle Differenzen quadrieren und aufsummieren Berechnung von rs Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 30 von 51 Bsp.: (aus: Benninghaus, a.a.O., S. 267ff.) Untersucht werden soll der Zusammenhang zwischen den beiden (als ordinalskaliert aufgefassten) Variablen X „Anzahl der verliehenen Magistergrade“ und der Variable Y „Anzahl der verliehenen Doktorgrade“ • D.h. es soll herausgefunden werden, ob Universitäten, die viele Magistergrade verleihen, gleichzeitig auch viele Doktorgrade vergeben • Wenn dies so wäre, müsste der Zusammenhang zwischen den beiden Variablen recht stark sein Nr Universität X Y 1 A Verliehene Magistergrade 182 Verliehene Doktorgrade 39 2 3 4 5 6 7 8 9 10 11 B C D E F G H I J K 156 131 110 109 109 95 82 76 60 59 49 32 35 62 43 57 46 35 35 57 • Zunächst werden für die Variablenwerte beider Variablen Rangplätze vergeben, d.h. die Uni mit der höchsten Anzahl an verliehenen Magisterbzw. Doktorgraden bekommt den Platz 1 zugewiesen, die mit der zweithöchsten Anzahl bekommt Platz 2 usw.: Nr Universität X Y Xi Yi Rangplatz A Verliehene Doktorgrade 39 Rangplatz 1 Verliehene Magistergrade 182 1 7 2 3 4 5 6 7 8 9 10 11 B C D E F G H I J K 49 32 35 62 43 57 46 35 35 57 2 3 4 5,5 5,5 7 8 9 10 11 4 11 9 1 6 2,5 5 9 9 2,5 156 131 110 109 109 95 82 76 60 59 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 31 von 51 • Zu beachten ist hier folgendes: Weisen mehrere Objekte die gleiche Merkmalsausprägung auf („Ties“, s.u.), dann wird aus diesen Rangplätzen das arithmetische Mittel gebildet: • z.B.: Universität E und F haben beide 109 verliehene Magistergrade. Demnach würden sie die Rangplätze 5 und 6 bekommen. Das arithmetische Mittel aus diesen beiden Rangplätzen berechnet sich dann: (5+6)/2 = 5,5; d.h. Universität E und F bekommen jeweils den Rangplatz 5,5 zugewiesen • Analog dazu verläuft die Berechnung der Rangplätze der verliehenen Doktorgrade für Universität G und K [(2+3)/2 = 2,5], sowie für Universität D, I und J [(8+9+10)/3 = 9] Anschließend werden die Rangplatzdifferenzen (di) gebildet, quadriert (di2 ) und aufsummiert(Σ di2): Nr Universi tät X Y Xi Yi di di2 Verliehene Magistergrade Verliehene Doktorgrade Rang Rang (Xi -Yi) (Xi -Yi)2 platz platz 1 A 182 39 1 7 -6 36 2 3 4 5 6 7 8 9 10 11 B C D E F G H I J K 156 131 110 109 109 95 82 76 60 59 49 32 35 62 43 57 46 35 35 57 2 3 4 5,5 5,5 7 8 9 10 11 4 11 9 1 6 2,5 5 9 9 2,5 -2 -8 -5 -4,5 -0,5 4,5 3 0 1 8,5 4 64 25 20,25 0,25 20,25 9 0 1 72,25 Σ 252 Nun können alle Werte in die Formel eingesetzt werden: rs = 1 − 6 ⋅ 252 1512 = 1− = −0,14545 2 1320 11(11 − 1) Zur Interpretation: • Generell kann rs Werte annehmen zwischen –1 (perfekt negativer Zusammenhang) und +1 (perfekt positiver Zusammenhang) • Ein Wert von 0 oder nahe 0 bedeutet, beide Variablen sind unabhängig voneinander Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 32 von 51 • hier liegt mit –0,14545 kein Zusammenhang vor, denn in den Sozialwissenschaften spricht man erst ab einem Korrelationswert von 0,2 (oder: -0,2) von einem positiven (oder: negativen) Zusammenhang zwischen 2 Variablen. Inhaltlich bedeutet dies: Universitäten die viele Magistergrade verleihen, müssen nicht zwangsläufig auch viele Doktorgrade verleihen. Kendalls tau Koeffizienten (tau-a, tau-b, tau-c) Die Logik dieser Koeffizienten basiert nicht darauf, dass Objektpaare in Bezug auf ihre Rangplätze (und deren Differenzen) untersucht werden, sondern im Hinblick auf konkordante und diskordante Objektpaare. Bsp.: Konkordante Paare Schüler A B X: Mathematiknote 5 4 Y: Physiknote 5 4 • Das Schülerpaar A und B hat bei beiden Variablen die gleichen Ausprägungen. Es besteht somit dieselbe Rangordnung zwischen beiden Schülern; das Schülerpaar ist konkordant Bsp.: Diskordante Paare Schüler C D X: Mathematiknote 1 2 Y: Physiknote 3 2 • Hier handelt es sich um eine inverse Beziehung im Hinblick auf die Rangordnung: Während C in Mathe besser ist als D, ist D in Physik besser als C. Das Paar ist diskordant (auch: inkonsistent, negativ oder gegenseitig) Kendalls tau-a Koeffizient ist nun definiert als die Differenz der konkordanten und diskordanten Paare, dividiert durch die Gesamtzahl der möglichen Paare: Tau − a = Nc − N d n ⋅ (n − 1) 2 Mit: Nc = Anzahl der konkordanten Paare Nd = Anzahl der diskordanten Paare Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 33 von 51 n(n − 1) = Gesamtzahl aller möglichen Paare (n = Anzahl der Objekte) 2 • Tau a findet Anwendung, wenn nur konkordante und diskordante Paare vorliegen. Liegen zusätzlich sog. „Ties“ (Verknüpfungen, Bindungen) vor, dann ist tau-b anzuwenden. Was sind „Ties“? Schüler E F X: Mathematiknote 3 3 Y: Physiknote 2 4 • Zwei Objekte sind verknüpft (engl.: „tied“), wenn sie bezüglich einer oder beider Variablen denselben Wert haben. • In diesem Beispiel ist das Paar bezüglich der X-Variablen verknüpft; es ist „tied on x“ tau-b berücksichtigt „ties“: Tau − b = N −N c d (N + N + T ) ⋅ (N + N + T ) c x c y d d wobei Tx = Anzahl der „tied on x“ Paare Ty = Anzahl der „tied on y“ Paare Zur Interpretation: • Tau-a und tau-b können Werte annehmen zwischen –1 (perfekt negative Beziehung; nur diskordante Paare) und +1 (perfekt positive Beziehung; nur konkordante Paare). Merke: • Treten keine „ties“ auf, wird tau-a verwendet, ansonsten tau-b • Tau-b kann den maximalen Wert von +1 oder –1 nur erreichen, wenn beide Variablen die gleiche Zahl von Ausprägungen aufweisen Weitere Zusammenhangsmaße für ordinalskalierte Variablen: Tau-c (unwichtig) Somers d Koeffizienten Gamma vgl. Benninghaus, a.a.O., S.232-263 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 34 von 51 3.3 Zusammenhangsmaße für metrische Variablen Pearsons r (auch: Produkt-Moment-Korrelationskoeffizient) • Pearsons r ist eine Maßzahl für die Stärke des Zusammenhangs zweier metrisch skalierter Variablen, die in einer linearen Beziehung zueinander stehen • Berechnet wird r über die Kovarianz oder über den Determinationskoeffizienten r2 (s. u. → Regressionsanalyse) Berechnung über die Kovarianz: r= cov( x, y ) sx s y wobei: ∑ (x cov( x, y ) = − x)2 i n ∑(y sy = − x )( y i − y ) n ∑ (x sx = i i − y)2 n => Kovarianz => Standardabweichung der x-Variablen => Standardabweichung der y-Variablen nach Umformung ergibt sich folgende Berechnungsformel: r= ∑ ( x − x )( y − y ) ∑ (x − x) ∑ ( y − y) i i 2 i 2 i Bsp.: Untersucht werden soll der Zusammenhang zwischen den Variablen Lebensalter (X) und monatliches Nettoeinkommen (Y) Person Lebensalter (X) Nettoeinkommen in Euro (Y) -----------------------------------------------------------------A 22 1200 B 28 2400 C 32 1400 D 36 2600 E 40 1800 F 44 2800 G 48 3200 H 52 1600 I 56 3000 J 62 2000 Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 35 von 51 Wobei: n = 10; x = 42; y = 2200 Zur Berechnung empfiehlt sich wieder die Erstellung einer Arbeitstabelle: Person x y xi − x yi − y A B C D E F G H I J Σ10 22 28 32 36 40 44 48 52 56 62 1200 2400 1400 2600 1800 2800 3200 1600 3000 2000 -20 -14 -10 -6 -2 2 6 10 14 20 -1000 200 -800 400 -400 600 1000 -600 800 -200 ( xi − x ) 2 400 196 100 36 4 4 36 100 196 400 Σ1472 ( yi − y ) 2 1000000 40000 640000 160000 160000 360000 1000000 360000 640000 40000 Σ4400000 ( xi − x )( y i − y ) 20000 -2800 8000 -2400 800 1200 6000 -6000 11200 -4000 Σ32000 Nach Einsetzen in die Formel erhält man: r= 32000 1472 4400000 ≈ 0,398 Zur Interpretation • Auch Pearsons r kann Werte zwischen –1 (perfekt negativer Zusammenhang) und +1 (perfekt positiver Zusammenhang) annehmen, wobei ein Wert von 0 oder nahe 0 keinen Zusammenhang zwischen den beiden Variablen ausdrückt. • Hier liegt eine Korrelation von 0,398 vor; dies bedeutet, dass ein geringer positiver Zusammenhang existiert. Inhaltlich bedeutet dies folgendes: Mit geringer Tendenz steigt mit zunehmenden Alter auch das Einkommen Merke - Pearsons r ist identisch mit Spearman´s rho genau dann, wenn die Rangplätze als Messwerte behandelt werden und Pearsons r darauf berechnet wird 3.3.1 Bivariate lineare Regression / Regressionsanalyse • Die Regressionsanalyse erlaubt es nun, auf Basis der Kenntnis einer unabhängigen Variablen eine abhängige vorherzusagen. Damit erhält man ein Verfahren zur Erstellung von Prognosen. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 36 von 51 • Darüber hinaus kann durch den Determinationskoeffizienten r2 der prozentuale Anteil bestimmt werden, mit dem eine unabhängige Variable eine abhängige erklären / vorhersagen kann. • Vorraussetzung sind zwei metrisch skalierte Variablen, von denen die eine als unabhängige, die andere als abhängige Variable fungiert Im obigem Beispiel ist die Variable „Lebensalter“ die unabhängige Variable (wird als X-Variable bezeichnet); die Variable „Nettoeinkommen“ ist die zu erklärende abhängige Variable (wird als Y-Variable bezeichnet) • Welche Variable abhängig oder unabhängig ist, entscheiden nicht mathematische, sondern sachlogische Überlegungen: die Höhe des Einkommens hängt ab vom Lebensalter und nicht umgekehrt. Das Streudiagramm • Die graphische Visualisierung der Beziehung beider erhobener Variablen veranschaulicht man sich anhand eines Streudiagramms • Dort wird jede Untersuchungseinheit in einem Koordinatensystem durch einen Punkt repräsentiert. Der Abstand in horizontaler Richtung (xAchse) entspricht dabei dem Wert für das unabhängige Merkmal, der Abstand in vertikaler Richtung (y-Achse) dem des abhängigen. • Die so entstehende Punktewolke lässt die Art der Beziehung beider Variablen schnell erkennen: ob sie stark oder schwach, linear oder nichtlinear, positiv der negativ ist • Für obige Beispielvariablen erhalten wir folgendes Streudiagramm: monatl. Nettoeinkommen in Euro (y) 4000 3000 2000 1000 20 30 40 50 60 70 Lebensalter in Jahren (x) • Erkennbar wird bereits, dass (bis zu einem gewissen Grad) höheres Alter auch höheres Einkommen bedeutet. Dass dies nicht für alle Personen gilt, hat ja bereits die schwache Korrelation von r = 0,398 angezeigt. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 37 von 51 Die Regressionsgerade • Die Gleichung der Regressionsgeraden lautet (wie jede andere Gleichung einer Geraden auch): yˆ i = a + b( xi ) • Mit der Regressionsgeraden lassen sich nun Werte vorhersagen, genauer: die Werte, die auf dieser Geraden liegen sind Vorhersagewerte (auch: Regressionswerte) und werden mit ŷ i bezeichnet • Damit eine Vorhersage möglichst fehlerfrei geschieht, gilt es eine Gerade zu finden, die die Punktewolke des Streudiagramms am besten repräsentiert. • Diese Gerade muss so gelegt werden, dass die Abweichung aller Punkte im Diagramm von dieser Geraden minimal ist, verglichen mit jeder anderen Geraden, die sich theoretisch in die Punktewolke einzeichnen ließe • Eine solche Gerade erhält man mit der sog. Methode der kleinsten Quadrate. Diese Methode enthält zwei Regeln: 1. Die Summe der Abweichungen der einzelnen yi -Werte von der Geraden soll gleich Null sein: ∑ ( y i − yˆ i ) = 0 2. die Summe der quadrierten Abweichungen der einzelnen yi -Werte von der Geraden soll ein Minimum ergeben: ∑ ( yi − yˆ i ) 2 = min • Nur wenn eine Gerade diese Eigenschaften erfüllt, ist sie als Regressionsgerade zu bezeichnen; nur dann repräsentiert sie die Punktewolke am besten, verglichen mit jeder anderen Geraden. • Damit nun die Regressionsgerade die Bedingungen der Methode der kleinsten Quadrate erfüllt, muss die Konstante a sowie der Regressionskoeffizient b aus der Gleichung der Geraden yˆ i = a + b( xi ) mit folgenden Formeln bestimmt werden: cov( x, y ) ∑ ( xi − x )( yi − y ) b= = a = y − bx 2 sx ∑ ( xi − x )2 Merke: • Die Konstante a ist der Schnittpunkt der Geraden mit der y-Achse; d.h. es ist der Wert, den y annimmt, wenn x = 0 ist • Der Regressionskoeffizient b ist die Steigung der Geraden, d.h. steigt x um eine Einheit, dann steigt y um den Wert b. Ist b positiv, dann steigt die Gerade und beide Variablen stehen in positiver Beziehung zueinander; ist b negativ dann fällt sie und beide Variablen stehen in negativer Beziehung zueinander; Ist b gleich Null, dann verläuft die Gerade parallel zur x-Achse und beide Variablen stehen in keiner Beziehung zueinander Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 38 von 51 • Die Gleichung der Regressionsgeraden lässt sich nun für unsere obigen Beispielvariablen (s.o.) leicht bestimmen: b= 32000 = 21,739 1472 a = 2200 − 21,739(42) = 1286,962 Damit lautet die Gleichung der Regressionsgeraden: yˆ = 1286,962 + 21,739( xi ) monatl. Nettoeinkommen in Euro (y) 4000 3000 2000 1000 20 30 40 50 60 70 Lebensalter in Jahren (x) Anhand der Interpretation des Koeffizienten b wird deutlich: • Steigt das Lebensalter um 1 Jahr, steigt das Einkommen um 21,739 Euro • D.h.: Pro Jahr steigt das Einkommen um den Wert b • Die Steigung b hat damit die Einheit: Euro pro Lebensjahr Setzen wir für xi nun beliebige Werte ein, dann erhalten wir ŷ -Vorhersagewerte: • Eine 30jährige Person kann beispielsweise – auf Basis dieser Daten – mit einem monatlichem Nettoeinkommen von durchschnittlich 1286,962 + 21,739(30) = 1939,132 Euro rechnen. Eine 31jährige Person mit 1960,871, also genau 21,739 Euro mehr. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 39 von 51 Der Determinationskoeffizient r2 • Der Determinationskoeffizient beschreibt den (prozentualen) Anteil der durch die x-Variable erklärten bzw. vorhergesagten Streuung an der Gesamtstreuung von y Zur Logik von r2: • r2 ist ein Maß der proportionalen Fehlerreduktion (PRE) • d.h.: die beste Vorhersage der y-Variablen ohne Kenntnis der x-Variablen ist das arithmetische Mittel y . Der Vorhersagefehler, der dabei entsteht, ist die Streuung der beobachteten Werte um y : dies ist die Gesamtstreuung (Varianz von y) • die beste Vorhersage der y-Variablen mit Kenntnis der x-Variablen ist die Regressionsgerade bzw. die Punkte auf der Regressionsgeraden. Der Vorhersagefehler, der dabei entsteht, ist die Streuung der beobachteten Werte um die Regressionsgerade: dies ist die nicht-erklärte Streuung Varianzzerlegung • Die Gesamtstreuung von y setzt sich aus zwei Komponenten zusammen: ein Streuungsanteil von y, der durch die x-Variable erklärt/vorhergesagt wird ein Streuungsanteil von y, der nicht durch die x-Variable erklärt/vorhergesagt wird (sondern durch andere Faktoren, die uns unbekannt sind) Dieser Zusammenhang wird in folgender Abbildung schematisch verdeutlicht: Damit ergibt sich folgende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 40 von 51 Die Gesamtstreuung ist nichts anderes als die Varianz von y: sy 2 = ∑ (y i − y)2 n Graphisch dargestellt: Die erklärte Streuung beschreibt die Streuung der vorhergesagten Regressionswerte um das arithmetische Mittel der abhängigen y-Variablen: s yˆ 2 ∑ ( yˆ = i − y) 2 n Graphisch dargestellt: Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 41 von 51 Die nicht-erklärte Streuung beschreibt die Streuung der beobachteten Werte um die vorhergesagten Regressionswerte: s ( y − yˆ ) ∑(y = 2 i − yˆ ) 2 n Graphisch dargestellt: Damit erhalten wir folgende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung 2 2 ⇔ s y = s yˆ + s ( y − yˆ ) 2 daraus folgt: ∑(y i − y) 2 n ∑ ( yˆ = i − y) 2 n ∑(y + i − yˆ ) 2 n Dividieren wir nun beide Seiten mit ∑(y ∑(y i − y) 2 i − y) 2 ∑ ( yˆ = ∑(y i − y) 2 i − y) 2 ∑(y + ∑(y Daraus folgt: ∑ ( yˆ 1= ∑(y i − y) 2 i − y) 2 ∑(y + ∑(y i − yˆ ) 2 i − y)2 i − yˆ ) 2 i − y) 2 ⇔ ∑ ( y i − y ) 2 = ∑ ( yˆ i − y ) 2 + ∑ ( y i − yˆ ) 2 ∑(y i − y ) 2 , so erhalten wir: Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 42 von 51 Die letzten zwei Schritte noch einmal in Worten: Gesamt var iation erklärteVariation nicht.erklärteVariation = + Gesamt var iation Gesamt var iation Gesamt var iation Daraus folgt: 1 = erklärter Variationsanteil + nicht erklärter Variationsanteil Der durch x erklärte Variationsanteil wird nun mit r2 bezeichnet: r2 1= + (1-r2) Demnach berechnet sich der Determinationskoeffizient r2 über die Formel: erklärteVariation = r = Gesamt var iation 2 ∑ ( yˆ ∑(y i − y)2 i − y)2 • Demzufolge repräsentiert der Determinationskoeffizient jenen Anteil der Gesamtvariation von y, der durch x erklärt, vorhergesagt oder „determiniert“ wird • Der sog. Koeffizient der Nichtdetermination (1-r2) gibt den Anteil an, der nicht durch die x-Variable erklärt wird; er sagt dem Forscher also, inwieweit andere Faktoren einen Einfluss auf die abhängige Variable haben • So ist beispielsweise die Höhe des monatl. Nettoeinkommens (y) nur zu einem gewissen Teil durch das jeweilige Lebensalter (x) zu erklären; den Rest bestimmen andere, uns unbekannte Faktoren (wie z.B. „Bildungsniveau“, „Leistungsbereitschaft“, etc.) Zur Berechnung von r2 (bezogen auf obige Beispielvariablen): Person x y A B C D E F G H I J Σ10 22 28 32 36 40 44 48 52 56 62 1200 2400 1400 2600 1800 2800 3200 1600 3000 2000 yi − y ( yi − y ) 2 -1000 1000000 200 40000 -800 640000 400 160000 -400 160000 600 360000 1000 1000000 -600 360000 800 640000 -200 40000 Σ4400000 ŷ i yˆ i − y 1765,2200 1895,6540 1982,6100 2069,5660 2156,5220 2243,4780 2330,4340 2417,3900 2504,3460 2634,7800 -434,7800 -304,3460 -217,3900 -130,4340 -43,47800 43,478000 130,43400 217,39000 304,34600 434,78000 ( yˆ i − y ) 2 189033,65 92626,488 47258,412 17013,028 1890,3365 1890,3365 17013,028 47258,412 92626,488 189033,65 Σ695643,83 Mark Lutter r2 = SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 43 von 51 695643,83 = 0,1581 4400000 Multiplizieren wir r2 mit 100, so erhalten wir eine bequem zu interpretierende Prozentangabe: Der durch die Variable „Lebensalter“ erklärte Varianzanteil an der Gesamtvarianz der Variable „monatl. Nettoeinkommen“ beträgt 15,81%. Der Koeffizient der Nichtdetermination beträgt: 1 – 0,1581 = 0,8419 Damit bleiben ca. 84% Varianzanteil unerklärt. Berechnung von r2 über Pearsons r: 2 • Durch Quadrierung von Pearsons r kann r direkt bestimmt werden, sofern r bereits bekannt ist: 0,3982 = 0,158 • An diesem Ergebnis wird deutlich, dass bei einer Korrelation von fast 0,4 lediglich 16% der Gesamtvarianz erklärt wird. • Umgekehrt kann Pearsons r über r2 (sofern bekannt) bestimmt werden mit: r = r 2 , dann jedoch wird nicht sichtbar, ob es sich um eine negative oder positive Beziehung handelt Regressionsanalyse mit SPSS Eine mit der Statistik-Software SPSS durchgeführte Regressionsanalyse erzeugt i. d. R. einen Output mit drei Tabellen. Mit obigen Beispielvariablen sieht es folgendermaßen aus: Modellzusammenfassung Modell 1 R R-Quadrat ,398a ,158 Korrigiertes R-Quadrat ,053 Standardf ehler des Schätzers 680,47 a. Einflußvariablen : (Konstante), Lebensalter in Jahren (x) • Unter „Modellzusammenfassung“ findet sich Pearsons r mit 0,398, sowie r2 mit 0,158 • Zu beachten ist hier, dass r ohne Vorzeichen abgedruckt wird. Ob es sich um eine positive oder negative Beziehung handelt, ist dem Vorzeichen der Steigung b zu entnehmen (s.u.). • Das korrigierte r2 ist hier zu vernachlässigen, da es sich um eine bivariate Regression handelt. Bedeutsam wird es erst bei einer multiplen Regression. Sobald nämlich mehrere unabhängige Variablen in die Analyse einbezogen werden, erhöht sich r2 künstlich, sodass in diesem Falle das korrigierte r2 zur Interpretation herangezogen werden muss. Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 44 von 51 ANOVAb Modell 1 Regression Residuen Gesamt Quadrats umme 695652,2 3704348 4400000 df 1 8 9 Mittel der Quadrate 695652,17 463043,48 F 1,502 Signifikanz ,255a a. Einflußvariablen : (Konstante), Lebensalter in Jahren (x) b. Abhängige Variable: monatl. Nettoeinkommen in Euro (y) • Unter „ANOVA“ (analysis of variance) finden wir die Quadratsumme der Gesamtvariation („Gesamt“ = 4400000), die sich zusammensetzt aus der Quadratsumme der erklärten Variation („Regression“ = 695652,2) und der nicht-erklärten Variation („Residuen“ = 3704348) 695652 + 3704348 = 4400000 • Deutlich wird hier auch noch einmal die Logik von r2: Wie erkennbar, ist der Determinationskoeffizient nichts anderes als der (relative) Anteil der erklärten Variation an der Gesamtvariation: r 2 = 695652 = 0,1581 4400000 Koeffizientena Modell 1 (Konstante) Lebensalter in Jahren (x) Nicht standardisierte Koeffizienten Standardf ehler B 1286,957 775,372 21,739 17,736 Standardi sierte Koeffizien ten Beta ,398 T 1,660 1,226 Signifikanz ,136 ,255 a. Abhängige Variable: monatl. Nettoeinkommen in Euro (y) • Unter „Koeffizienten“ finden wir die Komponenten der Gleichung der Regressionsgeraden: Konstante a = 1286,957 sowie Steigung b = 21,739 • Die Gleichung der Regressionsgeraden lautet demnach: yˆ = 1286,957 + 21,739( xi ) Mark Lutter 4. SMS I Tutorium Analyse von Kreuztabellen Gesamtprozentwerte Teil I „Deskriptive Statistik“ mit SPSS / Seite 45 von 51 Zeilen-, Spalten- u. • Mit SPSS ist es möglich, sich Kreuztabellen in mehreren Varianten ausgeben zu lassen, so z.B. mit den beobachteten und den erwarteten Häufigkeiten oder zusätzlich versehen mit Zeilen-, Spalten- und Gesamtprozentwerten Hier wurden folgende zwei Variablen kreuztabuliert: • Geschlecht (Mann, Frau) • Telefonnummer ins Telefonbuch eingetragen (Ja, Nein) TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN * GESCHLECHT, BEFRAGTE<R> Kreuztabelle TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN JA NEIN Gesamt Anzahl Erwartete Anzahl % von TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN % von GESCHLECHT, BEFRAGTE<R> % der Gesamtzahl Anzahl Erwartete Anzahl % von TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN % von GESCHLECHT, BEFRAGTE<R> % der Gesamtzahl Anzahl Erwartete Anzahl % von TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN % von GESCHLECHT, BEFRAGTE<R> % der Gesamtzahl GESCHLECHT, BEFRAGTE<R> MANN FRAU 1173 1379 1159,7 1392,3 Gesamt 2552 2552,0 46,0% 54,0% 100,0% 86,2% 84,4% 85,2% 39,2% 188 201,3 46,0% 255 241,7 85,2% 443 443,0 42,4% 57,6% 100,0% 13,8% 15,6% 14,8% 6,3% 1361 1361,0 8,5% 1634 1634,0 14,8% 2995 2995,0 45,4% 54,6% 100,0% 100,0% 100,0% 100,0% 45,4% 54,6% 100,0% Anzahl • In der Zeile „Anzahl“ sind die beobachteten Häufigkeiten eingetragen Erwartete Anzahl • In der Zeile „Erwartete Anzahl“ sind die erwarteten Häufigkeiten eingetragen • Wie wurden sie berechnet? Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 46 von 51 Zeilenprozentwerte • In der Zeile „% von TELEFONNUMMER INS TELEFONBUCH EINGETRAGEN“ addieren sich die Prozentwerte jeweils zeilenweise zu 100%. Zu lesen sind die Prozentwerte wie folgt: • von denen, die ihre Telefonnummer ins Telefonbuch eintragen, sind 46,0% männlich und 54,0% weiblich • von denen, die ihre Telefonnummer nicht ins Telefonbuch eintragen lassen, sind 42,4% männlich und 57,6% weiblich Die Basis bildet jedes Mal die Zeilensumme! • Wie wurden die Prozentwerte berechnet? Spaltenprozentwerte • In der Zeile „% von GESCHLECHT, BEFRAGTE<R>“ addieren sich die Prozentwerte jeweils spaltenweise zu 100% • Von allen befragten Männern lassen sich 86,2% ins Telefonbuch eintragen, während 13,8% dies nicht tun • Von allen befragten Frauen lassen sich 84,4% ins Telefonbuch eintragen, während 15,6% dies verweigern Die Basis bildet jedes Mal die Spaltensumme! • Wie wurden die Prozentwerte berechnet? Gesamtprozentwerte Hier bildet jedes Mal die Gesamtsumme die Basis! • Versucht selbst herauszufinden, wie die Gesamtprozentwerte (% von Gesamtzahl) zu lesen sind • Wie wurden die einzelnen Prozentwerte berechnet? Das Nachvollziehen des Rechenweges vereinfacht die Interpretation und dient der eigenen Kontrolle! Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 47 von 51 5. Diverse Übungsaufgaben 1) Aus einer Befragung von 20 Studenten darüber, wie viel Stunden sie in der Woche arbeiten, haben sich folgende Werte ergeben: 40, 40, 30, 30, 20, 20, 20, 20, 16, 16, 16, 12, 12, 6, 6, 6, 4, 4, 0, 0 a) b) c) Erstellen Sie mit diesen Werten eine Tabelle mit den absoluten, relativen und prozentualen Häufigkeiten. Berechnen Sie folgende Parameter: Arithmetisches Mittel, Median, Modus, Range, Varianz, Standardabweichung Erstellen Sie einen Boxplot sowie ein Stem-And-Leaf-Display 2) In welcher Relation stehen in einer rechtsschiefen Verteilung das arithmetische Mittel, der Median und der Modus zueinander? 3) Gegeben sind folgende 12 Messwerte: 5, 5, 5, 4, 4, 2, 0, 0, 10, 11, 13, 13. Transformieren sie die Daten so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben. 4) Stellen Sie eine Kreuztabelle auf, bei der Chi-Quadrat den Wert Null annimmt und mindestens eine der Zellen eine Häufigkeit ungleich Null aufweist 5) Bitte beurteilen Sie den statistischen Zusammenhang der folgenden Kontingenztabelle. X1 X2 Y1 25 5 30 Y2 25 5 30 50 10 60 a) Welche der folgenden Aussagen sind richtig ? Es besteht ein mittlerer, positiver Zusammenhang Es besteht ein schwacher Zusammenhang Die Variablen stehen in Beziehung zueinander Die Variablen sind statistisch voneinander unabhängig Es besteht eine perfekte Beziehung zwischen den Variablen Es besteht eine starke Beziehung zwischen den beiden Variablen Chi-Quadrat ist größer als Null Chi-Quadrat ist kleiner als Null Chi-Quadrat ist gleich Null b) Welchen Wert erreicht Phi? 6) Welche der folgenden Maßnahme(n) ist (sind) bei einer ordinalskalierten Variablen angebracht? Bildung der arithmetischen Differenz zwischen zwei Werten Änderung der Benennungen der Skalenwerte Feststellung, dass ein Variablenwert höher ist als ein anderer Multiplikation jedes Wertes mit einer Konstanten und anschließende Addition einer Konstanten 7) In welchen Fällen weist eine Verteilung keine Streuung auf? Wenn die Verteilung sehr flach ist Wenn alle Messwerte gleich groß sind Wenn alle Messwerte mit der gleichen Häufigkeit auftreten Wenn alle Messwerte mit dem Mittelwert übereinstimmen Wenn die Varianz genauso groß ist wie der Mittelwert Wenn die Varianz gleich Null ist Wenn die Standardabweichung gleich Null ist Wenn die Standardabweichung gleich 1 ist Wenn der Range gleich der Standardabweichung ist Wenn die Verteilung extrem rechts- oder linksschief ist Wenn alle Messwerte mit dem Modus übereinstimmen Wenn es nur einen Messwert gibt Mark Lutter 8) SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 48 von 51 Worin unterscheiden sich Ordinalskala und Intervallskala? Bitte kreuzen Sie die richtige(n) Lösung(en) an. Bei einer Ordinalskala können an Objekten nur verschiedene Ausprägungen unterschieden werden, während bei einer Intervallskala auch die exakten Abstände zwischen den Ausprägungen angegeben werden können. Das Messen auf ordinalem Messniveau bedeutet nichts anderes als die Klassifikation von Untersuchungseinheiten hinsichtlich ihres Besitzens oder Nichtbesitzens einer Merkmalsausprägung, während bei einer Intervallskala die Merkmalsausprägungen ihrer Größe nach geordnet werden können. Während beim Messen auf ordinalem Messniveau exakte Abstände zwischen den verschiedenen Merkmalsausprägungen angegeben werden können, kann bei einer Intervallskala auch ein absoluter Nullpunkt angegeben werden. Bei einer Ordinalskala werden die Objekte im Hinblick auf den Grad, in dem sie eine bestimmte Merkmalsausprägung besitzen, geordnet, während bei einer Intervallskala nicht nur verschiedene Ausprägungsgrade unterschieden werden, sondern auch die exakten Abstände zwischen ihnen angegeben werden können. 9) Welche Aussage(n) ist (sind) richtig? Der Median ist anfällig für Extremwerte Der Median eignet sich für nominalskalierte Variablen Der Median eignet sich nicht für extrem schiefe Verteilungen Der Median ist ein Gütemaß für das arithmetische Mittel Das arithmetische Mittel ist unempfindlich gegenüber Extremwerten Der Modus kann nur für ordinale Daten berechnet werden Das arithmetische Mittel setzt zumindest nominalskalierte Variablen voraus Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel Der Median halbiert eine geordnete Reihe von Messwerten 10) Bei zwei Umfragen unter Studierenden haben sich einmal 60 % von 100 Befragten und einmal 38 % von 1000 Befragten für die Abschaffung der Statistikveranstaltung ausgesprochen. Wie viel Prozent aller befragten Studierenden haben sich dann für die Abschaffung der Statistikveranstaltung ausgesprochen? 11) Wie groß ist die Summe aller Abweichungen vom arithmetischen Mittel? grundsätzlich eine positive Zahl kann jede beliebige reelle Zahl sein hängt von der Größe der einzelnen Messwerte ab ist immer gleich Null 12) Für eine Stichprobe vom Umfang n = 10 wurde ein arithmetisches Mittel von 8 berechnet. Später stellte sich heraus, dass die beiden Messwerte x11 = 1 und x12 = 3 vergessen wurden. Wie lautet der Mittelwert für die gesamte Stichprobe vom Umfang n = 12? 13) Von 10 Studierenden sind die folgenden Vordiplom- und Diplom- Noten festgehalten: Student 1 2 3 4 5 6 7 8 9 10 Vordiplom 1 2 5 5 4 3 4 3 4 5 Diplom 1 1 4 4 3 2 5 4 4 4 a) b) Berechnen Sie den Rangkorrelationskoeffizienten nach Spearman. Interpretieren Sie das Ergebnis. 14) Acht Studenten wollen feststellen, ob ein Zusammenhang existiert zwischen ihrem Zeiteinsatz pro Woche zur Vorbereitung der Statistik-Klausur und der von ihnen erzielten Klausurnote. Sie erstellen dabei folgende Tabelle: a) b) Student 1 2 3 4 5 6 7 8 Zeiteinsatz in Std. Klausurnote 20 18 16 24 25 15 11 8 2.3 2.7 3.3 1.7 2.0 3.0 1.3 5.0 Berechnen Sie den Rangplatzkoeffizienten nach Spearman. Welche Schlussfolgerung ziehen Sie aus dem Ergebnis? 15) Bitte konstruieren Sie zwei aus 6 Paaren bestehende Rangordnungen, zwischen denen der Rangkorrelationskoeffizient nach Spearman 1 wird. Paar: 1 2 3 4 5 6 -----------------------------------------------------------------Rangordnung 1: Rangordnung 2: Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 49 von 51 16) Welche Zusammenhangsmaße sind ab welchem Messniveau anwendbar? Maßzahl nominal ordinal metrisch Tau-a Chi-Quadrat Gamma Prozentsatzdifferenz Pearsons r Tau-b Spearmans Rho Cramers V 17) Welche Eigenschaften besitzt das arithmetische Mittel? Das arithmetische Mittel trennt eine Verteilung immer in die unteren und die oberen 50%. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so erhöht sich das arithmetische Mittel um diese Zahl. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so muss man das alte arithmetische Mittel mit dieser Zahl multiplizieren, um das neue arithmetische Mittel zu erhalten. Das arithmetische Mittel verändert sich auch, wenn man zu jedem Messwert den Wert 0 addiert. Das arithmetische Mittel verändert sich, wenn man eine Menge von Messwerten um einen weiteren Messwert 0 erweitert. Das arithmetische Mittel ist immer größer als die Standardabweichung. 18) In einem Betrieb arbeiten 10 Personen. 5 Personen haben ein Monatseinkommen von 2500,- €, die übrigen 5 Personen haben ein Einkommen von jeweils 2600,-, 2700,-, 2800,-, 2900,- und 3000,- €. Der Betrieb stellt einen neuen, zusätzlichen Mitarbeiter als Führungskraft mit einem Einkommen von monatlich 10000,- € ein. Welche Auswirkungen ergeben sich dadurch auf den Modus, den Median, und das arithmetische Mittel der Monatseinkommen aller Mitarbeiter? Der Modus vergrößert sich. Der Median vergrößert sich. Das arithmetische Mittel vergrößert sich. Es zeigen sich keinerlei Auswirkungen auf Modus, Median und arithmetisches Mittel. 19) In zwei Gruppen A und B werden die Variablen X und Y gemessen. Beide Gruppen haben ungefähr gleiche Mittelwerte und Varianzen. In Gruppe A liegt aber eine positive Korrelation der beiden Variablen vor, in Gruppe B jedoch eine etwa gleich große negative Korrelation. a) Zeichnen Sie ein Streudiagramm für die aus den Gruppen A und B bestehende Gesamtgruppe. b) Welche Korrelation erwarten Sie in der Gesamtgruppe (also für A und B zusammen)? 20) Erläutern Sie das Prinzip zur Ermittlung der Regressionsfunktion nach dem Kriterium der kleinsten Quadrate. 21) In einem Unternehmen wurden im ersten Halbjahr des Jahres 1999 für unterschiedliche Mengen eines Produktes die in der folgenden Tabelle angegebenen Gesamtkosten für dieses Produkt berechnet: Monat Menge in 1000 Stück (X) 2 3 4 6 7 8 Januar Februar März April Mai Juni a) b) c) Gesamtkosten in 1000 DM (Y) 30 35 55 75 80 85 Prüfen Sie mit Hilfe eines Streudiagramms, ob zwischen beiden Merkmalen ein Zusammenhang besteht und von welchem Typ dieser Zusammenhang gegebenenfalls ist. Ermitteln Sie die für die Regressionsgleichung y=a+bx erforderlichen Regressionskoeffizienten a und b. Berechnen und interpretieren Sie Pearsons Produkt-Moment-Korrelationskoeffizienten r. 22) Für den linearen Zusammenhang zwischen den Merkmalen „monatliche Mietausgaben in €“ (y) und „monatliches Nettoeinkommen in €“ (x) wurde nach der Methode der kleinsten Quadrate folgende Regressionsfunktion gefunden: y´ = 0,2x + 100 Welche der folgenden Aussagen trifft Ihrer Meinung nach zu? Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 50 von 51 Die Mietausgaben der untersuchten Haushalte betragen im Durchschnitt 20% des Einkommens. Die durchschnittlichen Mietausgaben betragen bereits 100 €, wenn der Haushalt keinerlei Einkommen besitzt. Die Regressionsfunktion enthält einen Fehler, da bei Haushalten unter 125 € Nettoeinkommen die Mietausgaben das Einkommen übersteigen. Bei einem monatlichen Nettoeinkommen von 1000 € liegen die monatlichen Mietausgaben durchschnittlich bei 300 €. Eine Einkommenssteigerung von 1% führt im Durchschnitt der untersuchten Haushalte zu einer Mietsteigerung von 0,2%. Je geringer das Einkommen der untersuchten Haushalte, desto geringer im durchschnitt die Mietausgaben. 23) Welchen Vor- oder Nachteil hat es, wenn bei Vorliegen einer deutlich nicht-linearen Beziehung zwischen 2 Variablen X und Y Pearsons r berechnet wird? 24) Wie hoch muss die Korrelation (also Pearsons r) zwischen 2 Variablen X und Y sein, damit 30% der Streuung von Y durch X erklärt wird? 25) Welche Beziehung(en) bestehen zwischen Pearsons r und Spearmans Rho? 26) Worüber gibt der Regressionskoeffizient b (aus der Regressionsgleichung y=a+bx) Auskunft? 27) Worüber gibt der Regressionskoeffizient a (aus der Regressionsgleichung y=a+bx) Auskunft? 28) Eine mit SPSS erstellte Regressionsanalyse zwischen der unabhängigen Variablen Alter und der abhängigen Variablen monatliches Nettoeinkommen hat folgenden Output ergeben: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat ,209 ,207 df Mittel der Quadrate Regression 421448856,364 1 Residuen 1597691074,525 439 Gesamt 2019139930,889 440 a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65) b Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE> 421448856,364 3639387,413 1 ,457 a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65) Standardfehler des Schätzers 1907,72 ANOVA Modell Quadratsumme 1 F Signifikan z 115,802 ,000 Koeffizienten Modell 1 (Konstante) Nicht standardisierte Koeffizienten B Standardfehler -404,217 294,126 Standardisierte Koeffizienten Erwerbsfähiges 82,330 7,651 Alter (18-65) a Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE> a) b) c) d) e) f) g) T Signifikanz -1,374 ,170 10,761 ,000 Beta ,457 Wie hoch ist die Produkt-Moment-Korrelation nach Pearson? Wie viel Prozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch die x-Variable (Alter) erklärt? Wie viel Prozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch andere, unbekannte Faktoren erklärt? Woran ist erkennbar, ob die beiden Variablen in positiver oder negativer Beziehung zu einander stehen? Wie lautet die Gleichung der Regressionsgeraden? Mit welchem monatl. Nettoeinkommen kann, auf Basis dieser Regressionsanalyse, eine 50jährige Person durchschnittlich rechnen? Was ist in der ANOVA Tabelle unter „Regression“, „Residuen“ und „Gesamt“ zu verstehen? Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 51 von 51 6. Literaturverzeichnis Unverzichtbare Basisliteratur & Exzellente Darstellung des Stoffs: Benninghaus, Hans: Einführung in die sozialwissenschaftliche Datenanalyse, 5. Auflage, München, Wien, 1998. Bortz, Jürgen: Statistik für Sozialwissenschaftler, 4. Auflage, Berlin, 1993. Alles relevante für die Klausur steht in: Faulbaum, Frank: Vorlesungs-Skript SMS I/A Ebenfalls sehr wichtig für die Klausurvorbereitung: Sämtliche Musterklausuren Sehr gut zum Selbststudium eignet sich: Clauß, G.; Finze, F.-R. ; Partzsch, L. : Statistik für Soziologen, Pädagogen, Psychologen und Mediziner. Band I: Grundlagen, 2. Auflage, Frankfurt / Main, 1995. Sehr formal, aber dafür sehr korrekt: Bamberg, G.; Baur, F.: Statistik, 10. Auflage, München, Wien, 1998. Darüber hinaus lohnt sich: Krämer, Walter: So lügt man mit Statistik, Frankfurt / Main, 1991. Krämer, Walter: Statistik verstehen, Frankfurt / Main, 1992.