Sozialwissenschaftliche Methoden und Statistik I

Werbung
Sozialwissenschaftliche Methoden und Statistik I
Universität Duisburg – Essen
Standort Duisburg
Integrierter Diplomstudiengang Sozialwissenschaften
Skript zum SMS I Tutorium
Von
Mark Lutter
Stand: April 2004
Teil I
„Deskriptive Statistik“
Mark Lutter
SMS I Tutorium
Inhaltsverzeichnis
Teil I „Deskriptive Statistik“
Seite 2 von 51
Seite
1. Grundbegriffe .................................................................................................. 04
•
•
•
•
•
Deskriptive Statistik
Inferenzstatistik
Untersuchungseinheiten
Variable
Merkmalsausprägung
1.1 Unterschiedliche Typen von Variablen ................................................. 05
1.1.1
•
•
•
Unterschieden nach Wertebereich ............................................................... 05
Qualitative vs. Quantitative Variablen
Stetige vs. Diskrete Variablen
Dichotome, Trichotome, Polytome Variablen
1.1.2
•
Unterschieden nach Beobachtbarkeit .......................................................... 07
Manifeste vs. Latente Variablen
1.1.3
•
•
•
•
Unterschieden nach Messniveau .................................................................. 07
Nominalskalierte Variablen
Ordinalskalierte variablen
Intervallskalierte Variablen
Ratioskalierte Variablen
2. Univariate Analyse ........................................................................................ 09
•
•
•
•
•
Urliste, Primärtabelle
Häufigkeitsverteilung
Relative Häufigkeiten
Prozentuale Häufigkeiten
Kumulierte Häufigkeiten
2.1 Statistische Kennwerte................................................................................. 12
2.1.1
•
•
•
•
Lagemaße ....................................................................................................... 12
Modus
Median
Arithmetisches Mittel
Exkurs: Symmetrieeigenschaften einer Verteilung / Schiefe
2.1.2
•
•
•
•
•
Streuungsmaße .............................................................................................. 19
Range
Quartilabstand
Varianz
Standardabweichung
Variationskoeffizient
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 3 von 51
2.2 Graphische Darstellungsmöglichkeiten ................................................ 22
•
•
•
•
•
•
Balkendiagramm
Kreisdiagramm
Histogramm
Polygonzug
Boxplot
Stem-And-Leaf-Display
2.3 Z-Transformation ......................................................................................... 25
3. Bivariate Analyse …………………………………………………………… 26
3.1 Zusammenhangsmaße für nominalskalierte Variablen .................. 26
•
•
•
•
•
Chi-Quadrat
Kontingenztabelle
Indifferenztabelle
Erwartete Häufigkeiten
Phi
Cramers V
Kontingenzkoeffizient C
Prozentsatzdifferenz
3.2 Zusammenhangsmaße für ordinalskalierte Variablen .................... 29
•
•
Spearmans rho
Kendalls tau Koeffizienten
Konkordante vs. diskordante Paare
„ties“
3.3 Zusammenhangsmaße für metrische Variablen ................................ 34
•
Produktmoment Korrelation (Pearsons r)
3.3.1 Bivariate lineare Regression …………………………………………. 35
•
•
•
•
Streudiagramm
Regressionsgerade
Methode der kleinsten Quadrate
Determinationskoeffizient
Varianzzerlegung
Regressionsanalyse mit SPSS
4. Kreuztabellenanalyse (SPSS)…..………………………………………… 45
•
Zeilen-, Spalten-, Gesamtprozentwerte
5. Diverse Übungsaufgaben .............................................................................. 46
6. Literaturverzeichnis ……………………………………………………….. 51
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 4 von 51
1. Grundbegriffe
Deskriptive Statistik (Beschreibende Statistik)
• Die deskriptive Statistik dient der Aufbereitung, Darstellung und
Komprimierung sozialwissenschaftlicher Daten
• Konkret: Eine bestimmte Menge von Personen wird hinsichtlich
bestimmter Eigenschaften befragt. Deren Antworten werden mittels
tabellarischen und graphischen Darstellungen, Maßzahlen der zentralen
Tendenz, Streuungsmaßen und Korrelationskoeffizienten aufbereitet und
analysiert.
• Die deskriptive Statistik gliedert sich in drei Bereiche:
Univariate Analyse (die Verteilung einer Variablen wird analysiert)
Bivariate Analyse (die Beziehung zweier Variablen zueinander wird analysiert)
Multivariate Analyse (die Beziehung mehrerer Variablen zueinander werden
analysiert)
Inferenzstatistik (Schließende Statistik)
• die Erkenntnisse der deskriptiven Statistik beziehen sich immer nur auf
eine bestimmte Stichprobe, mittels der Inferenzstatistik soll geklärt
werden, mit welcher Wahrscheinlichkeit die Ergebnisse der Stichprobe
auch in der Population / Grundgesamtheit gelten.
• Um von den Stichprobenergebnissen auf die Grundgesamtheit schließen
zu können, kommt es besonders auf die richtige Auswahl an (reine
Zufallsauswahl, systematische Auswahl, geschichtete Auswahl, usw.)
• Die schließende Statistik liefert Verfahren, eine richtige Auswahl aus der
Masse zu treffen und sie liefert die Regeln zur Verallgemeinerung der
gewonnenen Stichprobenergebnisse
Untersuchungseinheiten (auch: Merkmalsträger / Objekte / Fälle)
• Die an einer Befragung oder an einem Experiment teilnehmenden
Individuen
• An ihnen werden bestimmte Eigenschaften / Merkmale erhoben (z.B.
durch Befragung)
• Konkrete Untersuchungseinheiten sind: Befragungspersonen,
Versuchspersonen (Probanden), Haushalte, Organisationen, Nationen,
etc.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 5 von 51
Variable
• Die Variable ist das vom Forscher an der Untersuchungseinheit erhobene
Merkmal.
• Sie ist damit die den Forscher interessierende Eigenschaft an der
Untersuchungseinheit
• Diese Eigenschaften werden erhoben z.B. durch Befragung oder
Beobachtung
• Konkrete Variablen sind: Geschlechtszugehörigkeit, Arbeitszufriedenheit,
monatliches Nettoeinkommen, Lebensalter, Industrialisierungsgrad von
Nationen, etc.
Merkmalsausprägung (auch: Werte; Messwerte)
• die möglichen Werte, die eine Variable annehmen kann, heißen
Merkmalsausprägungen
• Bsp.: Die Variable „Geschlechtszugehörigkeit“ hat die beiden
Merkmalsausprägungen „männlich“ und „weiblich“
1.1 Unterschiedliche Typen von Variablen
• unterschieden nach Wertebereich (1.1.1)
• unterschieden nach Beobachtbarkeit (1.1.2)
• unterschieden nach Skalen- bzw. Messniveau (1.1.3)
1.1.1 unterschieden nach Wertebereich
Qualitative Variablen
- Die Merkmalsausprägungen einer qualitativen Variablen unterscheidet
man nur hinsichtlich ihrer unterschiedlichen Art
- Qualitative Variablen sind immer diskret (s.u.)
- Bsp.: Geschlechtszugehörigkeit, Parteipräferenz, ...
Quantitative Variablen
- Die Merkmalsausprägungen einer quantitativen Variablen unterscheidet
man hinsichtlich ihrer unterschiedlichen Größe
- Quantitative Variablen werden danach unterschieden, ob sie diskret oder
stetig sind (s.u.)
- Bsp: Lebensalter, Körpergröße, Schulnoten
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 6 von 51
Stetige / Kontinuierliche Variablen
- eine stetige Variable kann innerhalb eines bestimmten Bereichs jeden
beliebigen Wert annehmen
- es existieren keine Lücken bzw. Sprungstellen
- wie fein die Messung auch ist, stets kann in noch feineren Einheiten
gemessen werden
- zwischen zwei Messwerten sind also beliebig viele Zwischenwerte
möglich
- Bsp: Lebensalter, Einkommen, Blutdruck, ...
Diskrete / Diskontinuierliche Variablen
- Eine diskrete Variable kann nur bestimmte Werte annehmen
- zwischen den Werten existieren Lücken bzw. Sprungstellen
- Eine Frau kann beispielsweise 1, 2 oder evtl. 10 Kinder haben, aber: 3,5
Kinder kann sie nicht haben
- Bsp.: Anzahl der Kinder in einem Haushalt, Geschlecht,
Parteizugehörigkeit, ...
- Allerdings werden in der Praxis oftmals diskrete Variablen als quasistetig aufgefasst
Dichotome Variablen
- eine Variable mit nur zwei Merkmalsausprägungen heißt dichotome
Variable
- Bsp.: die Variable Geschlecht besitzt nur die zwei Ausprägungen
„weiblich“ und „männlich“
Trichotome Variablen
- eine Variable mit drei Merkmalsausprägungen heißt trichotome Variable
- Bsp.: die Variable Schichtzugehörigkeit mit den drei Ausprägungen
„Unterschicht“, „Mittelschicht“, „Oberschicht“
Polytome Variablen
- eine Variable mit mehr als drei Merkmalsausprägungen heißt polytome
Variable
- Bsp.: jede stetige Variable wie Einkommen oder Körpergröße
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 7 von 51
1.1.2 unterschieden nach Beobachtbarkeit
Manifeste (empirische) Variablen
- direkt beobachtbar bzw. direkt messbar
- Bsp.: Körpergröße, Altersangaben, offizielle Parteizugehörigkeit, ...
Latente (theoretische) Variablen
- nicht direkt beobachtbar
- können nur durch relevante Indikatoren (s.u.) messbar gemacht werden
- Bsp.: Ausländerfeindlichkeit, Arbeitszufriedenheit, Anomie, ´wahre´
politische Meinung ...
Indikatoren:
Indikatoren sind manifeste Variablen, die als Ersatz für die
latente Variable auftreten, da diese nicht direkt gemessen
werden kann.
In der Regel werden latente Variablen durch mehrere
Indikatoren operationalisiert (messbar gemacht).
Bsp: die latente Variable „Arbeitszufriedenheit“ ist nicht direkt
messbar. Sie kann aber durch die möglichen Indikator-Variablen
„Häufigkeit des Fernbleibens vom Arbeitsplatz“, sowie „Häufigkeit von
Arbeitsplatzwechseln“ und/oder „subjektive Einschätzung des Betriebsklimas“ operationalisiert werden
Oder: „Die“ Umweltverschmutzung ist nicht direkt beobachtbar. Sie
kann aber messbar gemacht werden durch Indikatoren wie: „Wasserqualität von Flüssen“, „jährlicher CO2 Ausstoß“, „Anzahl der PKW pro
Einwohner“, usw.
1.1.3 unterschieden nach Skalen- bzw. Messniveau
Nominalskalierte Variablen
- Die Klassifikation von Untersuchungseinheiten geschieht hinsichtlich
ihres Besitzens oder Nicht-Besitzens einer bestimmten
Merkmalsausprägung.
- Die einzelnen Merkmalsausprägungen können nicht rangmäßig
unterschieden werden - können also nicht in eine Reihenfolge gebracht
werden;
- sie stellen lediglich Benennungen von Kategorien dar
- Die einzelnen Kategorien müssen a) vollständig sein und b) sich
gegenseitig ausschließen
- Die Nominalskala repräsentiert das niedrigste Messniveau
- Bsp.: Geschlecht, Parteizugehörigkeit, Berufsstatus, Nationalität, ...
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 8 von 51
Ordinalskalierte Variablen
- Wie nominalskalierte Variablen, zusätzlich gilt:
- zwischen den Merkmalsausprägungen können „größer/kleiner“
Aussagen getroffen werden,
- d.h. die einzelnen Merkmalsausprägungen können rangmäßig der
Reihenfolge nach geordnet werden
- Jedoch können keine genauen Abstände zwischen den
Merkmalsausprägungen ausgemacht werden
- Bsp.: Schulnoten, Schichtzugehörigkeit, Lebenszufriedenheit
Intervallskalierte Variablen1
- hier können die Ausprägungen nicht nur rangmäßig geordnet werden,
sondern die genauen Abstände zwischen den Ausprägungen können
angegeben werden
- zudem sind die Abstände immer gleich groß
- Jedoch: Ein Nullpunkt kann willkürlich festgelegt sein und hat keine
inhaltliche Bedeutung
- Deswegen: Aussagen über Verhältnisse sind unzulässig! Bsp.: Proband
A hat einen IQ von 100; Proband B einen von 110. Die Aussage: „A ist
um 10% intelligenter als B“ ist völlig unsinnig! Es kann höchstens gesagt
werden, dass B auf der gemessenen Intelligenzskala um 10 Punkte höher
liegt als A.
- Bsp.: Zeitrechnung, Temperatur in Celsius oder in Fahrenheit,
Intelligenzmessung
Ratioskalierte Variablen (auch: Verhältnisskala)
- Repräsentiert das höchste Messniveau
- Hier ist ein absoluter (natürlicher) Nullpunkt im Wertebereich vorhanden,
z.B. ist der absolute Tiefpunkt, den die Temperatur je erreichen kann,
gleichzeitig der Nullpunkt der Temperaturskala nach Kelvin. Null Grad
Kelvin entspricht einer Temperatur von –273,15 Grad Celsius.
- Deswegen: Aussagen über Verhältnisse sind zulässig
- Bsp.: Temperatur in Kelvin, Körperlänge, Körpergewicht, Lebensalter,
Einkommen, Ehedauer, ...
1
Für viele Analysezwecke ist die Unterscheidung zwischen Intervall- und Ratioskala entbehrlich;
zusammenfassend werden beide Messniveaus auch Variablen auf metrischem Messniveau genannt, da
metrisches Messniveau die Durchführung arithmetischer Rechenoperationen erlaubt.
Außerdem: Variablen auf Ordinal-Skalenniveau werden in der Praxis oftmals als (quasi-)metrisch behandelt,
damit arithmetische Rechenoperationen, wie z.B. Mittelwertbildung, durchgeführt werden können.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 9 von 51
2. Univariate Analyse
Urliste, Primärtabelle
Ausgangspunkt der univariaten Analyse sind die (Roh-)Daten, die nach der
Erhebung eines Merkmals (z.B. durch Befragung) entstehen.
Beispiel:
Die 31 Teilnehmer eines Statistik-Tutoriums werden nach ihrer Semesterzahl
befragt. Jede einzelne Befragung stellt eine Messung dar. Man erhält damit 31
Messwerte der Variable „Semesterzahl“. Der Größe nach aufgelistet bilden
diese Daten eine geordnete Urliste ( = Primärtabelle):
1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7
Bereits erkennbar: die meisten Personen befinden sich im zweiten und dritten
Semester.
Die Häufigkeitsverteilung / Häufigkeitstabelle
Die Primärtabelle lässt sich übersichtlicher darstellen, indem die einzelnen (der
Größe nach geordneten) Merkmalsausprägungen mit der Häufigkeit ihres Auftretens (fi) versehen werden.
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
Wichtige Bezeichnungen:
• Messwerte (xi): Die Merkmalsausprägungen / Messwerte der Variable X
(Semesterzahl) werden als xi bezeichnet
• absolute Häufigkeiten (fi): Die beobachtete Häufigkeit jeder
Merkmalsausprägung wird mit fi (frequency) bezeichnet.2
• Anzahl der Fälle (n): Die Größe der Stichprobe wird mit n bezeichnet
2
Statt f i findet sich auch die Bezeichnung n i , so z.B. im Faulbaum-Skript
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 10 von 51
Weitere wichtige Darstellungsmöglichkeiten von Häufigkeiten:
relative Häufigkeiten ( fn )
fn =
fi
n
• Die relative Häufigkeit ergibt sich, wenn man die absolute Häufigkeit
eines xi - Wertes durch die Anzahl der Fälle teilt
• Relative Häufigkeiten können nur Werte zwischen 0 und 1 annehmen
• Die Summe aller relativen Häufigkeiten ergibt 1
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
fn
0,0323
0,3871
0,3226
0,1613
0,0644
0,0323
1
prozentuale Häufigkeiten / Prozentwerte ( %f i )
% fi =
fi
⋅100
n
bzw.
% f i = f n ⋅100
• Die prozentualen Häufigkeiten ergeben sich, wenn man die relative
Häufigkeit eines xi - Wertes mit 100 multipliziert
• Prozentwerte sind besonders dann nützlich, wenn die Häufigkeitsverteilungen zweier unterschiedlich großer Stichproben verglichen
werden sollen
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
fn
0,0323
0,3871
0,3226
0,1613
0,0644
0,0323
1
%f i
3,23
38,71
32,26
16,13
6,44
3,23
100%
• 38,71 % der insgesamt 31 Teilnehmer des Statistik-Tutoriums befinden
sich also im 2. Semester
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 11 von 51
kumulierte Häufigkeiten
• die absoluten, relativen und prozentualen Häufigkeiten lassen sich auch
sukzessive addieren (= kumulieren)
f ci = kumulierte absolute Häufigkeiten
f cn = kumulierte relative Häufigkeiten
% f ci = kumulierte prozentuale Häufigkeiten
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
fn
0,0323
0,3871
0,3226
0,1613
0,0644
0,0323
1
%f i
3,23
38,71
32,26
16,13
6,44
3,23
100 %
f ci
1
13
23
28
30
31
f cn
0,0323
0,4194
0,7420
0,9033
0,9677
1
% f ci
3,23
41,94
74,20
90,33
96,77
100
• an den kumulierten Häufigkeiten lassen sich Informationen der folgenden
Art ablesen:
23 Personen, also 74,20 %, befinden sich in den ersten drei
Semestern
Oder: Nur knapp 10 % aller Personen befinden sich im
fortgeschrittenerem 5. und 7. Semester
Achtung: Messniveau beachten!
• Absolute, relative sowie prozentuale Häufigkeiten dürfen erst ab
ordinalem Messniveau kumuliert werden
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 12 von 51
2.1 Statistische Kennwerte / Maßzahlen
• Während Häufigkeitstabellen Auskunft über die gesamte Verteilung einer
Variablen geben, informieren statistische Maßzahlen über ganz bestimmte
Eigenschaften einer Verteilung.
• Maßzahlen dienen der Informationsverdichtung, denn:
• sie liefern mit nur einer einzigen Zahl komprimierte Information über
die charakteristischen Eigenschaften einer Verteilung
• Statistische Maßzahlen zur Beschreibung einer univariaten Verteilung
gliedern sch in zwei Gruppen:
Lagemaße (auch: Maßzahlen der zentralen Tendenz;
Zentralitätswerte)
Streuungsmaße (auch: Dispersionsmaße)
•
•
Während Lagemaße über Zentralität Auskunft geben, also den typischen (Modus),
den zentralen (Median) oder den durchschnittlichen (arithmetisches Mittel) Wert einer
Verteilung wiedergeben, so geben die Streuungsmaße an, inwieweit die Daten einer
Verteilung von diesen „typischen“ Werten abweichen. Sie messen auf diese Weise den
Grad der Heterogenität einer Verteilung und zeigen, wie gut oder wie schlecht die
Lagemaße eine Verteilung repräsentieren
Denn: haben wir eine relativ homogene Verteilung, d.h. weichen nur sehr wenig
Messwerte von den Zentralitätswerten ab (= niedrige Streuung), dann sind die
Zentralitätswerte sehr gute Repräsentanten der Verteilung. Haben wir stattdessen eine
sehr heterogene Verteilung, d.h. weichen die Messwerte recht stark von den
Zentralitätswerten ab (= hohe Streuung), dann repräsentieren die Zentralitätswerte die
Verteilung nicht besonders gut.
Die nachfolgende Tabelle zeigt, welche Maßzahlen im folgenden behandelt
werden:
Lagemaße
Streuungsmaße
Modus (h)
Median ( ~x )
Arithmetisches Mittel ( x )
Range (R)
(mittlerer) Quartilabstand (QA)
Varianz (s 2 )
Standardabweichung (s)
Variationskoeffizient (V)
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 13 von 51
2.1.1 Lagemaße / Maßzahlen der zentralen Tendenz / Zentralitätsmaße
Modus (h)
• Um den Modalwert zu ermitteln, stellt man sich die Frage „Welcher
Messwert kommt am häufigsten vor?“
• Er ist anwendbar ab nominalem Messniveau
Eingipflige, unimodale Verteilung:
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
Hier ist h = 2. Da wir hier nur einen
Modalwert haben, handelt es sich um eine
unimodale Verteilung.
Bimodalität:
(a) eindeutig bimodale Verteilung
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
12
1
n = 41
Hier ist h1 = 2 und h2 = 5
(b) nicht eindeutig bimodale Verteilung
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
13
1
n = 42
Hier ist auch h1 = 2 und h2 = 5
ACHTUNG: Nicht mit dem fi Wert verwechseln; der Modus ist immer der häufigste
Messwert xi ;
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 14 von 51
x)
Median ( ~
• Der Median ~x [lies „x Schlange“] ist der Wert, der eine der Größe nach
geordnete Messwertreihe halbiert
• Er ist anwendbar erst ab ordinalem Messniveau
• 3 Arten der Berechnung, je nachdem ob
a. ungerade Anzahl von Fällen
b. gerade Anzahl von Fällen
c. klassierte Daten
vorliegen
Medianberechnung bei ungerader Anzahl von Fällen
- der Median ist hier der Messwert des mittleren Falles einer geordneten
Messwertreihe
- daher: zunächst die Daten der Größe nach ordnen, so wie in dieser
geordneten Urliste:
1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7
n = 31 (=ungerade Anzahl)
der mittlere Fall wird mit folgender Formel berechnet:
( n + 1 )
2
Hier: (31 + 1)/2 = 16
ACHTUNG: nicht 16, sondern der Messwert des 16. Falles ist der Median;
demnach ~x = 3
1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7
n = 31
Wie man auch den kumulierten absoluten Häufigkeiten entnehmen kann, gehört
der 16. Fall zu Messwert 3:
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
fci
1
13
23
28
30
31
Allgemein sieht die Formel so aus:
~
x = x  n +1 
 2 


Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 15 von 51
Medianberechnung bei gerader Anzahl von Fällen
- bei gerader Anzahl von Fällen ist der Median der halbierte Wert der
mittleren beiden Fälle
Zunächst werden die mittleren beiden Fälle berechnet mit:
n = 1. mittlerer Fall;
2
n + 1 = 2. mittlerer Fall
2
Bsp.:
1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7
32
= 16. Fall (= Messwert 3);
2
n = 32 (= gerade Anzahl)
32
+ 1 = 17. Fall (=Messwert 3)
2
Der Median ist nun nichts anderes als das arithmetische Mittel (s.u.) der
mittleren beiden Messwerte: ~x = 3 + 3 = 3
2
Allgemein sieht die Formel so aus:
x n  + x n 
 
 +1 
 2

~
x = 2
2
Zu beachten ist auch hier wieder, dass im Zähler zunächst die beiden mittleren Fälle
[n/2 bzw. (n/2)+1] berechnet werden, die dann durch ihre entsprechenden Messwerte
ausgetauscht werden müssen.
Medianberechnung bei klassierten Daten
Bei klassierten Daten berechnet sich der Median mit folgender Formel:
~x = U
+
 
 
 



1 n − Fu
2
Fm
 
 
 



Kb
Mit:
1 n = dieser Wert gibt an, in welchem Intervall der Median liegen wird (Medianintervall)
2
U = exakte untere Grenze des Medianintervalls
n = Anzahl der Fälle
Fu = kumulierte Häufigkeit unterhalb des Medianintervalls (kum. Fälle unterhalb von U)
Fm = Anzahl der Fälle im Medianintervall
Kb = Intervallbreite (wird berechnet mit: exakte obere minus exakte untere Grenze einer
Klasse)
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 16 von 51
Bsp.:
Klasse
Einkommensklasse
(in Euro)
500 bis < 1000
1000 bis < 1500
1500 bis < 2000
2000 bis < 2500
2500 bis < 3000
1
2
3 = Medianintervall
4
5
Σ
U
n
Fu
1n
2
fi
800
600
400
600
800
3200 = n
=
1500
Fm
=
400
=
3200
Kb
=
499 (z.B. 1999-1500 = 499)
=
800 + 600 = 1400
= 3200 : 2 = 1600; das Medianintervall ist die 3. Klasse, da die kumulierten
Häufigkeiten der ersten 3 Klassen (800 + 600 + 400 = 1800) einen Wert >1600
ergeben
Setzen wir nun diese Werte in die Formel ein, so erhalten wir für den Median einen Wert von:
~
x = 1500 + [(1600 – 1400)/400] ⋅ 499 = 1749,5
Wichtige Eigenschaft des Medians:
• Unempfindlichkeit gegenüber Extremwerten (im Gegensatz zum
arithmetischen Mittel)
Arithmetisches Mittel ( x )
• Das arithmetische Mittel x [lies: „x quer“] ist der Durchschnittswert
einer Verteilung
• Setzt metrisches Messniveau voraus
• Ist definiert als die Summe aller Messwerte, geteilt durch ihre Anzahl:
n
x + x 2 + x 3 + ... + x n
x = 1
=
n
∑x
i =1
i
n
Oder einfacher:
Die einzelnen Messwerte werden mit ihrer Häufigkeit multipliziert:
n
x =
∑
i =1
f i xi
n
Mark Lutter
Bsp.:
xi
1
2
3
4
5
7
Gesamt
x =
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 17 von 51
fi
1
12
10
5
2
1
n = 31
( 1 ⋅ 1 ) + ( 2 ⋅ 12 ) + ( 3 ⋅ 10 ) + ( 4 ⋅ 5 ) + ( 5 ⋅ 2 ) + 7 ⋅ 1 )
31
= 2,96773
Zur Berechnung bei klassierten Daten:
vgl. Benninghaus, a.a.O., S.137f.
Wichtige Eigenschaften des arithmetischen Mittels:
• Die Summe der Abweichungen aller Messwerte von ihrem arithmetischen
Mittel ist gleich Null:
n
∑ (x
i =1
i
− x) = 0
• Die Summe der quadrierten Abweichungen von ihrem arithmetischen
Mittel ist kleiner als die Summe der quadrierten Abweichungen aller
Messwerte von einem beliebigen anderen Wert
• Die Addition (oder Subtraktion) einer bestimmten Zahl zu allen
Einzelwerten einer Verteilung vergrößert (oder verkleinert) das
arithmetische Mittel um diese Zahl
• Das arithmetische Mittel ist - im Gegensatz zum Median - anfällig für
Extremwerte
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 18 von 51
Symmetrieeigenschaften einer Verteilung
Die drei Lagemaße geben auch Auskunft über die Schiefe einer Verteilung
h=~
x =x
die Verteilung ist symmetrisch
h<~
x<x
die Verteilung ist linkssteil / rechtsschief
h>~
x>x
die Verteilung ist rechtssteil / linksschief
h>~
x>x
h=~
x =x
h<~
x<x
Generell gilt:
• Je näher die drei Werte beieinander liegen, desto weniger schief ist die
Verteilung
• Umgekehrt gilt: je stärker die drei Werte differieren, desto „schiefer“ ist
die Verteilung
„Die“ Schiefe (Sch) gibt es auch als Maßzahl:
• Setzt metrische Daten voraus
• Berechnet wird sie mit:
n
3
∑ (x − x)
Sch = i = 1
Interpretation:
• Sch < 0
• Sch > 0
• Sch = 0
i
n
die Verteilung ist rechtssteil
die Verteilung ist linkssteil
die Verteilung ist symmetrisch
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 19 von 51
Generell gilt auch hier:
• Je näher der Wert bei Null liegt, desto weniger schief ist die Verteilung
• Umgekehrt gilt: je weiter der Wert von Null entfernt liegt, desto
„schiefer“ ist die Verteilung
2.1.2 Streuungsmaße
• alle Streuungsmaße setzen metrisches Messniveau voraus
• Ausnahme: Quartile, sowie Quartilabstand und mittlerer Quartilabstand:
ab ordinalem Messniveau
Range (R) (auch: Spannweite, Variationsbreite)
• Ist definiert als die Differenz aus dem größten und dem kleinsten Wert:
R=
xmax − xmin
Nachteil:
• Da bei der Berechnung lediglich der größte und der kleinste Wert
berücksichtigt werden, ist er a) stark von Ausreißerwerten abhängig und
b) nichtssagend über die Streuung der übrigen Werte
Quartilabstand (QA) / mittlerer Quartilabstand
• Die Quartile Q1, Q2 und Q3 sind Messwerte, die eine Verteilung in
Abschnitte zerlegen, in die jeweils 25% der Untersuchungseinheiten
fallen3
• Damit trennen sie die Verteilung in 4 gleiche Abschnitte
• Der Quartilabstand ist die Differenz zwischen dem dritten (Q3) und dem
ersten (Q1) Quartil: QA = Q3 - Q1
Wobei : Q1 = x 1 n
4
~
Q2 = x
Q3 = x 3 n
4
Der mittlere Quartilabstand berechnet sich mit:
3
QA
2
vgl. hierzu ausführlich: Benninghaus, a.a.O., S. 145ff. (insb. S.147: Berechnung der Quartile bei klassierten
Daten)
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 20 von 51
Varianz (s2)
• Die Varianz ist definiert als die Summe der quadrierten Abweichungen
der einzelnen Messwerte von ihrem arithmetischen Mittel, dividiert durch
die Anzahl der Fälle:
n
s2 =
∑ f (x
i =1
i
i
− x)2
n
• An der Formel wird eine Parallele zum arithmetischen Mittel deutlich:
während das arithmetische Mittel die Summe aller Messwerte durch ihre
Anzahl dividiert, wird hier die Summe aller (quadrierten) Abweichungswerte durch ihre Anzahl dividiert:
die Varianz ist also auch eine Art Durchschnittswert, nämlich
die „durchschnittliche Streuung“
Standardabweichung (s)
• Ist definiert als die Quadratwurzel aus der Varianz:
s = s2
• Durch Ziehung der Wurzel wird die Quadrierung wieder rückgängig
gemacht. Dadurch ist die „durchschnittliche Streuung“ in der
ursprünglichen Maßeinheit der Variablen zu lesen.
Variationskoeffizient (V)
• Ist der Anteil der Standardabweichung am arithmetischen Mittel:
V =
s
x
• Im Gegensatz zu anderen Streuungsmaßen quantifiziert V die Variabilität
einer Verteilung maßstabsunabhängig
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 21 von 51
• V eignet sich damit sehr gut als Streuungs-Vergleichsmaß bei mehreren
Verteilungen
• kann als Prozentzahl gelesen werden (s.u.)
Bsp.: Berechnung der Streuungsmaße für die Variable Semesterzahl
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
Range: R = 7 – 1 = 6
Quartilabstand:
Q3 = ¾ ⋅ 31 = 23,25.Fall Messwert 4
Q1 = ¼ ⋅ 31 = 7,75.Fall Messwert 2
QA = 4 – 2 = 2
Mittlerer QA = 2 : 2 = 1
Zur Berechnung der Varianz und der Standardabweichung empfiehlt es sich,
eine Arbeitstabelle anzulegen:
xi
1
2
3
4
5
7
Gesamt
x
( xi − x )
fi
1
12
10
5
2
1
n = 31
-1,96773
-0,96773
0,03227
1,03227
2,03227
4,03227
( x i − x ) 2 fi ( x i − x ) 2
3,87195
0,93649
0,00103
1,06557
4,13011
16,2591
3,87195
11,23788
0,0103
5,32785
8,26022
16,2591
Σ = 44,9673
= 2,96773
s2 =
44,9673
= 1,450558065 ≈ 1,50
31
s = 1,50 ≈ 1,225
Zur Interpretation der Standardabweichung und Varianz
• der Zahlenwert der Standardabweichung steht im Prinzip für die
„durchschnittliche Streuung“ einer Verteilung, wobei mit „Streuung“ die
Gesamtabweichung aller Messwerte von ihrem arithmetischen Mittel
gemeint ist. Die Varianz steht demnach für die „durchschnittliche
quadrierte Streuung“
• deswegen ist die Standardabweichung im Vergleich zur Varianz besser zu
interpretieren, da ihr Ergebnis wieder in der ursprünglichen Einheit, in der
die Variable gemessen wurde, zu lesen ist. Für obiges Beispiel wäre eine
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 22 von 51
der folgenden Aussagen angemessen: „Die Messwerte streuen im
Durchschnitt um 1,225 Semester um den Mittelwert“
Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel, denn:
• Je geringer die Streuung, desto homogener ist eine Verteilung bzw. desto
weniger weichen die einzelnen Messwerte von ihrem arithmetischen
Mittel ab. Das bedeutet: je geringer die Standardabweichung, desto besser
repräsentiert das arithmetische Mittel die gesamte Verteilung
Zur Berechnung und Interpretation des Variationskoeffizienten:
• wir erhalten einen Wert von V = 1,225/2,96773 = 0,4128 oder 41,28%
• das bedeutet, die Streuung macht ca. 41% des Mittelwertes aus.
Eine Verteilung weist keine Streuung auf wenn:
• der Range gleich Null ist
• die Summe der quadrierten Abweichungen aller Messwerte vom
arithmetischen Mittel gleich Null ist
• alle Messwerte gleich groß sind
• alle Messwerte mit dem Mittelwert übereinstimmen
• alle Messwerte mit dem Modus übereinstimmen
• es nur einen Messwert gibt
2.2 Graphische Darstellungsmöglichkeiten von Häufigkeitsverteilungen
In Abhängigkeit vom Messniveau existiert eine Vielzahl von graphischen
Darstellungsmöglichkeiten:
Nominales Messniveau:
- Balkendiagramm (auch: Streifen- bzw. Säulendiagramm)
- Kreisdiagramm
Ordinales Messniveau:
- Balkendiagramm (auch: Streifen- bzw. Säulendiagramm)
- Kreisdiagramm
- Boxplot (auch: box-and-whisker-plot)
Metrisches Messniveau:
- Histogramm
- Polygon (auch: Polygonzug)
- Boxplot (auch: Box-And-Whisker-Plot)
- Stem-And-Leaf-Display bzw. Back-to-Back-Stem-And-Leaf-Display
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Balkendiagramm (auch: Streifen- bzw. Säulendiagramm)
WAHLABSICHT, BUNDESTAGSWAHL; BEFR.
60
50
40
30
Prozent
20
10
0
CDU-CSU
F.D.P.
SPD
REPUBLIKANER
BUENDNIS90-GRUENE
ANDERE PARTEI
PDS
WAHLABSICHT, BUNDESTAGSWAHL; BEFR.
Kreisdiagramm
WAHLABSICHT, BUNDESTAGSWAHL; BEFR.
ANDERE PARTEI
1,1%
PDS
6,0%
REPUBLIKANER
2,5%
BUENDNIS90-GRUENE
CDU-CSU
8,6%
29,0%
F.D.P.
4,5%
SPD
48,2%
Histogramm
ALTER: BEFRAGTE<R>
400
300
Häufigkeit
200
100
Std.abw. = 17,49
Mittel = 48,7
N = 3234,00
0
20,0
30,0
25,0
40,0
35,0
50,0
45,0
ALTER: BEFRAGTE<R>
60,0
55,0
70,0
65,0
80,0
75,0
90,0
85,0
95,0
Seite 23 von 51
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Polygonzug
2,5
2,0
1,5
1,0
Prozent
,5
0,0
18
22
26
30
34
38
42
46
50
54
58
62
66
70
74
78
82
86
90
94
ALTER: BEFRAGTE<R>
Boxplot
120
100
80
60
40
20
0
N=
3234
ALTER: BEFRAGTE<R>
Statistiken
ALTER: BEFRAGTE<R>
N
Gültig
Fehlend
Mittelwert
Median
Perzentile
25 = Q1
50 = Q2
75 = Q3
3234
0
48,72
47,00
34,00
47,00
63,00
Stem-And-Leaf-Display
ALTER: BEFRAGTE<R> Stem-and-Leaf Plot
Frequency
73,00
169,00
259,00
341,00
324,00
270,00
288,00
232,00
288,00
285,00
267,00
172,00
150,00
71,00
32,00
10,00
3,00
Stem width:
Each leaf:
Stem
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
&
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Leaf
888888999
000011112222333344444
55555556666667777778888889999999
000000001111111112222222223333333444444444
555555566666666777777778888888899999999
0000000111111122222222333334444444
555555555666666677777778888888899999
0000011111222222333333444444
55555566666667777778888888899999999
000000011111111222222223333333444444
55555556666667777777888888999999
000011112222233334444
555556666777788899
001123344
5678&
&
&
8 case(s)
Seite 24 von 51
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 25 von 51
2.3 Z-Transformation (Standardisierung von Variablen)
• setzt metrische Daten voraus
• Durch eine Z-Transformation werden Messwerte in eine Form
umgewandelt, die es erlaubt, sie mit Werten derselben oder einer
anderen Verteilung zu vergleichen
• Sind z.B. zwei Variablen in unterschiedlichen Einheiten erfasst (eine in
Euro, die andere in Jahren), dann erlaubt die Standardisierung beider
Variablen deren Vergleichbarkeit
• Erzeugt werden sie, indem man das arithmetische Mittel von jedem
Messwert subtrahiert und die Differenz durch die Standardabweichung
teilt:
x −x
xi → z i = i
s
• Z-Werte geben damit an, um wie viele (Standardabweichungs-)Einheiten
ein Messwert oberhalb (bei positivem Vorzeichen) oder unterhalb (bei
negativem Vorzeichen) vom Durchschnitt liegt
Bsp.:
xi
1
2
3
4
5
7
Gesamt
fi
1
12
10
5
2
1
n = 31
x = 2,96773;
( xi − x )
zi =
-1,96773
-0,96773
0,03227
1,03227
2,03227
4,03227
xi − x
s
-1,605
-0,790
0,025
0,843
1,659
3,292
s =1,225
• Durch die z-Transformation erhält man eine neue Verteilung mit
folgenden Eigenschaften:
zi =
xi − x
s
-1,605
-0,790
0,025
0,843
1,659
3,292
fi
1
12
10
5
2
1
n = 31
das arithmetische Mittel ist immer Null ( z = 0)
die Standardabweichung ist immer 1 ( s z = 1)
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 26 von 51
3. Bivariate Analyse
• bei der bivariaten Analyse geht es darum, die Beziehung (Assoziation,
Korrelation) zweier Variablen zueinander zu untersuchen
• Konkret: es geht darum, Maßzahlen zu errechnen, die die Stärke (und die
Richtung) des Zusammenhangs zwischen zwei Variablen ausdrücken
• Diese Maßzahlen werden bezeichnet als Zusammenhangsmaße,
Korrelationskoeffizienten oder Assoziationsmaße
3.1 Zusammenhangsmaße für nominalskalierte Variablen
• Chi-Quadrat (χ 2 ) basierte Maßzahlen: Phi, Cramers V,
Kontingenzkoeffizient C
• Um diese Koeffizienten berechnen zu können, muss vorher Chi-Quadrat
berechnet werden:
Untersucht man den Zusammenhang zwischen zwei nominalskalierten
Variablen, kann man deren Häufigkeiten in einer Kreuztabelle darstellen:
Bsp.: Zusammenhang zwischen Lohnzufriedenheit (Variable X) und
Beschäftigtenstatus (Variable Y) (Kontingenztabelle)
Arbeiter
Geringe
40
Lohnzufriedenheit (Zelle a)
Hohe
10
Lohnzufriedenheit (Zelle c)
50
Σ
Angestellter Σ
20
60
(Zelle b)
30
40
(Zelle d)
50
100
• Für die Berechnung von Chi-Quadrat muss zunächst aus der
Kontingenztabelle eine Indifferenztabelle erstellt werden bzw. es müssen
die erwarteten Häufigkeiten berechnet werden
• Eine Kreuztabelle, in der die beobachteten (absoluten) Häufigkeiten
( f ) eingetragen sind, nennt man Kontingenztabelle
• Eine Kreuztabelle, in der die erwarteten Häufigkeiten ( f e ) eingetragen
sind, nennt man Indifferenztabelle
• Erwartete Häufigkeiten sind die Häufigkeiten, die man in jeder Zelle der
Kreuztabelle erwarten würde, wenn zwischen den beiden Variablen kein
Zusammenhang besteht
b
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 27 von 51
Berechnet werden die erwarteten Häufigkeiten für jede Zelle wie folgt:
fe =
Zeilensumme ∗ Spaltensumme
Gesamtsumme
Hier:
60 ∗ 50
= 30
100
60 ∗ 50
= 30
Zelle b: f e =
100
40 ∗ 50
= 20
Zelle c: f e =
100
40 ∗ 50
= 20
Zelle d: f e =
100
Zelle a: f e =
Hier ist die Kontingenztabelle zusammen mit der Indifferenztabelle dargestellt:
Geringe
Lohnzufriedenheit
Hohe
Lohnzufriedenheit
Σ
Arbeiter
Angestellter Σ
fb=40
fe=30
fb=10
fe=20
50
fb=20
fe=30
fb=30
fe=20
50
60
40
100
• Da nun die erwarteten Häufigkeiten die Häufigkeiten sind, die man
erwarten würde, wenn die beiden Variablen statistisch voneinander
unabhängig sind (also kein Zusammenhang besteht) deutet die Differenz
zwischen den erwarteten und den beobachteten Häufigkeiten auf
einen Zusammenhang zwischen den beiden Variablen hin
• je stärker diese Differenz ist, desto stärker ist auch der Zusammenhang.
Umgekehrt: je kleiner die Differenz, desto geringer ist der Zusammenhang
• Auf diesem Konzept des Vergleichs zwischen den beobachteten und den
erwarteten Häufigkeiten beruht Chi-Quadrat:
χ 2 =∑
(f
b
− fe )2
fe
• Wie anhand der Formel sichtbar, nimmt Chi-Quadrat den Wert Null an,
wenn alle fb´s und fe´s gleich sind
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 28 von 51
Berechnung von Chi-quadrat (Hierfür ist wieder die Anfertigung einer
Arbeitstabelle sinnvoll):
Zelle
fb
fe
fb- fe
(fb- fe)2
A
B
c
d
40
20
10
30
30
30
20
20
10
-10
-10
10
100
100
100
100
( fb − fe )2
fe
3,333
3,333
5
5
Σ=16,666 =
χ2
• Der χ 2-Wert variiert zwischen 0 (kein Zusammenhang) und n (perfekter
Zusammenhang)
• Zur besseren Interpretation der genauen Stärke des Zusammenhangs
werden nun die Chi-Quadrat basierten Maßzahlen (Phi, Cramers V,
Kontingenzkoeffizient C) berechnet:
• Sie sind deswegen besser zu interpretieren, da sie nur Werte zwischen 0
(kein Zusammenhang) und 1 (perfekter Zusammenhang) annehmen.
Phi (Φ) (für 2x2 Tabellen bzw. Kreuztabellen mit 4 Zellen)
Φ=
χ 2
n
Hier:
Φ=
16,666
100
= 0,4081
Cramers V (für Tabellen größer als 2x2)
V =
χ2
n ⋅ min(r − 1; c − 1)
mit
r = Anzahl der Zeilen („rows“)
c = Anzahl der Spalten („columns“)
min = Nur der kleinere Wert geht in die Berechnung ein; z.B.: bei 3x4 Tabellen
sieht die Formel so aus: V =
χ2
n ⋅ (3 − 1)
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 29 von 51
Kontingenzkoeffizient C (für beliebige Tabellen)
C=
χ2
χ2 +n
Merke:
• Wenn χ 2 = 0 , dann ist auch Φ = 0, V = 0 und C = 0
• Wenn Φ = 1, dann ist χ 2 = n
• Φ und V sind identisch bei 2x2 Tabellen
Prozentsatzdifferenz
• Ein weiteres, sehr einfaches Assoziationsmaß ist die sog.
Prozentsatzdifferenz: vgl. dazu Benninghaus, a.a.O., S.199ff.
3.2 Zusammenhangsmaße für ordinalskalierte Variablen
Spearmans Rho (rs) (auch: Rangkorrelationskoeffizient)
• rs beschreibt den Zusammenhang zwischen zwei Rangreihen
• die Berechnung erfolgt mit folgender Formel:
6 ⋅ ∑ di 2
rs = 1 −
n ⋅ (n 2 − 1)
mit:
n = Anzahl der Fälle
Σ di2 = Summe der quadrierten Rangplatzdifferenzen = Σ(xi - yi)2
Vorgehensweise:
1.
2.
3.
4.
Umwandlung der Messwerte in Rangplätze
Rangplatzdifferenzen bilden
alle Differenzen quadrieren und aufsummieren
Berechnung von rs
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 30 von 51
Bsp.: (aus: Benninghaus, a.a.O., S. 267ff.)
Untersucht werden soll der Zusammenhang zwischen den beiden (als
ordinalskaliert aufgefassten) Variablen X „Anzahl der verliehenen
Magistergrade“ und der Variable Y „Anzahl der verliehenen Doktorgrade“
• D.h. es soll herausgefunden werden, ob Universitäten, die viele
Magistergrade verleihen, gleichzeitig auch viele Doktorgrade vergeben
• Wenn dies so wäre, müsste der Zusammenhang zwischen den beiden
Variablen recht stark sein
Nr
Universität
X
Y
1
A
Verliehene
Magistergrade
182
Verliehene
Doktorgrade
39
2
3
4
5
6
7
8
9
10
11
B
C
D
E
F
G
H
I
J
K
156
131
110
109
109
95
82
76
60
59
49
32
35
62
43
57
46
35
35
57
• Zunächst werden für die Variablenwerte beider Variablen Rangplätze
vergeben, d.h. die Uni mit der höchsten Anzahl an verliehenen Magisterbzw. Doktorgraden bekommt den Platz 1 zugewiesen, die mit der
zweithöchsten Anzahl bekommt Platz 2 usw.:
Nr
Universität
X
Y
Xi
Yi
Rangplatz
A
Verliehene
Doktorgrade
39
Rangplatz
1
Verliehene
Magistergrade
182
1
7
2
3
4
5
6
7
8
9
10
11
B
C
D
E
F
G
H
I
J
K
49
32
35
62
43
57
46
35
35
57
2
3
4
5,5
5,5
7
8
9
10
11
4
11
9
1
6
2,5
5
9
9
2,5
156
131
110
109
109
95
82
76
60
59
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 31 von 51
• Zu beachten ist hier folgendes: Weisen mehrere Objekte die gleiche
Merkmalsausprägung auf („Ties“, s.u.), dann wird aus diesen Rangplätzen
das arithmetische Mittel gebildet:
• z.B.: Universität E und F haben beide 109 verliehene Magistergrade.
Demnach würden sie die Rangplätze 5 und 6 bekommen. Das
arithmetische Mittel aus diesen beiden Rangplätzen berechnet sich dann:
(5+6)/2 = 5,5; d.h. Universität E und F bekommen jeweils den Rangplatz
5,5 zugewiesen
• Analog dazu verläuft die Berechnung der Rangplätze der verliehenen
Doktorgrade für Universität G und K [(2+3)/2 = 2,5], sowie für
Universität D, I und J [(8+9+10)/3 = 9]
Anschließend werden die Rangplatzdifferenzen (di) gebildet, quadriert (di2 )
und aufsummiert(Σ di2):
Nr
Universi
tät
X
Y
Xi
Yi
di
di2
Verliehene
Magistergrade
Verliehene
Doktorgrade
Rang
Rang
(Xi -Yi)
(Xi -Yi)2
platz
platz
1
A
182
39
1
7
-6
36
2
3
4
5
6
7
8
9
10
11
B
C
D
E
F
G
H
I
J
K
156
131
110
109
109
95
82
76
60
59
49
32
35
62
43
57
46
35
35
57
2
3
4
5,5
5,5
7
8
9
10
11
4
11
9
1
6
2,5
5
9
9
2,5
-2
-8
-5
-4,5
-0,5
4,5
3
0
1
8,5
4
64
25
20,25
0,25
20,25
9
0
1
72,25
Σ 252
Nun können alle Werte in die Formel eingesetzt werden:
rs = 1 −
6 ⋅ 252
1512
= 1−
= −0,14545
2
1320
11(11 − 1)
Zur Interpretation:
• Generell kann rs Werte annehmen zwischen –1 (perfekt negativer
Zusammenhang) und +1 (perfekt positiver Zusammenhang)
• Ein Wert von 0 oder nahe 0 bedeutet, beide Variablen sind unabhängig
voneinander
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 32 von 51
• hier liegt mit –0,14545 kein Zusammenhang vor, denn in den
Sozialwissenschaften spricht man erst ab einem Korrelationswert von 0,2
(oder: -0,2) von einem positiven (oder: negativen) Zusammenhang
zwischen 2 Variablen. Inhaltlich bedeutet dies: Universitäten die viele
Magistergrade verleihen, müssen nicht zwangsläufig auch viele
Doktorgrade verleihen.
Kendalls tau Koeffizienten (tau-a, tau-b, tau-c)
Die Logik dieser Koeffizienten basiert nicht darauf, dass Objektpaare in Bezug
auf ihre Rangplätze (und deren Differenzen) untersucht werden, sondern im
Hinblick auf konkordante und diskordante Objektpaare.
Bsp.: Konkordante Paare
Schüler
A
B
X: Mathematiknote
5
4
Y: Physiknote
5
4
• Das Schülerpaar A und B hat bei beiden Variablen die gleichen
Ausprägungen. Es besteht somit dieselbe Rangordnung zwischen beiden
Schülern; das Schülerpaar ist konkordant
Bsp.: Diskordante Paare
Schüler
C
D
X: Mathematiknote
1
2
Y: Physiknote
3
2
• Hier handelt es sich um eine inverse Beziehung im Hinblick auf die
Rangordnung: Während C in Mathe besser ist als D, ist D in Physik
besser als C. Das Paar ist diskordant (auch: inkonsistent, negativ oder
gegenseitig)
Kendalls tau-a Koeffizient ist nun definiert als die Differenz der konkordanten
und diskordanten Paare, dividiert durch die Gesamtzahl der möglichen Paare:
Tau − a =
Nc − N
d
n ⋅ (n − 1)
2
Mit:
Nc = Anzahl der konkordanten Paare
Nd = Anzahl der diskordanten Paare
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 33 von 51
n(n − 1)
= Gesamtzahl aller möglichen Paare (n = Anzahl der Objekte)
2
• Tau a findet Anwendung, wenn nur konkordante und diskordante Paare
vorliegen. Liegen zusätzlich sog. „Ties“ (Verknüpfungen, Bindungen)
vor, dann ist tau-b anzuwenden.
Was sind „Ties“?
Schüler
E
F
X: Mathematiknote
3
3
Y: Physiknote
2
4
• Zwei Objekte sind verknüpft (engl.: „tied“), wenn sie bezüglich einer oder
beider Variablen denselben Wert haben.
• In diesem Beispiel ist das Paar bezüglich der X-Variablen verknüpft; es
ist „tied on x“
tau-b berücksichtigt „ties“:
Tau − b =
N −N
c
d
(N + N + T ) ⋅ (N + N + T )
c
x
c
y
d
d
wobei
Tx = Anzahl der „tied on x“ Paare
Ty = Anzahl der „tied on y“ Paare
Zur Interpretation:
• Tau-a und tau-b können Werte annehmen zwischen –1 (perfekt
negative Beziehung; nur diskordante Paare) und +1 (perfekt positive
Beziehung; nur konkordante Paare).
Merke:
• Treten keine „ties“ auf, wird tau-a verwendet, ansonsten tau-b
• Tau-b kann den maximalen Wert von +1 oder –1 nur erreichen, wenn
beide Variablen die gleiche Zahl von Ausprägungen aufweisen
Weitere Zusammenhangsmaße für ordinalskalierte Variablen:
Tau-c (unwichtig)
Somers d Koeffizienten
Gamma
vgl. Benninghaus, a.a.O., S.232-263
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 34 von 51
3.3 Zusammenhangsmaße für metrische Variablen
Pearsons r (auch: Produkt-Moment-Korrelationskoeffizient)
• Pearsons r ist eine Maßzahl für die Stärke des Zusammenhangs zweier
metrisch skalierter Variablen, die in einer linearen Beziehung zueinander
stehen
• Berechnet wird r über die Kovarianz oder über den
Determinationskoeffizienten r2 (s. u. → Regressionsanalyse)
Berechnung über die Kovarianz:
r=
cov( x, y )
sx s y
wobei:
∑ (x
cov( x, y ) =
− x)2
i
n
∑(y
sy =
− x )( y i − y )
n
∑ (x
sx =
i
i
− y)2
n
=> Kovarianz
=> Standardabweichung der x-Variablen
=> Standardabweichung der y-Variablen
nach Umformung ergibt sich folgende Berechnungsformel:
r=
∑ ( x − x )( y − y )
∑ (x − x) ∑ ( y − y)
i
i
2
i
2
i
Bsp.: Untersucht werden soll der Zusammenhang zwischen den Variablen
Lebensalter (X) und monatliches Nettoeinkommen (Y)
Person Lebensalter (X)
Nettoeinkommen in Euro (Y)
-----------------------------------------------------------------A
22
1200
B
28
2400
C
32
1400
D
36
2600
E
40
1800
F
44
2800
G
48
3200
H
52
1600
I
56
3000
J
62
2000
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 35 von 51
Wobei:
n = 10; x = 42; y = 2200
Zur Berechnung empfiehlt sich wieder die Erstellung einer Arbeitstabelle:
Person
x
y
xi − x
yi − y
A
B
C
D
E
F
G
H
I
J
Σ10
22
28
32
36
40
44
48
52
56
62
1200
2400
1400
2600
1800
2800
3200
1600
3000
2000
-20
-14
-10
-6
-2
2
6
10
14
20
-1000
200
-800
400
-400
600
1000
-600
800
-200
( xi − x ) 2
400
196
100
36
4
4
36
100
196
400
Σ1472
( yi − y ) 2
1000000
40000
640000
160000
160000
360000
1000000
360000
640000
40000
Σ4400000
( xi − x )( y i − y )
20000
-2800
8000
-2400
800
1200
6000
-6000
11200
-4000
Σ32000
Nach Einsetzen in die Formel erhält man:
r=
32000
1472 4400000
≈ 0,398
Zur Interpretation
• Auch Pearsons r kann Werte zwischen –1 (perfekt negativer
Zusammenhang) und +1 (perfekt positiver Zusammenhang) annehmen,
wobei ein Wert von 0 oder nahe 0 keinen Zusammenhang zwischen den
beiden Variablen ausdrückt.
• Hier liegt eine Korrelation von 0,398 vor; dies bedeutet, dass ein geringer
positiver Zusammenhang existiert. Inhaltlich bedeutet dies folgendes: Mit
geringer Tendenz steigt mit zunehmenden Alter auch das Einkommen
Merke
- Pearsons r ist identisch mit Spearman´s rho genau dann, wenn die
Rangplätze als Messwerte behandelt werden und Pearsons r darauf
berechnet wird
3.3.1 Bivariate lineare Regression / Regressionsanalyse
• Die Regressionsanalyse erlaubt es nun, auf Basis der Kenntnis einer
unabhängigen Variablen eine abhängige vorherzusagen. Damit erhält
man ein Verfahren zur Erstellung von Prognosen.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 36 von 51
• Darüber hinaus kann durch den Determinationskoeffizienten r2 der
prozentuale Anteil bestimmt werden, mit dem eine unabhängige Variable
eine abhängige erklären / vorhersagen kann.
• Vorraussetzung sind zwei metrisch skalierte Variablen, von denen die
eine als unabhängige, die andere als abhängige Variable fungiert
Im obigem Beispiel ist die Variable „Lebensalter“ die unabhängige
Variable (wird als X-Variable bezeichnet);
die Variable „Nettoeinkommen“ ist die zu erklärende abhängige
Variable (wird als Y-Variable bezeichnet)
• Welche Variable abhängig oder unabhängig ist, entscheiden nicht
mathematische, sondern sachlogische Überlegungen: die Höhe des
Einkommens hängt ab vom Lebensalter und nicht umgekehrt.
Das Streudiagramm
• Die graphische Visualisierung der Beziehung beider erhobener Variablen
veranschaulicht man sich anhand eines Streudiagramms
• Dort wird jede Untersuchungseinheit in einem Koordinatensystem durch
einen Punkt repräsentiert. Der Abstand in horizontaler Richtung (xAchse) entspricht dabei dem Wert für das unabhängige Merkmal, der
Abstand in vertikaler Richtung (y-Achse) dem des abhängigen.
• Die so entstehende Punktewolke lässt die Art der Beziehung beider
Variablen schnell erkennen: ob sie stark oder schwach, linear oder nichtlinear, positiv der negativ ist
• Für obige Beispielvariablen erhalten wir folgendes Streudiagramm:
monatl. Nettoeinkommen in Euro (y)
4000
3000
2000
1000
20
30
40
50
60
70
Lebensalter in Jahren (x)
• Erkennbar wird bereits, dass (bis zu einem gewissen Grad) höheres Alter
auch höheres Einkommen bedeutet. Dass dies nicht für alle Personen gilt,
hat ja bereits die schwache Korrelation von r = 0,398 angezeigt.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 37 von 51
Die Regressionsgerade
• Die Gleichung der Regressionsgeraden lautet (wie jede andere Gleichung
einer Geraden auch): yˆ i = a + b( xi )
• Mit der Regressionsgeraden lassen sich nun Werte vorhersagen, genauer:
die Werte, die auf dieser Geraden liegen sind Vorhersagewerte (auch:
Regressionswerte) und werden mit ŷ i bezeichnet
• Damit eine Vorhersage möglichst fehlerfrei geschieht, gilt es eine Gerade
zu finden, die die Punktewolke des Streudiagramms am besten
repräsentiert.
• Diese Gerade muss so gelegt werden, dass die Abweichung aller Punkte
im Diagramm von dieser Geraden minimal ist, verglichen mit jeder
anderen Geraden, die sich theoretisch in die Punktewolke einzeichnen
ließe
• Eine solche Gerade erhält man mit der sog. Methode der kleinsten
Quadrate. Diese Methode enthält zwei Regeln:
1. Die Summe der Abweichungen der einzelnen yi -Werte von der Geraden
soll gleich Null sein: ∑ ( y i − yˆ i ) = 0
2. die Summe der quadrierten Abweichungen der einzelnen yi -Werte von
der Geraden soll ein Minimum ergeben: ∑ ( yi − yˆ i ) 2 = min
• Nur wenn eine Gerade diese Eigenschaften erfüllt, ist sie als
Regressionsgerade zu bezeichnen; nur dann repräsentiert sie die
Punktewolke am besten, verglichen mit jeder anderen Geraden.
• Damit nun die Regressionsgerade die Bedingungen der Methode der
kleinsten Quadrate erfüllt, muss die Konstante a sowie der
Regressionskoeffizient b aus der Gleichung der Geraden yˆ i = a + b( xi ) mit
folgenden Formeln bestimmt werden:
cov( x, y ) ∑ ( xi − x )( yi − y )
b=
=
a = y − bx
2
sx
∑ ( xi − x )2
Merke:
• Die Konstante a ist der Schnittpunkt der Geraden mit der y-Achse;
d.h. es ist der Wert, den y annimmt, wenn x = 0 ist
• Der Regressionskoeffizient b ist die Steigung der Geraden, d.h. steigt x
um eine Einheit, dann steigt y um den Wert b.
Ist b positiv, dann steigt die Gerade und beide Variablen stehen in
positiver Beziehung zueinander;
ist b negativ dann fällt sie und beide Variablen stehen in negativer
Beziehung zueinander;
Ist b gleich Null, dann verläuft die Gerade parallel zur x-Achse und
beide Variablen stehen in keiner Beziehung zueinander
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 38 von 51
• Die Gleichung der Regressionsgeraden lässt sich nun für unsere obigen
Beispielvariablen (s.o.) leicht bestimmen:
b=
32000
= 21,739
1472
a = 2200 − 21,739(42) = 1286,962
Damit lautet die Gleichung der Regressionsgeraden:
yˆ = 1286,962 + 21,739( xi )
monatl. Nettoeinkommen in Euro (y)
4000
3000
2000
1000
20
30
40
50
60
70
Lebensalter in Jahren (x)
Anhand der Interpretation des Koeffizienten b wird deutlich:
• Steigt das Lebensalter um 1 Jahr, steigt das Einkommen um 21,739 Euro
• D.h.: Pro Jahr steigt das Einkommen um den Wert b
• Die Steigung b hat damit die Einheit: Euro pro Lebensjahr
Setzen wir für xi nun beliebige Werte ein, dann erhalten wir ŷ -Vorhersagewerte:
• Eine 30jährige Person kann beispielsweise – auf Basis dieser Daten – mit
einem monatlichem Nettoeinkommen von durchschnittlich
1286,962 + 21,739(30) = 1939,132 Euro rechnen. Eine 31jährige Person mit
1960,871, also genau 21,739 Euro mehr.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 39 von 51
Der Determinationskoeffizient r2
• Der Determinationskoeffizient beschreibt den (prozentualen) Anteil der
durch die x-Variable erklärten bzw. vorhergesagten Streuung an der
Gesamtstreuung von y
Zur Logik von r2:
• r2 ist ein Maß der proportionalen Fehlerreduktion (PRE)
• d.h.: die beste Vorhersage der y-Variablen ohne Kenntnis der x-Variablen
ist das arithmetische Mittel y . Der Vorhersagefehler, der dabei entsteht,
ist die Streuung der beobachteten Werte um y : dies ist die
Gesamtstreuung (Varianz von y)
• die beste Vorhersage der y-Variablen mit Kenntnis der x-Variablen ist die
Regressionsgerade bzw. die Punkte auf der Regressionsgeraden. Der
Vorhersagefehler, der dabei entsteht, ist die Streuung der beobachteten
Werte um die Regressionsgerade: dies ist die nicht-erklärte Streuung
Varianzzerlegung
• Die Gesamtstreuung von y setzt sich aus zwei Komponenten zusammen:
ein Streuungsanteil von y, der durch die x-Variable
erklärt/vorhergesagt wird
ein Streuungsanteil von y, der nicht durch die x-Variable
erklärt/vorhergesagt wird (sondern durch andere Faktoren, die uns
unbekannt sind)
Dieser Zusammenhang wird in folgender Abbildung schematisch verdeutlicht:
Damit ergibt sich folgende Gleichung:
Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 40 von 51
Die Gesamtstreuung ist nichts anderes als die Varianz von y:
sy
2
=
∑ (y
i
− y)2
n
Graphisch dargestellt:
Die erklärte Streuung beschreibt die Streuung der vorhergesagten
Regressionswerte um das arithmetische Mittel der abhängigen y-Variablen:
s yˆ
2
∑ ( yˆ
=
i
− y) 2
n
Graphisch dargestellt:
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 41 von 51
Die nicht-erklärte Streuung beschreibt die Streuung der beobachteten Werte
um die vorhergesagten Regressionswerte:
s ( y − yˆ )
∑(y
=
2
i
− yˆ ) 2
n
Graphisch dargestellt:
Damit erhalten wir folgende Gleichung:
Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung
2
2
⇔ s y = s yˆ + s ( y − yˆ )
2
daraus folgt:
∑(y
i
− y) 2
n
∑ ( yˆ
=
i
− y) 2
n
∑(y
+
i
− yˆ ) 2
n
Dividieren wir nun beide Seiten mit
∑(y
∑(y
i
− y) 2
i
− y) 2
∑ ( yˆ
=
∑(y
i
− y) 2
i
− y) 2
∑(y
+
∑(y
Daraus folgt:
∑ ( yˆ
1=
∑(y
i
− y) 2
i
− y) 2
∑(y
+
∑(y
i
− yˆ ) 2
i
− y)2
i
− yˆ ) 2
i
− y) 2
⇔ ∑ ( y i − y ) 2 = ∑ ( yˆ i − y ) 2 + ∑ ( y i − yˆ ) 2
∑(y
i
− y ) 2 , so erhalten wir:
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 42 von 51
Die letzten zwei Schritte noch einmal in Worten:
Gesamt var iation erklärteVariation nicht.erklärteVariation
=
+
Gesamt var iation Gesamt var iation
Gesamt var iation
Daraus folgt:
1 = erklärter Variationsanteil + nicht erklärter Variationsanteil
Der durch x erklärte Variationsanteil wird nun mit r2 bezeichnet:
r2
1=
+
(1-r2)
Demnach berechnet sich der Determinationskoeffizient r2 über die Formel:
erklärteVariation
=
r =
Gesamt var iation
2
∑ ( yˆ
∑(y
i
− y)2
i
− y)2
• Demzufolge repräsentiert der Determinationskoeffizient jenen Anteil der
Gesamtvariation von y, der durch x erklärt, vorhergesagt oder
„determiniert“ wird
• Der sog. Koeffizient der Nichtdetermination (1-r2) gibt den Anteil an, der
nicht durch die x-Variable erklärt wird; er sagt dem Forscher also,
inwieweit andere Faktoren einen Einfluss auf die abhängige Variable
haben
• So ist beispielsweise die Höhe des monatl. Nettoeinkommens (y) nur zu
einem gewissen Teil durch das jeweilige Lebensalter (x) zu erklären; den
Rest bestimmen andere, uns unbekannte Faktoren (wie z.B.
„Bildungsniveau“, „Leistungsbereitschaft“, etc.)
Zur Berechnung von r2 (bezogen auf obige Beispielvariablen):
Person
x
y
A
B
C
D
E
F
G
H
I
J
Σ10
22
28
32
36
40
44
48
52
56
62
1200
2400
1400
2600
1800
2800
3200
1600
3000
2000
yi − y
( yi − y ) 2
-1000 1000000
200
40000
-800
640000
400
160000
-400
160000
600
360000
1000 1000000
-600
360000
800
640000
-200
40000
Σ4400000
ŷ i
yˆ i − y
1765,2200
1895,6540
1982,6100
2069,5660
2156,5220
2243,4780
2330,4340
2417,3900
2504,3460
2634,7800
-434,7800
-304,3460
-217,3900
-130,4340
-43,47800
43,478000
130,43400
217,39000
304,34600
434,78000
( yˆ i − y ) 2
189033,65
92626,488
47258,412
17013,028
1890,3365
1890,3365
17013,028
47258,412
92626,488
189033,65
Σ695643,83
Mark Lutter
r2 =
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 43 von 51
695643,83
= 0,1581
4400000
Multiplizieren wir r2 mit 100, so erhalten wir eine bequem zu interpretierende
Prozentangabe:
Der durch die Variable „Lebensalter“ erklärte Varianzanteil an der
Gesamtvarianz der Variable „monatl. Nettoeinkommen“ beträgt 15,81%.
Der Koeffizient der Nichtdetermination beträgt: 1 – 0,1581 = 0,8419
Damit bleiben ca. 84% Varianzanteil unerklärt.
Berechnung von r2 über Pearsons r:
2
• Durch Quadrierung von Pearsons r kann r direkt bestimmt werden, sofern
r bereits bekannt ist: 0,3982 = 0,158
• An diesem Ergebnis wird deutlich, dass bei einer Korrelation von fast 0,4
lediglich 16% der Gesamtvarianz erklärt wird.
• Umgekehrt kann Pearsons r über r2 (sofern bekannt) bestimmt werden
mit: r = r 2 , dann jedoch wird nicht sichtbar, ob es sich um eine negative
oder positive Beziehung handelt
Regressionsanalyse mit SPSS
Eine mit der Statistik-Software SPSS durchgeführte Regressionsanalyse erzeugt
i. d. R. einen Output mit drei Tabellen. Mit obigen Beispielvariablen sieht es
folgendermaßen aus:
Modellzusammenfassung
Modell
1
R
R-Quadrat
,398a
,158
Korrigiertes
R-Quadrat
,053
Standardf
ehler des
Schätzers
680,47
a. Einflußvariablen : (Konstante), Lebensalter in Jahren
(x)
• Unter „Modellzusammenfassung“ findet sich Pearsons r mit 0,398, sowie
r2 mit 0,158
• Zu beachten ist hier, dass r ohne Vorzeichen abgedruckt wird. Ob es sich
um eine positive oder negative Beziehung handelt, ist dem Vorzeichen der
Steigung b zu entnehmen (s.u.).
• Das korrigierte r2 ist hier zu vernachlässigen, da es sich um eine bivariate
Regression handelt. Bedeutsam wird es erst bei einer multiplen
Regression. Sobald nämlich mehrere unabhängige Variablen in die
Analyse einbezogen werden, erhöht sich r2 künstlich, sodass in diesem
Falle das korrigierte r2 zur Interpretation herangezogen werden muss.
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 44 von 51
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
695652,2
3704348
4400000
df
1
8
9
Mittel der
Quadrate
695652,17
463043,48
F
1,502
Signifikanz
,255a
a. Einflußvariablen : (Konstante), Lebensalter in Jahren (x)
b. Abhängige Variable: monatl. Nettoeinkommen in Euro (y)
• Unter „ANOVA“ (analysis of variance) finden wir die Quadratsumme der
Gesamtvariation („Gesamt“ = 4400000), die sich zusammensetzt aus der
Quadratsumme der erklärten Variation („Regression“ = 695652,2) und der
nicht-erklärten Variation („Residuen“ = 3704348)
695652 + 3704348 = 4400000
• Deutlich wird hier auch noch einmal die Logik von r2: Wie erkennbar, ist
der Determinationskoeffizient nichts anderes als der (relative) Anteil der
erklärten Variation an der Gesamtvariation: r 2 =
695652
= 0,1581
4400000
Koeffizientena
Modell
1
(Konstante)
Lebensalter in Jahren (x)
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
1286,957
775,372
21,739
17,736
Standardi
sierte
Koeffizien
ten
Beta
,398
T
1,660
1,226
Signifikanz
,136
,255
a. Abhängige Variable: monatl. Nettoeinkommen in Euro (y)
• Unter „Koeffizienten“ finden wir die Komponenten der Gleichung der
Regressionsgeraden: Konstante a = 1286,957 sowie Steigung b = 21,739
• Die Gleichung der Regressionsgeraden lautet demnach:
yˆ = 1286,957 + 21,739( xi )
Mark Lutter
4.
SMS I Tutorium
Analyse von Kreuztabellen
Gesamtprozentwerte
Teil I „Deskriptive Statistik“
mit
SPSS
/
Seite 45 von 51
Zeilen-,
Spalten-
u.
• Mit SPSS ist es möglich, sich Kreuztabellen in mehreren Varianten
ausgeben zu lassen, so z.B. mit den beobachteten und den erwarteten
Häufigkeiten oder zusätzlich versehen mit Zeilen-, Spalten- und
Gesamtprozentwerten
Hier wurden folgende zwei Variablen kreuztabuliert:
• Geschlecht (Mann, Frau)
• Telefonnummer ins Telefonbuch eingetragen (Ja, Nein)
TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN * GESCHLECHT, BEFRAGTE<R>
Kreuztabelle
TELEFONNUMMER
IN TELEFONBUCH
EINGETRAGEN
JA
NEIN
Gesamt
Anzahl
Erwartete Anzahl
% von
TELEFONNUMMER IN
TELEFONBUCH
EINGETRAGEN
% von GESCHLECHT,
BEFRAGTE<R>
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von
TELEFONNUMMER IN
TELEFONBUCH
EINGETRAGEN
% von GESCHLECHT,
BEFRAGTE<R>
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von
TELEFONNUMMER IN
TELEFONBUCH
EINGETRAGEN
% von GESCHLECHT,
BEFRAGTE<R>
% der Gesamtzahl
GESCHLECHT,
BEFRAGTE<R>
MANN
FRAU
1173
1379
1159,7
1392,3
Gesamt
2552
2552,0
46,0%
54,0%
100,0%
86,2%
84,4%
85,2%
39,2%
188
201,3
46,0%
255
241,7
85,2%
443
443,0
42,4%
57,6%
100,0%
13,8%
15,6%
14,8%
6,3%
1361
1361,0
8,5%
1634
1634,0
14,8%
2995
2995,0
45,4%
54,6%
100,0%
100,0%
100,0%
100,0%
45,4%
54,6%
100,0%
Anzahl
• In der Zeile „Anzahl“ sind die beobachteten Häufigkeiten eingetragen
Erwartete Anzahl
• In der Zeile „Erwartete Anzahl“ sind die erwarteten Häufigkeiten eingetragen
• Wie wurden sie berechnet?
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 46 von 51
Zeilenprozentwerte
• In der Zeile „% von TELEFONNUMMER INS TELEFONBUCH EINGETRAGEN“ addieren
sich die Prozentwerte jeweils zeilenweise zu 100%. Zu lesen sind die
Prozentwerte wie folgt:
• von denen, die ihre Telefonnummer ins Telefonbuch eintragen, sind
46,0% männlich und 54,0% weiblich
• von denen, die ihre Telefonnummer nicht ins Telefonbuch eintragen
lassen, sind 42,4% männlich und 57,6% weiblich
Die Basis bildet jedes Mal die Zeilensumme!
• Wie wurden die Prozentwerte berechnet?
Spaltenprozentwerte
• In der Zeile „% von GESCHLECHT, BEFRAGTE<R>“ addieren sich die
Prozentwerte jeweils spaltenweise zu 100%
• Von allen befragten Männern lassen sich 86,2% ins Telefonbuch
eintragen, während 13,8% dies nicht tun
• Von allen befragten Frauen lassen sich 84,4% ins Telefonbuch eintragen,
während 15,6% dies verweigern
Die Basis bildet jedes Mal die Spaltensumme!
• Wie wurden die Prozentwerte berechnet?
Gesamtprozentwerte
Hier bildet jedes Mal die Gesamtsumme die Basis!
• Versucht selbst herauszufinden, wie die Gesamtprozentwerte (% von
Gesamtzahl) zu lesen sind
• Wie wurden die einzelnen Prozentwerte berechnet? Das Nachvollziehen
des Rechenweges vereinfacht die Interpretation und dient der eigenen
Kontrolle!
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 47 von 51
5. Diverse Übungsaufgaben
1)
Aus einer Befragung von 20 Studenten darüber, wie viel Stunden sie in der Woche arbeiten, haben sich folgende Werte
ergeben:
40, 40, 30, 30, 20, 20, 20, 20, 16, 16, 16, 12, 12, 6, 6, 6, 4, 4, 0, 0
a)
b)
c)
Erstellen Sie mit diesen Werten eine Tabelle mit den absoluten, relativen und prozentualen
Häufigkeiten.
Berechnen Sie folgende Parameter: Arithmetisches Mittel, Median, Modus, Range, Varianz,
Standardabweichung
Erstellen Sie einen Boxplot sowie ein Stem-And-Leaf-Display
2)
In welcher Relation stehen in einer rechtsschiefen Verteilung das arithmetische Mittel, der Median und der Modus
zueinander?
3)
Gegeben sind folgende 12 Messwerte: 5, 5, 5, 4, 4, 2, 0, 0, 10, 11, 13, 13. Transformieren sie die Daten so, dass sie einen
Mittelwert von 0 und eine Standardabweichung von 1 haben.
4)
Stellen Sie eine Kreuztabelle auf, bei der Chi-Quadrat den Wert Null annimmt und mindestens eine der Zellen eine
Häufigkeit ungleich Null aufweist
5)
Bitte beurteilen Sie den statistischen Zusammenhang der folgenden Kontingenztabelle.
X1
X2
Y1
25
5
30
Y2
25
5
30
50
10
60
a) Welche der folgenden Aussagen sind richtig ?
Es besteht ein mittlerer, positiver Zusammenhang
Es besteht ein schwacher Zusammenhang
Die Variablen stehen in Beziehung zueinander
Die Variablen sind statistisch voneinander unabhängig
Es besteht eine perfekte Beziehung zwischen den Variablen
Es besteht eine starke Beziehung zwischen den beiden Variablen
Chi-Quadrat ist größer als Null
Chi-Quadrat ist kleiner als Null
Chi-Quadrat ist gleich Null
b) Welchen Wert erreicht Phi?
6)
Welche der folgenden Maßnahme(n) ist (sind) bei einer ordinalskalierten Variablen angebracht?
Bildung der arithmetischen Differenz zwischen zwei Werten
Änderung der Benennungen der Skalenwerte
Feststellung, dass ein Variablenwert höher ist als ein anderer
Multiplikation jedes Wertes mit einer Konstanten und anschließende Addition einer Konstanten
7)
In welchen Fällen weist eine Verteilung keine Streuung auf?
Wenn die Verteilung sehr flach ist
Wenn alle Messwerte gleich groß sind
Wenn alle Messwerte mit der gleichen Häufigkeit auftreten
Wenn alle Messwerte mit dem Mittelwert übereinstimmen
Wenn die Varianz genauso groß ist wie der Mittelwert
Wenn die Varianz gleich Null ist
Wenn die Standardabweichung gleich Null ist
Wenn die Standardabweichung gleich 1 ist
Wenn der Range gleich der Standardabweichung ist
Wenn die Verteilung extrem rechts- oder linksschief ist
Wenn alle Messwerte mit dem Modus übereinstimmen
Wenn es nur einen Messwert gibt
Mark Lutter
8)
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 48 von 51
Worin unterscheiden sich Ordinalskala und Intervallskala? Bitte kreuzen Sie die richtige(n) Lösung(en) an.
Bei einer Ordinalskala können an Objekten nur verschiedene Ausprägungen unterschieden werden, während bei einer
Intervallskala auch die exakten Abstände zwischen den Ausprägungen angegeben werden können.
Das Messen auf ordinalem Messniveau bedeutet nichts anderes als die Klassifikation von Untersuchungseinheiten
hinsichtlich ihres Besitzens oder Nichtbesitzens einer Merkmalsausprägung, während bei einer Intervallskala die
Merkmalsausprägungen ihrer Größe nach geordnet werden können.
Während beim Messen auf ordinalem Messniveau exakte Abstände zwischen den verschiedenen Merkmalsausprägungen
angegeben werden können, kann bei einer Intervallskala auch ein absoluter Nullpunkt angegeben werden.
Bei einer Ordinalskala werden die Objekte im Hinblick auf den Grad, in dem sie eine bestimmte Merkmalsausprägung
besitzen, geordnet, während bei einer Intervallskala nicht nur verschiedene Ausprägungsgrade unterschieden werden, sondern
auch die exakten Abstände zwischen ihnen angegeben werden können.
9)
Welche Aussage(n) ist (sind) richtig?
Der Median ist anfällig für Extremwerte
Der Median eignet sich für nominalskalierte Variablen
Der Median eignet sich nicht für extrem schiefe Verteilungen
Der Median ist ein Gütemaß für das arithmetische Mittel
Das arithmetische Mittel ist unempfindlich gegenüber Extremwerten
Der Modus kann nur für ordinale Daten berechnet werden
Das arithmetische Mittel setzt zumindest nominalskalierte Variablen voraus
Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel
Der Median halbiert eine geordnete Reihe von Messwerten
10) Bei zwei Umfragen unter Studierenden haben sich einmal 60 % von 100 Befragten und einmal 38 % von 1000 Befragten
für die Abschaffung der Statistikveranstaltung ausgesprochen. Wie viel Prozent aller befragten Studierenden haben sich dann
für die Abschaffung der Statistikveranstaltung ausgesprochen?
11) Wie groß ist die Summe aller Abweichungen vom arithmetischen Mittel?
grundsätzlich eine positive Zahl
kann jede beliebige reelle Zahl sein
hängt von der Größe der einzelnen Messwerte ab
ist immer gleich Null
12) Für eine Stichprobe vom Umfang n = 10 wurde ein arithmetisches Mittel von 8 berechnet. Später stellte sich heraus, dass die
beiden Messwerte x11 = 1 und x12 = 3 vergessen wurden. Wie lautet der Mittelwert für die gesamte Stichprobe vom Umfang n
= 12?
13)
Von 10 Studierenden sind die folgenden Vordiplom- und Diplom- Noten festgehalten:
Student
1 2 3 4 5 6 7 8 9 10
Vordiplom 1 2 5 5 4 3 4 3 4 5
Diplom
1 1 4 4 3 2 5 4 4 4
a)
b)
Berechnen Sie den Rangkorrelationskoeffizienten nach Spearman.
Interpretieren Sie das Ergebnis.
14) Acht Studenten wollen feststellen, ob ein Zusammenhang existiert zwischen ihrem Zeiteinsatz pro Woche zur Vorbereitung der
Statistik-Klausur und der von ihnen erzielten Klausurnote. Sie erstellen dabei folgende Tabelle:
a)
b)
Student
1
2
3
4
5
6
7
8
Zeiteinsatz in Std.
Klausurnote
20 18 16 24 25 15 11 8
2.3 2.7 3.3 1.7 2.0 3.0 1.3 5.0
Berechnen Sie den Rangplatzkoeffizienten nach Spearman.
Welche Schlussfolgerung ziehen Sie aus dem Ergebnis?
15) Bitte konstruieren Sie zwei aus 6 Paaren bestehende Rangordnungen, zwischen denen der Rangkorrelationskoeffizient nach
Spearman 1 wird.
Paar:
1
2
3
4
5
6
-----------------------------------------------------------------Rangordnung 1:
Rangordnung 2:
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 49 von 51
16) Welche Zusammenhangsmaße sind ab welchem Messniveau anwendbar?
Maßzahl
nominal
ordinal
metrisch
Tau-a
Chi-Quadrat
Gamma
Prozentsatzdifferenz
Pearsons r
Tau-b
Spearmans
Rho
Cramers V
17) Welche Eigenschaften besitzt das arithmetische Mittel?
Das arithmetische Mittel trennt eine Verteilung immer in die unteren und die oberen 50%.
Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so erhöht sich das arithmetische Mittel um diese Zahl.
Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so muss man das alte arithmetische Mittel mit dieser
Zahl multiplizieren, um das neue arithmetische Mittel zu erhalten.
Das arithmetische Mittel verändert sich auch, wenn man zu jedem Messwert den Wert 0 addiert.
Das arithmetische Mittel verändert sich, wenn man eine Menge von Messwerten um einen weiteren Messwert 0
erweitert.
Das arithmetische Mittel ist immer größer als die Standardabweichung.
18) In einem Betrieb arbeiten 10 Personen. 5 Personen haben ein Monatseinkommen von 2500,- €, die übrigen 5 Personen haben ein
Einkommen von jeweils 2600,-, 2700,-, 2800,-, 2900,- und 3000,- €. Der Betrieb stellt einen neuen, zusätzlichen Mitarbeiter als
Führungskraft mit einem Einkommen von monatlich 10000,- € ein.
Welche Auswirkungen ergeben sich dadurch auf den Modus, den Median, und das arithmetische Mittel der Monatseinkommen
aller Mitarbeiter?
Der Modus vergrößert sich.
Der Median vergrößert sich.
Das arithmetische Mittel vergrößert sich.
Es zeigen sich keinerlei Auswirkungen auf Modus, Median und arithmetisches Mittel.
19) In zwei Gruppen A und B werden die Variablen X und Y gemessen. Beide Gruppen haben ungefähr gleiche Mittelwerte und
Varianzen. In Gruppe A liegt aber eine positive Korrelation der beiden Variablen vor, in Gruppe B jedoch eine etwa gleich große
negative Korrelation.
a) Zeichnen Sie ein Streudiagramm für die aus den Gruppen A und B bestehende Gesamtgruppe.
b) Welche Korrelation erwarten Sie in der Gesamtgruppe (also für A und B zusammen)?
20) Erläutern Sie das Prinzip zur Ermittlung der Regressionsfunktion nach dem Kriterium der kleinsten Quadrate.
21) In einem Unternehmen wurden im ersten Halbjahr des Jahres 1999 für unterschiedliche Mengen eines Produktes die in der
folgenden Tabelle angegebenen Gesamtkosten für dieses Produkt berechnet:
Monat
Menge in 1000 Stück
(X)
2
3
4
6
7
8
Januar
Februar
März
April
Mai
Juni
a)
b)
c)
Gesamtkosten in 1000 DM
(Y)
30
35
55
75
80
85
Prüfen Sie mit Hilfe eines Streudiagramms, ob zwischen beiden Merkmalen ein Zusammenhang besteht und von welchem Typ
dieser Zusammenhang gegebenenfalls ist.
Ermitteln Sie die für die Regressionsgleichung y=a+bx erforderlichen Regressionskoeffizienten a und b.
Berechnen und interpretieren Sie Pearsons Produkt-Moment-Korrelationskoeffizienten r.
22) Für den linearen Zusammenhang zwischen den Merkmalen „monatliche Mietausgaben in €“ (y) und „monatliches
Nettoeinkommen in €“ (x) wurde nach der Methode der kleinsten Quadrate folgende Regressionsfunktion gefunden:
y´ = 0,2x + 100
Welche der folgenden Aussagen trifft Ihrer Meinung nach zu?
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 50 von 51
Die Mietausgaben der untersuchten Haushalte betragen im Durchschnitt 20% des Einkommens.
Die durchschnittlichen Mietausgaben betragen bereits 100 €, wenn der Haushalt keinerlei Einkommen besitzt.
Die Regressionsfunktion enthält einen Fehler, da bei Haushalten unter 125 € Nettoeinkommen die Mietausgaben das
Einkommen übersteigen.
Bei einem monatlichen Nettoeinkommen von 1000 € liegen die monatlichen Mietausgaben durchschnittlich bei 300 €.
Eine Einkommenssteigerung von 1% führt im Durchschnitt der untersuchten Haushalte zu einer Mietsteigerung von
0,2%.
Je geringer das Einkommen der untersuchten Haushalte, desto geringer im durchschnitt die Mietausgaben.
23) Welchen Vor- oder Nachteil hat es, wenn bei Vorliegen einer deutlich nicht-linearen Beziehung zwischen 2 Variablen X und Y
Pearsons r berechnet wird?
24) Wie hoch muss die Korrelation (also Pearsons r) zwischen 2 Variablen X und Y sein, damit 30% der Streuung von Y durch X
erklärt wird?
25) Welche Beziehung(en) bestehen zwischen Pearsons r und Spearmans Rho?
26) Worüber gibt der Regressionskoeffizient b (aus der Regressionsgleichung y=a+bx) Auskunft?
27) Worüber gibt der Regressionskoeffizient a (aus der Regressionsgleichung y=a+bx) Auskunft?
28) Eine mit SPSS erstellte Regressionsanalyse zwischen der unabhängigen Variablen Alter und der abhängigen Variablen
monatliches Nettoeinkommen hat folgenden Output ergeben:
Modellzusammenfassung
Modell
R
R-Quadrat
Korrigiertes R-Quadrat
,209
,207
df
Mittel der Quadrate
Regression
421448856,364
1
Residuen
1597691074,525
439
Gesamt
2019139930,889
440
a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65)
b Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>
421448856,364
3639387,413
1
,457
a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65)
Standardfehler des
Schätzers
1907,72
ANOVA
Modell
Quadratsumme
1
F Signifikan
z
115,802
,000
Koeffizienten
Modell
1
(Konstante)
Nicht
standardisierte
Koeffizienten
B
Standardfehler
-404,217
294,126
Standardisierte
Koeffizienten
Erwerbsfähiges
82,330
7,651
Alter (18-65)
a Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>
a)
b)
c)
d)
e)
f)
g)
T
Signifikanz
-1,374
,170
10,761
,000
Beta
,457
Wie hoch ist die Produkt-Moment-Korrelation nach Pearson?
Wie viel Prozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch die x-Variable (Alter) erklärt?
Wie viel Prozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch andere, unbekannte Faktoren
erklärt?
Woran ist erkennbar, ob die beiden Variablen in positiver oder negativer Beziehung zu einander stehen?
Wie lautet die Gleichung der Regressionsgeraden?
Mit welchem monatl. Nettoeinkommen kann, auf Basis dieser Regressionsanalyse, eine 50jährige Person durchschnittlich
rechnen?
Was ist in der ANOVA Tabelle unter „Regression“, „Residuen“ und „Gesamt“ zu verstehen?
Mark Lutter
SMS I Tutorium
Teil I „Deskriptive Statistik“
Seite 51 von 51
6. Literaturverzeichnis
Unverzichtbare Basisliteratur & Exzellente Darstellung des Stoffs:
Benninghaus, Hans: Einführung in die sozialwissenschaftliche
Datenanalyse, 5. Auflage, München, Wien, 1998.
Bortz, Jürgen: Statistik für Sozialwissenschaftler, 4. Auflage,
Berlin, 1993.
Alles relevante für die Klausur steht in:
Faulbaum, Frank: Vorlesungs-Skript SMS I/A
Ebenfalls sehr wichtig für die Klausurvorbereitung:
Sämtliche Musterklausuren
Sehr gut zum Selbststudium eignet sich:
Clauß, G.; Finze, F.-R. ; Partzsch, L. : Statistik für Soziologen,
Pädagogen, Psychologen und Mediziner. Band I: Grundlagen, 2.
Auflage, Frankfurt / Main, 1995.
Sehr formal, aber dafür sehr korrekt:
Bamberg, G.; Baur, F.: Statistik, 10. Auflage, München, Wien,
1998.
Darüber hinaus lohnt sich:
Krämer, Walter: So lügt man mit Statistik, Frankfurt / Main, 1991.
Krämer, Walter: Statistik verstehen, Frankfurt / Main, 1992.
Herunterladen