PDF_Lösungen

Werbung
Heinz Holling & Günther Gediga
Statistik - Deskriptive Verfahren
Lösungen zu den Übungen
Version 15.12.2010
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
Inhaltsverzeichnis
1 Lösung zu Übung 1; Kap. 4
3
2 Lösung zu Übung 2; Kap. 5
5
3 Lösung zu Übung 3; Kap. 6
7
4 Lösung zu Übung 4; Kap. 7
9
5 Lösung zu Übung 5; Kap. 7
10
6 Lösung zu Übung 6; Kap. 8
12
7 Lösung zu Übung 7; Kap. 8
13
8 Lösung zu Übung 8; Kap. 8
14
9 Lösung zu Übung 9; Kap. 8
16
10 Lösung zu Übung 10; Kap. 9
17
11 Lösung zu Übung 11 Kap. 10
18
12 Lösung zu Übung 12 Kap. 10
19
2
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
1
Lösung zu Übung 1; Kap. 4
1. Jahreseinkommen:
Die Messung kann über das Brutto- oder Nettogehalt in EURO oder durch Hochrechnen eines Monatsgehalts erfolgen. Es handelt sich hier um eine Messung auf Verhältnisskaleniveau
(absoluter Nullpunkt vorhanden, Abstände interpretierbar).
2. soziale Schicht:
Die Messung kann durch die Einteilung in drei Kategorien (Unter-, Mittel- und Oberschicht,
in der Literatur oft anzutreffen) erfolgen oder auch durch die Erhebung der Ausprägungen verschiedener Merkmale wie Zugehörigkeit zu bestimmten Einkommenskategorien, Schulabschluss,
Wohnsituation. Die Messung erfolgt hier auf dem Niveau einer Ordinalskala (Ausprägungen
können geordnet werden, Abstände nicht interpretierbar).
3. Depressivität:
Zur Messung kann hier ein Fragebogen eingesetzt werden. Dabei gibt die Person beispielsweise
den Grad ihrer Zustimmung (etwa fünf Antwortkategorien von stimme überhaupt nicht zu“ bis
”
stimme voll zu“) zu Aussagen wie Ich habe häufig traurige Gedanken.“, Ich habe Schwierigkei”
”
”
ten aufzustehen.“ oder Ich finde alles uninteressant.“ an. Ordnet man den Antwortmöglichkeiten
”
die Zahlen 1 − 5 (entsprechend stärkerer Zustimmung) zu, so kann man die Zahlenwerte, die den
Antworten entsprechen, über alle Aussagen im Fragebogen summieren. In der Regel geht man
davon aus, dass hiermit eine Messung auf dem Niveau einer Intervallskala möglich ist, weil die
Abstände zwischen den fünf Antwortkategorien als gleich groß angenommen werden.
4. Geschlecht:
Das Geschlecht wird in die Kategorien männlich und weiblich eingeteilt. Es kommt also nur
in zwei Ausprägungen vor. Den Kategorien können beliebige Zahlen (zum Beispiel männlich 0
und weiblich 1) zugeordnet werden. Diese zugeordneten Zahlen müssen eindeutig für nur eine
der beiden Kategorien stehen und sind selbst nicht interpretierbar. Die Messung erfolgt also auf
dem Niveau einer Nominalskala.
5. Temperatur:
Zur Messung wird in der Regel ein Thermometer eingesetzt. Es gibt keinen natürlichen Nullpunkt. Die Temperatur kann beispielsweise in Fahrenheit und in Celsius angegeben werden.
Wasser friert bei 32 ◦ F bzw. 0 ◦ C. Die Aussage, 20 ◦ C seien doppelt so viel wie 10 ◦ C, ist nicht
sinnvoll. Die Messung erfolgt damit auf dem Niveau der Intervallskala und nicht auf dem Niveau einer Verhältniskala. Es ist kein absoluter Nullpunkt vorhanden; Vergleiche von Differenzen
zwischen Temperaturen sind jedoch sinnvoll).
6. Schulnoten:
Bei den Schulnoten können die Kategorien 1 − 6 in eine hierarchische Ordnung gebracht werden.
Das bedeutet für das deutsche Schulsystem, 1 ist die beste Leistung und 6 die schlechteste.
Schulnoten haben also mindestens Ordinalskalenniveau. Strittig ist jedoch, ob die Abstände
zwischen den Noten interpretierbar sind. Der Abstand zwischen den Noten 1 und 2 müsste dann
beispielsweise den gleichen Leistungsunterschied abbilden wie der Abstand zwischen den Noten
4 und 5. Würde man davon ausgehen, dass die Abstände gleich gross sind, könnte die Messung
auch auf dem Niveau einer Intervallskala erfolgen.
7. Bindungstypen:
Die Messung der Bindungstypen erfolgt über die Methode der Beobachtung. Ainsworth und Mitarbeiter entwickelten ein Laborverfahren, mit dem es möglich war, das Verhalten von Kindern,
die von der Mutter getrennt eine Zeit lang mit einer fremden Person alleine gelassen wurden,
systematisch zu beobachten. Anhand des Verhaltens der Kinder, welches beim Weggehen und der
3
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
Rückkehr der Mutter beobachtet wurde, wurde der Bindungstyp bestimmt. Die drei Bindungstypen können als Kategorien aufgefasst werden, denen die Babys eindeutig zugeordnet werden.
Die Kategorien sind nicht geordnet und die Messung erfolgt damit auf Nominalskalenniveau.
4
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
2
Lösung zu Übung 2; Kap. 5
1. Balkendiagramm:
2. Stamm-Blatt Diagramm:
Einheiten: Stamm:10, Blätter:1
8899
000112
9
10
Aufgrund der geringen Datenmenge in dieser Aufgabe sind das Balkendiagramm und das StammBlatt-Diagramm gleich informativ, da die einzelnen Ausprägungen und die Anzahl der Ausprägungen aus beiden Diagrammformen direkt abgelesen werden können. Das Balkendiagramm
hat gegenüber dem Stamm-Blatt-Diagramm in diesem Fall jedoch den Vorteil, dass die Verteilung der IQ-Werte besser abgelesen werden kann.
5
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
3. Empirische Verteilungsfunktion:
6
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
3
Lösung zu Übung 3; Kap. 6
1. Zunächst wirdP
der Mittelwert ȳ der Beobachtungen bestimmt. Die Summe aller Beobachtungen
hat den Wert 11
i=1 yi = 74, woraus sich der Mittelwert ȳ = 74/11 = 6.7273 ergibt.
Pn
1
2
2
Die Varianz wird mit der angegebenen rechentechnisch günstigen Formel s2Y = n−1
i=1 yi − nȳ
unter Verwendung der folgenden Tabelle berechnet:
i
yi
yi2
1
2
3
4
5
6
7
8
9
10
11
P
10
8
5
4
5
10
7
0
9
10
6
100
64
25
16
25
100
49
0
81
100
36
74
596
P
Die Summe ni=1 yi2 = 596 der quadrierten Beobachtungen finden wir in der letzten Zeile und
dritten Spalte der Tabelle. Der Mittelwert von ȳ = 6.7273 wurde bereits berechnet. Beide Werte
werden nun in die oben angegebene Formel eingesetzt. Wir erhalten somit für die Varianz das
Ergebnis
1
1
s2Y = 10
(596 − 11 × 6.72732 ) = 10
(596 − 497.82) = 98.18/10 = 9.82.
√
Die Standardabweichung ist sY = 9.82 = 3.13, d. h. die Wurzel aus der Varianz.
Der Index Y am Symbol s2 für die Varianz bzw. s für die Standardabweichung dient hier nur
dazu, um zu verdeutlichen, dass die ursprüngliche (nicht transformierte) Variable Y betrachtet
wird. Bei der Berechnung des Mittelwertes wurden mehr Nachkommastellen verwendet, damit
das Ergebnis für die Varianz und die Standardabweichung hinreichend genau wird.
2. Jede der ursprünglichen Beobachtungen yi kann in eine Beobachtung yi0 auf der Selbsteinschätzungsskala, welche von 0 bis 100 reicht, umgerechnet werden, indem man die in der Aufgabenstellung
angegebene Formel yi0 = 5yi + 50 verwendet. Bei dieser Formel handelt es sich um eine lineare
Transformation der Form yi0 = byi + a (hier ist b = 5 und a = 50).
Man könnte nun tatsächlich jede einzelne der ursprünglichen Beobachtungen transformieren und
dann erneut den Mittelwert, die Varianz und die Standardabweichung für die transformierte Variable Y 0 auf die gleiche Weise wie in Teilaufgabe 1) ausrechnen. Dies ist aber nicht erforderlich,
da wir wissen, wie sich der Mittelwert, die Varianz und die Standardabweichung bei linearen
Transformationen verändern. Konkret bedeutet das, dass der Mittelwert ȳ 0 der transformierten
Beobachtungen ausgerechnet werden kann, indem man die lineare Transformation auf den Mittelwert ȳ = 6.7273 der nicht transformierten Beobachtungen anwendet. Als Ergebnis erhalten
wir dann
ȳ 0 = 5ȳ + 50 = 5 × 6.7273 + 50 = 83.6365.
Die Varianz s2Y 0 der transformierten Beobachtungen kann aus der Varianz s2Y der ursprünglichen
Beobachtungen berechnet werden, indem man s2Y mit dem Quadrat der Steigung b der linearen
7
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
Transformation, also b2 = 52 = 25, multipliziert. Es ergibt sich somit der Wert s2Y 0 = 52 × 9.82 =
245.5. Die Standardabweichung von Y 0 ergibt sich aus der Standardabweichung von Y durch
Multiplikation mit der Steigung b = 5, d. h. sY 0 = bsY = 5 × 3.13 = 15.65.
Bemerkungen: Eigentlich müsste das Quadrat der Standardabweichung sY 0 exakt mit der Varianz
s2Y 0 der transformierten Beobachtungen übereinstimmen. Das ist hier nicht der Fall und liegt
daran, dass wir s2Y und sY in Teilaufgabe 1) nur auf zwei Nachkommastellen genau bestimmt
hatten, also Rundungsfehler vorliegen, die aber vernachlässigbar klein sind. Beachten Sie, dass
die Steigung b bei der Berechnung von s2Y 0 quadriert wird, wogegen b bei der Berechnung der
Standardabweichung sY 0 nicht quadriert wird. Weiterhin gilt sY 0 = bsY nur dann, wenn die
Steigung b positiv ist. Bei einer negativen Steigung b ist die Formel sY 0 = |b|sY zu verwenden.
Der Betrag einer negativen Zahl ist die Zahl ohne das Vorzeichen, z. B. | − 3| = 3.
Die Spannweite und die Varianz sind anfällig gegenüber Ausreißern, während der Interquartilabstand
gegenüber Ausreißern robust ist.
Ausreißer beeinflussen das Minimum und/oder das Maximum der Beobachtungen in einem Datensatz
und wirken sich somit unmittelbar auf die Spannweite aus.
In die Berechnung der Varianz gehen alle Beobachtungen ein. Sehr große oder sehr kleine Beobachtungen, d. h. Ausreißer, liegen weiter vom Mittelwert entfernt als die typischen“ Beobachtungen in
”
einem Datensatz. Bei der Berechnung der Varianz werden diese großen Abweichungen quadriert. Ihr
Einfluss auf die Varianz wird dadurch noch verstärkt.
Die Berechnung des Interquartilabstands basiert auf dem unteren und dem oberen Quartil. Das untere
Quartil teilt den Datensatz im Verhältnis 1 zu 3 in Beobachtungen ein, die höchstens so groß bzw.
mindestens so groß wie das Quartil sind. Ausreißer mit kleinen Werten werden bei der Bestimmung
des unteren Quartils als Werte gezählt“, die zu den 25% der kleinsten Beobachtungen im Datensatz
”
gehören. Wie klein ein Ausreißer ist, spielt für die Berechnung des unteren Quartils bei größeren
Datensätzen keine Rolle. Entsprechend erkennt man, dass auch das obere Quartil nicht von Ausreißern
beeinflusst wird. Lediglich bei relativ kleinen Datensätzen können Ausreißer einen Einfluss auf die
Quartile und damit auf den Interquartilabstand ausüben.
8
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
4
Lösung zu Übung 4; Kap. 7
Die transformierten Werte sind in der folgenden Tabelle dargestellt (Messwerte, die in der Stichprobe
mehrfach auftauchen, sind hier nur einmal aufgeführt):
yi
48
51
55
57
60
62
65
zi
-1.75
-1.15
-.34
.06
.66
1.07
1.67
Zi
82.49
88.53
96.58
100.6
106.64
110.67
116.71
Ti
32.49
38.53
46.58
50.6
56.64
60.67
66.71
Zur Berechnung der Formel ist wie folgt vorzugehen:
Zunächst ist die Formel T = 50 + 10z nach z aufzulösen. Das Ergebnis kann nun in die Formel
Z = 100 + 10z eingesetzt werden. Es ergibt sich:
(T − 50)
10
Nach Vereinfachung erhält man die gewünschte Formel: Z = 50 + T
Z = 100 + 10
9
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
5
Lösung zu Übung 5; Kap. 7
1. Der Mittelwert der Beobachtungen ist ȳ = 1422/15 = 94.8. Der Modalwert ymod ist die Beobachtung, welche am häufigsten im Datensatz vorkommt. Im vorliegenden Fall tritt der Wert 97
dreimal auf, während alle anderen Werte seltener vorkommen. Also ist ymod = 97.
Der Median ymed wird mit Hilfe der Regel zur Bestimmung von Quantilen berechnet, da der
Median ja das 0.5-Quantil ist. Im ersten Schritt werden die Beobachtungen der Größe nach
angeordnet, was folgende Liste liefert:
79, 81, 82, 88, 91, 91, 95, 96, 97, 97, 97, 98, 100, 114, 116.
Im zweiten Schritt zur Bestimmung des p-Quantils wird das Produkt np aus dem Stichprobenumfang n und p berechnet. Hier ist n = 15 und speziell beim Median p = 0.5, d. h. np = 7.5.
Da np keine ganze Zahl ist, wird der Wert zu 8 aufgerundet. Der Median ist dann der (von links
gezählt) achte Werte in der Liste der geordneten Beobachtungen, also ymed = 96.
2. Der Mittelwert ist kleiner als der Median und der Median wiederum kleiner als der Modalwert,
d. h. ȳ < ymed < ymod . Aufgrund der Lageregeln kann die Verteilung der Beobachtungen als
(tendenziell) rechtssteil (linksschief) bezeichnet werden.
3. Zunächst wird die Fünf-Punkte-Zusammenfassung bestimmt. Danach wird geprüft, ob Ausreißer
oder Extremwerte vorliegen. Beim Vorhandensein von Ausreißern oder Extremwerten wird ein
modifizierter Box-Plot erstellt, andernfalls ein nicht modifizierter Box-Plot.
Aus der Liste der geordneten Beobachtungen in Teilaufgabe 1) kann direkt das Minimum ymin =
79 und das Maximum ymax = 116 der Beobachtungen abgelesen werden. Der Median ymed = 96
wurde in Aufgabenteil 1) bestimmt. Es fehlen also noch die beiden Quartile. Für das untere
Quartil y0.25 ist np = 15 × 0.25 = 3.75 keine ganze Zahl. Der Wert wird daher zu 4 aufgerundet.
Das untere Quartil ist dann an der vierten Position in der Liste der geordneten Beobachtungen
zu finden. Also gilt y0.25 = 88. Entsprechend ergibt sich als oberes Quartil y0.75 = 98.
Es ist nun zu überlegen, ob Ausreißer und/oder Extremwerte vorliegen. Ob eine Beobachtung
ein Ausreißer oder Extremwert ist, hängt davon ab, ob sie sehr weit vom unteren oder oberen
Quartil entfernt ist. Beobachtungen, die mindestens um das Anderthalbfache aber höchstens das
Dreifache des Interquartilabstands dQ kleiner als das untere Quartil sind bzw. die mindestens
um das Anderthalbfache aber höchstens das Dreifache von dQ größer als das obere Quartil sind,
werden im modifizierten Box-Plot separat als Ausreißer eingezeichnet. Als Symbol verwenden
wir beim Zeichnen einen Punkt. Beobachtungen, die noch weiter von den Quartilen entfernt
liegen, werden ebenfalls separat im modifizierten Box-Plot als Extremwerte eingezeichnet. Um zu
entscheiden, ob eine Beobachtung ein Extremwert ist, hat man festgelegt, dass die Extremwerte
mehr als das Dreifache des Interquartilabstands vom unteren bzw. oberen Quartil entfernt sein
müssen. Als Symbol für die Extremwerte verwenden wir einen Stern. Für den vorliegenden
Datensatz ist der Interquartilabstand dQ = y0.75 − y0.25 = 98 − 88 = 10. Es gibt genau zwei
Beobachtungen, die das Kriterium für Ausreißer erfüllen, nämlich die Werte 114 und 116, da
diese größer als y0.75 + 1.5dQ = 113 sind. Extremwerte kommen nicht vor.
Insgesamt ergibt sich der folgende Box-Plot.
10
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
4. Der Box-Plot kann wie folgt interpretiert werden: Der Median der Testergebnisse in der Stichprobe liegt beim Wert 96. Ausgehend von den Quartilen kann man erkennen, dass circa 50%
der Schüler ein Ergebnis zwischen den Werten 88 und 98 erreicht haben. Machen Sie sich dazu
klar, dass mindestens 25% der Beobachtungen höchstens so groß sind wie das untere Quartil
und mindestens 25% der Beobachtungen mindestens so groß sind wie das obere Quartil. Für den
Rest“ zwischen den beiden Quartilen bleiben also ungefähr 50% der Beobachtungen übrig.
”
Das niedrigste Testergebnis liegt beim Wert 79. Weiterhin liegen zwei Ausreißer mit hohen Testergebnissen vor. Bei der Datenanalyse würde man häufig zunächst prüfen, ob die Ausreißer
eventuell durch Eingabefehler (z.B. Tippen einer 114 statt einer 111) zustande gekommen sind.
Können Eingabefehler ausgeschlossen werden, würde man je nach Fragestellung eventuell untersuchen, ob die Schüler mit den hohen Testergebnissen vielleicht aus einer anderen Klassenstufe
kommen etc.
Die Verteilung der Daten erscheint rechtssteil. Das erkennt man daran, dass der Median sehr
nahe beim oberen Quartil liegt. Die Begründung dafür, dass ein nahe beim oberen Quartil
liegender Median auf eine rechtssteile Verteilung hindeutet lautet wie folgt: In dem kleinen
Bereich zwischen dem Median und dem oberen Quartil liegen ca. 25% der Daten, ebenso wie in
dem größeren Bereich zwischen Median und unterem Quartil.
In einem Histogramm würde sich dieser Sachverhalt so zeigen, dass die Säulen über den Klassen
im Bereich zwischen dem Median und dem oberen Quartil tendenziell höher sind als über den
Klassen im Bereich zwischen Median und unterem Quartil. Da dieser Bereich größer als der
Bereich zwischen dem Median und dem oberen Quartil ist, entsteht folglich der optische Eindruck
einer rechtssteilen und linksschiefen Verteilung.
Man gelangt also sowohl bei der Verwendung der Lageregel in Teilaufgabe 2) als auch der Verwendung des Box-Plots zur gleichen Beurteilung der Schiefe der Verteilung.
11
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
6
Lösung zu Übung 6; Kap. 8
1. Um die Kovarianz einer Variablen X mit einer anderen zu berechnen, kann man sich der folgenden
rechentechnisch günstigen Variante bedienen:
n
sxy =
1 X
xi yi − nx̄ȳ.
n−1
i=1
Nun ist die Kovarianz von X mit sich selbst von Interesse, y wird daher durch x ersetzt, d.h.
n
sxx
1 X 2
xi − nx̄2 .
=
n−1
i=1
Das ist wiederum die rechentechnisch günstige Variante der Varianz einer Variablen. Man kann
das auch ausgehend von der Definitionsformel der Kovarianz sehen:
sxx
n
n
i=1
i=1
1 X
1 X
=
(xi − x̄) (xi − x̄) =
(xi − x̄)2 = s2x .
n−1
n−1
Es fällt also auf, dass die Kovarianz einer Variablen mit sich selbst gleich der Varianz der Variablen ist. Wir berechnen also nun die Varianz unter Verwendung der rechentechnisch günstigen
Formel:
s2x = .10 × (903 − 11 × 54.22) = 30.66.
2. Unter
Pn Verwendung der rechentechnisch günstigen Formel für die Kovarianz, ergibt sich mit
i=1 xi yi = 381, x̄ = 7.364 und ȳ = 6.727 folgende Rechnung.
n
sxy =
1 X
xi yi − nx̄ȳ
n−1
i=1
sxy = .10 × (381 − (11 × 7.364 × 6.727)) = −16.39.
s
Die Korrelation ist rxy = sxxy
sy , so dass nur noch die Standardabweichungen der Variablen
−16.39
benötigt werden. Diese ergeben sich als sx = 5.54 und sy = 3.12, so dass rxy = 5.54×3.13
= −.945.
Dasselbe Ergebnisse hätte sich natürlich auch bei Anwendung derP
rechentechnisch günstigen Formel für die Korrelation ergeben, wenn man berücksichtigt, dass ni=1 yi2 = 596:
r=√
381 − 11 × 7.364 × 6.727
√
= −.945.
903 − 11 × 7.3642 596 − 11 × 6.7272
12
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
7
Lösung zu Übung 7; Kap. 8
1. Da die Beobachtungen in der Aufgabenstellung schon als Ränge vorliegen, kann der Rangkorrelationskoeffizient rs berechnet werden, indem man die Formel zu Berechnung der normalen“
”
Korrelation r auf die Daten anwendet. Da keine Bindungen vorliegen, kann hier auch die vereinfachte Formel angewendet werden:
P
6 × ni=1 d2i
6 × 34
rs = 1 −
=1−
= .794.
(n2 − 1)n
990
Man würde die Übereinstimmung zwischen den beiden Richtern hier als zufrieden stellend bewerten.
2. Da die Beurteilung des Schweregrads der Verbrechen mittels einer Rangreihe eine auf dem Niveau einer Ordinalskala gemessene Variable darstellt, kommen zur Beurteilung der Übereinstimmung der beiden Richter noch alle weiteren Assoziationsmaße für ordinale Variablen in Betracht.
Zusätzlich zur Rangkorrelation wurden die Koeffizienten γ (Gamma) und Kendalls τb (Tau-b)
behandelt. Diese beiden Koeffizienten basieren auf dem Konzept der konkordanten und diskordanten Paare, wobei bei τb zusätzlich noch die so genannten Bindungen berücksichtigt werden.
Zur Bestimmung der Anzahl C der konkordanten Paare, der Anzahl D der diskordanten Paare,
der Anzahl Tx der Paare mit Bindungen in X (Richter 1) und der Anzahl Ty der Paare mit
Bindungen in Y (Richter 2) sind insgesamt 10 × 9/2 = 45 verschiedene Paare von Zeilen in der
Tabelle zu betrachten. Es ergeben sich die folgenden Zahlen: C = 36, D = 9, Tx = 0, Ty = 0
und Txy = 0. Aus diesen Anzahlen berechnet man
γ=
und
C −D
36 − 9
=
= .6
C +D
36 + 9
C −D
36 − 9
√
p
= .6.
τb = √
=√
36 + 9 + 0 36 + 9 + 0
C + D + Tx C + D + Ty
3. Die Koeffizienten γ und τb stimmen überein. Das liegt daran, dass die Rangreihen der Richter
keine Bindungen enthalten. Die Koeffizienten γ und τb sind kleiner als der Rangkorrelationskoeffizient rs . Dieser Unterschied muss nicht verwundern, wenn man sich klar macht, dass die
Koeffizienten verschiedene Aspekte des Zusammenhangs erfassen.
13
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
8
Lösung zu Übung 8; Kap. 8
1. Zur Berechnung der Zusammenhangsmaße ist zunächst die Berechnung des χ2 -Wertes erforderlich:
Größe des Unternehmens
Fragebogen
Fragebogen nicht
ausgefüllt
ausgefüllt
klein
36
25
61
mittel
38
32
70
groß
28
41
69
102
98
200
Gesamt
Mit
Gesamt
k X
m
X
(nij − ñij )2
χ =
ñij
2
i=1 j=1
und ñij =
ni• n•j
n
ergibt sich der Wert:
χ2 =
61×102 2
2
2
(25 − 61×98
(38 − 70×102
200 )
200 )
200 )
+
+
61×102
61×98
70×102
200
200
200
69×102 2
69×98 2
2
(32 − 70×98
)
(28
−
)
(41
−
200
200
200 )
+
+
+
70×98
69×102
69×98
200
200
200
(36 −
= 4.87
und daraus
s
V =
χ2
=
n min(k − 1, m − 1)
r
4.87
= .16.
200 × 1
2. Cramers V beträgt .16 und deutet somit auf einen eher geringen Zusammenhang zwischen Unternehmensgröße und Ausfüllen des Fragebogens hin.
Zur Berechnung von K ∗ muss zunächst K bestimmt werden:
s
K=
χ2
=
2
χ +n
r
√
4.87
= .024 = .15
204.87
Der Korrigierte Kontingenzkoeffizient K ∗ beträgt dann mit Kmax =
p
1/2 = .71:
K ∗ = K/Kmax = .15/.71 = .21
K ∗ beträgt .21. Es fällt auf, dass sich die Ergebnisse für die beiden Zusammenhangsmaße unterscheiden. Dies verwundert nicht, da auch die Berechnungsvorschriften verschieden sind. Cramers
V ist bei 3 × 2-Tabellen generell gegenüber K ∗ vorzuziehen, weil nur V auch hier den maximalen
Fall von Eins annehmen kann.
3. Als geeignetes PRE-Maß ist hier λ heranzuziehen. Dazu benötigt man die Werte für Fehler1 und
Fehler2 :
Fehler1 = n•• − max n•j = 200 − 102 = 98.
j
14
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
Fehler2 =
k
X
(ni• − max nij ) = (61 − 36) + (70 − 38) + (69 − 41) = 85.
i
i=1
λ=
98 − 85
Fehler1 − Fehler2
=
= .13.
Fehler1
98
Durch Kenntnis der Unternehmensgröße kann die Vorhersage, ob ein Fragebogen ausgefüllt wurde oder nicht, um 13 Prozent verbessert werden im Vergleich zur Vorhersage ohne Kenntnis der
Unternehmensgröße.
15
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
9
Lösung zu Übung 9; Kap. 8
Als Maß der Beurteilerübereinstimmung empfiehlt sich Cohens κ. Zur Berechnung werden die Werte
auf der Hauptdiagonalen der Indifferenztabelle benötigt. Diese betragen:
n˜11 : 35×40
100 = 14,
n˜22 : 35×35
100 = 12.25,
n˜33 : 30×25
100 = 7.5
Im Anschluss können Pa und Pc berechnet werden:
Pa = (25 + 15 + 9)/100 = .49
Pc = (14 + 12.25 + 7.5)/100 = .3375
Daraus folgt:
κ=
0.49 − 0.3375
Pa − Pc
.1525
=
=
= .23
1 − Pc
1 − 0.3375
.6625
16
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
10
Lösung zu Übung 10; Kap. 9
Bei der Regression von Gewicht auf Körpergröße ergaben sich im SPSS-Output folgende fehlende
Werte:
1. SEE:
√
44.893 = 6.70025
Der Standardfehler
des Schätzers wird durch die Wurzel des Mittels der Quadrate der Residuen
√
SSE = M SE berechnet. Für den vorliegenden Fall schwanken die Gewichtswerte mit einer
Standardabweichung von 6.70 kg um die durch die Regressionsgleichung vorhergesagten Werte.
2. SSR : SST - SSE = 1703.6 - 359.146 = 1344.454
Dies ist die Summe der erklärten Abweichungsquadrate.
3. R2 : SSR /SST = 1344.454/1703.6 = .789
78.9 Prozent der Gesamtvariation des Gewichtes wird durch die Körpergröße erklärt.
√
4. R:+ .789 = .888, r=+.888
In diesem Beispiel korrelieren Gewicht und Körpergröße mit r=.888.
17
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
11
Lösung zu Übung 11 Kap. 10
1. ... die Mittelwerte betragen X̄1 = 4, X̄2 = 0.5, Ȳ = 5.125
2. ... die Varianzen betragen s2X1 = 7.429, s2X2 = 0.268, s2Y = 5.839
3. ... die Korrelationen betragen r(X1 , X2 ) = 0, r(X1 , Y ) = 0.260, r(X2 , Y ) = 0.608
4. ... der Determinationskoeffizient R2 der Regressionsgeraden Ŷ = a + b1 × X1 ist 0.068
5. ... der Determinationskoeffizient R2 der Regressionsgeraden Ŷ = a + b1 × X1 + b2 × X2 ist 0.438
18
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
12
Lösung zu Übung 12 Kap. 10
1. Berechnen Sie die Regressionsgerade mit GS als Prädiktor und SQ als abhängiger Variablen.
b = 0.0534
a = 0.7332
2. Wie hoch ist der Determinationskoeffizient der Regressionsanalyse aus Teil 1?
R2 = 0.0155
3. Berechnen Sie den F -Wert für die Regressionsanalysen aus Teil 1.
F = 0.0155/(1-0.0155) * 694 = 10.944
4. Zu klären ist, ob es über den Zusammenhang zwischen GS und der Schulqualität hinaus noch
einen zusätzlichen Einfluss von M Q (also der Managementqualität) gibt. Bestimmen Sie hierfür
den inkrementellen Determinationskoeffizienten und den inkrementellen F-Wert für M Q gegeben
GS.
rSQ(M Q∗GS) = 0.525
2
rSQ(M
Q∗GS) = 0,2756
F = 0,2756 / ( (1- 0,2756 - 0,0155) / 693 ) = 269,4
19
Aus Holling/Gediga: Statistik – Deskriptive Verfahren © 2011 Hogrefe, Göttingen
Herunterladen