Übungsaufgaben zu deskriptiver und explorativer Datenanalyse

Werbung
ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE
1.1
Füllen Sie bitte folgenden Lückentext aus.
Daten, die in Untersuchungen erhoben werden, muss man grundsätzlich nach ihrem ___
unterscheiden. Denn in Abhängigkeit von dessen Art eröffnen sich unterschiedliche Möglichkeiten
der ___ der Daten. Die einfachste Art, Daten darzustellen, ist die Angabe von ___ und ___. Damit kann
man zahlreiche Datenpunkte effizient und auf einen Blick darstellen. Diese Form der Darstellung
eignet sich allerdings nur bei ___ Daten. Daten auf ___ und ___ sind jedoch zu differenziert, um sie
mit Anteilen und Häufigkeiten sinnvoll zusammenfassen zu können. Anteile und Häufigkeiten lassen
sich in Form von ___ und ___ anschaulich darstellen.
1.2
Ein Bezirk wird lediglich von zehn Personen bewohnt. Fünf dieser Personen haben ein
Monatseinkommen von je 2500€, die fünf übrigen Personen haben ein Monatseinkommen von 2600€
bzw. 2700€ bzw. 2800€ bzw. 2900€ bzw. 3000€. In dem Bezirk lässt sich eine weitere Person nieder,
deren Monatseinkommen 100.000€ beträgt:
a) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000
b) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000, 100000
Welche Auswirkungen ergeben sich dadurch bezüglich des Modus‘, des Medians und des
arithmetischen Mittels der Monatseinkommen aller Bewohner des Bezirks? Berechnen Sie zunächst
jeweils die Lagemaße und vervollständigen Sie anschließend die beiden folgenden Aussagen.
Modus und Median sind gegenüber dem Ausreißer von 100000 relativ ___, wodurch sie für die
Stichprobe weiterhin repräsentative Lagemaße darstellen. Das arithmetische Mittel wird stark in
Richtung des Ausreißers ___, sodass eine repräsentative Aussage für die Stichprobe nicht mehr
möglich ist.
1.3
Welche der Aussagen über die Anwendung von Streuungsmaßen ist richtig?
a) Range und Interquartilsabstand verwendet man bei Ordinaldaten, Varianz und
Standardabweichung hingegen bei metrischen Daten
b) Varianz und Standardabweichung verwendet man bei Ordinaldaten, Range und
Interquartilsabstand hingegen bei metrischen Daten
1.4
Was sind Lagemaße? Wozu gibt man zusätzlich Streuungsmaße an? Vervollständigen Sie dazu bitte
den Lückentext.
Zentrale Lagemaße geben uns Auskunft über den ___ Wert einer Verteilung von Stichprobendaten.
Maße der zentralen Lage sind der ___ , der ___ und der ___. Diese Maße spiegeln zwar den
Schwerpunkt der ___ wieder, sie geben jedoch keine Auskunft über die Variation der ___. Um dieses
Problem zu lösen, verwenden wir zusätzlich Streuungsmaße wie ___ , ___ , ___ und ___. Durch sie
erfahren wir, wie breit sich die Einzelwerte verteilen und wie ___ die Maße der zentralen Tendenz für
die Verteilung sind.
1.5
Wir gehen von folgendem Zusammenhang aus: Das Geschlecht hat einen Einfluss auf die
Körpergröße eines Menschen, das heißt Männer sind größer als Frauen. Wenn wir eine repräsentative
Stichprobe von Erwachsenen ziehen und deren Körpergröße erfassen, werden wir viele verschiedene
Ausprägungen der Körpergröße erhalten. Wir werden jedoch feststellen, dass weder alle Frauen noch
alle Männer gleich groß sind, sondern dass sich die Werte jeweils um den Mittelwert der Frauen und
um den Mittelwert der Männer verteilen. Wir werden weiterhin feststellen, dass die Verteilung der
Körpergrößen der Frauen die Verteilung der Körpergrößen der Männer überlappt, insgesamt jedoch
nach links verschoben ist.
Ordnen sie den beschriebenen Sachverhalten die Begriffe Fehlervarianz, systematische Varianz und
Gesamtvarianz zu.
die gemessenen Körpergrößen aller
Fehlervarianz
Personen in der Stichprobe
Verteilung aller Personen eines Geschlechts
systematische Varianz
um den jeweiligen Mittelwert
Die durch das Geschlecht hervorgerufene
Gesamtvarianz
unterschiedliche Lage der Verteilungen
1.6
Ordnen Sie bitte den verschiedenen Verteilungen die richtige Bezeichnung zu.
Verteilung 1
Verteilung 2
Verteilung 3
Verteilung 4
links-schief und unimodal
bimodal
rechts-schief und unimodal
multimodal
1.7
Maria ist 174 cm groß (der Mittelwert der Frauen betrage 165 cm und die Standardabweichung 8 cm).
Tom ist 188 cm groß (der Mittelwert der Männer betrage 178 cm und die Standardabweichung 10 cm).
Wir wollen herausfinden, wer von beiden relativ zu seiner Gesamtpopulation (also Frauen und
Männer) am größten ist. Es geht nicht darum, die beiden Körpergrößen zu vergleichen, sondern
darum, die Körpergrößen in Relation zum jeweiligen Durchschnitt zu setzen und dieses Verhältnis zu
vergleichen. Dazu sollen Sie für beide Werte die entsprechenden z-Werte berechnen und diese
anschließend vergleichen.
2.1
In einem Konzentrationstest haben zwölf Schüler folgende Punktwerte erreicht:
26, 27, 29, 29, 11, 25, 27, 23, 27, 28, 26, 24
Zeichnen Sie ein Stamm-und-Blatt-Diagramm!
Konstruieren Sie ein Box-Plot für diese Werte!
2.2
In der folgenden Tabelle ist die Regierungszeit (in Monaten) der ersten sechs Bundeskanzler der
Bundesrepublik Deutschland zu finden.
Name
Regierungszeit
Konrad Adenauer
169
Ludwig Erhard
37
Kurt Georg Kiesinger
35
Willy Brandt
54
Helmut Schmidt
100
Helmut Kohl
193
Erstellen Sie den Boxplot.
2.3
Gegeben sind die folgenden Messungen von Gewicht X (in kg) und Körpergröße
Y(in m) bei 7 Personen:
i
Gewicht X
Größe Y
1
76
1,77
2
72
1,65
3
74
1,83
4
59
1,69
5
52
1,57
6
63
1,72
7
80
1,75
a) Bestimmen Sie den Korrelationskoeffizienten zwischen Gewicht und Körpergröße!
b) Würde der Koeffizient größer oder kleiner werden, wenn er aus Gewicht (jetzt in g) und Größe
(jetzt in cm) berechnet würde?
2.4
Wie würden Sie ein r = 0,948 interpretieren?
2.5
In einem Versuchsbericht werden folgende Kennwerte mitgeteilt:
Prädiktorvariable
n  12
x  10
sx  2
Kriteriumsvariable
n  12
x  40
sy  5
cov xy  4
Berechnen Sie die Produkt-Moment-Korrelation. Interpretieren Sie!
2.6
Sie haben von 15 studentischen Versuchspersonen den IQ erhoben (X). Außerdem haben Sie alle
Probanden gebeten, auf einer Skala von 1 bis 9 einzuschätzen, wie gut ihre Leistung war (Y).
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
70
98
85
82
95
75
93
65
90
77
107
104
124
113
117
Y
3
8
5
4
7
1
6
2
9
4
9
7
9
5
6
Sie möchten die Hypothese prüfen, dass Personen sehr gut in der Lage sind, ihre eigene Leistung
einzuschätzen. Daher entscheiden Sie sich, die Korrelation zwischen Intelligenztestleistung (X) und
selbsteingeschätzter Leistung zu bestimmen.
a) Sie haben mit einem Statistikprogramm ein Streudiagramm der Werte erstellt, um zu prüfen, ob
eine Korrelation berechnet werden kann. Ist die Berechnung einer Korrelation im vorliegenden Fall
zulässig? Warum (nicht)?
b) Welche weitere Voraussetzung muss erfüllt sein, um eine Korrelation berechnen zu können?
c) Der Korrelationskoeffizient beträgt .73. Was sagt dieser bezüglich Ihrer Hypothese aus?
d) Können Sie auf der Grundlage dieses Ergebnisses Schlüsse über die Ursachen des Zusammenhangs
zwischen Leistungseinschätzung und tatsächlicher Leistung ziehen?
2.7
In welchen der Fälle dürfen Sie eine Regression rechnen?
2.8
In einer Untersuchung hat man die Aggressivität von 5 Kindern durch deren Erzieherinnen
einschätzen lassen. Zusätzlich hat man erhoben, wie stark diese Kinder von den Spielkameraden
abgelehnt wurden.
Nun möchten Sie gerne eine Vorhersage der Ablehnungswerte für andere Kinder machen, von denen
Sie lediglich die Aggressivität erfasst haben.
Kind 1 Kind
Kind
Kind
Kind
Arithm. Varianz
2
3
4
5
Mittel
Aggressivität
10
5
20
15
1
10,2
46,16
Ablehnung
9
7
10
8
3
7,4
5,84
1. Warum sollten Sie sich zuerst immer einen Überblick im Streudiagramm verschaffen?
2. Welche Variable dient in der Berechnung als Prädiktor und welche als Kriterium?
3. Die Regressionsgerade lautet Yˆ
 4,34  0,3 X . Sie wollen überprüfen, wie gut die Vorhersagen mit
Ihrer Regressionsgleichung sind.
Bestimmen Sie für die fünf Kinder aus Ihrer Studie die vorhergesagten Ablehnungswerte und die
Residualwerte.
Kind 1
Kind 2
Kind 3
Kind 4
Kind 5
9
7
10
8
3
vorhergesagte
Ablehnungswerte
tatsächliche
Ablehnungswerte
Residualwerte
(y-ŷ)
4. Welche der Schlussfolgerungen ist gerechtfertigt?
a) Das Ausmaß der Aggression ist die Ursache für das Ausmaß der Ablehnung eines Kindes.
b) Das Ausmaß der Ablehnung ist die Ursache für das Ausmaß der Aggression.
c) Eine dritte Variable ist sowohl Ursache der Aggression als auch Ursache der Ablehnung.
d) Keine der Schlussfolgerungen ist gerechtfertigt.
LÖSUNGEN
1.1
Skalenniveau, Darstellung, Anteilen, Häufigkeiten, nominalskalierten, Ordinalskalenniveau,
metrischem Skalenniveau, Tabellen, Diagrammen
1.2
Ergebnisse:
a) Modus: 2500; Median: 2550; arithmetisches Mittel: 2650
b) Modus: 2500; Median: 2600; arithmetisches Mittel: 11500
Lösung für den Lückentext: robust, verzerrt
1.3
a) ist richtig
1.4
typischen bzw. „mittleren“, Modus, Median, Mittelwert, Verteilung, Daten, Range,
Interquartilsabstand, Varianz, Standardabweichung, typisch
1.5
die gemessenen Körpergrößen aller
Fehlervarianz
Personen in der Stichprobe
Verteilung aller Personen eines Geschlechts
systemat. Varianz
um den jeweiligen Mittelwert
die durch das Geschlecht hervorgerufene
Gesamtvarianz
unterschiedliche Lage der Verteilungen
1.6
Verteilung 1: bimodal
Verteilung 2: rechts-schief und unimodal
Verteilung 3: links-schief und unimodal
Verteilung 4: multimodal
1.7
z Maria 
zTom 
xMaria  X Frauen 174  165

 1,13
s Frauen
8
xTom  X Männer 188  178

 1,00
sMänner
10
In Relation zu allen Frauen liegt Maria mit ihrer Körpergröße über dem Durchschnitt. Tom
liegt mit seiner Größe ebenfalls über dem Durchschnitt aller Männer. Maria übertrifft den
Durchschnitt aller Frauen sogar mehr als Tom den Durchschnitt aller Männer.
2.1
Stamm-und-Blatt-Diagramm:
Frequency
Stem & Leaf
1,00
1
1
1,00
2
3
2,00
2
45
5,00
2
66777
3,00
2
899
Boxplot:
2.2
2.3
1 n
 ( X i  X )(Yi  Y )
0,544
n i 1

 0,74
a) r 
s X sY
9,42  0,078
X  68 Y  1,71 s X  9,42 sY  0,078
b) Der Korrelationskoeffizient würde gleich bleiben, da er unabhängig von der Maßeinheit
ist. Der Grund dafür liegt in der Standardisierung des Koeffizienten mithilfe der Division
durch die Streuungen beider Variablen. Dadurch nehmen Korrelationskoeffizienten
ausschließlich Werte im Bereich von -1 bis 1 an.
Ein großer Vorteil dieser Standardisierung ist die Möglichkeit, Korrelationskoeffizienten
unterschiedlicher Studien, Studienanordnungen und Fragestellungen miteinander zu
vergleichen.
2.4
Es besteht ein fast perfekter (starker) positiver Zusammenhang zwischen den jeweiligen
Variablen. Je größer dabei die unabhängige, umso größer die abhängige Variable.
2.5
r
cov( x, y )
4

 0,4
s X sY
25
Es besteht ein mittlerer bis starker positiver Zusammenhang zwischen Prädiktor- und
Kriteriumsvariable. Je größer dabei der Prädiktor, desto größer das Kriterium.
2.6
a) Eine Korrelation kann hier berechnet werden, da der Zusammenhang linear zu sein scheint
und weder Ausreißer noch Subgruppen erkennbar sind.
b) Die Variablen müssen intervallskaliert sein.
c) Es besteht tatsächlich ein recht starker Zusammenhang zwischen Testleistung und
Selbsteinschätzung. Die Personen sind also recht gut in der Lage, ihre eigene Leistung
einzuschätzen.
d) Nein, da Kausalaussagen nur auf der Grundlage einer Korrelation nicht möglich sind.
Außerdem trifft die Hypothese keine expliziten Aussagen zur Kausalrichtung oder den
verantwortlichen Prozessen.
2.7
Bei B und D liegt ein linearer Zusammenhang vor. Nur hier darf eine Regression berechnet
werden!!!!
Bei A gibt es einen kurvilinearen Zusammenhang, also keinen linearen Zusammenhang. Bei C
gibt es keinen Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der
Eindruck. Bei E gibt es keinen Zusammenhang. Bei F gibt es einen Zusammenhang, es
existieren jedoch zwei unterschiedliche Sub-Gruppen, die nicht zusammengefasst werden
dürfen. Es ist aber möglich, eine Regression für beide Gruppen getrennt zu berechnen. Bei G
gibt es keinen Zusammenhang, durch eine Zusammenfassung der beiden unterschiedlichen
Sub-Gruppen würde aber fälschlicherweise der Eindruck entstehen. Bei H gibt es keinen
Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der Eindruck.
2.8
1. Um festzustellen, dass
- es einen linearen Zusammenhang gibt
- keine Ausreißer die Berechnungen verzerren würden
2. Die Variable „Aggressivität“ fungiert als Prädiktor, mit Hilfe dessen das Kriterium
„Ablehnung“ vorhergesagt werden soll.
3.
Kind 1
Kind 2
Kind 3
Kind 4
Kind 5
7,34
5,84
10,34
8,84
4,64
9
7
10
8
3
Residualwerte
9 - 7,34
7 - 5,84
10 -10,34
8 - 8,84
3 – 4,64
(y-ŷ)
= 1,66
= 1,16
= -0,34
= -0,84
= -1,64
vorhergesagte
Ablehnungswerte
tatsächliche
Ablehnungswerte
4. Richtig ist Antwort (d), denn es darf auf der Grundlage eines linearen Zusammenhangs
nicht geschlussfolgert werden, dass es einen Kausalzusammenhang gibt. Auch liegen keine
Informationen über Alternativerklärungen für den Zusammenhang vor. Es ist nur bekannt,
dass die zwei Variablen irgendwie miteinander zusammen hängen. Das erlaubt es zwar, die
eine Variable aus der anderen vorherzusagen, aber es erlaubt keine Kausalschlüsse.
Herunterladen