Einführung in die Deskriptive Statistik anhand realer Fälle

MaMaEuSch
Management Mathematics for
European Schools
http://www.mathematik.unikl.de/˜ mamaeusch
Wahrscheinlichkeitsrechnung anhand realer Situationen
Paula Lagares Barreiro1
Frederico Perea Rojas-Marcos1
Justo Puerto Albandoz1
MaMaEuSch2
Management Mathematics for European Schools
94342 - CP - 1 - 2001 - DE - COMENIUS - C21
1
Universität Sevilla
MaMaEuSch wurde unterstützt durch die EU mittels einer teilweisen Förderung im Rahmen des Socrates Programmes und einer teilweisen Förderung durch das Land Rheinland-Pfalz. Der Inhalt des Projektes reflektiert nicht
notwendigerweise den Standpunkt der EU, noch unterliegt es irgendeiner Verantwortung seitens der EU.
2
Inhaltsverzeichnis
1
Eindimensionale beschreibende Statistik
1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative . . . . .
1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit . . . . . . . . . . . . . .
1.6 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.3 Häufigkeitspolygon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.4 Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.5 Piktogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.6 Stengel-Blatt-Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.7 Einige Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil . . . . . . . . . . . . . . . . .
1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung . . . . . . . . . . . . . . . . . .
1.9 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem,
Pearson’scher Variationskoeffizient, ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . .
1.9.1 Tchebicheff Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9.2 Pearson’scher Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9.3 ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3
4
5
6
8
8
9
10
11
12
12
14
14
17
2 Analyse der Meinungsumfrage
2.1 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
27
3 Zweidimensionale, beschreibende Statistik
3.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . .
3.3 Einleitung und einfache Tabellen . . . . . . . . . . . . . . . . . .
3.4 Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen .
3.5 Punktwolke . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Funktionale Abhängigkeit und statistische Abhängigkeit . . . . .
3.7 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Lineare Korrelation . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
30
32
33
34
35
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
22
3.9
Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
37
Kapitel 1
Eindimensionale beschreibende Statistik
Wir wollen eine Meinungsumfrage durchführen. Ihr werdet einen Fragebogen ausfüllen, so dass wir feststellen können, was ihr über eine Vielzahl von Themen denkt. Weiters wollen wir einige Eigenschaften wie
Größe, Gewicht, Anzahl von Brüdern und Schwestern etc. erheben. Wir wollen überprüfen ob deine Meinung mit denen deiner Freunde übereinstimmt und auch ob es viele KlassenkameradInnen mit ähnlichen
Eigenschaften wie deinen gibt. Zum Beispiel, wieviele deiner Mitschüler sind größer als du und wieviele
davon haben die gleiche Anzahl an Geschwistern? Bevor wir beginnen wollen wir die Hauptziele die wir in
diesem Kapitel erreichen wollen darstellen.
1.1
Ziele
• Die verschiedenen Arten von Statistiken unterscheiden lernen.
• Bestimmen welche Art von Statistik wir verwenden sollen, abhängig von der Art der Daten die wir
benützen.
• Das Konzept Zentralmaße und Streuungsmaße von einem Datensatz begreifen.
• Die Parameter einer statistischen Verteilung bestimmen.
• Den Variationskoeffizient untersuchen.
• Durch Informationen in den Beispielen und Aufgaben zu sozialen, ökologischen und wirtschaftlichen
Themen anregen.
1.2
Das Beispiel: Eine Meinungsumfrage
Von jetzt an arbeiten wir an einer Meinungsumfrage. Wir wollen einige Dinge über eure KlassenkameradInnen herausfinden. Wir werden nach ein paar persönlichen Daten fragen und dann bitten wir euch, uns
3
Informationen und eure Meinung zu einigen Themen wie z.B. Sport, Ernährung etc. zu geben. Die Umfrage
ist anonym, so dass ihr frei antworten könnt und euch keine Sorgen darüber machen braucht, wer eure Meinungen später liest. Mit diesen Daten wollen wir interessante Fragen über uns als Gruppe aufwerfen, die wir
dann vielleicht als Orientierungshilfe zur Beantwortung von anderen Fragen über eine größere Gruppe von
Leuten verwenden können. Zum Beispiel:
• Welche ist die häufigste Größe in eurer Klasse?
• Erscheint dir dein wöchentliches Taschengeld normal, verglichen mit dem deiner KlassenkameradInnen?
• Wieviele von euch betreiben oft Sport? Wieviele essen Frühstück bevor sie in die Schule kommen?
• Welche Nahrungsmittel konsumiert ihr öfter: Früchte, Milch, Kaffee, Fisch . . . ?
Wir werden festellen wie wir durch die Auswertung der Antworten aus der Meinungsumfrage, all die
oben gestellten Fragen beantworten können. Bis zum Ende des Kapitels haben wir sicher all die Antworten,
aber zuerst wollen wir die Konzepte die ihr brauchen werdet vorstellen.
1.3
Grundgesamtheit und Stichprobe
Bevor wir all die Fragen beantworten können, müssen wir noch einige Dinge klären. Über wen wollen
wir Informationen bekommen? Wir haben schon festgehalten, dass wir Dinge über die SchülerInnen eurer Schulstufe erfahren wollen. Also wird unsere Grundgesamtheit nicht nur aus den SchülerInnen eurer
Klasse, sondern aus allen SchülerInnen eurer Schulstufe bestehen. Es würde jedoch zu lange dauern, alle
SchülerInnen dieser Schulstufe zu befragen. Daher haben wir uns entschieden eine repräsentative Gruppe
aus all den Klassen eurer Schulstufe zu nehmen, das ist in diesem Fall eure Klasse. Ihr seid daher die so
genannte Stichprobe. Weiters wird jedes einzelne Mitglied der Grundgesamtheit als Untersuchungselement
bezeichnet. Vielleicht sollten wir noch ein paar Anmerkungen zu dem Gesagten machen. Erstens, manchmal
möchte man vielleicht Eigenschaften von Tieren, Pflanzen, Dingen, z.B. die Lebensdauer von Batterien in
Mobiltelefonen untersuchen. In diesem Falle ist die Grundgesamtheit nicht ”menschlich”, sondern ”sachlich”, sie besteht nämlich aus den verschiedenen Arten von Mobiltelefonen. Weiters gibt es Situationen, in
denen die Verwendung von Stichproben aus verschiedenen Gründen noch mehr gerechtfertigt ist als in unserem Fall. Wenn wir z.B. das Wahlergebnis der Spanier wissen wollen, können wir nicht alle Spanier über 18
befragen, da dies Millionen von Menschen wären und das würde eine Menge an Zeit und Geld in Anspruch
nehmen. Oder, um die durschnittliche Lebensdauer von Glühbirnen zu untersuchen, können wir nicht alle
Glühbirnen überprüfen, da jede Überprüfung das Zerstören einer Glühbirne bedeutet. Dies ist ein Beispiel
für Situationen in denen die Stichprobenerhebung mit der Zerstörung eines Untersuchungselementes verbunden ist. Insgesamt gesehen ist die Stichprobenerhebung daher in vielen Situationen durch den Zeitfaktor,
das Geld oder aus Gründen der Zerstörung des Untersuchungselementes gerechtfertigt.
Aufgabe 1.3.1 In Andalusien wurde 2001 eine Umfrage zur Auswahl von Universitätsstudien durchgeführt,
um herauszufinden was die 65.356 MaturantInnen studieren wollten und warum. Um das zu bekommen,
wurden die Daten von 8500 MaturantInnen von ganz Andalusien gesammelt. Kannst du erklären was die
Grundgesamtheit und was die Stichprobe in diesem Beispiel ist? Was sind die Gründe dafür hier eine Stichprobe zu verwenden?
4
1.4
Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative
Bevor wir unsere Fragen richtig beantworten können, müssen wir zuerst entscheiden, welche Methode wir
für unsere Daten verwenden wollen. Dabei ist zu beachten, dass nicht alle Daten die wir sammeln können
die gleiche Art von Daten sind. Wir können uns zum Beispiel die Antworten zu den drei folgenden Fragen
unsere Umfrage überlegen:
1. Die Antwort zu der Frage nach dem Geschlecht (männlich oder weiblich).
2. Die Antwort zu der Frage nach der Anzahl der Geschwister.
3. Die Antwort zu der Frage nach der Größe.
Was uns als erstes auffällt ist, dass die Antwort zu der ersten Frage nicht numerisch ist, während die
Antworten zu den beiden anderen Fragen numerisch sind. Die Eigenschaft, welche auf die erste Antwort
zutrifft, nennt man qualitativ während jene die auf die Antworten zwei und drei zutrifft als quantitativ bezeichnet wird. Daraus ist leicht ersichtlich, dass quantitative Variablen Vorgehensweisen erlauben, die mit
qualitativen Eigenschaften nicht möglich sind. Wir sagen Kategorien zu den verschiedenen Möglichkeiten
von qualitativen Variablen und Werte zu jenen der quantitativen Variablen. Schauen wir uns jetzt den Unterschied zwischen den Variablen aus Antwort 2 und Antwort 3 an, da dieser schon etwas komplizierter ist.
Die Variable Anzahl von Geschwistern wird in numersichen Werten ausgedrückt, die wir als ”isoliert” bezeichnen können, 0,1,2,3,. . . , aber sie können keinen Wert dazwischen annehmen, z.B. den Wert 3.5. Dies
trifft jedoch nicht auf die Variable Größe zu. In der Tat kann die Größe jeden beliebigen Wert in einem
bestimmten Bereich annehmen, wir können die Größe so genau messen wie wir wollen. Wir können also
zusammenfassen, dass die Größe jeden Wert innerhalb eines bestimmten Intervalls haben kann. Daher wird
die Variable in der Frage 2 als diskret und die Variable in Frage 3 als stetig bezeichnet.
Aufgabe 1.4.1 Entscheide ob folgende Variablen qualitativ oder quantitativ sind und wenn sie quantitativ
sind, ob sie diskret oder stetig sind.
1. Die Anzahl der an einem Tag geborenen Kinder.
2. Die Blutgruppe einer Person.
3. Die Zeit die man braucht um ein Problem zu lösen.
4. Die Anzahl der Fragen bei einer Prüfung.
5. Die Körpertemperatur einer Person.
6. Die politische Partei die bei den letzten Wahlen gewählt wurde.
7. Die Anzahl der Tore die von einem Spieler in einer Saison geschossen wurden.
5
1.5
Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit
Es ist jetzt an der Zeit die Daten die wir in unserer Meinungsumfrage erhalten haben aufzubereiten. Die
Daten die wir zur Anzahl der Geschwister haben sind:
013201011223121111004231212110
während wir für das Gewicht folgende haben:
52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52
Wir können eine Menge an Fragen aufstellen: Wie viele meiner KlassenkameradInnen haben die gleiche Anzahl an Geschwistern wie ich? Wie viele davon haben mehr oder weniger als ich? Wieviele meiner
KlassenkameradInnen wiegen mehr, bzw. weniger als ich? Um diese Fragen zu beantworten, müssten wir
zählen, wie oft jede Antwort vorkommt. Beginnen wir mit der Anzahl der Geschwister:
0
1
2
3
4
||||| | → 6
||||| ||||| ||| → 13
||||| || → 7
||| → 3
|→1
Wir wissen jetzt, dass es 13 Personen mit 1 Bruder/Schwester gibt. Diese Zahl wird absolute Häufigkeit genannt und wir notieren sie mit ni . Wieviele Personen haben nun höchstens 1 Bruder/Schwester? In unserem
Falle sind die Personen die 0 oder 1 Bruder/Schwester haben, 6 + 13 = 19. Diese Zahl wird kumulative
absolute Häufigkeit genannt und wir notieren sie mit Ni . Wir können jetzt eine Tabelle mit kumulativen und
absoluten Häufigkeiten aufstellen:
Anz. Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
kum. absolute H.
6
13 + 6 = 19
13 + 6 + 7 = 26
13 + 6 + 7 + 3 = 29
13 + 6 + 7 + 3 + 1 = 30
Es ist wichtig die Werte der Variable in der Reihenfolge von der niedrigste zur höchsten anzuordnen,
wenn wir die kumulative Häufigkeit auf die richtige Art berechnen wollen. Wir werden jetzt noch andere
Arten von Häufigkeiten bestimmen, da es interessant ist das Verhältnis zur Gesamtmenge zu wissen. Dieses
können wir nämlich in ganzen Zahlen angeben um dann leichter mit anderen Grundgesamtheiten vergleichen
zu können. In unserem Fall gibt es 6 SchülerInnen die 0 Geschwister haben. Aber wir haben auch eine
Gruppe von 50 Personen befragt und wir wissen, dass es in jener 9 Personen mit 0 Geschwistern gibt. In
welcher dieser zwei Gruppen gibt es nun einen größeren Anteil an Personen mit 0 Geschwistern? Es ist
leicht erkennbar, dass die Verhältnisse so aussehen:
6
9
= 0.2 und
= 0.18
30
50
Offensichtlich ist also der Anteil in unserer Gruppe mit 30 Personen höher. Dieses Verhältnis wird relative Häufigkeit genannt und wir notieren sie mit fi . Wenn wir sie in Prozent ausdrücken (mit 100 multiplizieren) erhalten wir die prozentuelle Häufigkeit, die in unserem Falle 20% bzw. 18% ist. Wir notieren diese
prozentuelle Häufigkeit mit pi . Wir fügen jetzt alle diese Häufigkeiten zu unserer Tabelle von vorher dazu
6
und erhalten folgende Zusammenstellung:
Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
relative H.
6
30 = 0.2
13
30 = 0.43̇
7
30 = 0.23̇
3
30 = 0.1
1
30 = 0.3̇
prozentuelle H.
20%
43.3̇%
23.3̇%
10%
3.3̇%
kum. absolute H.
6
13 + 6 = 19
13 + 6 + 7 = 26
13 + 6 + 7 + 3 = 29
13 + 6 + 7 + 3 + 1 = 30
kum. relative H.
0.2
0.63̇
0.86̇
0.96̇
1
Wir wollen uns jetzt die Gewichtsdaten ansehen und zählen dafür die verschiedenen Werte:
46
47
49
50
52
53
54
55
57
58
59
60
62
63
66
67
68
69
70
72
74
75
77
80
82
|→1
|→1
|→1
|| → 2
||| → 3
|→1
|| → 2
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|| → 2
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
Wie wir sehen haben die meisten Werte die Häufigkeit 1 und unsere Variable hat 25 verschiedene Werte.
Das sind zu viele verschiedene Werte um sie in einer Tabelle darzustellen. Wie können wir also eine anschaulichere Darstellung der Verteilung dieser Daten bekommen? Es erscheint logisch, ähnliche Daten in
Intervalle zu gruppieren. Es gibt eine eigene Theorie darüber wie man Daten richtig gruppieren soll, wir
wollen uns die wichtigsten Punkte kurz ansehen:
• Die Anzahl der Klassen/Gruppen soll weder zu hoch (zwischen 6 − 8 liegt die maximale Anzahl mit
der man normalerweise arbeitet) noch zu niedrig (es macht keinen Sinn in 2 oder 3 Klassen einzuteilen,
da wir dadurch zu viel an Information verlieren) sein.
7
• Abgesehen von den extremen Klassen sollten alle Intervalle die gleiche Breite haben, da sonst Informationen misinterpretiert werden können.
Könnt ihr euch vorstellen welche Intervalle wir suchen? Ihr könnt z.B. an die Anzahl von Klassen denken, die ihr haben wollt. Wir wollen festhalten, dass zwischen dem höchsten Wert (82) und dem niedrigsten
Wert (46) ein Unterschied von 36kg ist. Wenn wir also z.B. in 6 Klassen einteilen wollen, sollte die Breite des Intervalls 36
6 = 6 sein. Also erhalten wir die folgenden Intervalle: [46,52],(52,58], (58,64], (64,70],
(76,82].Wir erhalten somit eine mögliche Klassifizierung obwohl es natürlich noch viele mehr gibt. In manchen Analysen findet man die Angabe, dass das erste Intervall ”kleiner als 52” und das letzte Intervall
”größer als 76” sein soll. Hat man sich einmal für eine Einteilung entschieden, kann man die Häufigkeiten
berechnen:
Gewicht
[46,52]
(52,58]
(58,64]
(64,70]
(70,76]
(76,82]
absolute H.
8
6
4
6
3
3
relative H.
0.26̇
0.2
0.13̇
0.2
0.1
0.1
prozentuelle H.
26.6̇%
20%
13.3̇%
20%
10%
10%
kum. absolute H.
8
14
18
24
27
30
kum. relative H.
0.26̇
0.46̇
0.6
0.8
0.9
1
Weiters, wenn wir mit gruppierten Daten arbeiten, brauchen wir einen Vertreter jedes Intervalls und wir
nennen jenen Klassenmarke. Dieser ist die Klassen/Intervallsmitte (niedrigstes Extrem eines Intervals plus
höchstes Extrem, dividiert durch 2).
Aufgabe 1.5.1 Erstelle die Häufigkeitstabelle zur Variable ”Antworten zur Frage 1.3” und zu den Antworten
zu der Frage nach der Größe. Bevor du beginnst, entscheide ob es notwendig ist die Daten in Intervalle
einzuteilen oder nicht.
1.6
Graphische Methoden
Wenn wir die Häufigkeitstabellen erstellt haben, könnte euer Lehrer euch ja auch fragen, eure Ergebnisse
dem Rest der Klasse zu präsentieren. Ihr könnt eure Tabellen zeigen und über die wichtigsten Ergebnisse
sprechen, aber gibt es da nicht eine Möglichkeit die Daten so zu präsentieren, dass die wichtigsten Ergebnisse auf anschauliche Art sichtbar werden? Wie ihr euch denken könnt ist die Antwort zu dieser Frage ja.
Vielleicht habt ihr in Büchern oder in den Medien schon gesehen, dass solche Daten für gewöhnlich graphisch dargestellt sind, um sie attraktiver für die Betrachter und besser interpretierbar zu machen. In diesem
Abschnitt wollen wir alle Arten von Diagrammen besprechen und hervorheben, wie wichtig die richtige
Wahl der graphischen Darstellung ist, abhängig von der Art der Daten mit denen wir arbeiten. Da wir nun
die Häufigkeitstabellen zu den Variablen Gewicht und Anzahl an Geschwistern haben, werden wir diese
verwenden um die verschiedenen Diagramme vorzustellen.
1.6.1
Balkendiagramm
Die erste Art von Diagramm die wir uns näher ansehen wollen ist das Balkendiagramm. Dieses Diagramm
8
wird für qualitative, sowie für diskrete, in Intervalle gruppierte Variablen verwendet. Wir wissen bereits, dass
unsere Daten über die Anzahl der Geschwister eine diskrete Variable ist, also versuchen wir daraus ein Balkendiagramm zu erstellen. Auf der x-Achse haben wir die Kategorien, wenn wir mit qualitativen Variablen
bzw. in unserem Fall mit diskreten Variablen arbeiten und jene sind hier 0, 1, 2, 3 und 4. Über jeden dieser
Werte zeichnen wir ein Rechteck bzw. einen Balken von gleicher Breite und mit einer Höhe proportional zu
der dazugehörigen Häufigkeit. In unserem Falle sollten wir so ein Balkendiagramm bekommen:
Abbildung 1.1: Geschwister (vertikale Balken)
Manchmal wird dieses Diagramm auch mit horizontalen Balken gezeichnet, was dann so aussieht:
Abbildung 1.2: Geschwister (horizontale Balken)
1.6.2
Histogramm
Ein Histogramm ist ein Diagramm das dem Balkendiagramm sehr ähnlich ist, dieses wird für in Intervalle
gruppierte Variablen verwendet. Wir wollen ein Histogramm für die Variable Gewicht erstellen. Wie beim
Balkendiagramm haben wir auf der x-Achse die Intervalle und über jenen ein Rechteck welches die gleiche
Breite hat wie das Intervall. Die Höhe wird so gewählt, dass die Fläche des Rechteckes proportional zur
Häufigkeit des Intervalls ist. In diesem Diagramm sind die Flächen der Rechtecke sehr wichtig, da wir es
9
nicht mit einem Balken zu tun haben bei dem die Höhe einen bestimmten Wert anzeigt, sondern die Breite
des Balken repräsentiert das Intervall. Haben unsere Intervalle also die gleiche Breite, sollte die Höhe die
Häufigkeit sein. Haben sie nicht die gleiche Breite, müssen wir die Höhe ändern um das Verhältnis zwischen
Häufigkeit und Fläche zu erhalten. Unser Histogramm für die schon gruppierte Variable Gewicht ist also:
Abbildung 1.3: Gewicht (Histogramm)
Auch hier können horizontale Rechtecke verwendet werden:
Abbildung 1.4: Gewicht (Histogramm)
Bestimmt habt ihr in den Medien schon einmal eine Bevölkerungspyramide gesehen. Vielleicht bemerkt
ihr jetzt, dass diese Pyramide eigentlich aus zwei horizontalen Histogrammen besteht (eines für Frauen und
eines für Männer), in denen die Anzahl der EinwohnerInnen, gruppiert nach dem Alter, wiedergegeben wird.
1.6.3
Häufigkeitspolygon
Die nächste Art von Diagramm die wir uns ansehen wollen, ist das Häufigkeitspolygon. Es wird verwendet
wenn man quantitative Variablen hat, diskrete oder stetige. Um es zeichnen zu können, starten wir vom
Histogramm oder vom Balkendiagramm, je nachdem ob wir eine gruppierte oder nicht gruppierte Variable
10
haben. Mit einer Linie verbinden wir nun die Mittelpunkte der oberen Grenzen im Balkendiagramm oder im
Histogramm. Für unser Beispiel über die Anzahl der Geschwister, erhalten wir folgendes Diagramm:
Abbildung 1.5: Geschwister (Häufigkeitspolygon)
Im Falle des Gewichtes ist es etwas anders. Hier repräsentiert die Fläche unter der Linie die Daten die
wir haben, wie beim Histogramm, da wir von der ganzen Breite der Intervalle sprechen. Das Diagramm sieht
folgendermaßen aus:
Abbildung 1.6: Gewicht (Häufigkeitspolygon)
Alle bisher besprochenen Diagramme können auch für relative und kumulative Häufigkeiten gezeichneverwendett werden.
1.6.4
Kreisdiagramm
Die nächste Art von Diagramm ist eine der bekanntesten, das Kreisdiagramm. In einem Kreisdiagramm
ordnen wir jeder Kateogrie oder jedem Wert einen Teil eines Kreises zu, und zwar so, dass die Fläche eines
solchen Kreissegmentes proportional zur Häufigkeit sein soll. Dieses Diagramm wird normalerweise für
qualitative Variablen und nicht für gruppierte, diskrete Variablen verwendet.
11
Abbildung 1.7: Geschwister (Kreisdiagramm)
1.6.5
Piktogramm
Wir kommen hier zu einem Diagramm das sehr häufig in den Medien verwendet wird, das sogenannte
Piktogramm. Es handelt sich hier um Diagramme, wo ein Symbol welches die Variable widerspiegeln soll
verwendet wird um die Häufigkeiten auszudrücken. Wieder müssen wir etwas wichtiges hervorheben: die
Größe (und nicht nur die Höhe) muss proportional zu der Häufigkeit sein die wir aufzeigen wollen. Es ist
auch üblich die Häufigkeit dazu zu schreiben um Missverständnisse zu verhindern.
1.6.6
Stengel-Blatt-Diagramm
Es gibt eine Art der Darstellung, die zwischen einem Diagramm und einer Datenaufzählung liegt, das
Stengl-Blatt-Diagramm. Wir werden uns dieses jetzt am Beispiel des Gewichtes ansehen. Wir erinnern uns
an die Daten:
52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52
Was wir bei einem Stengel-Blatt-Diagramm als erstes machen müssen, ist die Zehnerschritte unserer Daten
in eine Spalte zu schreiben. In unserem Fall, da unsere Werte zwischen 46 und 82 liegen, müssen wir 4, 5,
6, 7 und 8 folgendermaßen aufschreiben:
4
5
6
7
8
Als nächstes nehmen wir den ersten Wert aus unserer Datenaufzählung, 52, und schreiben die erste Stelle
der Zahl neben die dazugehörige Zehnerzahl:
12
4
5 2
6
7
8
Wir plazieren also alle ersten Stellen neben die dazugehörigen Zehnerstellen und erhalten folgendes:
4 697
5 249078423502
6 62837097
7 07425
8 02
Ihr werdet bemerken, dass wir etwas ähnliches (aber nicht gleiches) wie ein Balkendiagramm oder ein Histogramm vor uns haben. Offensichtlich könnten wir unser Stengl-Blatt-Diagramm ja auch vertikal machen
und würden in etwa so etwas herausbekommen:
2
0
5
3
2 7
4 9
8 0
7 7 5
0 3 2
7 9 8 4
9 4 2 7 2
6 2 6 0 0
4 5 6 7 8
es sieht aus wie ein Histogramm oder ein Balkendiagramm, ist es jedoch nicht. Aber das Stengl-BlattDiagramm kann als eine Annäherung zur Verteilung der Daten angesehen werden. Eigentlich haben wir ja
nur in Zehnerschritten unterschieden (von 40 bis 49, von 50 bis 59, . . . ). Wir könnten aber noch weiter unterteilen, in Fünferschritte (von 40 bis 44, von 45 bis 49, von 50 bis 54,. . . und müssten nun jede Zehnerzahl
zweimal aufschreiben, wobei zur ersten Zehnerzahl die einstelligen Zahlen von 0 bis 4 und zur zweiten jene
von 5 bis 9 dazu geschrieben werden. In unserem Fall und in horizontaler Form, wuürde das so aussehen:
4
4 697
5 24042302
5 9785
6 230
6 68797
7 042
7 75
8 02
8
13
1.6.7
Einige Anmerkungen
Stellt euch vor ihr seht die folgenden zwei Diagramme, die die Gewinne eines Betriebes widerspiegeln
sollen. Welchen von den zwei Betrieben würdet ihr als euren Betrieb auswählen?
Abbildung 1.8: Gewinne (Betrieb 1 und Betrieb 2)
Die meisten von euch werden vermutlich Betrieb 2 wählen, da ihr sicher zustimmt, dass dieser besser ist
als Betrieb 1. In der Tat haben die zwei Diagramme aber genau die gleichen Daten, wir haben nur die Skalierung der y-Achse verändert. Daher einige Anmerkungen bevor wir mit dem nächsten Abschnitt beginnen.
Diagramme sind ein wichtiges Instrument um Schlüsse aus unseren Daten zu ziehen, aber wir müssen sie
auf die richtige Art und Weise zeichnen, um Missdeutungen zu vermeiden. Es ist wichtig die Proportionen
in unserer Abbildung richtig einzuhalten, so dass die Skalen der Achsen auch im richtigen Verhältnis stehen.
Kleine Änderungen an den Skalen können große Unterschiede im Erscheinungsbild verursachen und die
Diagramme können dann auch leicht missverstanden werden.
1.7
Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil
Nehmen wir an, wir wollen mit unserer Klasse einen Ausflug machen und wollen dafür etwas Geld sammeln. Wir haben uns daher entschieden T-Shirts zu verkaufen, aber wir wissen nicht was ein angemessener
Preis dafür wäre. Das einzige was wir wissen ist, dass wir für ein T-Shirt 4 Euro zahlen. Wir würden natürlich
gerne Gewinn daraus machen, aber wir können die Preise auch nicht zu hoch ansetzen, da wir ja wollen dass
so viele Leute wie möglich unsere T-Shirts kaufen. Wir glauben das wöchentliche Taschengeld ist ein guter Indikator dafür wieviel sich SchülerInnen leisten können. Also werden wir als Daten das wöchentliche
Taschengeld hernehmen, das wir ja schon erfragt haben:
6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9
Wir haben 30 Werte, aber wir brauchen nur einen Wert um alle diese darzustellen. Welchen Wert können
wir nehmen? Eine erste Lösung wäre, einen Wert zu nehmen, der in der Mitte von allen Daten die wir haben
liegt. Um jenen zu bekommen, zählen wir alle Zahlen zusammen und dividieren sie durch die Gesamtanzahl
der Werte:
14
x=
6 + 8 + 10 + 5 + 15 + 20 + 9 + 10 + 9 + 9 + 20 + 15 + 12 + 6 + 15 + 12 + 10 + 25
+
30
20 + 30 + 15 + 12 + 9 + 20 + 6 + 9 + 10 + 25 + 9 + 9
390
=
= 13
30
30
So erhalten wir also den ersten möglichen Preis pro T-shirt, 13 Euro. Die Zahl die wir gerade berechnet
haben nennt sich arithmetisches Mittel. Aber es gibt auch noch andere Möglichkeiten um unsere Daten zu
repräsentieren, wir können zum Beispiel den Wert nehmen, der am öftesten vorkommt. In unserem Beispiel
ist der Wert der am öftesten vorkommt 9, was auch eine gute Wahl für einen Preis sein könnte. Den Wert
der am öftesten vorkommt nennen wir Modus. Aber keine dieser beiden Zahlen die wir jetzt errechnet haben
sagt aus, wieviele Personen sich so ein T-Shirt leisten können. Also haben wir eine neue Idee, wir können
die Daten die wir haben ja der Größe nach sortieren:
5 6 6 6 8 9 9 9 9 9 9 9 10 10 10 10 12 12 12 15 15 15 15 20 20 20 20 25 25 30
Jetzt wollen wir den Wert finden, der die Hälfte der Daten auf jeder Seite übrig lässt. Der Wert zwischen
dem 15. und den 16. Platz lässt genau 14 Werte auf jeder Seite. Da Nummer 15 und 16 beide die gleiche
Zahl haben, nämlich 10, können wir also annehmen dass 10 der Wert ist, der die Hälfte der Daten auf jeder
Seite lässt. Diese Zahl wird Median genannt. Genau so wie wir einen Wert vorgeschlagen haben der 50%
der Daten auf jeder Seite lässt, können wir auch einen Wert suchen, der von 75% der Klasse leistbar ist.
Wir wollen also einen Wert finden, der 25% auf der linken Seite lässt (das heisst, dass nur 25% der Daten
niedriger sind als dieser Wert), oder einen beliebigen anderen Prozensatz. Diese Zahl wird Quantil genannt.
Wir können jetzt irgendeinen dieser drei Werte nehmen, abhängig davon was wir im jeweiligen Fall
vorgeben wollen bzw. welcher Wert unsere Daten am besten repräsentiert. Diese drei Werte sind nicht immer
für jeden Fall gültig, sie können uns aber helfen herauszufinden wo das Zentrum einer Verteilung ist. Dieses
sind die wichtigsten Vertreter der Zentralmaße. Wir werden jetzt auf formale Weise die oben eingeführten
Konzepte definieren. Von jetzt an sprechen wir von Variablen.
Nehmen wir an, wir haben eine Variable bei n Untersuchungselementen beobachtet und wir haben k
verschiedene Werte erhalten x1 , x2 , . . . xk , jeder davon mit einer Häufigkeit von n1 , n2 , . . . nk wobei ni die
absolutePHäufigkeit des Wertes xi ist. Wir notieren die kumulative, absolute Häufigkeit des Wertes xi mit
ni
Ni =
j≤i nj und die relative Häufigkeit mit fi = n . Wenn die Werte der Variablen gruppiert sind,
können wir annehmen, dass wir h Intervalle haben und wir können dies folgendermaßen notieren:
+
(L0 , L1 ], (L1 , L2 ], . . . (Lh−1 , Lh ]
und die Klassenmarken sind c1 , c2 , . . . ch . In diesem Fall wird die absolute Häufigkeit mit n1 , n2 , . . . , nh ,
die kumulative, absolute Häufigkeit mit N1 , N2 , . . . , Nh = n und die relative Häufigkeit mit f1 , f2 , . . . , fh
bezeichnet.
Daraus folgt, dass das arithmetische Mittel, für nicht gruppierte Variablen, folgendermaßen definiert
wird:
Pn
xi ni
x = i=1
n
Wenn wir eine gruppierte Variable haben, verwenden wir die Klassenmarken ci statt den Werten xi . Die
wichtigsten Merkmale des arithmetischen Mittel sind:
• Es ist der Schwerpunkt der Verteilung und es ist einzigartig.
15
• Wenn wir Extremwerte haben, oder wenig repräsentative Werte (zu große oder zu kleine), dann ist das
arithmetische Mittel nicht repräsentativ.
• Es macht keinen Sinn das arithmetische Mittel für qualitative Variablen zu ermittlen, oder wenn wir
gruppierte Daten haben und irgendeines der Intervalle nicht begrenzt ist.
• Für gruppierte Daten verwenden wir die Klassenmarke von jedem Intervall um das arithmetische
Mittel zu berechnen.
Weiters hat das arithmetische Mittel folgende Eigenschaften:
• Wenn eine Konstante zu jedem Wert addiert wird, ist auch das arithemtische Mittel um diese Konstante
erhöht.
• Wenn wir alle Werte mit einer Konstanten multiplizieren, wird auch das Mittel mit der gleichen Konstante multipliziert.
Der Modus wird gewöhnlich als der häufigste Wert bezeichnet. Im Falle einer nicht gruppierten Variable
ist es der Wert, der am öftesten vorkommt. Bei Variablen die in Intervalle der gleichen Breite gruppiert sind,
brauchen wir das Intervall mit der höchsten Häufigkeit (Modalintervall) und die Annäherung an den Modus
wird durch die folgende Formel erreicht:
M o = Li−1 +
ni − ni−1
· ci
(ni − ni−1 ) + (ni − ni+1 )
wo:
Li−1 die untere Grenze des Modalintervalls ist.
ni ist die absolute Häufigkeit des Modalintervalls.
ni−1 is die absolute Häufigkeit des vorangehenden Intervalls zum Modalintervall.
ni+1 ist die absolute Häufigkeit des nachfolgenden Intervalls nach dem Modalintervall.
ci ist die Breite des Intervalls.
Der Modus verifiziert, dass:
• Man kann mehr als einen Modus für eine Verteilung haben, dann sprechen wir von einer bimodalen, trimodalen . . . Verteilung, abhängig von der Anzahl an Werten, welche die höchste Häufigkeit
aufweisen.
• Der Modus ist für gewöhnlich der schlechtere Repräsentant im Vergleich zum arithmetischen Mittel,
außer bei qualitativen Daten.
• Wenn wir Intervalle mit verschiedenen Breiten haben, müssen wir jenes Intervall suchen, mit der
höchsten Häufigkeitsdichte (normalerweise ist das der Fall wenn wir die absolute Häufigkeit durch
die Breite der Intervalle dividieren ncii ) und dann verwenden wir die vorangegangene Formel.
Der Median ist im Falle von nicht gruppierten Variablen und nachdem wir unsere Daten der Reihe nach
geordnet haben, der zentrale Wert bei einer ungeraden Anzahl an Daten und das Mittel der zwei zentralen
Werte wenn wir eine gerade Anzahl an Daten haben. Wenn wir eine gruppierte Variable haben, müssen wir
nach dem zentralen Intervall suchen (jenes in dem wir den zentralen Wert finden können), das heisst jenes,
wo Ni zum ersten Mal größer als n2 ist. Dann können wir die folgende Formel anwenden:
16
M e = Li−1 +
n
2
− Ni−1
· ci
ni
wobei
Li−1 die untere Grenze des Intervalls ist.
ni ist die absolute Häufigkeit des zentralen Intervalls.
Ni−1 ist die kumulative, absolute Häufigkeit des Intervalls vor dem zentralen Intervall.
n ist die Anzahl der Daten
ci ist die Breite des Intervalls.
Weiters ist das Quantil ein Lagemaß, welches das Konzept des Medians verallgemeinert. Wir wollen jetzt
die Konzepte von Centil oder Percentile, Quartile und Dezil definieren. Wir nehmen an, dass unsere Daten
sortiert sind. Centil oder Percentil nennt man jene Werte der Variable, die auf der linken Seite eine konkrete
Prozentzahl übrig lassen. Wir notieren sie mit Ph oder Ch , wobei h die Prozentzahl, h = 1, 2, . . . , 99. Wenn
wir eine gruppierte Variable haben, müssen wir zuerst das Intervall finden in dem das Centil liegt und dann
können wir folgende Formel anwenden:
Ph = Ch = Li−1 +
h·
n
100
− Ni−1
· ci
ni
Die verschiedenen Elemente haben hier die gleiche Bedeutung wie beim Median. Das Quartil ist jener Wert,
nachdem wir die Daten sortiert haben, der die Variable in 4 gleiche Gruppen unterteilt. Zwischen jeder davon
finden wir 25% der Untersuchungselemente. Wir schreiben sie folgendermaßen auf: Q1 , Q2 und Q3 und sie
verifizieren, dass Q1 = C25 , Q2 = C50 = M e, Q3 = C75 . Das Dezil ist jener Wert, nachdem wir die
Daten sortiert haben, der die Daten in 10 gleiche Gruppen teilt, wobei zwischen jeweils 2 davon 10% der
Untersuchungselemente sind. Wir schreiben sie folgendermaßen auf: D1 , D2 , D3 , . . . , D9 . Sie verifizieren,
dass D1 = C10 , D2 = C20 , D3 = C30 , . . . D9 = C90 .
Aufgabe 1.7.1 Berechnet für die Anzahl der Geschwister und für das Gewicht, das arithmetische Mittel, den
Modus, den Median und die Quartile: Q1 , Q3 , C30 , C74 , D4 , D9 .
1.8
Streuungsmaße: Spannweite, Varianz, Standardabweichung
Stellt euch vor wir haben 3 verschiedene Datensätze zum Gewicht von bestimmten Leuten und wir wissen, dass in allen in 3 Fällen, das arithmetische Mittel der Variable Gewicht 55 ist. Heißt das, dass die 3
Datensätze gleich oder ähnlich sind? Die Daten der 3 Sätze sind wie folgt:
Satz 1: 55 55 55 55 55 55 55
Satz 2: 47 51 54 55 56 59 63
Satz 3: 39 47 53 55 57 63 71
Wir bemerken, dass obwohl das arithmetische Mittel gleich ist, die Datensätze sehr verschieden sind. Sehen
wir uns ihre Stengl-Blatt-Diagramme an:
17
3
4
5
5
5
5
5
5
5
5
6
7
3
7
4
9
6
5
4
1
5
3
6
7
9
3
7
4
7
5
1
5
3
6
1
7
Wie können wir also diese Unterschiede zwischen den Datensätzen herausfinden? Offensichtlich können
uns die Zentralmaße hier nicht genügend Informationen über die Entfernung zwischen dem arithmetischen
Mittel und den Daten geben. Wir müssen uns daher mit dem Konzept der Streuung der Daten auseinandersetzen. Was uns als erstes auffällt ist, dass im ersten Datensatz alle Daten gleich sind, im zweiten gibt es größere
Unterschiede zwischen dem höchsten und dem niedrigsten Wert und im dritten gibt es noch offensichtlichere
Unterschiede. Genau gesagt haben wir:
55 − 55 = 0
63 − 47 = 16
71 − 39 = 32
Diese Unterschiede bezeichnet man als die Spannweite der Daten und diese ist offensichtlich ein sehr leicht
zu berechnendes Maß. Sie wird allerdings nicht sehr oft verwendet, da sie nicht für jede Situation geeignet
ist. Wenn wir z. B. einen extrem kleinen oder einen extrem großen Wert in unseren Daten haben, verändert
sich die Spannweite beachtlich und kann daher manchmal nicht mehr ganz so aussagekräftig sein. Wie
können wir also ein Maß finden, das uns eine Annäherung an die Entfernung zwischen den Daten und dem
arithmetischen Mittel gibt? Wir können die Entfernungen von jedem Untersuchungselement zum arithmetischen Mittel (in absoluten Zahlen) berechnen und dann das Mittel dieser Entfernungen. Dies nenne wir
mittlere Abweichung. Berechnen wir die mittlere Abweichung des 2. Datensatzes:
|47 − 55| + |51 − 55| + |54 − 55| + |55 − 55| + |56 − 55| + |59 − 55| + |63 − 55|
=
7
8+4+1+0+1+4+8
26
=
= 3.714
7
7
Trotzdem verwenden wir normalerweise noch ein anderes Maß für die Streuung und zwar das Mittel
der quadratischen Abweichung der Daten vom arithmetischen Mittel und erreichen damit, dass größere Abweichungen einen kleineren Einfluß haben. Wir werden uns jetzt die formale Definition dieser Konzepte
ansehen. Die Spannweite ist die Differenz zwischen dem höchsten und dem niedrigsten Wert der Daten,
wenn diese nicht gruppiert sind. Wenn wir eine gruppierte Variable haben, berechnen wir die Differenz zwischen der oberen Grenze des letzten Intervalls und der unteren Grenze des ersten Intervalls. Die Spannweite
hängt nur von dem größten und dem kleinsten Element und nicht vom Rest der Daten ab. Wir können z.B.
die folgenden zwei Datensätze mit der gleichen Spannweite haben:
Es ist leicht zu erkennen, dass der Unterschied zwischen xk und x1 in beiden Situationen der gleiche
ist, obwohl die zwei Datensätze verschieden sind. Die Interquartil-Spannweite ist der Unterschied zwischen
des dritten und des ersten Quartils und wir bekommen eine Zone wo wir 50% der Verteilung finden. Die
mittlere Abweichung ist das Mittel der Abweichungen der Daten vom arithmetischen Mittel. Wir nennen die
Abweichungen vom Mittel, den absoluten Wert des Unterschiedes zwischen den Werten der Variable und
dem arithmetischen Mittel (|xi − x|), daraus folgt folgende Definition der mittleren Abweichung:
=
18
Abbildung 1.9: Spannweite
Pk
|xi − x| · ni
n
Dieses Maß wird nicht sehr oft verwendet, da es auf Grund der absoluten Betragsfunktion schwierig zu
berechnen ist. Wie auch immer, eine kleine mittlere Abweichung bedeutet, dass die Daten sich dicht um den
Mittelwert konzentrieren. Wir können auch die Median-Abweichung definieren, obwohl diese noch weniger
gebräuchlich ist:
i=1
DM =
Pk
|xi − M e| · ni
n
Die Varianz ist das Mittel der quadratischen Abweichungen der Daten vom Mittelwert. Wir bezeichnen
sie mit S 2 und beschreiben sie wie folgt:
D=
2
S =
Pk
i=1 (xi
i=1
− x)2 · ni
=
n
Pk
x2i · ni
− x2
n
i=1
Die Varianz verifiziert:
• Da wir die Quadrate der Abweichung nehmen, haben die größeren mehr Einfluß auf das Ergebnis.
• Die Einheit des Maßes S 2 ist nicht die gleiche wie die in der Stichprobe, da wir mit quadratischen
Zahlen der Abweichung arbeiten.
• Die Varianz ist immer positiv. Sie ist 0, wenn alle Werte mit dem Mittelwert übereinstimmen.
Wir definieren die Quasivarianz wie folgt:
Pk
− x)2 · ni
n−1
n−1 2
2
der Zusammenhang mit der Varianz ist S = n s . Dies ist ein brauchbares Maß wenn wir mit Inferenzen arbeiten. Manchmal wird sie auch als Sc2 ausgedrückt. Die Standardabweichung ist die Quadratwurzel
aus der Varianz. Wir bezeichnen sie mit S und berechnen sie wie folgt:
s
s
Pk
Pk
q
2
2·n
(x
−
x)
i
i=1 i
i=1 xi · ni
S=+
=+
− x2 = + x2 − x2
n
n
Ihre Hauptmerkmale sind:
s2 =
i=1 (xi
19
• Sie ist das häufigst verwendete Streuungsmaß.
• Sie hat die gleiche Maßeinheit wie die Stichprobe.
• Die Standardabweichung ist immer positiv oder 0.
Weiters, Varianz und Standardabweichung verifizieren, dass:
• Wenn wir alle Werte mit einer Konstanten addieren, bleiben die Varianz und die Standardabweichung
gleich.
• Wenn wir alle Werte mit einer positiven Konstante multiplizieren, wird die Varianz mit dem Quadrat
der Konstante und die Standardabweichung mit der Konstante multipliziert.
1.9
1.9.1
Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson’scher Variationskoeffizient, ”z-scores”
Tchebicheff Theorem
Wir haben bereits Maße gefunden die uns das Zentrum unserer Daten und ihre Streuung angeben, aber
wir brauchen noch mehr Informationen. Erinnern wir uns noch einmal an die Daten über die Anzahl der
Geschwister:
Anz. Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
also haben wir:
x = 1.33333,
S 2 = 1.022,
S = 1.011
Wieviele Leute haben Geschwister um den Mittelwert? Gibt es viele SchülerInnen die 1 oder 2 Geschwister haben? Nehmen wir ein Intervall, welches um den Mittelwert kreist,(x − a, x + a). Wir wissen, dass Varianz und Standartabweichung die Streuung messen, also werden wir sie jetzt anwenden. Welche der zwei sollen wir verwenden? Wir verwerfen die Varianz, da wir sie nicht zum Mittelwert zählen
können, da sie ja eine andere Maßeinheit hat. Nehmen wir also die Standardabweichung, a = S. Dann
bekommen wir das Interval (1.3333 − 1.011, 1.3333 + 1.011) = (0.3223, 2.3443). Innerhalb dieses Intervalls finden wir die SchülerInnen mit 1 oder 2 Geschwistern. Das sind 20 von den 30 SchülerInnenn,
d.h. 66% davon. Was würde passieren wenn wir 2S statt S verwenden? Dann bekommen wir das Intervall
(1.3333−2.022, 1.3333+2.022) = (−0.6887, 3.3553). Innerhalb dieses Intervalls haben wir nun 29 von 30
SchülerInnenn, d.h. 96%. Folglich, wenn wir das Intervall mit 3S annehmen, finden wir alle Daten innerhalb
20
des Intervalls. Die nächste Frage lautet, passiert das immer? Sind diese Konzentrationen der Daten immer
die gleichen? Schauen wir uns das Beispiel des wöchentlichen Taschengeldes an. Hier haben wir:
x = 13,
S 2 = 39.2,
S = 6.26
Weiters,
(13 − 6.26, 13 + 6.26) = (6.74, 19.26)
(13 − 12.52, 13 + 12.52) = (0.48, 25.52)
(13 − 18.78, 13 + 18.78) = (−5.78, 31.78)
→
→
→
beinhaltet 19 Daten (63%)
beinhaltet 29 Daten (96%)
beinhaltet 30 Daten (100%)
Wir ihr sehen könnt bekommen wir ähnliche Ergebnisse. Dies basiert auf einem Theorem, welches sicherstellt, dass in diesen Intervallen ein bestimmter Prozentanteil der Daten vorkommt. Genauer gesagt, das
Theorem besagt, dass wir in einem Intervall wie (x − aS, x − aS) mindestens 100(1 − a12 )% der Daten
haben. Diese Aussage ist bekannt als das Tchebicheff Theorem.
1.9.2
Pearson’scher Variationskoeffizient
Wir werden jetzt mit Daten über Höhe und Gewicht arbeiten. Für das Gewicht haben wir:
x = 60.8,
S 2 = 99.56,
S = 9.97
x = 1.7133,
S 2 = 0.0128,
S = 0.1132
und für die Höhe haben wir:
In welchem Fall haben wir mehr Streuung? Wir würden annehmen für das Gewicht, da die Varianz und
die Standardabweichung größer sind. Aber was passiert, wenn wir das selbe für die Höhedaten in Zentimeter
berechnen?
x = 171.33,
S 2 = 128.35,
S = 11.32
Wenn wir die Frage jetzt wiederholen, was müssen wir dann antworten? In der Tat können wir weder
Standardabweichung noch Varianz vergleichen, da beide wieder von der Einheit abhängig sind, so wie beim Mittel.
Wir brauchen also ein dimensionsloses Maß. Bis jetzt wissen wir nur, dass das Mittel und die Standardabweichung die gleiche Maßeinheit haben, wie können wir also ein dimensionsloses Maß von ihnen bekommmen?
Wir können sie teilen und bekommen dann den Pearson’schen Variationskoeffizient
S
x
Wir können ihn für unsere Beispiele berechnen. Für das Gewicht haben wir
CV =
CV =
9.97
= 0.163
60.8
und für die Höhe
11.32
0.1132
=
= 0.066
171.33
1.7133
daraus folgt, dass wir mehr Streuung bei dem Gewicht als bei der Höhe herausbekommen.
CV =
21
1.9.3
”z-scores”
Wir haben jedoch immer noch mehr Informationen in unseren Daten enthalten. Stell dir vor deine Körpergröße
ist 1.74m und du hast einen Freund in einer anderen Klasse mit genau der gleichen Größe. Welcher von euch
zwei ist innerhalb seiner Klasse größer? Wie können wir die zwei Daten vergleichen, wenn wir nur wissen,
dass das Mittel in der Klasse deines Freundes 1.708m ist und die Standardabweichung 12.53? Es gibt da
eine Möglichkeit die beiden Daten zu vergleichbaren Werten zu verändern. Das ist was wir als ”z-scores”
bezeichnen. Es wird berechnet indem wir die Differenz zwischen dem Wert und seinem Mittel nehmen und
durch die Standardabweichung dividieren. Die zwei neuen Werte gehören dann zu einer Verteilung mit dem
Mittel 0 und der Standardabweichung 1 und sind daher vergleichbar.
In unserem Beispiel bekommen wir die folgenden ”z-scores”
1.74 − 1.7133
= 0.235
0.1132
1.74 − 1.708
z2 =
= 0.255
0.1253
und wir schliessen daraus, dass dein Freund größer ist als du (jeder innerhalb seiner Klasse), da der
z-Wert größer ist. Die Formel für die standardisierte Variable zu zi ist:
z1 =
zi =
xi − x
S
22
Kapitel 2
Analyse der Meinungsumfrage
Wir wollen eine tiefergehende Analyse von einigen Aufgaben aus der Meinungsumfrage machen. Dazu
haben wir folgende 3 Aufgaben gewählt:
2.1 Du rauchst
2.3 Du liest andere Bücher als Schulbücher
3.1 Du betreibst Sport außerhalb der Schule
Die Daten die wir zu Frage 2.1. haben lauten:
135555511513315155555515154435
zu Frage 2.3. haben wir:
111222344413241213211121111224
und von 3.1:
313534213335512123512532415543
Als erstes werden wir die Häufigkeiten von allen 3 Fällen berechnen, um die Häufigkeitstabellen von
allen zu bekommen. Für Frage 2.1. haben wir:
Antwort (2.1)
1
2
3
4
5
abs. H.
8
0
4
2
16
rel. H.
0.26̇
0
0.13̇
0.06̇
0.53̇
prozent. H.
26.6̇%
0%
13.3̇%
6.6̇%
53.3̇%
Für die Frage 2.3 haben wir folgende Häufigkeitstabelle:
23
kum. abs. H.
8
8
12
14
30
kum. rel. H.
0.26̇
0.26̇
0.4
0.46̇
1
Antwort (2.3)
1
2
3
4
5
abs. H.
13
9
3
5
0
rel. H.
0.43̇
0.3
0.1
0.16̇
0
prozent. H.
43.3̇%
30%
10%
16.6̇%
0%
kum. abs. H.
13
22
25
30
30
kum. rel. H.
0.53̇
0.73̇
0.83̇
1
1
prozent. H.
20%
1.66̇%
30%
10%
23.3̇%
kum. abs. H.
6
11
20
23
30
kum. rel. H.
0.2
0.36̇
0.6̇
0.76̇
1
und schließlich, die Häufigkeitstabelle für 3.1.:
Antwort (3.1)
1
2
3
4
5
abs. H.
6
5
9
3
7
rel. H.
0.2
0.16̇
0.3
0.1
0.23̇
Bei Anbetracht der Daten in den Tabellen fällt uns auf, dass die drei Tabellen sehr unterschiedlich sind.
Wir schauen uns jetzt graphisch an wie diese Variablen verteilt sind und dann können wir die ersten Schlüsse
ziehen.
Wie ihr feststellen könnt haben wir drei diskrete Variablen, also werden wir das Balkendiagramm und
das Kreisdiagramm verwenden. Hier sind die Diagramme für die Frage 2.1
Abbildung 2.1: Antworten zu Frage 2.1
Schauen wir uns jetzt die Diagramme zu Frage 2.3 an:
und hier haben wir jene für Frage 3.1
24
Abbildung 2.2: Antworten zu Frage 2.3
Abbildung 2.3: Antworten zu Frage 3.1
Jetzt können wir über die ersten Schlussfolgerungen sprechen. Es ist ziemlich offensichtlich, dass für
Frage 2.1. die häufigsten Werte die extremen Werte sind, d.h. 1 und 5. Das ergibt sich daraus, dass man dazu
tendiert entweder nicht zu rauchen, was mit der Nummer 1 belegt ist oder zu rauchen, was mit der Nummer
5 belegt ist. Wie auch immer, die meisten Daten sind bei den höheren Werten (3,4 und 5) angesiedlet. Im
Gegensatz dazu können wir sehen, dass in Frage 2.3 häufigsten Werte die niedrigeren sind. Wir können also
sagen, dass lesen nicht ein sehr populäres Hobby ist. Die dritte Frage ist etwas mehr verstreut über alle
Werte.
Es ist auch interessant, sich in diesem Beispiel ein Balkendiagramm mit der kumulativen, absoluten
Häufigkeit zu zeichnen. Wir zeigen euch die drei Diagramme, wo ihr sehen könnt, dass die Häufigkeiten am
gleichmäßigsten ansteigend im dritten Fall verteilt sind:
Jetzt werden wir was wir bisher gesagt haben, durch die Berechnung der wichtigsten Zentralmaße
bestätigen und in Tabellenform darstellen, um das Vergleichen zu vereinfachen:
25
Abbildung 2.4: Kumulative Balkendiagramme
Q. 2.1
Q. 2.3
Q. 3.1
Mittel
3.6
2
3
Median
5
2
3
Modus
5
1
3
Diese Tabelle gibt uns einige interessante Informationen. Es ist leicht zu erkennen, dass obwohl das
Mittel für die 2.1 Frage 3,6 ist, die meisten Daten größer als das Mittel sind, da beide, der Median und
der Modus 5 sind. Für Frage 2.3 ist die Situation ganz anders, wir sehen, dass die meisten Daten um den
kleinsten Wert kreisen und auch der Modus ist der kleinste von allen dreien. In Frage 3.1 sehen wir, dass alle
drei Werte gleich sind und daraus schließen wir, dass 3 die Zahl ist, die unsere Daten am besten repräsentiert.
Berechnen wir jetzt die wichtigsten Streuungsmaße und versuchen wir dann damit heraus zu finden,
welche Variable am meisten gestreut ist.
Q. 2.1
Q. 2.3
Q. 3.1
Spannweite
4
3
4
Varianz
3
1.24
2.06
Standardabweichung
1.73
1.11
1.43
In unserem Beispiel ist die Spannweite nicht besonders relevant, da sich alle Antworten zwischen 1 und
26
5 bewegen. Das einzige was wir daraus erkennen können ist, dass in Frage 2.3, die Spannweite 3 (kleiner
als die der anderen) ist und daher einer der Extremwerte (in diesem Falle 5) die Häufigkeit 0 hat. Aber, wir
können das gleiche nicht für Frage 2.1 bemerken, obwohl die Häufigkeit für den Wert 2 auch 0 ist. Aus
der Standardabweichung können wir schließen, dass die Antworten zu Frage 2.1 sehr gestreut sind. Dies ist
wahr, da wir, wenn wir uns die Daten nocheinmal ansehen bemerken, dass die meisten davon Extremwerte
sind, 1 oder 5. Die anderen zwei Variablen sind etwas mehr um das Mittel konzentriert, insbesondere die
Antworten zu Frage 2.3.
Lasst uns jetzt überprüfen, ob das Mittel für unsere Variablen repräsentativ ist. Wir müssen also den
Variationskoeffizient für jeden der drei Fälle berechnen:
Q. 2.1
Q. 2.3
Q. 3.1
Variationskoeffizient
0.48
0.55
0.47
Der Mittelwert ist also repräsentativ für die drei Fälle die wir untersuchen.
2.1
Schlussfolgerungen
In diesem letzten Abschnitt der Analyse, müssen wir die Bedeutung der Daten die wir untersuchen hervorheben. Bis jetzt haben wir über statistische Merkmale gesprochen, aber wir dürfen nicht auf die Bedeutung
unserer Ergebnisse für die Wirklichkeit vergessen.
Wir haben herausgefunden, dass rauchen etwas sehr populäres unter jungen Leuten ist. Mehr als die
Hälfte eurer Klasse sagt, dass sie täglich rauchen, aber nur 8 SchülerInnen sagen dass sie nie rauchen. Wenn
wir die Häufigkeiten der SchülerInnen zusammenfassen, die zumindest manchmal rauchen, sehen wir dass
dies 22 von euch sind, fast 3/4 der gesamten Klasse.
Im Gegensatz dazu sind sehr wenige am Lesen interessiert. 22 von euch sagen, dass sie nie oder sehr
selten ein anderes Buch als jene die sie für die Schule brauchen lesen. Das ist wohl einer der größten Gegensätze die wir in dieser Meinungsumfrage bekommen können. Keiner von euch sagt, dass er jeden Tag
liest, nur 5 SchülerInnen sagen sie lesen manchmal.
Sport ist das Mittel zwischen den drei Fällen. Die häufigste Antwort (sie ist auch der Mittelwert und der
Median) ist ”manchmal”. Das kommt vermutlich daher, dass viele von euch am Wochenende Sport machen
oder wenn das Wetter schön ist, während SchülerInnen die sehr oft Sport machen von denen die fast nie
Sport betreiben ausgeglichen werden.
27
Kapitel 3
Zweidimensionale, beschreibende
Statistik
Im vorhergehenden Kapitel haben wir mit den Daten der Meinungsumfrage gearbeitet und erste Schlüsse
daraus gezogen. Aber wir wollen noch mehr herausfinden und mit diversen Methoden, die wir uns jetzt
ansehen werden, können wir noch mehr Informationen aus unseren Daten herausholen. Bevor wir jedoch
beginnen, wollen wir die Ziele dieses Kapitels festhalten.
3.1
Ziele
• Daten in Bezug auf zwei Variablen anhand einer Punktwolke darstellen und analysieren.
• Einen Datensatz in Bezug auf zwei Variablen, gegeben in einer Tabelle oder als Punktwolke, als zweidimensionale Verteilung erkennen.
• Den Zusammenhang zweier Variablen anhand ihrer Punktwolken analysieren und dabei durch Intuition feststellen, ob dieser Zusammenhang positiv oder negaitv ist, ob er funktional ist oder nicht und ob
er sich im gegebenen Fall einer Linie annähert.
• Globale Aufgaben von mehreren Verteilungen durch ihre Punktwolken vergleichen.
• Gegebene Punktwolken verschiedenen Situationen zuordnen.
• Den Zusammenhang verschiedener Mittelwerte durch ihre Punktwolken bestimmen.
• Graphisch eine Linie finden, die zur Punktwolke passt.
• Den Korrelationskoeffizienten einer Punktwolke schätzen.
28
• Den Grad eines Zusammenhanges zweier Variablen analysieren, wenn der Korrelationskoeffizient bekannt ist.
• Den Korrelationskoeffizient einer zweidimensionalen Verteilung und die Regressionsgerade berechnen.
• Aus der Regressionsgeraden Prognosen erstellen.
3.2
Das Beispiel: Eine Meinungsumfrage
In diesem Kapitel wollen wir eine noch tiefergehende Analyse unserer Meinungsumfrage machen. Ausgehend von den bestehenden Informationen, wollen wir Fragen wie die folgenden beantworten:
• Besteht ein Zusammenhang zwischen dem Taschengeld das ihr bekommt und der Anzahl eurer Geschwister?
• Hat der Sport den ihr betreibt einen Einfluss darauf wieviel ihr raucht oder wieviel Alkohol ihr trinkt?
• Können wir diese Zusammenhänge ganz genau messen?
In diesem Kapitel werden wir versuchen diese Fragen zu beantworten und noch viele mehr. Jetzt wollen
wir uns die Konzepte die wir zur Beantwortung dieser Fragen brauchen ansehen.
3.3
Einleitung und einfache Tabellen
Wir können uns viele Variablen vorstellen, die einen Einfluss auf andere Variablen haben. Zum Beispiel,
je älter ihr seid, desto mehr Taschengeld bekommt ihr. Wir wollen uns anschauen ob das auch wirklich so
ist. Was wir schon aus dem vorherigen Kapitel wissen, ist dass wir unsere Daten zuerst einmal organisieren
müssen. Wir erinnern uns, dass die Daten zum Alter und zum Taschengeld die folgenden waren:
Alter
16
16
16
16
17
18
16
17
17
17
19
16
17
16
17
Geld
6
8
10
5
15
20
9
10
9
9
20
15
12
6
15
Alter
17
16
18
18
18
19
17
16
19
16
16
16
17
16
16
29
Geld
12
10
25
20
30
15
12
9
20
6
9
10
25
9
9
Dieses sind die Wertepaare unserer Daten. Gruppieren wir jetzt die Daten die gleich sind. Wir bekommen
die folgende Tabelle:
Alter
16
16
16
16
16
16
17
17
17
17
17
18
18
18
19
19
Geld
5
6
8
9
10
15
9
10
12
15
25
20
25
30
15
20
Anzahl
1
3
1
5
3
1
2
1
3
2
1
2
1
1
1
2
Die Tabelle die wir gerade zusammengestellt haben nennen wir einfache Tabelle und sie ist der Ausgangspunkt unserer Analyse.
3.4
Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen
Ist es einfach für euch aus der obigen Tabelle Schlüsse zu ziehen? Gibt es eine andere Möglichkeit wie
wir unsere Daten darstellen können? Wir wollen die sich wiederholenden Werte die wir in der Spalte für
Alter und auch in der für Geld finden vermeiden. Wir können unsere Daten folgendermaßen gruppieren:
Geld
5
6
8
9
10
12
15
20
25
30
16
1
3
1
5
3
1
Alter
17 18
2
1
3
2
1
2
1
1
19
1
2
Diese Tabelle erlaubt uns einen besseren Gesamtüberblick über die Verteilung der Häufigkeiten und je
mehr verschiedene Werte wir haben, desto brauchbarer ist so eine Tabelle. Wir nenne sie Tabelle zweier
30
Variablen wenn wir es mit zwei quantitativen Variablen zu tun haben und Kontingenztabelle wenn wir zwei
qualitative Variablen haben. Können wir von dieser Tabelle jedoch sagen wieviele SchülerInnen ein Taschengeld von 12 Euro bekommen? Und die Gesamtanzahl der SchülerInnen die 17 Jahre alt sind? Offensichtlich
ja! Ihr könnt alle Häufigkeiten die in der Reihe die mit dem Wert 12 zu tun hat zusammenzählen und bekommt dann die Anzahl der SchülerInnen deren Taschengeld 12 Euro ist. Auf die gleiche Art könnt ihr
die Häufigkeiten die in der Spalte die mit dem Wert 17 zu tun hat zusammenzählen und bekommt dann die
Anzahl der SchülerInnen die 17 Jahre sind. Wir fügen diese Nummern unserer Tabelle hinzu und bekommen:
Geld
5
6
8
9
10
12
15
20
25
30
Total
Alter
17 18
16
1
3
1
5
3
2
1
3
2
1
14
1
2
2
1
1
4
1
9
19
3
Total
1
3
1
7
4
3
4
4
2
1
30
Was wir in der Tat gerade bekommen haben, sind die Werte der einzelnen Variablen unabhängig von
einander. Diese Werte nennen wir die Randverteilung der Variablen. Um die gesamte Randverteilung der
Variable Alter zu erhalten, nehmen wir die erste und die letzte Reihe,
Alter
Häufigkeiten
16
14
17
9
18
4
19
3
Wir können dies auch mit der Variable Taschengeld machen indem wir die erste und die letzte Spalte
nehmen.
Aufgabe 3.4.1 Könnt ihr also diese Tabelle für die Variable Taschengeld aufstellen?
Im allgemeinen wird eine Tabelle für zwei Variablen folgendermaßen definiert:
Y
X
x1
x2
...
xs
...
xk
Tot
y1
n11
n21
...
ns1
...
nk1
n∗1
y2
n12
n22
...
ns2
...
nk2
n∗2
...
...
...
...
...
...
...
...
yp
n1p
n2p
...
nsp
...
nkp
n∗p
31
...
...
...
...
...
...
...
...
ym
n1m
n2m
...
nsm
...
nkm
n∗m
Tot
n1∗
n2∗
...
ns∗
...
nk∗
n
wo die Werte oder Eigenschaften von X,x1 , x2 , . . . , xk sind und jene von Y sind y1 , y2 , . . . , ym ; nij ist die
Anzahl der Untersuchungselemente welche die Eigenschaften xi für die Variable X und yj für die Variable
Y darstellen. Weiters, ni∗ beschreibt die Anzahl der Untersuchungselemente welche die Eigenschaft xi
darstellen und n∗j die Anzahl der Untersuchungselemente welche die Eigenschaft yj darstellen. n ist die
Gesamtanzahl der Elemente der Grundgesamtheit oder der Stichprobe.
Wenn wir einmal die Randverteilungen kennen, können wir den Mittelwert und die Standardabweichung
von beiden berechnen, als ob sie eindimensionale Variablen wären. Ihre Ausdrücke sind:
s
Pk
Pk
xi ni∗
i=1 (xi − x)ni∗
x = i=1
Sx =
n
n
s
Pm
Pm
j=1 yj n∗j
j=1 (yj − y)n∗j
y=
Sy =
n
n
Aufgabe 3.4.2 Wie lauten Mittelwert und Standardabweichung für Taschengeld und Alter?
Einer deiner KlassenkameradInnen hat eine Frage. Er ist 17 Jahre und er will wissen, ob sein Taschengeld
unter den höheren oder den niedrigeren liegt, weil er um eine Eröhung des Taschengeldes fragen will, falls
es zu niedrig ist. Um das zu bekommen, möchte er sich zuerst mit den anderen SchülerInnenn seines Alters
vergleichen. Also nimmt er die Daten jener Schuüler die sein Alter haben:
Geld
Alter = 17
5
0
6
0
8
0
9
2
10
1
12
3
15
2
20
0
25
1
30
0
Da dieser Junge ein Taschengeld von 10 Euro bekommt, bekommen die meisten seiner Kameraden mehr
Taschengeld und er entscheidet sich daher, nach einer Erhöhung zu fragen.
Was wir gerade berechnet haben ist die bedingte Verteilung der Variable Taschengeld, für einen bestimmten Wert des Alters, in diesem Fall 17. Wir haben nun wieder eine eindimensionale Variable, von welcher
wir die Zentralmaße und die Streuungsmaße berechnen können.
Aufgabe 3.4.3 Berechne die Häufigkeitstabelle für die Variable Alter, für das Taschengeld=15 Euro.
Aufgabe 3.4.4 Berechne die Häufigkeitstabelle, mit den Randverteilungen, für das Gewicht und für die Antwort zu Frage 3.1
3.5
Punktwolke
Normalerweise werden Daten von eindimensionalen Variablen leichter analysiert, wenn wir sie in einem
Diagramm darstellen. Die Situation ist jetzt allerdings anders, da wir zwei Variablen darstellen müssen und
beide mit ihren Häufigkeiten. Um das zu bewerkstelligen, verwenden wir eine sogenannte Punktwolke als
Diagramm. Wir zeichnen diese folgendermaßen: Wir tragen auf der X + Achse die Variable Taschengeld auf
und auf der Y + Achse die Variable Alter. Wir stellen einen Punkt so groß dar wie seine Häufigkeit oder wir
zeichnen so viele Punkte wie die Häufigkeit angibt.
32
Abbildung 3.1: Punktwolke
Die Form der Punkte in der Punktwolke kann uns eine mögliche Abhängigkeit zwischen den Variablen
anzeigen, wie wir im folgenden sehen werden.
Aufgabe 3.5.1 Zeichne die Punktwolke für die Variablen Gewicht und die Antwort zu der Frage 3.1
3.6
Funktionale Abhängigkeit und statistische Abhängigkeit
Nehmen wir an, wir beschäftigen uns mit den folgenden Variablen:
• Die Körpergröße und die Größe des Fußes einer Person.
• Das Taschengeld und die Körpergröße.
• Die Anzahl der Familienmitglieder und die Anzahl der Zimmer in ihrem Haus.
• Die Höhe von der wir etwas hinunter werfen und die Zeit die es braucht um am Boden anzukommen.
• Das Gewicht und die Anzahl der Geschwister.
Für jede dieser Situationen wollen wir herausfinden ob es einen Zusammenhang zwischen den angegebenen Variablen gibt, bzw. ob der Wert einer der Variablen einen Einfluss auf den anderen hat. Fall Nummer 4
ist zum Beispiel sehr klar. Wir haben in Physik gelernt, dass es einen funktionalen Zusammenhang zwischen
diesen Variablen gibt, eine Gleichung die beide verbindet. In anderen Fällen können wir annehmen, dass es
keine Verbindung gibt, wie z.B. im Fall 2 und 5. Im Fall 1 und 3 gibt es allerdings wieder die Möglichkeit
eines Zusammenhanges, der wir uns nicht sicher sein können.
Die Punktwolken können sehr verschiedene Formen haben und können uns helfen herauszufinden wie
die Variablen zueinander stehen. Wir wollen jene als erste Annäherung verwenden, obwohl wir später etwas
33
entscheidendere Methoden anwenden werden, um zu entscheiden ob zwei Variablen zusammenhängen oder
nicht.
Wie wir gerade gesehen haben gibt es verschiedene Arten des Zusammenhanges zwischen Variablen.
Wir sprechen von einer funktionalen Abhängigkeit wenn wir in einer ähnlichen Situation wie im Fall 4 sind.
Bei jenem ist Y funktional abhängig von X wenn wir jedem Wert xi einen einmaligen Wert yj auf solche
Art zuordnen können, dass yj = f (xi ) ist. Das heisst, der Wert einer Variable legt den Wert der anderen
Variable genau fest. Die funktionale Abhängigkeit ist linear, wenn alle Wertepaare auf einer Geraden liegen.
Die Abhängigkeit ist gekrümmt, wenn die Wertepaare in einer Kurve, definiert durch die Funktion y = f (x),
liegen.
Zwei Variablen X und Y gelten als unabhängig voneinander, wenn der Wert der einen Variable keinen
Einfluss auf den Wert der anderen Variable hat. Das bedeutet, dass die relativen bedingten Verteilungen
zusammenfallen.
Bei den restlichen Fällen können wir von statistischer Abhängigkeit oder Zusammenhang sprechen. Diese Abhängigkeit kann stärker oder schwächer sein, je nach Situation. Durch die Punktwolke bekommen wir
eine Vorstellung davon wie stark/schwach die Abhängigkeit ist, unter Berücksichtigung dessen, dass die
Abhängigkeit umso stärker ist, je mehr sich die Werte zum Graph einer Funktion nähern.
Punktwolken in denen wir lineare oder gekrümmte Abhängigkeiten sehen:
Abbildung 3.2: lineare Abhängigkeit
Aufgabe 3.6.1 Könnt ihr irgendeinen Schluss ziehen, über die mögliche Abhängigkeit zwischen dem Gewicht und der Antwort zur Frage 3.1, aus der Punktwolke die ihr im vorherigen Abschnitt gezeichnet habt?
3.7
Kovarianz
Erinnert euch an die Punktwolke der zwei Variablen die wir untersuchen. Es ist nicht leicht zu erkennen
welche Art von Zusammenhang zwischen ihnen besteht. Aber glaubt ihr z.B., dass das Taschengeld steigt,
wenn das Alter steigt? Oder glaubt ihr es passiert umgekehrt? Wir suchen jetzt nach einer Zahl die uns ein
Maß dafür sein kann, ob wir es mit einem direkten oder umgekehrten/indirekten Zusammenhang zu tun
haben. Zu diesem Zweck verwenden wir die Kovarianz, welche folgendermaßen definiert ist:
34
Abbildung 3.3: gekrümmte Abhängigkeit
Pk
i=1
Pm
j=1 (xi
− x)(yj − y)nij
Pk
i=1
Pm
j=1
xi yj nij
−xy
n
n
Die Kovarianz ist auch bekannt als die gemeinsame Varianz zweier Variablen. Wenn der Zusammenhang
direkt ist, ist die Kovarianz positiv und wenn die Kovarianz negativ ist, ist der Zusammenhang indirekt. Wir
wissen, dass das Durchschnittsalter 16, 86̇ Jahre ist und das durchschnittliche Taschengeld 13 Euro, also
erhalten wir Sxy = 4, 53̇ und somit ist der Zusammenhang direkt und ziemlich stark.
Wir bemerken, dass beim Ausdruck der Kovarianz, sein Vorzeichen abhängt von der Differenz aus (xi −
x) und (yj − y). Schauen wir uns an was mit der Kovarianz in bestimmten Situationen passiert. Wir sehen
uns die drei Punktwolken an, in welchen wir den Punkt (x, y) markieren, welcher das Gravitationszentrum
der Verteilung ist. (siehe Abb. 3.4).
Wir sehen, dass wir im 2. Diagramm eine große Kovarianz haben, da die Unterschiede von (xi − x)
und (yj − y) immer das gleiche Vorzeichen haben (xi und yj sind immer im ersten und dritten Quadranten,
definiert durch die Achse die auf (x, y) zentriert ist). Da diese Differenzen positiv sind, tragen sie in positiver
Art zur Summe bei.
In den anderen 2 Fällen gibt es keinen linearen Zusammenhang und so haben wir positives und negatives
Addieren. Wir haben Datenpunkte auf allen vier Quadranten und so gleichen sich manche miteinander aus
und das Ergebnis kann um 0 sein.
Wir bemerken also, dass die Kovarianz wiederum ein Maß ist, welches von den Maßeinheiten abhängt,
wie es bei Varianz und Standardabweichung der Fall war. Daher wollen wir uns nach einem anderen, dimensionslosen Maß umsehen, welches uns erlaubt Verteilungen zu vergleichen.
Sxy =
3.8
=
Lineare Korrelation
Wir suchen jetzt nach einem Maß, welches uns den Grad des Zusammenhanges zweier Variablen (direkt
oder indirekt) gibt. Wir wollen jenes dann auch dazu verwenden, um den linearen Zusammenhang zwischen
ihnen zu messen.
Wir beginnen mit der Kovarianz, die wir gerade präsentiert haben, welche vom Produkt der Maßeinheiten der beiden Variablen abhängt, da (xi − x) abhängig ist von den Maßeinheiten von X und (yj − y)
35
Abbildung 3.4: Kovarianz
abhängig ist von den Maßeinheiten von Y ; nij und n sind hingegen dimensioslos. Wir müssen Sxy durch
eine Zahl auf solche Art dividieren, dass diese zwei Maßeinheiten verschwinden. Wir erinnern uns, dass die
Varianz abhängig ist von dem Quadrat der Maßeinheit der Variable, also können wir sie nicht verwenden.
Die Standardabweichung ist hingegen abhängig von der einfachen Maßeinheit der Variable. Das heisst, das
Produkt Sx Sy hängt ab vom Produkt der Maßeinheiten von X und Y und das ist genau was wir suchen. Wir
definieren den linearen Korrelationskoeffizient also folgend:
r=
Sxy
Sx Sy
Berechnen wir ihn für unser Beispiel. Wir wissen, dass Sxy = 4, 53̇ und Sx = 1, 008 und Sy = 6, 368,
daraus folgt, r = 0, 706, aber was bedeutet das?
Der Wert von r ist immer zwischen −1 und 1. Wenn der Wert von r nahe an −1 oder 1 ist, dann ist die
lineare Abhängigkeit zwischen den zwei Variablen stark und sie ist direkt wenn sie nahe bei 1 und indirekt
wenn sie nahe bei −1 ist.
Wenn der Wert von r nahe bei 0 ist haben wir eine schwache Abhängigkeit, wenn überhaupt eine besteht.
Wenn der Wert von r mit 1 oder −1 zusammenfällt, ist die Abhängigkeit linear und alle Punkte liegen auf
einer Linie.
Wir bestätigen also, dass der Zusammenhang in unserem Beispiel direkt und sehr stark ist.
Aufgabe 3.8.1 Berechnet den linearen Korrelationskoeffizient von den Variablen Gewicht und Antwort der
36
Frage 3.1. Was können wir über den Zusammenhang zwischen den Variablen sagen?
3.9
Regressionsgerade
Nehmen wir an, ihr wisst, dass ein Junge der Schule ein Taschengeld von 18 Euro bekommt, aber ihr kennt
sein Alter nicht. Wir könnten den Wert den die Variable Alter für diesen Jungen haben sollte vorhersagen.
Aber wie können wir das anstellen? Wir haben in diesem Kapitel immer über den möglichen Zusammenhang
zwischen diesen Variablen gesprochen, jetzt ist der Moment wo wir ihn auch verwenden. Wenn wir eine
Gleichung aufstellen könnten, die das Alter und das Taschengeld in eine Beziehung bringt, bräuchten wir
nur unsere Zahlen einsetzen und hätten den Wert den wir suchen.
Leider ist das Ganze nicht so einfach. Da wir wissen, dass die lineare Korrelation zwischen den zwei
Variablen sehr groß ist, können wir versuchen eine Linie zu finden, die den Punkten am besten entspricht
und wir können dann am Wert des Taschengeldes den Wert für das Alter ablesen. Diese Linie wird Regressionsgerade genannt. Wir wollen sie zuerst definieren und später den Wert für unser Beispiel berechnen.
X und Y sollen zwei Variablen sein und wir definieren die Regressionsgerade als die Linie, welche die
Summe der Quadrate der Abstände zwischen den Datenpunkten und den geschätzten Punkten minimiert.
Für die Regressionsgerade von Y über X, sollte das y = ax + b sein. Jetzt müssen wir die Summe der
Quadrate der Abstände zwischen den Werten yj und den erwarteten Werten dafür, axi + b, minimieren. Die
Gleichung für diese Gerade ist:
Y −y =
Sxy
(X − x)
Sx2
Wir werden diese Gerade verwenden, wenn wir den Wert von Y aus dem Wert X schätzen wollen.
Bei der Regressionsline von X über Y ergibt sich x = c + dy und wir minimieren die Summe der
Quadrate der Abstände zwischen den Werten xi und den Prognosen für diese Werte cyi + d. Die Gleichung
für diese Gerade ist also:
X −x=
Sxy
(Y − y)
Sy2
Wir werden diese Gerade verwenden, wenn wir den Wert von X aus dem Wert Y schätzen wollen.
Berechnen wir nun also die Regressionsgerade für unser Beispiel. Unsere Variablen sind das Taschengeld
(X) und das Alter (Y ), also müssen wir die Gerade von X über Y berechnen. Wir haben also:
x = 13
y = 16, 86̇
Sxy = 4, 53̇
Sx = 6, 368
Sx2 = 40, 551
also ist die Gerade die wir suchen
Y − 16, 86̇ =
4, 53̇
(X − 13)
40, 551
beziehungsweise
Y − 16, 86̇ = 0, 111(X − 13) ⇒ Y = 0, 111X + 15, 413
Wenn also das Taschengeld dieses Jungen x = 18 Euro beträgt, sollte sein Alter sein:
37
Y = 0, 111 · 18 + 15, 413 = 17, 42
das heißt, dieser Junge sollte 17 Jahre alt sein.
Wir müssen jetzt noch ein paar Anmerkungen zur Regressionsgeraden machen. Erstens, der Schnittpunkt
der zwei Regressionsgeraden (X über Y und Y über X) ist (x, y), außer im Falle einer linearen Korrelation
von 1 oder −1 wobei diese zwei Geraden zusammenfallen würden.
Wenn wir Prognosen mit der Regressionsgeraden machen wollen, müssen wir bedenken, dass wir eine
der folgenden Voraussetzungen erfüllen müssen:
• Wir können aus der Punktwolke schliessen, dass es einen möglichen linearen Zusammenhang zwischen den Variablen gibt.
• Der lineare Korrelationskoeffizient ist nahe 1 oder −1.
• Der Hausverstand sagt uns, dass ein Zusammenhang zwischen den Variablen möglich ist.
Eine andere Möglichkeit die Regressionsgerade darzustellen ist die folgende:
• Für die Regressionsgerade Y über X, ergibt das y = ax + b, wobei gilt:
a=
Sxy
Sx2
b=y−
Sxy
x
Sx2
• Für die Regressionsgerade X über Y , ergibt das x = cy + d, wobei gilt:
c=
Sxy
Sy2
d=x−
Sxy
y
Sy2
Aufgabe 3.9.1 Berechnet die Regressionsgerade für die Variablen Gewicht und Antwort zu Frage 3.1. Wenn
ein SchülerInnen 67 kg wiegt, könnt ihr vorhersagen was die Antwort zur Frage 3.1 ist?
38

Einführung in die Deskriptive Statistik anhand realer Fälle

Produkte

Unterstützung

Einführung in die Deskriptive Statistik anhand realer Fälle

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können