Einführung in die Deskriptive Statistik anhand realer Fälle

Werbung
MaMaEuSch
Management Mathematics for
European Schools
http://www.mathematik.unikl.de/˜ mamaeusch
Wahrscheinlichkeitsrechnung anhand realer Situationen
Paula Lagares Barreiro1
Frederico Perea Rojas-Marcos1
Justo Puerto Albandoz1
MaMaEuSch2
Management Mathematics for European Schools
94342 - CP - 1 - 2001 - DE - COMENIUS - C21
1
Universität Sevilla
MaMaEuSch wurde unterstützt durch die EU mittels einer teilweisen Förderung im Rahmen des Socrates Programmes und einer teilweisen Förderung durch das Land Rheinland-Pfalz. Der Inhalt des Projektes reflektiert nicht
notwendigerweise den Standpunkt der EU, noch unterliegt es irgendeiner Verantwortung seitens der EU.
2
Inhaltsverzeichnis
1
Eindimensionale beschreibende Statistik
1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative . . . . .
1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit . . . . . . . . . . . . . .
1.6 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.3 Häufigkeitspolygon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.4 Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.5 Piktogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.6 Stengel-Blatt-Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.7 Einige Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil . . . . . . . . . . . . . . . . .
1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung . . . . . . . . . . . . . . . . . .
1.9 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem,
Pearson’scher Variationskoeffizient, ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . .
1.9.1 Tchebicheff Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9.2 Pearson’scher Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9.3 ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3
4
5
6
8
8
9
10
11
12
12
14
14
17
2 Analyse der Meinungsumfrage
2.1 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
27
3 Zweidimensionale, beschreibende Statistik
3.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . .
3.3 Einleitung und einfache Tabellen . . . . . . . . . . . . . . . . . .
3.4 Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen .
3.5 Punktwolke . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Funktionale Abhängigkeit und statistische Abhängigkeit . . . . .
3.7 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Lineare Korrelation . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
30
32
33
34
35
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
22
3.9
Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
37
Kapitel 1
Eindimensionale beschreibende Statistik
Wir wollen eine Meinungsumfrage durchführen. Ihr werdet einen Fragebogen ausfüllen, so dass wir feststellen können, was ihr über eine Vielzahl von Themen denkt. Weiters wollen wir einige Eigenschaften wie
Größe, Gewicht, Anzahl von Brüdern und Schwestern etc. erheben. Wir wollen überprüfen ob deine Meinung mit denen deiner Freunde übereinstimmt und auch ob es viele KlassenkameradInnen mit ähnlichen
Eigenschaften wie deinen gibt. Zum Beispiel, wieviele deiner Mitschüler sind größer als du und wieviele
davon haben die gleiche Anzahl an Geschwistern? Bevor wir beginnen wollen wir die Hauptziele die wir in
diesem Kapitel erreichen wollen darstellen.
1.1
Ziele
• Die verschiedenen Arten von Statistiken unterscheiden lernen.
• Bestimmen welche Art von Statistik wir verwenden sollen, abhängig von der Art der Daten die wir
benützen.
• Das Konzept Zentralmaße und Streuungsmaße von einem Datensatz begreifen.
• Die Parameter einer statistischen Verteilung bestimmen.
• Den Variationskoeffizient untersuchen.
• Durch Informationen in den Beispielen und Aufgaben zu sozialen, ökologischen und wirtschaftlichen
Themen anregen.
1.2
Das Beispiel: Eine Meinungsumfrage
Von jetzt an arbeiten wir an einer Meinungsumfrage. Wir wollen einige Dinge über eure KlassenkameradInnen herausfinden. Wir werden nach ein paar persönlichen Daten fragen und dann bitten wir euch, uns
3
Informationen und eure Meinung zu einigen Themen wie z.B. Sport, Ernährung etc. zu geben. Die Umfrage
ist anonym, so dass ihr frei antworten könnt und euch keine Sorgen darüber machen braucht, wer eure Meinungen später liest. Mit diesen Daten wollen wir interessante Fragen über uns als Gruppe aufwerfen, die wir
dann vielleicht als Orientierungshilfe zur Beantwortung von anderen Fragen über eine größere Gruppe von
Leuten verwenden können. Zum Beispiel:
• Welche ist die häufigste Größe in eurer Klasse?
• Erscheint dir dein wöchentliches Taschengeld normal, verglichen mit dem deiner KlassenkameradInnen?
• Wieviele von euch betreiben oft Sport? Wieviele essen Frühstück bevor sie in die Schule kommen?
• Welche Nahrungsmittel konsumiert ihr öfter: Früchte, Milch, Kaffee, Fisch . . . ?
Wir werden festellen wie wir durch die Auswertung der Antworten aus der Meinungsumfrage, all die
oben gestellten Fragen beantworten können. Bis zum Ende des Kapitels haben wir sicher all die Antworten,
aber zuerst wollen wir die Konzepte die ihr brauchen werdet vorstellen.
1.3
Grundgesamtheit und Stichprobe
Bevor wir all die Fragen beantworten können, müssen wir noch einige Dinge klären. Über wen wollen
wir Informationen bekommen? Wir haben schon festgehalten, dass wir Dinge über die SchülerInnen eurer Schulstufe erfahren wollen. Also wird unsere Grundgesamtheit nicht nur aus den SchülerInnen eurer
Klasse, sondern aus allen SchülerInnen eurer Schulstufe bestehen. Es würde jedoch zu lange dauern, alle
SchülerInnen dieser Schulstufe zu befragen. Daher haben wir uns entschieden eine repräsentative Gruppe
aus all den Klassen eurer Schulstufe zu nehmen, das ist in diesem Fall eure Klasse. Ihr seid daher die so
genannte Stichprobe. Weiters wird jedes einzelne Mitglied der Grundgesamtheit als Untersuchungselement
bezeichnet. Vielleicht sollten wir noch ein paar Anmerkungen zu dem Gesagten machen. Erstens, manchmal
möchte man vielleicht Eigenschaften von Tieren, Pflanzen, Dingen, z.B. die Lebensdauer von Batterien in
Mobiltelefonen untersuchen. In diesem Falle ist die Grundgesamtheit nicht ”menschlich”, sondern ”sachlich”, sie besteht nämlich aus den verschiedenen Arten von Mobiltelefonen. Weiters gibt es Situationen, in
denen die Verwendung von Stichproben aus verschiedenen Gründen noch mehr gerechtfertigt ist als in unserem Fall. Wenn wir z.B. das Wahlergebnis der Spanier wissen wollen, können wir nicht alle Spanier über 18
befragen, da dies Millionen von Menschen wären und das würde eine Menge an Zeit und Geld in Anspruch
nehmen. Oder, um die durschnittliche Lebensdauer von Glühbirnen zu untersuchen, können wir nicht alle
Glühbirnen überprüfen, da jede Überprüfung das Zerstören einer Glühbirne bedeutet. Dies ist ein Beispiel
für Situationen in denen die Stichprobenerhebung mit der Zerstörung eines Untersuchungselementes verbunden ist. Insgesamt gesehen ist die Stichprobenerhebung daher in vielen Situationen durch den Zeitfaktor,
das Geld oder aus Gründen der Zerstörung des Untersuchungselementes gerechtfertigt.
Aufgabe 1.3.1 In Andalusien wurde 2001 eine Umfrage zur Auswahl von Universitätsstudien durchgeführt,
um herauszufinden was die 65.356 MaturantInnen studieren wollten und warum. Um das zu bekommen,
wurden die Daten von 8500 MaturantInnen von ganz Andalusien gesammelt. Kannst du erklären was die
Grundgesamtheit und was die Stichprobe in diesem Beispiel ist? Was sind die Gründe dafür hier eine Stichprobe zu verwenden?
4
1.4
Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative
Bevor wir unsere Fragen richtig beantworten können, müssen wir zuerst entscheiden, welche Methode wir
für unsere Daten verwenden wollen. Dabei ist zu beachten, dass nicht alle Daten die wir sammeln können
die gleiche Art von Daten sind. Wir können uns zum Beispiel die Antworten zu den drei folgenden Fragen
unsere Umfrage überlegen:
1. Die Antwort zu der Frage nach dem Geschlecht (männlich oder weiblich).
2. Die Antwort zu der Frage nach der Anzahl der Geschwister.
3. Die Antwort zu der Frage nach der Größe.
Was uns als erstes auffällt ist, dass die Antwort zu der ersten Frage nicht numerisch ist, während die
Antworten zu den beiden anderen Fragen numerisch sind. Die Eigenschaft, welche auf die erste Antwort
zutrifft, nennt man qualitativ während jene die auf die Antworten zwei und drei zutrifft als quantitativ bezeichnet wird. Daraus ist leicht ersichtlich, dass quantitative Variablen Vorgehensweisen erlauben, die mit
qualitativen Eigenschaften nicht möglich sind. Wir sagen Kategorien zu den verschiedenen Möglichkeiten
von qualitativen Variablen und Werte zu jenen der quantitativen Variablen. Schauen wir uns jetzt den Unterschied zwischen den Variablen aus Antwort 2 und Antwort 3 an, da dieser schon etwas komplizierter ist.
Die Variable Anzahl von Geschwistern wird in numersichen Werten ausgedrückt, die wir als ”isoliert” bezeichnen können, 0,1,2,3,. . . , aber sie können keinen Wert dazwischen annehmen, z.B. den Wert 3.5. Dies
trifft jedoch nicht auf die Variable Größe zu. In der Tat kann die Größe jeden beliebigen Wert in einem
bestimmten Bereich annehmen, wir können die Größe so genau messen wie wir wollen. Wir können also
zusammenfassen, dass die Größe jeden Wert innerhalb eines bestimmten Intervalls haben kann. Daher wird
die Variable in der Frage 2 als diskret und die Variable in Frage 3 als stetig bezeichnet.
Aufgabe 1.4.1 Entscheide ob folgende Variablen qualitativ oder quantitativ sind und wenn sie quantitativ
sind, ob sie diskret oder stetig sind.
1. Die Anzahl der an einem Tag geborenen Kinder.
2. Die Blutgruppe einer Person.
3. Die Zeit die man braucht um ein Problem zu lösen.
4. Die Anzahl der Fragen bei einer Prüfung.
5. Die Körpertemperatur einer Person.
6. Die politische Partei die bei den letzten Wahlen gewählt wurde.
7. Die Anzahl der Tore die von einem Spieler in einer Saison geschossen wurden.
5
1.5
Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit
Es ist jetzt an der Zeit die Daten die wir in unserer Meinungsumfrage erhalten haben aufzubereiten. Die
Daten die wir zur Anzahl der Geschwister haben sind:
013201011223121111004231212110
während wir für das Gewicht folgende haben:
52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52
Wir können eine Menge an Fragen aufstellen: Wie viele meiner KlassenkameradInnen haben die gleiche Anzahl an Geschwistern wie ich? Wie viele davon haben mehr oder weniger als ich? Wieviele meiner
KlassenkameradInnen wiegen mehr, bzw. weniger als ich? Um diese Fragen zu beantworten, müssten wir
zählen, wie oft jede Antwort vorkommt. Beginnen wir mit der Anzahl der Geschwister:
0
1
2
3
4
||||| | → 6
||||| ||||| ||| → 13
||||| || → 7
||| → 3
|→1
Wir wissen jetzt, dass es 13 Personen mit 1 Bruder/Schwester gibt. Diese Zahl wird absolute Häufigkeit genannt und wir notieren sie mit ni . Wieviele Personen haben nun höchstens 1 Bruder/Schwester? In unserem
Falle sind die Personen die 0 oder 1 Bruder/Schwester haben, 6 + 13 = 19. Diese Zahl wird kumulative
absolute Häufigkeit genannt und wir notieren sie mit Ni . Wir können jetzt eine Tabelle mit kumulativen und
absoluten Häufigkeiten aufstellen:
Anz. Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
kum. absolute H.
6
13 + 6 = 19
13 + 6 + 7 = 26
13 + 6 + 7 + 3 = 29
13 + 6 + 7 + 3 + 1 = 30
Es ist wichtig die Werte der Variable in der Reihenfolge von der niedrigste zur höchsten anzuordnen,
wenn wir die kumulative Häufigkeit auf die richtige Art berechnen wollen. Wir werden jetzt noch andere
Arten von Häufigkeiten bestimmen, da es interessant ist das Verhältnis zur Gesamtmenge zu wissen. Dieses
können wir nämlich in ganzen Zahlen angeben um dann leichter mit anderen Grundgesamtheiten vergleichen
zu können. In unserem Fall gibt es 6 SchülerInnen die 0 Geschwister haben. Aber wir haben auch eine
Gruppe von 50 Personen befragt und wir wissen, dass es in jener 9 Personen mit 0 Geschwistern gibt. In
welcher dieser zwei Gruppen gibt es nun einen größeren Anteil an Personen mit 0 Geschwistern? Es ist
leicht erkennbar, dass die Verhältnisse so aussehen:
6
9
= 0.2 und
= 0.18
30
50
Offensichtlich ist also der Anteil in unserer Gruppe mit 30 Personen höher. Dieses Verhältnis wird relative Häufigkeit genannt und wir notieren sie mit fi . Wenn wir sie in Prozent ausdrücken (mit 100 multiplizieren) erhalten wir die prozentuelle Häufigkeit, die in unserem Falle 20% bzw. 18% ist. Wir notieren diese
prozentuelle Häufigkeit mit pi . Wir fügen jetzt alle diese Häufigkeiten zu unserer Tabelle von vorher dazu
6
und erhalten folgende Zusammenstellung:
Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
relative H.
6
30 = 0.2
13
30 = 0.43̇
7
30 = 0.23̇
3
30 = 0.1
1
30 = 0.3̇
prozentuelle H.
20%
43.3̇%
23.3̇%
10%
3.3̇%
kum. absolute H.
6
13 + 6 = 19
13 + 6 + 7 = 26
13 + 6 + 7 + 3 = 29
13 + 6 + 7 + 3 + 1 = 30
kum. relative H.
0.2
0.63̇
0.86̇
0.96̇
1
Wir wollen uns jetzt die Gewichtsdaten ansehen und zählen dafür die verschiedenen Werte:
46
47
49
50
52
53
54
55
57
58
59
60
62
63
66
67
68
69
70
72
74
75
77
80
82
|→1
|→1
|→1
|| → 2
||| → 3
|→1
|| → 2
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|| → 2
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
|→1
Wie wir sehen haben die meisten Werte die Häufigkeit 1 und unsere Variable hat 25 verschiedene Werte.
Das sind zu viele verschiedene Werte um sie in einer Tabelle darzustellen. Wie können wir also eine anschaulichere Darstellung der Verteilung dieser Daten bekommen? Es erscheint logisch, ähnliche Daten in
Intervalle zu gruppieren. Es gibt eine eigene Theorie darüber wie man Daten richtig gruppieren soll, wir
wollen uns die wichtigsten Punkte kurz ansehen:
• Die Anzahl der Klassen/Gruppen soll weder zu hoch (zwischen 6 − 8 liegt die maximale Anzahl mit
der man normalerweise arbeitet) noch zu niedrig (es macht keinen Sinn in 2 oder 3 Klassen einzuteilen,
da wir dadurch zu viel an Information verlieren) sein.
7
• Abgesehen von den extremen Klassen sollten alle Intervalle die gleiche Breite haben, da sonst Informationen misinterpretiert werden können.
Könnt ihr euch vorstellen welche Intervalle wir suchen? Ihr könnt z.B. an die Anzahl von Klassen denken, die ihr haben wollt. Wir wollen festhalten, dass zwischen dem höchsten Wert (82) und dem niedrigsten
Wert (46) ein Unterschied von 36kg ist. Wenn wir also z.B. in 6 Klassen einteilen wollen, sollte die Breite des Intervalls 36
6 = 6 sein. Also erhalten wir die folgenden Intervalle: [46,52],(52,58], (58,64], (64,70],
(76,82].Wir erhalten somit eine mögliche Klassifizierung obwohl es natürlich noch viele mehr gibt. In manchen Analysen findet man die Angabe, dass das erste Intervall ”kleiner als 52” und das letzte Intervall
”größer als 76” sein soll. Hat man sich einmal für eine Einteilung entschieden, kann man die Häufigkeiten
berechnen:
Gewicht
[46,52]
(52,58]
(58,64]
(64,70]
(70,76]
(76,82]
absolute H.
8
6
4
6
3
3
relative H.
0.26̇
0.2
0.13̇
0.2
0.1
0.1
prozentuelle H.
26.6̇%
20%
13.3̇%
20%
10%
10%
kum. absolute H.
8
14
18
24
27
30
kum. relative H.
0.26̇
0.46̇
0.6
0.8
0.9
1
Weiters, wenn wir mit gruppierten Daten arbeiten, brauchen wir einen Vertreter jedes Intervalls und wir
nennen jenen Klassenmarke. Dieser ist die Klassen/Intervallsmitte (niedrigstes Extrem eines Intervals plus
höchstes Extrem, dividiert durch 2).
Aufgabe 1.5.1 Erstelle die Häufigkeitstabelle zur Variable ”Antworten zur Frage 1.3” und zu den Antworten
zu der Frage nach der Größe. Bevor du beginnst, entscheide ob es notwendig ist die Daten in Intervalle
einzuteilen oder nicht.
1.6
Graphische Methoden
Wenn wir die Häufigkeitstabellen erstellt haben, könnte euer Lehrer euch ja auch fragen, eure Ergebnisse
dem Rest der Klasse zu präsentieren. Ihr könnt eure Tabellen zeigen und über die wichtigsten Ergebnisse
sprechen, aber gibt es da nicht eine Möglichkeit die Daten so zu präsentieren, dass die wichtigsten Ergebnisse auf anschauliche Art sichtbar werden? Wie ihr euch denken könnt ist die Antwort zu dieser Frage ja.
Vielleicht habt ihr in Büchern oder in den Medien schon gesehen, dass solche Daten für gewöhnlich graphisch dargestellt sind, um sie attraktiver für die Betrachter und besser interpretierbar zu machen. In diesem
Abschnitt wollen wir alle Arten von Diagrammen besprechen und hervorheben, wie wichtig die richtige
Wahl der graphischen Darstellung ist, abhängig von der Art der Daten mit denen wir arbeiten. Da wir nun
die Häufigkeitstabellen zu den Variablen Gewicht und Anzahl an Geschwistern haben, werden wir diese
verwenden um die verschiedenen Diagramme vorzustellen.
1.6.1
Balkendiagramm
Die erste Art von Diagramm die wir uns näher ansehen wollen ist das Balkendiagramm. Dieses Diagramm
8
wird für qualitative, sowie für diskrete, in Intervalle gruppierte Variablen verwendet. Wir wissen bereits, dass
unsere Daten über die Anzahl der Geschwister eine diskrete Variable ist, also versuchen wir daraus ein Balkendiagramm zu erstellen. Auf der x-Achse haben wir die Kategorien, wenn wir mit qualitativen Variablen
bzw. in unserem Fall mit diskreten Variablen arbeiten und jene sind hier 0, 1, 2, 3 und 4. Über jeden dieser
Werte zeichnen wir ein Rechteck bzw. einen Balken von gleicher Breite und mit einer Höhe proportional zu
der dazugehörigen Häufigkeit. In unserem Falle sollten wir so ein Balkendiagramm bekommen:
Abbildung 1.1: Geschwister (vertikale Balken)
Manchmal wird dieses Diagramm auch mit horizontalen Balken gezeichnet, was dann so aussieht:
Abbildung 1.2: Geschwister (horizontale Balken)
1.6.2
Histogramm
Ein Histogramm ist ein Diagramm das dem Balkendiagramm sehr ähnlich ist, dieses wird für in Intervalle
gruppierte Variablen verwendet. Wir wollen ein Histogramm für die Variable Gewicht erstellen. Wie beim
Balkendiagramm haben wir auf der x-Achse die Intervalle und über jenen ein Rechteck welches die gleiche
Breite hat wie das Intervall. Die Höhe wird so gewählt, dass die Fläche des Rechteckes proportional zur
Häufigkeit des Intervalls ist. In diesem Diagramm sind die Flächen der Rechtecke sehr wichtig, da wir es
9
nicht mit einem Balken zu tun haben bei dem die Höhe einen bestimmten Wert anzeigt, sondern die Breite
des Balken repräsentiert das Intervall. Haben unsere Intervalle also die gleiche Breite, sollte die Höhe die
Häufigkeit sein. Haben sie nicht die gleiche Breite, müssen wir die Höhe ändern um das Verhältnis zwischen
Häufigkeit und Fläche zu erhalten. Unser Histogramm für die schon gruppierte Variable Gewicht ist also:
Abbildung 1.3: Gewicht (Histogramm)
Auch hier können horizontale Rechtecke verwendet werden:
Abbildung 1.4: Gewicht (Histogramm)
Bestimmt habt ihr in den Medien schon einmal eine Bevölkerungspyramide gesehen. Vielleicht bemerkt
ihr jetzt, dass diese Pyramide eigentlich aus zwei horizontalen Histogrammen besteht (eines für Frauen und
eines für Männer), in denen die Anzahl der EinwohnerInnen, gruppiert nach dem Alter, wiedergegeben wird.
1.6.3
Häufigkeitspolygon
Die nächste Art von Diagramm die wir uns ansehen wollen, ist das Häufigkeitspolygon. Es wird verwendet
wenn man quantitative Variablen hat, diskrete oder stetige. Um es zeichnen zu können, starten wir vom
Histogramm oder vom Balkendiagramm, je nachdem ob wir eine gruppierte oder nicht gruppierte Variable
10
haben. Mit einer Linie verbinden wir nun die Mittelpunkte der oberen Grenzen im Balkendiagramm oder im
Histogramm. Für unser Beispiel über die Anzahl der Geschwister, erhalten wir folgendes Diagramm:
Abbildung 1.5: Geschwister (Häufigkeitspolygon)
Im Falle des Gewichtes ist es etwas anders. Hier repräsentiert die Fläche unter der Linie die Daten die
wir haben, wie beim Histogramm, da wir von der ganzen Breite der Intervalle sprechen. Das Diagramm sieht
folgendermaßen aus:
Abbildung 1.6: Gewicht (Häufigkeitspolygon)
Alle bisher besprochenen Diagramme können auch für relative und kumulative Häufigkeiten gezeichneverwendett werden.
1.6.4
Kreisdiagramm
Die nächste Art von Diagramm ist eine der bekanntesten, das Kreisdiagramm. In einem Kreisdiagramm
ordnen wir jeder Kateogrie oder jedem Wert einen Teil eines Kreises zu, und zwar so, dass die Fläche eines
solchen Kreissegmentes proportional zur Häufigkeit sein soll. Dieses Diagramm wird normalerweise für
qualitative Variablen und nicht für gruppierte, diskrete Variablen verwendet.
11
Abbildung 1.7: Geschwister (Kreisdiagramm)
1.6.5
Piktogramm
Wir kommen hier zu einem Diagramm das sehr häufig in den Medien verwendet wird, das sogenannte
Piktogramm. Es handelt sich hier um Diagramme, wo ein Symbol welches die Variable widerspiegeln soll
verwendet wird um die Häufigkeiten auszudrücken. Wieder müssen wir etwas wichtiges hervorheben: die
Größe (und nicht nur die Höhe) muss proportional zu der Häufigkeit sein die wir aufzeigen wollen. Es ist
auch üblich die Häufigkeit dazu zu schreiben um Missverständnisse zu verhindern.
1.6.6
Stengel-Blatt-Diagramm
Es gibt eine Art der Darstellung, die zwischen einem Diagramm und einer Datenaufzählung liegt, das
Stengl-Blatt-Diagramm. Wir werden uns dieses jetzt am Beispiel des Gewichtes ansehen. Wir erinnern uns
an die Daten:
52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52
Was wir bei einem Stengel-Blatt-Diagramm als erstes machen müssen, ist die Zehnerschritte unserer Daten
in eine Spalte zu schreiben. In unserem Fall, da unsere Werte zwischen 46 und 82 liegen, müssen wir 4, 5,
6, 7 und 8 folgendermaßen aufschreiben:
4
5
6
7
8
Als nächstes nehmen wir den ersten Wert aus unserer Datenaufzählung, 52, und schreiben die erste Stelle
der Zahl neben die dazugehörige Zehnerzahl:
12
4
5 2
6
7
8
Wir plazieren also alle ersten Stellen neben die dazugehörigen Zehnerstellen und erhalten folgendes:
4 697
5 249078423502
6 62837097
7 07425
8 02
Ihr werdet bemerken, dass wir etwas ähnliches (aber nicht gleiches) wie ein Balkendiagramm oder ein Histogramm vor uns haben. Offensichtlich könnten wir unser Stengl-Blatt-Diagramm ja auch vertikal machen
und würden in etwa so etwas herausbekommen:
2
0
5
3
2 7
4 9
8 0
7 7 5
0 3 2
7 9 8 4
9 4 2 7 2
6 2 6 0 0
4 5 6 7 8
es sieht aus wie ein Histogramm oder ein Balkendiagramm, ist es jedoch nicht. Aber das Stengl-BlattDiagramm kann als eine Annäherung zur Verteilung der Daten angesehen werden. Eigentlich haben wir ja
nur in Zehnerschritten unterschieden (von 40 bis 49, von 50 bis 59, . . . ). Wir könnten aber noch weiter unterteilen, in Fünferschritte (von 40 bis 44, von 45 bis 49, von 50 bis 54,. . . und müssten nun jede Zehnerzahl
zweimal aufschreiben, wobei zur ersten Zehnerzahl die einstelligen Zahlen von 0 bis 4 und zur zweiten jene
von 5 bis 9 dazu geschrieben werden. In unserem Fall und in horizontaler Form, wuürde das so aussehen:
4
4 697
5 24042302
5 9785
6 230
6 68797
7 042
7 75
8 02
8
13
1.6.7
Einige Anmerkungen
Stellt euch vor ihr seht die folgenden zwei Diagramme, die die Gewinne eines Betriebes widerspiegeln
sollen. Welchen von den zwei Betrieben würdet ihr als euren Betrieb auswählen?
Abbildung 1.8: Gewinne (Betrieb 1 und Betrieb 2)
Die meisten von euch werden vermutlich Betrieb 2 wählen, da ihr sicher zustimmt, dass dieser besser ist
als Betrieb 1. In der Tat haben die zwei Diagramme aber genau die gleichen Daten, wir haben nur die Skalierung der y-Achse verändert. Daher einige Anmerkungen bevor wir mit dem nächsten Abschnitt beginnen.
Diagramme sind ein wichtiges Instrument um Schlüsse aus unseren Daten zu ziehen, aber wir müssen sie
auf die richtige Art und Weise zeichnen, um Missdeutungen zu vermeiden. Es ist wichtig die Proportionen
in unserer Abbildung richtig einzuhalten, so dass die Skalen der Achsen auch im richtigen Verhältnis stehen.
Kleine Änderungen an den Skalen können große Unterschiede im Erscheinungsbild verursachen und die
Diagramme können dann auch leicht missverstanden werden.
1.7
Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil
Nehmen wir an, wir wollen mit unserer Klasse einen Ausflug machen und wollen dafür etwas Geld sammeln. Wir haben uns daher entschieden T-Shirts zu verkaufen, aber wir wissen nicht was ein angemessener
Preis dafür wäre. Das einzige was wir wissen ist, dass wir für ein T-Shirt 4 Euro zahlen. Wir würden natürlich
gerne Gewinn daraus machen, aber wir können die Preise auch nicht zu hoch ansetzen, da wir ja wollen dass
so viele Leute wie möglich unsere T-Shirts kaufen. Wir glauben das wöchentliche Taschengeld ist ein guter Indikator dafür wieviel sich SchülerInnen leisten können. Also werden wir als Daten das wöchentliche
Taschengeld hernehmen, das wir ja schon erfragt haben:
6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9
Wir haben 30 Werte, aber wir brauchen nur einen Wert um alle diese darzustellen. Welchen Wert können
wir nehmen? Eine erste Lösung wäre, einen Wert zu nehmen, der in der Mitte von allen Daten die wir haben
liegt. Um jenen zu bekommen, zählen wir alle Zahlen zusammen und dividieren sie durch die Gesamtanzahl
der Werte:
14
x=
6 + 8 + 10 + 5 + 15 + 20 + 9 + 10 + 9 + 9 + 20 + 15 + 12 + 6 + 15 + 12 + 10 + 25
+
30
20 + 30 + 15 + 12 + 9 + 20 + 6 + 9 + 10 + 25 + 9 + 9
390
=
= 13
30
30
So erhalten wir also den ersten möglichen Preis pro T-shirt, 13 Euro. Die Zahl die wir gerade berechnet
haben nennt sich arithmetisches Mittel. Aber es gibt auch noch andere Möglichkeiten um unsere Daten zu
repräsentieren, wir können zum Beispiel den Wert nehmen, der am öftesten vorkommt. In unserem Beispiel
ist der Wert der am öftesten vorkommt 9, was auch eine gute Wahl für einen Preis sein könnte. Den Wert
der am öftesten vorkommt nennen wir Modus. Aber keine dieser beiden Zahlen die wir jetzt errechnet haben
sagt aus, wieviele Personen sich so ein T-Shirt leisten können. Also haben wir eine neue Idee, wir können
die Daten die wir haben ja der Größe nach sortieren:
5 6 6 6 8 9 9 9 9 9 9 9 10 10 10 10 12 12 12 15 15 15 15 20 20 20 20 25 25 30
Jetzt wollen wir den Wert finden, der die Hälfte der Daten auf jeder Seite übrig lässt. Der Wert zwischen
dem 15. und den 16. Platz lässt genau 14 Werte auf jeder Seite. Da Nummer 15 und 16 beide die gleiche
Zahl haben, nämlich 10, können wir also annehmen dass 10 der Wert ist, der die Hälfte der Daten auf jeder
Seite lässt. Diese Zahl wird Median genannt. Genau so wie wir einen Wert vorgeschlagen haben der 50%
der Daten auf jeder Seite lässt, können wir auch einen Wert suchen, der von 75% der Klasse leistbar ist.
Wir wollen also einen Wert finden, der 25% auf der linken Seite lässt (das heisst, dass nur 25% der Daten
niedriger sind als dieser Wert), oder einen beliebigen anderen Prozensatz. Diese Zahl wird Quantil genannt.
Wir können jetzt irgendeinen dieser drei Werte nehmen, abhängig davon was wir im jeweiligen Fall
vorgeben wollen bzw. welcher Wert unsere Daten am besten repräsentiert. Diese drei Werte sind nicht immer
für jeden Fall gültig, sie können uns aber helfen herauszufinden wo das Zentrum einer Verteilung ist. Dieses
sind die wichtigsten Vertreter der Zentralmaße. Wir werden jetzt auf formale Weise die oben eingeführten
Konzepte definieren. Von jetzt an sprechen wir von Variablen.
Nehmen wir an, wir haben eine Variable bei n Untersuchungselementen beobachtet und wir haben k
verschiedene Werte erhalten x1 , x2 , . . . xk , jeder davon mit einer Häufigkeit von n1 , n2 , . . . nk wobei ni die
absolutePHäufigkeit des Wertes xi ist. Wir notieren die kumulative, absolute Häufigkeit des Wertes xi mit
ni
Ni =
j≤i nj und die relative Häufigkeit mit fi = n . Wenn die Werte der Variablen gruppiert sind,
können wir annehmen, dass wir h Intervalle haben und wir können dies folgendermaßen notieren:
+
(L0 , L1 ], (L1 , L2 ], . . . (Lh−1 , Lh ]
und die Klassenmarken sind c1 , c2 , . . . ch . In diesem Fall wird die absolute Häufigkeit mit n1 , n2 , . . . , nh ,
die kumulative, absolute Häufigkeit mit N1 , N2 , . . . , Nh = n und die relative Häufigkeit mit f1 , f2 , . . . , fh
bezeichnet.
Daraus folgt, dass das arithmetische Mittel, für nicht gruppierte Variablen, folgendermaßen definiert
wird:
Pn
xi ni
x = i=1
n
Wenn wir eine gruppierte Variable haben, verwenden wir die Klassenmarken ci statt den Werten xi . Die
wichtigsten Merkmale des arithmetischen Mittel sind:
• Es ist der Schwerpunkt der Verteilung und es ist einzigartig.
15
• Wenn wir Extremwerte haben, oder wenig repräsentative Werte (zu große oder zu kleine), dann ist das
arithmetische Mittel nicht repräsentativ.
• Es macht keinen Sinn das arithmetische Mittel für qualitative Variablen zu ermittlen, oder wenn wir
gruppierte Daten haben und irgendeines der Intervalle nicht begrenzt ist.
• Für gruppierte Daten verwenden wir die Klassenmarke von jedem Intervall um das arithmetische
Mittel zu berechnen.
Weiters hat das arithmetische Mittel folgende Eigenschaften:
• Wenn eine Konstante zu jedem Wert addiert wird, ist auch das arithemtische Mittel um diese Konstante
erhöht.
• Wenn wir alle Werte mit einer Konstanten multiplizieren, wird auch das Mittel mit der gleichen Konstante multipliziert.
Der Modus wird gewöhnlich als der häufigste Wert bezeichnet. Im Falle einer nicht gruppierten Variable
ist es der Wert, der am öftesten vorkommt. Bei Variablen die in Intervalle der gleichen Breite gruppiert sind,
brauchen wir das Intervall mit der höchsten Häufigkeit (Modalintervall) und die Annäherung an den Modus
wird durch die folgende Formel erreicht:
M o = Li−1 +
ni − ni−1
· ci
(ni − ni−1 ) + (ni − ni+1 )
wo:
Li−1 die untere Grenze des Modalintervalls ist.
ni ist die absolute Häufigkeit des Modalintervalls.
ni−1 is die absolute Häufigkeit des vorangehenden Intervalls zum Modalintervall.
ni+1 ist die absolute Häufigkeit des nachfolgenden Intervalls nach dem Modalintervall.
ci ist die Breite des Intervalls.
Der Modus verifiziert, dass:
• Man kann mehr als einen Modus für eine Verteilung haben, dann sprechen wir von einer bimodalen, trimodalen . . . Verteilung, abhängig von der Anzahl an Werten, welche die höchste Häufigkeit
aufweisen.
• Der Modus ist für gewöhnlich der schlechtere Repräsentant im Vergleich zum arithmetischen Mittel,
außer bei qualitativen Daten.
• Wenn wir Intervalle mit verschiedenen Breiten haben, müssen wir jenes Intervall suchen, mit der
höchsten Häufigkeitsdichte (normalerweise ist das der Fall wenn wir die absolute Häufigkeit durch
die Breite der Intervalle dividieren ncii ) und dann verwenden wir die vorangegangene Formel.
Der Median ist im Falle von nicht gruppierten Variablen und nachdem wir unsere Daten der Reihe nach
geordnet haben, der zentrale Wert bei einer ungeraden Anzahl an Daten und das Mittel der zwei zentralen
Werte wenn wir eine gerade Anzahl an Daten haben. Wenn wir eine gruppierte Variable haben, müssen wir
nach dem zentralen Intervall suchen (jenes in dem wir den zentralen Wert finden können), das heisst jenes,
wo Ni zum ersten Mal größer als n2 ist. Dann können wir die folgende Formel anwenden:
16
M e = Li−1 +
n
2
− Ni−1
· ci
ni
wobei
Li−1 die untere Grenze des Intervalls ist.
ni ist die absolute Häufigkeit des zentralen Intervalls.
Ni−1 ist die kumulative, absolute Häufigkeit des Intervalls vor dem zentralen Intervall.
n ist die Anzahl der Daten
ci ist die Breite des Intervalls.
Weiters ist das Quantil ein Lagemaß, welches das Konzept des Medians verallgemeinert. Wir wollen jetzt
die Konzepte von Centil oder Percentile, Quartile und Dezil definieren. Wir nehmen an, dass unsere Daten
sortiert sind. Centil oder Percentil nennt man jene Werte der Variable, die auf der linken Seite eine konkrete
Prozentzahl übrig lassen. Wir notieren sie mit Ph oder Ch , wobei h die Prozentzahl, h = 1, 2, . . . , 99. Wenn
wir eine gruppierte Variable haben, müssen wir zuerst das Intervall finden in dem das Centil liegt und dann
können wir folgende Formel anwenden:
Ph = Ch = Li−1 +
h·
n
100
− Ni−1
· ci
ni
Die verschiedenen Elemente haben hier die gleiche Bedeutung wie beim Median. Das Quartil ist jener Wert,
nachdem wir die Daten sortiert haben, der die Variable in 4 gleiche Gruppen unterteilt. Zwischen jeder davon
finden wir 25% der Untersuchungselemente. Wir schreiben sie folgendermaßen auf: Q1 , Q2 und Q3 und sie
verifizieren, dass Q1 = C25 , Q2 = C50 = M e, Q3 = C75 . Das Dezil ist jener Wert, nachdem wir die
Daten sortiert haben, der die Daten in 10 gleiche Gruppen teilt, wobei zwischen jeweils 2 davon 10% der
Untersuchungselemente sind. Wir schreiben sie folgendermaßen auf: D1 , D2 , D3 , . . . , D9 . Sie verifizieren,
dass D1 = C10 , D2 = C20 , D3 = C30 , . . . D9 = C90 .
Aufgabe 1.7.1 Berechnet für die Anzahl der Geschwister und für das Gewicht, das arithmetische Mittel, den
Modus, den Median und die Quartile: Q1 , Q3 , C30 , C74 , D4 , D9 .
1.8
Streuungsmaße: Spannweite, Varianz, Standardabweichung
Stellt euch vor wir haben 3 verschiedene Datensätze zum Gewicht von bestimmten Leuten und wir wissen, dass in allen in 3 Fällen, das arithmetische Mittel der Variable Gewicht 55 ist. Heißt das, dass die 3
Datensätze gleich oder ähnlich sind? Die Daten der 3 Sätze sind wie folgt:
Satz 1: 55 55 55 55 55 55 55
Satz 2: 47 51 54 55 56 59 63
Satz 3: 39 47 53 55 57 63 71
Wir bemerken, dass obwohl das arithmetische Mittel gleich ist, die Datensätze sehr verschieden sind. Sehen
wir uns ihre Stengl-Blatt-Diagramme an:
17
3
4
5
5
5
5
5
5
5
5
6
7
3
7
4
9
6
5
4
1
5
3
6
7
9
3
7
4
7
5
1
5
3
6
1
7
Wie können wir also diese Unterschiede zwischen den Datensätzen herausfinden? Offensichtlich können
uns die Zentralmaße hier nicht genügend Informationen über die Entfernung zwischen dem arithmetischen
Mittel und den Daten geben. Wir müssen uns daher mit dem Konzept der Streuung der Daten auseinandersetzen. Was uns als erstes auffällt ist, dass im ersten Datensatz alle Daten gleich sind, im zweiten gibt es größere
Unterschiede zwischen dem höchsten und dem niedrigsten Wert und im dritten gibt es noch offensichtlichere
Unterschiede. Genau gesagt haben wir:
55 − 55 = 0
63 − 47 = 16
71 − 39 = 32
Diese Unterschiede bezeichnet man als die Spannweite der Daten und diese ist offensichtlich ein sehr leicht
zu berechnendes Maß. Sie wird allerdings nicht sehr oft verwendet, da sie nicht für jede Situation geeignet
ist. Wenn wir z. B. einen extrem kleinen oder einen extrem großen Wert in unseren Daten haben, verändert
sich die Spannweite beachtlich und kann daher manchmal nicht mehr ganz so aussagekräftig sein. Wie
können wir also ein Maß finden, das uns eine Annäherung an die Entfernung zwischen den Daten und dem
arithmetischen Mittel gibt? Wir können die Entfernungen von jedem Untersuchungselement zum arithmetischen Mittel (in absoluten Zahlen) berechnen und dann das Mittel dieser Entfernungen. Dies nenne wir
mittlere Abweichung. Berechnen wir die mittlere Abweichung des 2. Datensatzes:
|47 − 55| + |51 − 55| + |54 − 55| + |55 − 55| + |56 − 55| + |59 − 55| + |63 − 55|
=
7
8+4+1+0+1+4+8
26
=
= 3.714
7
7
Trotzdem verwenden wir normalerweise noch ein anderes Maß für die Streuung und zwar das Mittel
der quadratischen Abweichung der Daten vom arithmetischen Mittel und erreichen damit, dass größere Abweichungen einen kleineren Einfluß haben. Wir werden uns jetzt die formale Definition dieser Konzepte
ansehen. Die Spannweite ist die Differenz zwischen dem höchsten und dem niedrigsten Wert der Daten,
wenn diese nicht gruppiert sind. Wenn wir eine gruppierte Variable haben, berechnen wir die Differenz zwischen der oberen Grenze des letzten Intervalls und der unteren Grenze des ersten Intervalls. Die Spannweite
hängt nur von dem größten und dem kleinsten Element und nicht vom Rest der Daten ab. Wir können z.B.
die folgenden zwei Datensätze mit der gleichen Spannweite haben:
Es ist leicht zu erkennen, dass der Unterschied zwischen xk und x1 in beiden Situationen der gleiche
ist, obwohl die zwei Datensätze verschieden sind. Die Interquartil-Spannweite ist der Unterschied zwischen
des dritten und des ersten Quartils und wir bekommen eine Zone wo wir 50% der Verteilung finden. Die
mittlere Abweichung ist das Mittel der Abweichungen der Daten vom arithmetischen Mittel. Wir nennen die
Abweichungen vom Mittel, den absoluten Wert des Unterschiedes zwischen den Werten der Variable und
dem arithmetischen Mittel (|xi − x|), daraus folgt folgende Definition der mittleren Abweichung:
=
18
Abbildung 1.9: Spannweite
Pk
|xi − x| · ni
n
Dieses Maß wird nicht sehr oft verwendet, da es auf Grund der absoluten Betragsfunktion schwierig zu
berechnen ist. Wie auch immer, eine kleine mittlere Abweichung bedeutet, dass die Daten sich dicht um den
Mittelwert konzentrieren. Wir können auch die Median-Abweichung definieren, obwohl diese noch weniger
gebräuchlich ist:
i=1
DM =
Pk
|xi − M e| · ni
n
Die Varianz ist das Mittel der quadratischen Abweichungen der Daten vom Mittelwert. Wir bezeichnen
sie mit S 2 und beschreiben sie wie folgt:
D=
2
S =
Pk
i=1 (xi
i=1
− x)2 · ni
=
n
Pk
x2i · ni
− x2
n
i=1
Die Varianz verifiziert:
• Da wir die Quadrate der Abweichung nehmen, haben die größeren mehr Einfluß auf das Ergebnis.
• Die Einheit des Maßes S 2 ist nicht die gleiche wie die in der Stichprobe, da wir mit quadratischen
Zahlen der Abweichung arbeiten.
• Die Varianz ist immer positiv. Sie ist 0, wenn alle Werte mit dem Mittelwert übereinstimmen.
Wir definieren die Quasivarianz wie folgt:
Pk
− x)2 · ni
n−1
n−1 2
2
der Zusammenhang mit der Varianz ist S = n s . Dies ist ein brauchbares Maß wenn wir mit Inferenzen arbeiten. Manchmal wird sie auch als Sc2 ausgedrückt. Die Standardabweichung ist die Quadratwurzel
aus der Varianz. Wir bezeichnen sie mit S und berechnen sie wie folgt:
s
s
Pk
Pk
q
2
2·n
(x
−
x)
i
i=1 i
i=1 xi · ni
S=+
=+
− x2 = + x2 − x2
n
n
Ihre Hauptmerkmale sind:
s2 =
i=1 (xi
19
• Sie ist das häufigst verwendete Streuungsmaß.
• Sie hat die gleiche Maßeinheit wie die Stichprobe.
• Die Standardabweichung ist immer positiv oder 0.
Weiters, Varianz und Standardabweichung verifizieren, dass:
• Wenn wir alle Werte mit einer Konstanten addieren, bleiben die Varianz und die Standardabweichung
gleich.
• Wenn wir alle Werte mit einer positiven Konstante multiplizieren, wird die Varianz mit dem Quadrat
der Konstante und die Standardabweichung mit der Konstante multipliziert.
1.9
1.9.1
Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson’scher Variationskoeffizient, ”z-scores”
Tchebicheff Theorem
Wir haben bereits Maße gefunden die uns das Zentrum unserer Daten und ihre Streuung angeben, aber
wir brauchen noch mehr Informationen. Erinnern wir uns noch einmal an die Daten über die Anzahl der
Geschwister:
Anz. Geschwister
0
1
2
3
4
absolute H.
6
13
7
3
1
also haben wir:
x = 1.33333,
S 2 = 1.022,
S = 1.011
Wieviele Leute haben Geschwister um den Mittelwert? Gibt es viele SchülerInnen die 1 oder 2 Geschwister haben? Nehmen wir ein Intervall, welches um den Mittelwert kreist,(x − a, x + a). Wir wissen, dass Varianz und Standartabweichung die Streuung messen, also werden wir sie jetzt anwenden. Welche der zwei sollen wir verwenden? Wir verwerfen die Varianz, da wir sie nicht zum Mittelwert zählen
können, da sie ja eine andere Maßeinheit hat. Nehmen wir also die Standardabweichung, a = S. Dann
bekommen wir das Interval (1.3333 − 1.011, 1.3333 + 1.011) = (0.3223, 2.3443). Innerhalb dieses Intervalls finden wir die SchülerInnen mit 1 oder 2 Geschwistern. Das sind 20 von den 30 SchülerInnenn,
d.h. 66% davon. Was würde passieren wenn wir 2S statt S verwenden? Dann bekommen wir das Intervall
(1.3333−2.022, 1.3333+2.022) = (−0.6887, 3.3553). Innerhalb dieses Intervalls haben wir nun 29 von 30
SchülerInnenn, d.h. 96%. Folglich, wenn wir das Intervall mit 3S annehmen, finden wir alle Daten innerhalb
20
des Intervalls. Die nächste Frage lautet, passiert das immer? Sind diese Konzentrationen der Daten immer
die gleichen? Schauen wir uns das Beispiel des wöchentlichen Taschengeldes an. Hier haben wir:
x = 13,
S 2 = 39.2,
S = 6.26
Weiters,
(13 − 6.26, 13 + 6.26) = (6.74, 19.26)
(13 − 12.52, 13 + 12.52) = (0.48, 25.52)
(13 − 18.78, 13 + 18.78) = (−5.78, 31.78)
→
→
→
beinhaltet 19 Daten (63%)
beinhaltet 29 Daten (96%)
beinhaltet 30 Daten (100%)
Wir ihr sehen könnt bekommen wir ähnliche Ergebnisse. Dies basiert auf einem Theorem, welches sicherstellt, dass in diesen Intervallen ein bestimmter Prozentanteil der Daten vorkommt. Genauer gesagt, das
Theorem besagt, dass wir in einem Intervall wie (x − aS, x − aS) mindestens 100(1 − a12 )% der Daten
haben. Diese Aussage ist bekannt als das Tchebicheff Theorem.
1.9.2
Pearson’scher Variationskoeffizient
Wir werden jetzt mit Daten über Höhe und Gewicht arbeiten. Für das Gewicht haben wir:
x = 60.8,
S 2 = 99.56,
S = 9.97
x = 1.7133,
S 2 = 0.0128,
S = 0.1132
und für die Höhe haben wir:
In welchem Fall haben wir mehr Streuung? Wir würden annehmen für das Gewicht, da die Varianz und
die Standardabweichung größer sind. Aber was passiert, wenn wir das selbe für die Höhedaten in Zentimeter
berechnen?
x = 171.33,
S 2 = 128.35,
S = 11.32
Wenn wir die Frage jetzt wiederholen, was müssen wir dann antworten? In der Tat können wir weder
Standardabweichung noch Varianz vergleichen, da beide wieder von der Einheit abhängig sind, so wie beim Mittel.
Wir brauchen also ein dimensionsloses Maß. Bis jetzt wissen wir nur, dass das Mittel und die Standardabweichung die gleiche Maßeinheit haben, wie können wir also ein dimensionsloses Maß von ihnen bekommmen?
Wir können sie teilen und bekommen dann den Pearson’schen Variationskoeffizient
S
x
Wir können ihn für unsere Beispiele berechnen. Für das Gewicht haben wir
CV =
CV =
9.97
= 0.163
60.8
und für die Höhe
11.32
0.1132
=
= 0.066
171.33
1.7133
daraus folgt, dass wir mehr Streuung bei dem Gewicht als bei der Höhe herausbekommen.
CV =
21
1.9.3
”z-scores”
Wir haben jedoch immer noch mehr Informationen in unseren Daten enthalten. Stell dir vor deine Körpergröße
ist 1.74m und du hast einen Freund in einer anderen Klasse mit genau der gleichen Größe. Welcher von euch
zwei ist innerhalb seiner Klasse größer? Wie können wir die zwei Daten vergleichen, wenn wir nur wissen,
dass das Mittel in der Klasse deines Freundes 1.708m ist und die Standardabweichung 12.53? Es gibt da
eine Möglichkeit die beiden Daten zu vergleichbaren Werten zu verändern. Das ist was wir als ”z-scores”
bezeichnen. Es wird berechnet indem wir die Differenz zwischen dem Wert und seinem Mittel nehmen und
durch die Standardabweichung dividieren. Die zwei neuen Werte gehören dann zu einer Verteilung mit dem
Mittel 0 und der Standardabweichung 1 und sind daher vergleichbar.
In unserem Beispiel bekommen wir die folgenden ”z-scores”
1.74 − 1.7133
= 0.235
0.1132
1.74 − 1.708
z2 =
= 0.255
0.1253
und wir schliessen daraus, dass dein Freund größer ist als du (jeder innerhalb seiner Klasse), da der
z-Wert größer ist. Die Formel für die standardisierte Variable zu zi ist:
z1 =
zi =
xi − x
S
22
Kapitel 2
Analyse der Meinungsumfrage
Wir wollen eine tiefergehende Analyse von einigen Aufgaben aus der Meinungsumfrage machen. Dazu
haben wir folgende 3 Aufgaben gewählt:
2.1 Du rauchst
2.3 Du liest andere Bücher als Schulbücher
3.1 Du betreibst Sport außerhalb der Schule
Die Daten die wir zu Frage 2.1. haben lauten:
135555511513315155555515154435
zu Frage 2.3. haben wir:
111222344413241213211121111224
und von 3.1:
313534213335512123512532415543
Als erstes werden wir die Häufigkeiten von allen 3 Fällen berechnen, um die Häufigkeitstabellen von
allen zu bekommen. Für Frage 2.1. haben wir:
Antwort (2.1)
1
2
3
4
5
abs. H.
8
0
4
2
16
rel. H.
0.26̇
0
0.13̇
0.06̇
0.53̇
prozent. H.
26.6̇%
0%
13.3̇%
6.6̇%
53.3̇%
Für die Frage 2.3 haben wir folgende Häufigkeitstabelle:
23
kum. abs. H.
8
8
12
14
30
kum. rel. H.
0.26̇
0.26̇
0.4
0.46̇
1
Antwort (2.3)
1
2
3
4
5
abs. H.
13
9
3
5
0
rel. H.
0.43̇
0.3
0.1
0.16̇
0
prozent. H.
43.3̇%
30%
10%
16.6̇%
0%
kum. abs. H.
13
22
25
30
30
kum. rel. H.
0.53̇
0.73̇
0.83̇
1
1
prozent. H.
20%
1.66̇%
30%
10%
23.3̇%
kum. abs. H.
6
11
20
23
30
kum. rel. H.
0.2
0.36̇
0.6̇
0.76̇
1
und schließlich, die Häufigkeitstabelle für 3.1.:
Antwort (3.1)
1
2
3
4
5
abs. H.
6
5
9
3
7
rel. H.
0.2
0.16̇
0.3
0.1
0.23̇
Bei Anbetracht der Daten in den Tabellen fällt uns auf, dass die drei Tabellen sehr unterschiedlich sind.
Wir schauen uns jetzt graphisch an wie diese Variablen verteilt sind und dann können wir die ersten Schlüsse
ziehen.
Wie ihr feststellen könnt haben wir drei diskrete Variablen, also werden wir das Balkendiagramm und
das Kreisdiagramm verwenden. Hier sind die Diagramme für die Frage 2.1
Abbildung 2.1: Antworten zu Frage 2.1
Schauen wir uns jetzt die Diagramme zu Frage 2.3 an:
und hier haben wir jene für Frage 3.1
24
Abbildung 2.2: Antworten zu Frage 2.3
Abbildung 2.3: Antworten zu Frage 3.1
Jetzt können wir über die ersten Schlussfolgerungen sprechen. Es ist ziemlich offensichtlich, dass für
Frage 2.1. die häufigsten Werte die extremen Werte sind, d.h. 1 und 5. Das ergibt sich daraus, dass man dazu
tendiert entweder nicht zu rauchen, was mit der Nummer 1 belegt ist oder zu rauchen, was mit der Nummer
5 belegt ist. Wie auch immer, die meisten Daten sind bei den höheren Werten (3,4 und 5) angesiedlet. Im
Gegensatz dazu können wir sehen, dass in Frage 2.3 häufigsten Werte die niedrigeren sind. Wir können also
sagen, dass lesen nicht ein sehr populäres Hobby ist. Die dritte Frage ist etwas mehr verstreut über alle
Werte.
Es ist auch interessant, sich in diesem Beispiel ein Balkendiagramm mit der kumulativen, absoluten
Häufigkeit zu zeichnen. Wir zeigen euch die drei Diagramme, wo ihr sehen könnt, dass die Häufigkeiten am
gleichmäßigsten ansteigend im dritten Fall verteilt sind:
Jetzt werden wir was wir bisher gesagt haben, durch die Berechnung der wichtigsten Zentralmaße
bestätigen und in Tabellenform darstellen, um das Vergleichen zu vereinfachen:
25
Abbildung 2.4: Kumulative Balkendiagramme
Q. 2.1
Q. 2.3
Q. 3.1
Mittel
3.6
2
3
Median
5
2
3
Modus
5
1
3
Diese Tabelle gibt uns einige interessante Informationen. Es ist leicht zu erkennen, dass obwohl das
Mittel für die 2.1 Frage 3,6 ist, die meisten Daten größer als das Mittel sind, da beide, der Median und
der Modus 5 sind. Für Frage 2.3 ist die Situation ganz anders, wir sehen, dass die meisten Daten um den
kleinsten Wert kreisen und auch der Modus ist der kleinste von allen dreien. In Frage 3.1 sehen wir, dass alle
drei Werte gleich sind und daraus schließen wir, dass 3 die Zahl ist, die unsere Daten am besten repräsentiert.
Berechnen wir jetzt die wichtigsten Streuungsmaße und versuchen wir dann damit heraus zu finden,
welche Variable am meisten gestreut ist.
Q. 2.1
Q. 2.3
Q. 3.1
Spannweite
4
3
4
Varianz
3
1.24
2.06
Standardabweichung
1.73
1.11
1.43
In unserem Beispiel ist die Spannweite nicht besonders relevant, da sich alle Antworten zwischen 1 und
26
5 bewegen. Das einzige was wir daraus erkennen können ist, dass in Frage 2.3, die Spannweite 3 (kleiner
als die der anderen) ist und daher einer der Extremwerte (in diesem Falle 5) die Häufigkeit 0 hat. Aber, wir
können das gleiche nicht für Frage 2.1 bemerken, obwohl die Häufigkeit für den Wert 2 auch 0 ist. Aus
der Standardabweichung können wir schließen, dass die Antworten zu Frage 2.1 sehr gestreut sind. Dies ist
wahr, da wir, wenn wir uns die Daten nocheinmal ansehen bemerken, dass die meisten davon Extremwerte
sind, 1 oder 5. Die anderen zwei Variablen sind etwas mehr um das Mittel konzentriert, insbesondere die
Antworten zu Frage 2.3.
Lasst uns jetzt überprüfen, ob das Mittel für unsere Variablen repräsentativ ist. Wir müssen also den
Variationskoeffizient für jeden der drei Fälle berechnen:
Q. 2.1
Q. 2.3
Q. 3.1
Variationskoeffizient
0.48
0.55
0.47
Der Mittelwert ist also repräsentativ für die drei Fälle die wir untersuchen.
2.1
Schlussfolgerungen
In diesem letzten Abschnitt der Analyse, müssen wir die Bedeutung der Daten die wir untersuchen hervorheben. Bis jetzt haben wir über statistische Merkmale gesprochen, aber wir dürfen nicht auf die Bedeutung
unserer Ergebnisse für die Wirklichkeit vergessen.
Wir haben herausgefunden, dass rauchen etwas sehr populäres unter jungen Leuten ist. Mehr als die
Hälfte eurer Klasse sagt, dass sie täglich rauchen, aber nur 8 SchülerInnen sagen dass sie nie rauchen. Wenn
wir die Häufigkeiten der SchülerInnen zusammenfassen, die zumindest manchmal rauchen, sehen wir dass
dies 22 von euch sind, fast 3/4 der gesamten Klasse.
Im Gegensatz dazu sind sehr wenige am Lesen interessiert. 22 von euch sagen, dass sie nie oder sehr
selten ein anderes Buch als jene die sie für die Schule brauchen lesen. Das ist wohl einer der größten Gegensätze die wir in dieser Meinungsumfrage bekommen können. Keiner von euch sagt, dass er jeden Tag
liest, nur 5 SchülerInnen sagen sie lesen manchmal.
Sport ist das Mittel zwischen den drei Fällen. Die häufigste Antwort (sie ist auch der Mittelwert und der
Median) ist ”manchmal”. Das kommt vermutlich daher, dass viele von euch am Wochenende Sport machen
oder wenn das Wetter schön ist, während SchülerInnen die sehr oft Sport machen von denen die fast nie
Sport betreiben ausgeglichen werden.
27
Kapitel 3
Zweidimensionale, beschreibende
Statistik
Im vorhergehenden Kapitel haben wir mit den Daten der Meinungsumfrage gearbeitet und erste Schlüsse
daraus gezogen. Aber wir wollen noch mehr herausfinden und mit diversen Methoden, die wir uns jetzt
ansehen werden, können wir noch mehr Informationen aus unseren Daten herausholen. Bevor wir jedoch
beginnen, wollen wir die Ziele dieses Kapitels festhalten.
3.1
Ziele
• Daten in Bezug auf zwei Variablen anhand einer Punktwolke darstellen und analysieren.
• Einen Datensatz in Bezug auf zwei Variablen, gegeben in einer Tabelle oder als Punktwolke, als zweidimensionale Verteilung erkennen.
• Den Zusammenhang zweier Variablen anhand ihrer Punktwolken analysieren und dabei durch Intuition feststellen, ob dieser Zusammenhang positiv oder negaitv ist, ob er funktional ist oder nicht und ob
er sich im gegebenen Fall einer Linie annähert.
• Globale Aufgaben von mehreren Verteilungen durch ihre Punktwolken vergleichen.
• Gegebene Punktwolken verschiedenen Situationen zuordnen.
• Den Zusammenhang verschiedener Mittelwerte durch ihre Punktwolken bestimmen.
• Graphisch eine Linie finden, die zur Punktwolke passt.
• Den Korrelationskoeffizienten einer Punktwolke schätzen.
28
• Den Grad eines Zusammenhanges zweier Variablen analysieren, wenn der Korrelationskoeffizient bekannt ist.
• Den Korrelationskoeffizient einer zweidimensionalen Verteilung und die Regressionsgerade berechnen.
• Aus der Regressionsgeraden Prognosen erstellen.
3.2
Das Beispiel: Eine Meinungsumfrage
In diesem Kapitel wollen wir eine noch tiefergehende Analyse unserer Meinungsumfrage machen. Ausgehend von den bestehenden Informationen, wollen wir Fragen wie die folgenden beantworten:
• Besteht ein Zusammenhang zwischen dem Taschengeld das ihr bekommt und der Anzahl eurer Geschwister?
• Hat der Sport den ihr betreibt einen Einfluss darauf wieviel ihr raucht oder wieviel Alkohol ihr trinkt?
• Können wir diese Zusammenhänge ganz genau messen?
In diesem Kapitel werden wir versuchen diese Fragen zu beantworten und noch viele mehr. Jetzt wollen
wir uns die Konzepte die wir zur Beantwortung dieser Fragen brauchen ansehen.
3.3
Einleitung und einfache Tabellen
Wir können uns viele Variablen vorstellen, die einen Einfluss auf andere Variablen haben. Zum Beispiel,
je älter ihr seid, desto mehr Taschengeld bekommt ihr. Wir wollen uns anschauen ob das auch wirklich so
ist. Was wir schon aus dem vorherigen Kapitel wissen, ist dass wir unsere Daten zuerst einmal organisieren
müssen. Wir erinnern uns, dass die Daten zum Alter und zum Taschengeld die folgenden waren:
Alter
16
16
16
16
17
18
16
17
17
17
19
16
17
16
17
Geld
6
8
10
5
15
20
9
10
9
9
20
15
12
6
15
Alter
17
16
18
18
18
19
17
16
19
16
16
16
17
16
16
29
Geld
12
10
25
20
30
15
12
9
20
6
9
10
25
9
9
Dieses sind die Wertepaare unserer Daten. Gruppieren wir jetzt die Daten die gleich sind. Wir bekommen
die folgende Tabelle:
Alter
16
16
16
16
16
16
17
17
17
17
17
18
18
18
19
19
Geld
5
6
8
9
10
15
9
10
12
15
25
20
25
30
15
20
Anzahl
1
3
1
5
3
1
2
1
3
2
1
2
1
1
1
2
Die Tabelle die wir gerade zusammengestellt haben nennen wir einfache Tabelle und sie ist der Ausgangspunkt unserer Analyse.
3.4
Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen
Ist es einfach für euch aus der obigen Tabelle Schlüsse zu ziehen? Gibt es eine andere Möglichkeit wie
wir unsere Daten darstellen können? Wir wollen die sich wiederholenden Werte die wir in der Spalte für
Alter und auch in der für Geld finden vermeiden. Wir können unsere Daten folgendermaßen gruppieren:
Geld
5
6
8
9
10
12
15
20
25
30
16
1
3
1
5
3
1
Alter
17 18
2
1
3
2
1
2
1
1
19
1
2
Diese Tabelle erlaubt uns einen besseren Gesamtüberblick über die Verteilung der Häufigkeiten und je
mehr verschiedene Werte wir haben, desto brauchbarer ist so eine Tabelle. Wir nenne sie Tabelle zweier
30
Variablen wenn wir es mit zwei quantitativen Variablen zu tun haben und Kontingenztabelle wenn wir zwei
qualitative Variablen haben. Können wir von dieser Tabelle jedoch sagen wieviele SchülerInnen ein Taschengeld von 12 Euro bekommen? Und die Gesamtanzahl der SchülerInnen die 17 Jahre alt sind? Offensichtlich
ja! Ihr könnt alle Häufigkeiten die in der Reihe die mit dem Wert 12 zu tun hat zusammenzählen und bekommt dann die Anzahl der SchülerInnen deren Taschengeld 12 Euro ist. Auf die gleiche Art könnt ihr
die Häufigkeiten die in der Spalte die mit dem Wert 17 zu tun hat zusammenzählen und bekommt dann die
Anzahl der SchülerInnen die 17 Jahre sind. Wir fügen diese Nummern unserer Tabelle hinzu und bekommen:
Geld
5
6
8
9
10
12
15
20
25
30
Total
Alter
17 18
16
1
3
1
5
3
2
1
3
2
1
14
1
2
2
1
1
4
1
9
19
3
Total
1
3
1
7
4
3
4
4
2
1
30
Was wir in der Tat gerade bekommen haben, sind die Werte der einzelnen Variablen unabhängig von
einander. Diese Werte nennen wir die Randverteilung der Variablen. Um die gesamte Randverteilung der
Variable Alter zu erhalten, nehmen wir die erste und die letzte Reihe,
Alter
Häufigkeiten
16
14
17
9
18
4
19
3
Wir können dies auch mit der Variable Taschengeld machen indem wir die erste und die letzte Spalte
nehmen.
Aufgabe 3.4.1 Könnt ihr also diese Tabelle für die Variable Taschengeld aufstellen?
Im allgemeinen wird eine Tabelle für zwei Variablen folgendermaßen definiert:
Y
X
x1
x2
...
xs
...
xk
Tot
y1
n11
n21
...
ns1
...
nk1
n∗1
y2
n12
n22
...
ns2
...
nk2
n∗2
...
...
...
...
...
...
...
...
yp
n1p
n2p
...
nsp
...
nkp
n∗p
31
...
...
...
...
...
...
...
...
ym
n1m
n2m
...
nsm
...
nkm
n∗m
Tot
n1∗
n2∗
...
ns∗
...
nk∗
n
wo die Werte oder Eigenschaften von X,x1 , x2 , . . . , xk sind und jene von Y sind y1 , y2 , . . . , ym ; nij ist die
Anzahl der Untersuchungselemente welche die Eigenschaften xi für die Variable X und yj für die Variable
Y darstellen. Weiters, ni∗ beschreibt die Anzahl der Untersuchungselemente welche die Eigenschaft xi
darstellen und n∗j die Anzahl der Untersuchungselemente welche die Eigenschaft yj darstellen. n ist die
Gesamtanzahl der Elemente der Grundgesamtheit oder der Stichprobe.
Wenn wir einmal die Randverteilungen kennen, können wir den Mittelwert und die Standardabweichung
von beiden berechnen, als ob sie eindimensionale Variablen wären. Ihre Ausdrücke sind:
s
Pk
Pk
xi ni∗
i=1 (xi − x)ni∗
x = i=1
Sx =
n
n
s
Pm
Pm
j=1 yj n∗j
j=1 (yj − y)n∗j
y=
Sy =
n
n
Aufgabe 3.4.2 Wie lauten Mittelwert und Standardabweichung für Taschengeld und Alter?
Einer deiner KlassenkameradInnen hat eine Frage. Er ist 17 Jahre und er will wissen, ob sein Taschengeld
unter den höheren oder den niedrigeren liegt, weil er um eine Eröhung des Taschengeldes fragen will, falls
es zu niedrig ist. Um das zu bekommen, möchte er sich zuerst mit den anderen SchülerInnenn seines Alters
vergleichen. Also nimmt er die Daten jener Schuüler die sein Alter haben:
Geld
Alter = 17
5
0
6
0
8
0
9
2
10
1
12
3
15
2
20
0
25
1
30
0
Da dieser Junge ein Taschengeld von 10 Euro bekommt, bekommen die meisten seiner Kameraden mehr
Taschengeld und er entscheidet sich daher, nach einer Erhöhung zu fragen.
Was wir gerade berechnet haben ist die bedingte Verteilung der Variable Taschengeld, für einen bestimmten Wert des Alters, in diesem Fall 17. Wir haben nun wieder eine eindimensionale Variable, von welcher
wir die Zentralmaße und die Streuungsmaße berechnen können.
Aufgabe 3.4.3 Berechne die Häufigkeitstabelle für die Variable Alter, für das Taschengeld=15 Euro.
Aufgabe 3.4.4 Berechne die Häufigkeitstabelle, mit den Randverteilungen, für das Gewicht und für die Antwort zu Frage 3.1
3.5
Punktwolke
Normalerweise werden Daten von eindimensionalen Variablen leichter analysiert, wenn wir sie in einem
Diagramm darstellen. Die Situation ist jetzt allerdings anders, da wir zwei Variablen darstellen müssen und
beide mit ihren Häufigkeiten. Um das zu bewerkstelligen, verwenden wir eine sogenannte Punktwolke als
Diagramm. Wir zeichnen diese folgendermaßen: Wir tragen auf der X + Achse die Variable Taschengeld auf
und auf der Y + Achse die Variable Alter. Wir stellen einen Punkt so groß dar wie seine Häufigkeit oder wir
zeichnen so viele Punkte wie die Häufigkeit angibt.
32
Abbildung 3.1: Punktwolke
Die Form der Punkte in der Punktwolke kann uns eine mögliche Abhängigkeit zwischen den Variablen
anzeigen, wie wir im folgenden sehen werden.
Aufgabe 3.5.1 Zeichne die Punktwolke für die Variablen Gewicht und die Antwort zu der Frage 3.1
3.6
Funktionale Abhängigkeit und statistische Abhängigkeit
Nehmen wir an, wir beschäftigen uns mit den folgenden Variablen:
• Die Körpergröße und die Größe des Fußes einer Person.
• Das Taschengeld und die Körpergröße.
• Die Anzahl der Familienmitglieder und die Anzahl der Zimmer in ihrem Haus.
• Die Höhe von der wir etwas hinunter werfen und die Zeit die es braucht um am Boden anzukommen.
• Das Gewicht und die Anzahl der Geschwister.
Für jede dieser Situationen wollen wir herausfinden ob es einen Zusammenhang zwischen den angegebenen Variablen gibt, bzw. ob der Wert einer der Variablen einen Einfluss auf den anderen hat. Fall Nummer 4
ist zum Beispiel sehr klar. Wir haben in Physik gelernt, dass es einen funktionalen Zusammenhang zwischen
diesen Variablen gibt, eine Gleichung die beide verbindet. In anderen Fällen können wir annehmen, dass es
keine Verbindung gibt, wie z.B. im Fall 2 und 5. Im Fall 1 und 3 gibt es allerdings wieder die Möglichkeit
eines Zusammenhanges, der wir uns nicht sicher sein können.
Die Punktwolken können sehr verschiedene Formen haben und können uns helfen herauszufinden wie
die Variablen zueinander stehen. Wir wollen jene als erste Annäherung verwenden, obwohl wir später etwas
33
entscheidendere Methoden anwenden werden, um zu entscheiden ob zwei Variablen zusammenhängen oder
nicht.
Wie wir gerade gesehen haben gibt es verschiedene Arten des Zusammenhanges zwischen Variablen.
Wir sprechen von einer funktionalen Abhängigkeit wenn wir in einer ähnlichen Situation wie im Fall 4 sind.
Bei jenem ist Y funktional abhängig von X wenn wir jedem Wert xi einen einmaligen Wert yj auf solche
Art zuordnen können, dass yj = f (xi ) ist. Das heisst, der Wert einer Variable legt den Wert der anderen
Variable genau fest. Die funktionale Abhängigkeit ist linear, wenn alle Wertepaare auf einer Geraden liegen.
Die Abhängigkeit ist gekrümmt, wenn die Wertepaare in einer Kurve, definiert durch die Funktion y = f (x),
liegen.
Zwei Variablen X und Y gelten als unabhängig voneinander, wenn der Wert der einen Variable keinen
Einfluss auf den Wert der anderen Variable hat. Das bedeutet, dass die relativen bedingten Verteilungen
zusammenfallen.
Bei den restlichen Fällen können wir von statistischer Abhängigkeit oder Zusammenhang sprechen. Diese Abhängigkeit kann stärker oder schwächer sein, je nach Situation. Durch die Punktwolke bekommen wir
eine Vorstellung davon wie stark/schwach die Abhängigkeit ist, unter Berücksichtigung dessen, dass die
Abhängigkeit umso stärker ist, je mehr sich die Werte zum Graph einer Funktion nähern.
Punktwolken in denen wir lineare oder gekrümmte Abhängigkeiten sehen:
Abbildung 3.2: lineare Abhängigkeit
Aufgabe 3.6.1 Könnt ihr irgendeinen Schluss ziehen, über die mögliche Abhängigkeit zwischen dem Gewicht und der Antwort zur Frage 3.1, aus der Punktwolke die ihr im vorherigen Abschnitt gezeichnet habt?
3.7
Kovarianz
Erinnert euch an die Punktwolke der zwei Variablen die wir untersuchen. Es ist nicht leicht zu erkennen
welche Art von Zusammenhang zwischen ihnen besteht. Aber glaubt ihr z.B., dass das Taschengeld steigt,
wenn das Alter steigt? Oder glaubt ihr es passiert umgekehrt? Wir suchen jetzt nach einer Zahl die uns ein
Maß dafür sein kann, ob wir es mit einem direkten oder umgekehrten/indirekten Zusammenhang zu tun
haben. Zu diesem Zweck verwenden wir die Kovarianz, welche folgendermaßen definiert ist:
34
Abbildung 3.3: gekrümmte Abhängigkeit
Pk
i=1
Pm
j=1 (xi
− x)(yj − y)nij
Pk
i=1
Pm
j=1
xi yj nij
−xy
n
n
Die Kovarianz ist auch bekannt als die gemeinsame Varianz zweier Variablen. Wenn der Zusammenhang
direkt ist, ist die Kovarianz positiv und wenn die Kovarianz negativ ist, ist der Zusammenhang indirekt. Wir
wissen, dass das Durchschnittsalter 16, 86̇ Jahre ist und das durchschnittliche Taschengeld 13 Euro, also
erhalten wir Sxy = 4, 53̇ und somit ist der Zusammenhang direkt und ziemlich stark.
Wir bemerken, dass beim Ausdruck der Kovarianz, sein Vorzeichen abhängt von der Differenz aus (xi −
x) und (yj − y). Schauen wir uns an was mit der Kovarianz in bestimmten Situationen passiert. Wir sehen
uns die drei Punktwolken an, in welchen wir den Punkt (x, y) markieren, welcher das Gravitationszentrum
der Verteilung ist. (siehe Abb. 3.4).
Wir sehen, dass wir im 2. Diagramm eine große Kovarianz haben, da die Unterschiede von (xi − x)
und (yj − y) immer das gleiche Vorzeichen haben (xi und yj sind immer im ersten und dritten Quadranten,
definiert durch die Achse die auf (x, y) zentriert ist). Da diese Differenzen positiv sind, tragen sie in positiver
Art zur Summe bei.
In den anderen 2 Fällen gibt es keinen linearen Zusammenhang und so haben wir positives und negatives
Addieren. Wir haben Datenpunkte auf allen vier Quadranten und so gleichen sich manche miteinander aus
und das Ergebnis kann um 0 sein.
Wir bemerken also, dass die Kovarianz wiederum ein Maß ist, welches von den Maßeinheiten abhängt,
wie es bei Varianz und Standardabweichung der Fall war. Daher wollen wir uns nach einem anderen, dimensionslosen Maß umsehen, welches uns erlaubt Verteilungen zu vergleichen.
Sxy =
3.8
=
Lineare Korrelation
Wir suchen jetzt nach einem Maß, welches uns den Grad des Zusammenhanges zweier Variablen (direkt
oder indirekt) gibt. Wir wollen jenes dann auch dazu verwenden, um den linearen Zusammenhang zwischen
ihnen zu messen.
Wir beginnen mit der Kovarianz, die wir gerade präsentiert haben, welche vom Produkt der Maßeinheiten der beiden Variablen abhängt, da (xi − x) abhängig ist von den Maßeinheiten von X und (yj − y)
35
Abbildung 3.4: Kovarianz
abhängig ist von den Maßeinheiten von Y ; nij und n sind hingegen dimensioslos. Wir müssen Sxy durch
eine Zahl auf solche Art dividieren, dass diese zwei Maßeinheiten verschwinden. Wir erinnern uns, dass die
Varianz abhängig ist von dem Quadrat der Maßeinheit der Variable, also können wir sie nicht verwenden.
Die Standardabweichung ist hingegen abhängig von der einfachen Maßeinheit der Variable. Das heisst, das
Produkt Sx Sy hängt ab vom Produkt der Maßeinheiten von X und Y und das ist genau was wir suchen. Wir
definieren den linearen Korrelationskoeffizient also folgend:
r=
Sxy
Sx Sy
Berechnen wir ihn für unser Beispiel. Wir wissen, dass Sxy = 4, 53̇ und Sx = 1, 008 und Sy = 6, 368,
daraus folgt, r = 0, 706, aber was bedeutet das?
Der Wert von r ist immer zwischen −1 und 1. Wenn der Wert von r nahe an −1 oder 1 ist, dann ist die
lineare Abhängigkeit zwischen den zwei Variablen stark und sie ist direkt wenn sie nahe bei 1 und indirekt
wenn sie nahe bei −1 ist.
Wenn der Wert von r nahe bei 0 ist haben wir eine schwache Abhängigkeit, wenn überhaupt eine besteht.
Wenn der Wert von r mit 1 oder −1 zusammenfällt, ist die Abhängigkeit linear und alle Punkte liegen auf
einer Linie.
Wir bestätigen also, dass der Zusammenhang in unserem Beispiel direkt und sehr stark ist.
Aufgabe 3.8.1 Berechnet den linearen Korrelationskoeffizient von den Variablen Gewicht und Antwort der
36
Frage 3.1. Was können wir über den Zusammenhang zwischen den Variablen sagen?
3.9
Regressionsgerade
Nehmen wir an, ihr wisst, dass ein Junge der Schule ein Taschengeld von 18 Euro bekommt, aber ihr kennt
sein Alter nicht. Wir könnten den Wert den die Variable Alter für diesen Jungen haben sollte vorhersagen.
Aber wie können wir das anstellen? Wir haben in diesem Kapitel immer über den möglichen Zusammenhang
zwischen diesen Variablen gesprochen, jetzt ist der Moment wo wir ihn auch verwenden. Wenn wir eine
Gleichung aufstellen könnten, die das Alter und das Taschengeld in eine Beziehung bringt, bräuchten wir
nur unsere Zahlen einsetzen und hätten den Wert den wir suchen.
Leider ist das Ganze nicht so einfach. Da wir wissen, dass die lineare Korrelation zwischen den zwei
Variablen sehr groß ist, können wir versuchen eine Linie zu finden, die den Punkten am besten entspricht
und wir können dann am Wert des Taschengeldes den Wert für das Alter ablesen. Diese Linie wird Regressionsgerade genannt. Wir wollen sie zuerst definieren und später den Wert für unser Beispiel berechnen.
X und Y sollen zwei Variablen sein und wir definieren die Regressionsgerade als die Linie, welche die
Summe der Quadrate der Abstände zwischen den Datenpunkten und den geschätzten Punkten minimiert.
Für die Regressionsgerade von Y über X, sollte das y = ax + b sein. Jetzt müssen wir die Summe der
Quadrate der Abstände zwischen den Werten yj und den erwarteten Werten dafür, axi + b, minimieren. Die
Gleichung für diese Gerade ist:
Y −y =
Sxy
(X − x)
Sx2
Wir werden diese Gerade verwenden, wenn wir den Wert von Y aus dem Wert X schätzen wollen.
Bei der Regressionsline von X über Y ergibt sich x = c + dy und wir minimieren die Summe der
Quadrate der Abstände zwischen den Werten xi und den Prognosen für diese Werte cyi + d. Die Gleichung
für diese Gerade ist also:
X −x=
Sxy
(Y − y)
Sy2
Wir werden diese Gerade verwenden, wenn wir den Wert von X aus dem Wert Y schätzen wollen.
Berechnen wir nun also die Regressionsgerade für unser Beispiel. Unsere Variablen sind das Taschengeld
(X) und das Alter (Y ), also müssen wir die Gerade von X über Y berechnen. Wir haben also:
x = 13
y = 16, 86̇
Sxy = 4, 53̇
Sx = 6, 368
Sx2 = 40, 551
also ist die Gerade die wir suchen
Y − 16, 86̇ =
4, 53̇
(X − 13)
40, 551
beziehungsweise
Y − 16, 86̇ = 0, 111(X − 13) ⇒ Y = 0, 111X + 15, 413
Wenn also das Taschengeld dieses Jungen x = 18 Euro beträgt, sollte sein Alter sein:
37
Y = 0, 111 · 18 + 15, 413 = 17, 42
das heißt, dieser Junge sollte 17 Jahre alt sein.
Wir müssen jetzt noch ein paar Anmerkungen zur Regressionsgeraden machen. Erstens, der Schnittpunkt
der zwei Regressionsgeraden (X über Y und Y über X) ist (x, y), außer im Falle einer linearen Korrelation
von 1 oder −1 wobei diese zwei Geraden zusammenfallen würden.
Wenn wir Prognosen mit der Regressionsgeraden machen wollen, müssen wir bedenken, dass wir eine
der folgenden Voraussetzungen erfüllen müssen:
• Wir können aus der Punktwolke schliessen, dass es einen möglichen linearen Zusammenhang zwischen den Variablen gibt.
• Der lineare Korrelationskoeffizient ist nahe 1 oder −1.
• Der Hausverstand sagt uns, dass ein Zusammenhang zwischen den Variablen möglich ist.
Eine andere Möglichkeit die Regressionsgerade darzustellen ist die folgende:
• Für die Regressionsgerade Y über X, ergibt das y = ax + b, wobei gilt:
a=
Sxy
Sx2
b=y−
Sxy
x
Sx2
• Für die Regressionsgerade X über Y , ergibt das x = cy + d, wobei gilt:
c=
Sxy
Sy2
d=x−
Sxy
y
Sy2
Aufgabe 3.9.1 Berechnet die Regressionsgerade für die Variablen Gewicht und Antwort zu Frage 3.1. Wenn
ein SchülerInnen 67 kg wiegt, könnt ihr vorhersagen was die Antwort zur Frage 3.1 ist?
38
Herunterladen