Titel und Inhalt_v7 - Mathematik

Werbung
Einführung in die
beschreibende Statistik
Alte Kantonsschule Aarau
Fachschaft Mathematik
erstellt von Roger Sax, Roger Keller und Marianne Stein
2015, Version 7
Inhalt
1 Einleitung
1
2 Grundbegriffe
3
3 Darstellung von Daten
6
4 Einteilung in Klassen
11
5 Das Summensymbol
16
6 Zentralmasse
19
7 Streuungsmasse
22
8 Normalverteilungen
27
9 Quartile
29
Anhang A: Zusammenhänge zwischen Zentral- und Streuungsmassen
33
Anhang B: Statistische Auswertungen mit Microsoft Excel 2007
35
Quellen- und Literaturverzeichnis
39
Einführung in die beschreibende Statistik
1 Einleitung
Die Statistik ist ein wichtiges Instrument im Umgang mit grossen Datenmengen, das sowohl in
Politik und Wirtschaft als auch in Geistes- und Naturwissenschaften Anwendung findet, um
Informationen zu gewinnen oder um Hypothesen zu testen. Nicht selten werden wichtige
Entscheidungen auf der Grundlage statistischer Aussagen getroffen. So berechnen beispielsweise
Krankenkassen ihre Prämien anhand von Statistiken über die Häufigkeiten von Krankheitsfällen,
Arztbesuchen oder Spitalaufenthalten, Zigaretten- oder Alkoholkonsum, etc.
In einer statistischen Datenerhebung geht es darum, Informationen über Personen oder Dinge zu
sammeln. Im Idealfall werden die entsprechenden Daten von allen Personen oder Dingen erfasst,
die für die jeweilige Untersuchung interessant sind. Man spricht dann von einer Grundgesamtheit
oder Population. Oft ist aber der Aufwand hierfür unverhältnismässig gross, sodass man sich
stattdessen auf eine Stichprobe, d.h. auf eine repräsentative Teilmenge der Grundgesamtheit
beschränkt. Repräsentativ heisst, dass die Auswahl der Stichprobe möglichst so erfolgen sollte, dass
sie die wesentlichen Eigenschaften der Grundgesamtheit wiedergibt.
Die Statistik kann in drei grundsätzlich verschiedene Teilbereiche unterteilt werden:
–
Die sammelnde Statistik befasst sich mit der Datenerhebung. Eine wichtige und schwierige
Frage ist dabei, wie man eine Stichprobe aus der Grundgesamtheit auswählen kann so, dass
diese tatsächlich repräsentativ ist. In der Praxis wird oft versucht, dies durch eine zufällige
Auswahl der Stichprobe zu realisieren.
–
Wir werden uns im Folgenden ausschliesslich mit der beschreibenden Statistik auseinandersetzen, die sich mit der Aufbereitung und der Darstellung von Daten beschäftigt.
–
In der beurteilenden Statistik dagegen geht es um die Interpretation der Daten, um Rückschlüsse auf die Grundgesamtheit zu ziehen. Aussagen, die aufgrund statistischer Daten
gewonnen werden, sind immer mit einer gewissen Unsicherheit behaftet. Eine, wenn nicht
sogar die wichtigste Aufgabe der beurteilenden Statistik ist es, abzuschätzen, mit welcher
Wahrscheinlichkeit derartige Aussagen zutreffen.
Seite 1/39
v7
Einführung in die beschreibende Statistik
Grundgesamtheit
Stichprobe
Auswahl einer Stichprobe
Datenerhebung
(sammelnde Statistik)
Rückschluss auf die
Grundgesamtheit
(beurteilende Statistik)
Datenaufbereitung
(beschreibende Statistik)
Aufgabe 1.1
In der Schweiz gibt es immer wieder Abstimmungen zu verschiedenen Themen. Die
stimmberechtigten Personen (etwa 4 Millionen) bilden die Grundgesamtheit. Für
eine Vorhersage des Abstimmungsergebnisses wird eine Stichprobe gewählt. Diese
muss für eine seriöse Vorhersage genügend gross und repräsentativ sein, d.h. sie soll
im Idealfall die Verhältnisse richtig abbilden. Wie beurteilst du die folgenden StichProben:
a) Das Parlament,
b) alle Mitglieder einer Partei?
Angenommen, die Vorhersage lautet: 65% JA.
c) Wie viele JA und NEIN-Stimmen wären bei einer Stimmbeteiligung von 100 %
bzw. von 30 % zu erwarten?
Bei der Abstimmung beträgt die Stimmbeteiligung tatsächlich 30% und das EndErgebnis lautet: 680'000 JA-Stimmen.
d) Wie gut gibt die Stichprobe die Grundgesamtheit wieder, wenn wir annehmen,
dass das Endergebnis für die Grundgesamtheit repräsentativ ist?
e) Wie viele JA und NEIN-Stimmen hätte es bei einer Stimmbeteiligung von 100 %
gegeben, wenn die restlichen 70 % wie in der Vorhersage bzw. wie die anderen
30 % (im Endergebnis) gestimmt hätten?
Seite 2/39
v7
Einführung in die beschreibende Statistik
2 Grundbegriffe
In einer statistischen Erhebung wird aus einer bestimmten Grundgesamtheit eine Stichprobe von
Personen oder Dingen ausgewählt und hinsichtlich bestimmter Merkmale (Variablen) untersucht.
Jedes Merkmal kann bestimmte Merkmalsausprägungen (Variablenwerte) annehmen. Man kann
dabei folgende Grundtypen von Merkmalen unterscheiden:
–
Quantitative (metrische) Merkmale besitzen einen natürlichen Zahlenwert, der direkt durch
eine Messung bestimmt werden kann. Metrische Merkmale heissen stetig, wenn sie innerhalb
gewisser Grenzen jeden Zahlenwert annehmen können, andernfalls heissen sie diskret.
–
Qualitative Merkmale besitzen keinen natürlichen Zahlenwert und können deshalb nur verbal
beschrieben oder zahlenmässig codiert werden. Qualitative Merkmale heissen ordinal, wenn
man sie ordnen kann, ansonsten heissen sie nominal.
Beispiel 1:
Merkmal
Merkmalsausprägung
Grundtyp
Augenfarbe
blau, braun, grün, grau
qualitativ, nominal
Schulnoten (U.S.A.)
A, B, C, D und F1
qualitativ, ordinal
Anzahl Geschwister
1, 2, 3, 4, …
metrisch, diskret
Körpergrösse (in cm)
150, 162.5, 176.8, ...
metrisch, stetig
Als Umfang der Stichprobe bezeichnet man die Anzahl (n) von Personen bzw. Dingen, welche in
der Datenerhebung berücksichtigt werden. Nach erfolgter Datenerhebung hat man eine Liste
(Urliste) von Merkmalsausprägungen in Form von n Daten x1 , x2 , x3 , …, xn und kann zählen, wie
oft die verschiedenen Merkmalsausprägungen vorkommen. Man spricht dann von der Häufigkeit
einer Merkmalsausprägung:
–
Die absolute Häufigkeit H i der Merkmalsausprägung xi gibt an, wie oft die Merkmalsausprägung xi vorkommt.
–
Die relative Häufigkeit hi einer Merkmalsausprägung xi ist der prozentuale Anteil der Merkmalsausprägung xi an der gesamten Stichprobe:
relative Häufigkeit =
absolute Häufigkeit
Stichprobenumfang
bzw.
hi =
Hi
n
1
Amerikanisches Notensystem:
A (Bestnote), B (überdurchschnittlich), C (durchschnittlich), D (genügend) und F („Fail“, ungenügend)
Seite 3/39
v7
Einführung in die beschreibende Statistik
Aufgabe 2.1
An einem Dienstagmorgen wird um 6:30 Uhr in der Unterführung des Aarauer
Bahnhofs eine Umfrage durchgeführt, bei der die Passanten nach ihrem Zivilstand
befragt werden. Es resultiert die folgende Tabelle:
ledig
verheiratet
geschieden
verwitwet
32
47
58
13
a)
b)
c)
d)
e)
Was ist hier die Grundgesamtheit?
Wie gross ist der Stichprobenumfang?
Ist die Stichprobe repräsentativ?
Welches Merkmal wird hier untersucht?
Klassifiziere das Merkmal!
(Quantitativ oder qualitativ? Stetig, diskret, ordinal oder nominal?)
f) Bestimme die absolute und die relative Häufigkeit der ledigen Personen!
g) Wie gross sind die absolute und die relative Häufigkeit der nicht-ledigen Personen, die geschieden sind?
Aufgabe 2.2
Die Tabelle unten zeigt die Todesfälle im Jahre 1910 in Folge von Tuberkulose für
die Städte New York und Richmond.
a) Ermittle für beide Städte die absolute und die relative Häufigkeit der Todesfälle,
getrennt für die weisse und die farbige Bevölkerung (in Bezug auf die gesamte
weisse bzw. die gesamte farbige Bevölkerung). Diskutiere anhand der Resultate
die Frage, in welcher Stadt das Tuberkulose-Risiko grösser ist.
b) Wie sehen die Resultate aus, wenn die Berechnung dieser Häufigkeiten ohne
Trennung der farbigen und der weissen Bevölkerung durchgeführt wird? Welche
Schlüsse lassen sich daraus ziehen?
New York
Bevölkerung
Richmond
Todesfälle
Bevölkerung
Todesfälle
Weisse
4'675'174
8'365
80'895
131
Farbige
91'709
513
46'733
155
4'766'883
8'878
127'628
286
Total
Seite 4/39
v7
Einführung in die beschreibende Statistik
Das Beispiel aus Aufgabe 2.2 ist ein typischer Fall des erstmals durch den britischen Mathematiker
Eduard Hugh Simpson beschriebenen und nach ihm benannten Simpson-Paradoxons. Es macht
deutlich, wie leicht einen voreilige Schlussfolgerungen aufgrund von statistischen Häufigkeiten in
die Irre führen können. Wir halten deshalb die folgende wichtige Bemerkung fest, die zur Vorsicht
im Umgang mit Häufigkeiten ermahnen soll:
Die untersuchten Teilmengen bzw. Stichproben können andere Eigenschaften haben als die ihnen
zugrunde liegende Grundgesamtheit.
Aufgabe 2.3
In einem Land leben 10'000'000 Arbeitswillige, von denen 500'000 keine Arbeit
finden. Die Arbeitslosenquote beträgt demnach
500 ' 000
10 '000 '000
⋅ 100 % = 5 % . Nun steigt die
Arbeitslosenzahl auf 600'000 Arbeitslose. Die Redakteure der Zeitung A berechnen
die neue Arbeitslosenquote
600 '000
10 '000 '000
⋅ 100 % = 6 % und schreiben in der nächsten
Ausgabe „Die Arbeitslosigkeit hat um 1 % zugenommen!“ In der Zeitung B wird
dagegen berichtet: „Die Arbeitslosigkeit hat um 20 % zugenommen!“ Die Redakteure rechtfertigen ihre Schlagzeile damit, dass die Zahl der Arbeitslosen um 100'000
zugenommen hat, das sind
100 '000
500 '000
⋅ 100 % = 20 % aller bisherigen Arbeits-losen. Wie
beurteilst du die Situation? Wo liegt hier die Schwierigkeit?
Seite 5/39
v7
Einführung in die beschreibende Statistik
3 Darstellung von Daten
Statistische Daten können auf unterschiedliche Weise dargestellt werden. Die simpelste Darstellung
ist eine Datentabelle. Die tabellarische Darstellung ist aber sehr abstrakt, weshalb zur Veranschaulichung meistens Diagramme verwendet werden.
Beispiel 1: Augenfarben von 115 Probanden
Darstellung der Daten in einer Datentabelle:
Augenfarbe
Absolute Häufigkeit
Relative Häufigkeit
blau
23
20 %
braun
43
37 %
grün
31
27 %
grau
18
16 %
Darstellung der Daten in Diagrammen:
grau
16%
grün
27%
grau
16%
blau
20%
blau
20%
grün
27%
braun
37%
braun
37%
Kreisdiagramm
Tortendiagramm
50
40
30
20
10
0
blau
braun
grün
grau
Histogramm
20%
37%
27%
16%
Prozentstreifen
Seite 6/39
v7
Einführung in die beschreibende Statistik
Aufgabe 3.1
a) Diskutiere die Vor- und Nachteile der verschiedenen Diagramme in Beispiel 1.
b) Was kann man an der Ordinatenachse eines Histogramms ablesen?
c) Was ist bei der Verwendung von Kreis- oder Tortendiagrammen zu beachten?
Beispiel 2: Abfallmenge der privaten Haushalte in der Schweiz
(verbrannt in Kehrichtverbrennungsanlagen)
Darstellung der Daten in einer Datentabelle:
Jahr
Abfall in kg
pro Einwohner
2002
360
2003
351
2004
348
2005
327
2006
352
2007
351
2008
366
2009
340
2010
349
Darstellung der Daten in Diagrammen:
Punktdiagramm
Seite 7/39
v7
Einführung in die beschreibende Statistik
Liniendiagramm
Stabdiagramm
Aufgabe 3.2
a) Diskutiere die Vor- und Nachteile der verschiedenen Diagramme in Beispiel 2.
b) Eine Online-Nachrichtenagentur schreibt in einem Artikel im August 2010:
„Mit 733 Kilogramm Hausmüll pro Person liegt die Schweiz deutlich über dem
europäischen Durchschnitt von 524 Kilo – und hinter Dänemark und Zypern auf
Platz drei. Und unsere Abfallmenge nimmt weiter zu: Landeten 2005 noch 327
Kilo pro Einwohner in den Kehrichtverbrennungsanlagen, waren es 2008 bereits
366 Kilo.“2
Diskutiere den Artikelausschnitt auf dem Hintergrund der Daten aus Beispiel 2.
2
Die Zahlen 733 kg/524 kg beziehen sich auf die gesamte Müllmenge, die Zahlen 327 kg/366 kg beziehen sich dagegen
nur auf denjenigen Anteil des Mülls, der in Kehrichtverbrennungsanlagen endet.
Seite 8/39
v7
Einführung in die beschreibende Statistik
Aufgabe 3.3
Das folgende Diagramm stellt denselben Sachverhalt dar wie das Liniendiagramm in
Beispiel 2:
Worin unterscheiden sich die beiden Diagramme in Form und Wirkung? Welches der
beiden Diagramme stellt den Sachverhalt besser dar? Begründe!
Beispiel 3:
Piktogramme
Ein Vertreter der Arbeiterschaft einer Firma möchte darauf aufmerksam machen,
dass die Mitarbeiter in der einen Abteilung der Firma doppelt so viel verdienen wie
die Mitarbeiter der anderen Abteilung derselben Firma. Dieser Sachverhalt kann zum
Beispiel mit Piktogrammen dargestellt werden:
Seite 9/39
v7
Einführung in die beschreibende Statistik
Aufgabe 3.4
Welches der beiden Piktogramme aus Beispiel 3 beschreibt den Sachverhalt, dass die
eine Abteilung doppelt so viel verdient wie die andere, besser? Begründe!
Diese Beispiele illustrieren, dass die Art und Weise, wie Daten dargestellt werden, in einschlägiger
Weise bestimmt, wie die Daten wahrgenommen bzw. interpretiert werden. Dabei ist nicht jede
Darstellung für jede Art von Daten geeignet!
Es sollte immer genau überlegt werden, welche Darstellung am besten zu den vorliegenden Daten
passt und den jeweiligen Sachverhalt am besten beschreibt.
Ebenso ist bei der Interpretation von statistischen Daten Vorsicht geboten. Insbesondere wenn
Daten entweder mangels besseren Wissens oder gar mit Absicht in unangemessener Weise
dargestellt werden, kann es vorkommen, dass falsche Schlüsse gezogen werden. Von Sir Winston
Churchill3 stammt das berühmte Zitat
„I only believe in statistics that I doctored myself”,
das auf die Gefahren mittels Statistik falsch dargestellter Sachverhalte hinweist und zugleich
suggeriert, dass statistische Daten immer kritisch hinterfragt werden müssen.
3
Premierminister Grossbritanniens während des 2. Weltkrieges
Seite 10/39
v7
Einführung in die beschreibende Statistik
4 Einteilung in Klassen
Bei der Ermittlung der Häufigkeit von Merkmalen ist es oft nicht sinnvoll, jede Merkmalsausprägung einzeln zu betrachten. Insbesondere bei stetigen metrischen Merkmalen – wie zum Beispiel
der Körpergrösse – teilt man deshalb die Merkmalsausprägungen in so genannte Klassen ein.
Beispiel 1:
Körpergrösse
Eine Datenerhebung der Körpergrösse mit 50 Probanden ergab folgende Urliste4:
(Angaben in cm und auf ganze Zahlen gerundet)
144
164
171
177
186
150
164
172
178
187
154
164
172
179
187
154
165
172
179
188
160
167
173
182
189
160
167
174
182
190
162
168
175
182
190
162
169
176
182
191
163
170
176
184
193
164
171
176
185
205
Da viele Werte nur ein- oder zweimal vorkommen, ist es nicht sinnvoll, die einzelnen
Merkmalsausprägungen in ein Säulen- oder Punktdiagramm einzutragen. Stattdessen
fassen wir nahe beieinander liegende Werte in Klassen zusammen.
a) Einteilung in 7 Klassen in Abständen von 10 cm (Klassenbreite):
Körpergrösse
(in cm)
Anzahl
Probanden
140-149
A
150-159
C
160-169
Eed
170-179
Eeea
180-189
Eea
190-199
D
200-209
A
Die Klassenbreite berechnet sich dabei wie folgt:
Die Klasse 140-149 (z.B.) beinhaltet wegen der Rundung auf ganze Zentimeter
alle Körpergrössen im Intervall [139.5, 149.5[ (in cm). Die Klassenbreite ist
somit die Länge dieses Intervalls, also 149.5 cm - 139.5 cm = 10 cm.
4
Hier ist zu bemerken, dass Körpergrössen an sich stetige Daten sind. Aufgrund der Messungenauigkeit, ist es aber
sinnvoll, diese Daten gerundet anzugeben (hier auf cm).
Seite 11/39
v7
Einführung in die beschreibende Statistik
b) Einteilung in 14 Klassen mit einer Klassenbreite von 5 cm:
Körpergrösse
(in cm)
140-144
Anzahl
Probanden
A
145-149
150-154
c
155-159
160-164
Ed
165-169
e
170-174
Ec
175-179
Ec
180-184
e
185-189
Ea
190-194
d
195-199
200-204
205-209
a
Hier beinhaltet beispielsweise die Klasse 140-144 alle Körpergrössen im Intervall
[139.5, 144.5[ (in cm), was der Klassenbreite 144.5 cm - 139.5 cm = 5 cm
entspricht.
Es ist eine Frage der Übersicht und der Ästhetik, in wie viele Klassen eine Datenmenge unterteilt
werden soll. Vergleichen wir die Histogramme in Beispiel 1, so stellen wir fest, dass das Histogramm für 7 Klassen wesentlich übersichtlicher ist als dasjenige für 14 Klassen. Üblicherweise wird
folgende Faustregel angewendet:
Die Einteilung einer Stichprobe vom Umfang n in Klassen soll in der Regel so erfolgen, dass für die
Anzahl k der Klassen gilt:
k≈ n
aber
Seite 12/39
k ≤ 20
v7
Einführung in die beschreibende Statistik
Beispiel 2:
Statistische Auswertung mit Geogebra (Version 4.2.60.0)
Bei der Auswertung von grossen Datenmengen ist es am einfachsten, wenn wir eine
Statistiksoftware verwenden. Das auf www.geogebra.org kostenlos erhältliche
Programm Geogebra beinhaltet ein relativ einfaches, aber für unsere Zwecke
ausreichendes Statistiktool.
Wir wollen nun die Urliste der Körpergrössen aus Beispiel 1 mit Geogebra
auswerten. Dazu öffnen wir Geogebra und aktivieren mit der Maus den schmalen
Balken am rechten Rand. Anschliessend wählen wir im geöffneten Menü die Option
„Tabelle & Grafik“ aus:
Dadurch öffnet sich links eine Tabelle. Das Grafikfenster benötigen wir nicht und
können es mit einem Klick auf das Symbol
schliessen. Nun geben wir die Urliste
in die Tabelle ein, markieren danach die gesamte Liste und wählen dann, wie im
folgenden Bild dargestellt, die Option „Analyse einer Variablen“:
Dabei öffnet sich ein neues Fenster. Dort klicken wir auf die Schaltfläche „Analyse“.
Es erscheint ein neues Fenster mit einem auf der markierten Urliste basierenden
Histogramm. Mit einem Listenfeld können wir auch andere Diagramme auswählen
(z.B. den Boxplot, der in Kapitel 9 besprochen wird). Des Weiteren können wir mit
Seite 13/39
v7
Einführung in die beschreibende Statistik
einem Schieberegler die Anzahl der Klassen einstellen. Stellen wir diesen auf 7
Klassen ein, so erhalten wir aber nicht dasselbe Histogramm, wie in Beispiel 1. Das
liegt daran, dass Geogebra die Werte von 144-205 cm automatisch in 7 gleichgrosse
Klassen der Länge ≈ 8.7 cm ( 144 + 7 ⋅ 8.7 ≈ 205 ) einteilt, während wir den Bereich
von 140-210 cm in 7 Klassen der Länge 10 cm eingeteilt haben. Dies können wir
anpassen, indem wir auf die Schaltfläche
rechts klicken, dort ein Häckchen bei
„Manuelle Bestimmung der Klassen“ setzen und die Werte „Start“ und „Breite“
anpassen (Bild rechts):
DiagrammAuswahl
Schieberegler:
Anzahl Klassen
Wollen wir das Histogramm als Bild speichern, so können wir das entweder mit
einem Klick auf das Symbol oder mit einem Rechtsklick auf die Grafik tun, indem
wir im Kontextmenü die Option „Export als Bild…“ auswählen (Leider steht dabei
keine Option zur Beschriftung der Achsen zur Verfügung). Durch einen Klick auf
das Symbol
können wir ferner alle wichtigen statistischen Kenngrössen wie den
Mittelwert, den Modus, den Median, die Quartile oder die Standardweichung, die wir
nach und nach in den folgenden Kapiteln kennenlernen werden, abfragen:
Seite 14/39
v7
Einführung in die beschreibende Statistik
Aufgabe 4.1
Die Tabelle zeigt die Einwanderungen nach Deutschland im Jahr 1976:
Alter x
Anzahl
Einwanderer
relative
Häufigkeit
Klassenbreite
relative
Häufigkeitsdichte*
x < 18
163'593
32.8 %
18
1.82 %
18 ≤ x < 65
312'776
62.7 %
47
1.33 %
65 ≤ x < 80
22'298
4.5 %
15
0.30 %
Total
498'667
100 %
*Die Häufigkeitsdichte entspricht in diesem Fall der durchschnittlichen Häufigkeit pro Jahrgang.
Es stellt sich die Frage, wie man die Klassenbreite im Histogramm berücksichtigt.
Die einfachste Möglichkeit wäre, die Säulenbreite entsprechend der Klassenbreite zu
wählen:
Auf diese Weise werden aber die Grössenverhältnisse nicht richtig abgebildet: Zum
Beispiel ist die relative Häufigkeit der 18 bis 64-jährigen Einwanderer (mittlere
Säule) mit 62.7 % etwa doppelt so hoch wie die relative Häufigkeit der unter 18jährigen Einwanderer (linke Säule) mit 32.8 %. Der Flächeninhalt der mittleren Säule
ist aber etwa fünfmal grösser als derjenige der linken Säule. Wie müsste man die
Säulenhöhen anpassen, um diesen Effekt auszugleichen? Wie ändert sich dabei die
Bedeutung der Ordinatenachse?
Seite 15/39
v7
Einführung in die beschreibende Statistik
5 Das Summensymbol
In der Mathematik und im Speziellen in der Statistik kommt es oft vor, dass man viele ähnliche
Terme addieren muss. Das Summensymbol S fasst solche Terme zusammen. Möchten wir n
Summanden x1 , x2 , x3 , …, x n addieren, so lässt sich die Summe mit dem Summensymbol S
abgekürzt schreiben als:
n
∑x
i =1
i
= x1 + x 2 + x3 + ... + x n
(„Summe aller xi für i = 1 bis i = n “)
In der Statistik können die Summanden xi zum Beispiel die Daten der Urliste (Merkmalsausprägungen) sein, wenn wir sie mit einem Summenindex i von 1 bis n durchnummerieren.
Beispiel 1:
Für die Summe aller natürlichen Zahlen von 1 bis 20 ist xi = i und wir schreiben:
20
∑ i = 1 + 2 + 3 + ... + 20
i =1
Beispiel 2:
Für die Summe aller ungeraden Zahlen von 1 bis 99 ist xi = 2i − 1 :
x1 = 2 ⋅ 1 − 1 = 1
x2 = 2 ⋅ 2 − 1 = 3
x3 = 2 ⋅ 3 − 1 = 5
⋮
x50 = 2 ⋅ 50 − 1 = 99
Wir schreiben also:
50
∑ (2i − 1) = 1 + 3 + 5 + ... + 99
i =1
Aufgabe 5.1
a) Schreibe die Summe der ersten 100 Zahlen der Dreierreihe mit dem
Summensymbol.
5
b) Berechne die Summe
∑ i (i + 1) .
i =1
Seite 16/39
v7
Einführung in die beschreibende Statistik
Eine Summe muss natürlich nicht immer mit i = 1 beginnen:
Beispiel 3:
Für die Summe aller natürlichen Zahlen von 10 bis 20 schreiben wir mit dem
Summensymbol:
20
∑ i = 10 + 11 + 12 + ... + 20
i =10
Beispiel 4:
Für die Summe aller ungeraden Zahlen von 51 bis 99 schreiben wir:
50
∑ (2i − 1) = 51 + 53 + 55 + ... + 99
i = 26
Beispiel 5:
Um die Summe aller zweistelligen Quadratzahlen aufzuschreiben, überlegen wir uns,
dass 16 = 4 2 die kleinste und 81 = 92 die grösste zweistellige Quadratzahl ist. Wir
erhalten so die Summe:
9
∑i
2
= 16 + 25 + 36 + 49 + 64 + 81
i=4
Aufgabe 5.2
6
a) Berechne die Summe
∑ (3i + 2)
i =3
b) Schreibe die Summe aller vierstelligen Quadratzahlen mit dem Summensymbol.
Das Rechnen mit Summen erspart viel Schreibaufwand. Dabei ist es praktisch, wenn man die
wesentlichen Rechenregeln für Summen kennt:
Beispiel 6:
Es gilt die Regel:
Beweis:
n
n
i =1
i =1
∑ a ⋅i = a ⋅ ∑i
(a œ )
n
n
i =1
i =1
∑ a ⋅ i = a + 2a + 3a + ... + na = a (1 + 2 + 3 + ... + n) = a ⋅ ∑ i
Aufgabe 5.3
Beweise die folgenden Rechenregeln (für a œ ):
n
a)
∑a⋅ x
i =1
n
i
= a ⋅ ∑ xi
i =1
n
b)
∑a = n⋅a
i =1
Seite 17/39
n
c)
∑ (x
i =1
i
n
n
i =1
i =1
+ y i ) = ∑ xi + ∑ y i
v7
Einführung in die beschreibende Statistik
Beispiel 7:
Mit Hilfe dieser Regeln können wir zum Beispiel den Term 150 − ∑ i =1 (3 + 2i 2 ) wie
50
folgt vereinfachen:
50
50
50
50
50
i =1
i =1
i =1
i =1
i =1
150 − ∑ (3 + 2i 2 ) = 150 − ∑ 3 − ∑ (2i 2 ) = 150 − 50 ⋅ 3 − 2 ⋅ ∑ i 2 = −2 ⋅ ∑ i 2
Beispiel 8:
Wir vereinfachen den folgenden Term:
n
n
i =1
i =1
∑ ( xi + yi )2 −∑ ( xi − yi )2
n
n
i =1
i =1
= ∑ ( xi 2 + 2 xi yi + yi 2 ) −∑ ( xi 2 − 2 xi yi + yi 2 )
n
(
= ∑ ( xi 2 + 2 xi yi + yi 2 ) − ( xi 2 − 2 xi yi + yi 2 )
i =1
n
(
= ∑ xi 2 + 2 xi yi + yi 2 − xi 2 + 2 xi yi − yi 2
i =1
)
)
n
= ∑ 4 xi yi
i =1
n
= 4 ⋅ ∑ xi yi
i =1
Aufgabe 5.4
a) Beweise für a, b œ
b) Vereinfache:
1
2
gilt:
n
n
n
i =1
i =1
i =1
∑ (axi + byi ) = a ⋅ ∑ xi + b ⋅ ∑ yi
10

2
(
i
+
2
a
)
+
(i − 2a )2 
∑
∑
i =1
 i =1

10
n
c) Zeige: Falls y = ⋅ ∑ xi , dann gilt
1
n
i =1
Seite 18/39
n
∑(y − x ) = 0 .
i =1
i
v7
Einführung in die beschreibende Statistik
6 Zentralmasse
Für statistische Untersuchungen ist das „Zentrum“ der Urliste von besonderer Bedeutung. Solche
„Zentren“ werden als Zentralmasse bezeichnet. Das wohl bekannteste Zentralmass ist das
arithmetische Mittel, das uns zum Beispiel als Notendurchschnitt in der Schule begegnet:
Das arithmetische Mittel x (Mittelwert, Durchschnitt) einer Urliste, bestehend aus den n Zahlen
x1 , x2 , x3 , …, x n , ist definiert durch
x=
x1 + x 2 + x3 + ... + x n 1 n
= ⋅ ∑ xi
n
n i =1
Kommen einige der Zahlen in der Liste mehrmals vor, so ist es oft bequemer, das arithmetische
Mittel mit Hilfe der Häufigkeiten zu bestimmen:
x1 , ~
x2 , ~
x3 , …, ~
x k , die mit den absoluten HäufigBesteht eine Urliste aus k verschiedenen Zahlen ~
keiten H 1 , H 2 , H 3 , …, H k in der Liste vorkommen, so beträgt das arithmetische Mittel:
x=
H1 ⋅ ~
x1 + H 2 ⋅ ~
x2 + H 3 ⋅ ~
x3 + ... + H k ⋅ ~
xk 1 k
= ⋅ ∑ Hi ⋅ ~
xi
n
n i =1
wobei n = H 1 + H 2 + H 3 + ... + H k ist.
Beispiel 1:
Das arithmetische Mittel der Liste {2, 2, 2, 4, 4, 5, 5, 5, 5, 5} beträgt:
x=
2+2+2+4+4+5+5+5+5+5
= 3.9 .
10
Etwas bequemer ist die Berechnung mit Hilfe der Häufigkeiten: Die Zahl ~
x1 = 2
kommt mit der Häufigkeit H 1 = 3 , die Zahl ~
x 2 = 4 mit der Häufigkeit H 2 = 2 und
die Zahl ~
x = 5 mit der Häufigkeit H = 5 vor. Wir erhalten damit:
3
3
x=
H1 ⋅ xɶ1 + H 2 ⋅ xɶ2 + H 3 ⋅ xɶ3 3 ⋅ 2 + 2 ⋅ 4 + 5 ⋅ 5
=
= 3.9 .
n
10
Seite 19/39
v7
Einführung in die beschreibende Statistik
Dies ist aber nicht die einzige Möglichkeit, ein „Zentrum“ der Urliste zu definieren. Stattdessen
könnten wir auch den häufigsten Wert oder denjenigen Wert, der genau in der Mitte der sortierten
Urliste liegt, als „Zentrum“ definieren. Etwas konkreter:
Derjenige Wert, der am häufigsten in einer Liste vorkommt, heisst Modus (oder Modalwert).
Der Modus ist vor allem bei qualitativen Merkmalen sinnvoll. Wenn wir beispielsweise eine Urliste
von natürlichen Haarfarben haben, so ist der Modus die am häufigsten vorkommende Haarfarbe.
Die Berechnung eines arithmetischen Mittels ist in diesem Beispiel dagegen unsinnig. Der Modus
ist aber nicht eindeutig: Es ist durchaus möglich, dass es zwei häufigste Haarfarben gibt.
Sind die Zahlen x1 , x2 , x3 , …, x n einer Zahlenliste der Grösse nach geordnet und ist n ungerade,
so heisst der Wert in der Mitte der Liste Median (oder Zentralwert). Ist n gerade, so ist der Median
das arithmetische Mittel5 der beiden Werte in der Mitte der Liste.
Beispiel 2:
Die Liste {1, 1, 2, 3, 3, 4, 5} hat den Median 3 ( n = 7 ungerade).
Die Liste {1, 1, 2, 3, 4, 5} hat den Median
Beispiel 3:
2+3
2
= 2.5 ( n = 6 gerade).
Schulnoten einer Klasse mit 25 SchülerInnen
Note
Absolute
Häufigkeit
2.5
A
3
E
3.5
c
4
c
4.5
d
5
E
5.5
B
6
A
5
Es gibt unterschiedliche Möglichkeiten, den Median für gerade n zu definieren. So kann je nach Definition
grundsätzlich jede Zahl zwischen den beiden Werten in der Mitte der Urliste als Median verstanden werden.
Seite 20/39
v7
Einführung in die beschreibende Statistik
Arithmetisches Mittel:
x=
1 ⋅ 2 .5 + 5 ⋅ 3 + 3 ⋅ 3 .5 + 3 ⋅ 4 + 4 ⋅ 4 .5 + 6 ⋅ 5 + 2 ⋅ 5 .5 + 1 ⋅ 6
= 4 .2
25
Modus: 5 (mit der Häufigkeit 6)
Median: 4.5:
Geordnete Urliste
2.5, 3, 3, 3, 3, 3, 3.5, 3.5, 3.5, 4, 4, 4 , 4.5, 4.5, 4.5, 4.5, 5, 5, 5, 5, 5, 5, 5.5, 5.5, 6
12 Werte
12 Werte
Aufgabe 6.1
a) Die Tabelle in Beispiel 3 wird korrigiert: Es gibt nur 24 Noten und die Note 5
kommt einmal weniger vor. Berechne für diese Korrektur den Modus, den Median
und das arithmetische Mittel.
b) Leite aus der Formel
x=
H1 ⋅ ~
x1 + H 2 ⋅ ~
x2 + H 3 ⋅ ~
x3 + ... + H k ⋅ ~
xk 1 k
= ⋅ ∑ Hi ⋅ ~
xi
n
n i =1
eine äquivalente Formel für die Berechnung des arithmetischen Mittels mit Hilfe
der relativen Häufigkeit her.
c) Welche Zentralmasse können jeweils für nominale, ordinale oder metrische
Variablen verwendet werden?
Seite 21/39
v7
Einführung in die beschreibende Statistik
7 Streuungsmasse
Betrachten wir zunächst ein Beispiel:
Beispiel 1:
Zwei gleich grosse Klassen (je 25 Schüler) schreiben dieselbe Prüfung. Der Lehrer
wertet die Resultate aus und erhält folgende Tabellen:
Klasse A
Note
Klasse B
Absolute
Häufigkeit
3
Note
Absolute
Häufigkeit
3
B
3.5
A
3.5
C
4
Eb
4
Eb
4.5
Eeb
4.5
D
5
D
5
D
5.5
A
5.5
C
6
b
6
Für beide Klassen ergibt sich derselbe Mittelwert: x = 4.44 . Die Verteilungen der
Noten der beiden Klassen unterscheiden sich aber massiv:
Klasse A
Klasse B
Der Grossteil der Noten der Klasse A liegt in der Nähe des Mittelwerts. Die Noten
der Klasse B sind dagegen sehr breit gestreut. Zentralmasse reichen nicht aus, um
diese Verteilungen bzw. die Streuung der Daten um den Mittelwert zu beschreiben.
Seite 22/39
v7
Einführung in die beschreibende Statistik
Wir stehen nun vor der Frage, wie wir die Streuung von Daten einer Urliste quantitativ erfassen
können. Wir suchen also ein Mass für die Streuung der Daten. Ein sehr einfaches Streuungsmass ist
die so genannte Spannweite:
Ist x min der kleinste und x max der grösste Wert einer Urliste, so bezeichnet man die Grösse
x max − xmin als Spannweite der Urliste.
Die Spannweite gibt also die Länge des gesamten Bereichs an, über den sich die Urliste erstreckt. In
Beispiel 1 ist die Spannweite der Noten der Klasse B grösser als diejenige der Klasse A. Allerdings
sagt die Spannweite nichts darüber aus, ob der Grossteil der Datenwerte um den Mittelwert
konzentriert ist oder ob die Werte gleichmässig über die ganze Spannweite verstreut sind.
Eine weitere Möglichkeit wäre, die Abweichungen der einzelnen Datenwerte vom Mittelwert zu
mitteln. Für einen Datenwert xi und den Mittelwert x beträgt diese Abweichung xi − x . Wenn wir
alle Abweichungen mitteln, erhalten wir aber ein sehr unbefriedigendes Ergebnis:
1 n
1 n
1 n
1
⋅ ∑ ( xi − x ) = ⋅ ∑ xi − ⋅ ∑ x = x − ⋅ n ⋅ x = x − x = 0
n i =1
n i =1
n i =1
n
=x
Der Grund für dieses Ergebnis ist, dass die Abweichungen xi − x sowohl positiv als auch negativ
werden können und dass sich die gesamten positiven und die gesamten negativen Beiträge gegenseitig aufheben. Dies könnten wir vermeiden, wenn wir stattdessen die Beträge der Abweichungen
mitteln, sodass alle Beiträge positiv sind und sich deshalb nicht gegenseitig aufheben können. Das
Rechnen mit Beträgen ist aber sehr umständlich. Stattdessen werden üblicherweise die (ebenfalls
positiven) Quadrate ( xi − x ) 2 der Abweichungen gemittelt:
Für eine Grundgesamtheit mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist
σ2 =
( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2 1 n
= ⋅ ∑ ( xi − x ) 2
n
n i =1
ein Mass für die Streuung der Daten (um x ). Die Zahl σ 2 heisst (theoretische) Varianz.
Weil hier die Abweichungen der Datenwerte vom Mittelwert quadriert werden, hat die Varianz
nicht die Einheit der Datenwerte: Sind die Datenwerte beispielsweise Körpergrössen, angegeben in
cm, so hat die Varianz die Einheit cm 2 .
Seite 23/39
v7
Einführung in die beschreibende Statistik
Deshalb wird in der Regel nicht die Varianz, sondern die so genannte Standardabweichung
betrachtet:
Für eine Grundgesamtheit mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist die
(theoretische) Standardweichung definiert als:
σ=
Beispiel 2:
( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2
=
n
1 n
⋅ ∑ ( xi − x ) 2
n i =1
Wir betrachten zunächst ein simples Beispiel aus der Physik: Ein Stein wird von
einer 5 m hohen Brücke geworfen. Dieses einfache Experiment wird fünfmal wiederholt, wobei jeweils die Fallzeit in Sekunden notiert wird. Dies führt zu folgender
Tabelle:
1. Wurf
2. Wurf
3. Wurf
4. Wurf
5. Wurf
0.98 s
1.05 s
1.02 s
0.98 s
0.96 s
Der Mittelwert der Messwerte beträgt:
x=
0.98 s + 1.05 s + 1.02 s + 0.98 s + 0.96 s
= 0.998 s ≈ 1.00 s
5
Damit erhalten wir die Standardabweichung:
σ
=
(0.98 − 0.998) + (1.05 − 0.998) + (1.02 − 0.998) + (0.98 − 0.998) + (0.96 − 0.998)
2
2
2
5
2
2
s
≈ 0.03 s
Da die Standardabweichung ein Mass für die Streuung der Messwerte ist, wird sie
auch als Kriterium für die Messgenauigkeit verwendet:
In diesem kleinen Experiment würde man sagen, dass die Messung mit einem Fehler
von etwa 0.03 s behaftet ist. Das Messergebnis wird üblicherweise mit dem MittelWert und der Standardabweichung wie folgt angegeben:
(1.00 ± 0.03 ) s.
Wäre die Messung exakt, so müssten alle Messwerte gleich und gleich dem
Mittelwert sein. In diesem Fall wäre die Standardabweichung und damit der MessFehler Null.
Seite 24/39
v7
Einführung in die beschreibende Statistik
Für die Berechnung der Varianz mit einem einfachen Taschenrechner ist die obige, in Beispiel 2
verwendete Formel allerdings etwas umständlich. Etwas weniger aufwendig ist die folgende
Formel:
Für die (theoretische) Standardabweichung gilt der Verschiebungssatz:
σ=
Beweis:
σ2 =
=
x1 + x 2 + ... + x n
− x2 =
n
2
2
2
1 n 2
 ∑ xi  − x 2
n  i =1

1 n
1 n
2
⋅ ∑ ( xi − x ) 2 = ⋅ ∑ ( xi − 2 xi x + x 2 )
n i =1
n i=1
1 n 2 1 n
1 n
⋅ ∑ xi − ⋅ ∑ 2 xi x + ⋅ ∑ x 2
n i =1
n i =1
n i =1
x2 n
1 n 2
1 n
= ⋅ ∑ xi − 2 x ⋅ ∑ xi +
⋅ ∑1
n i =1
n i =1
n i =1
=n
=x
1  n 2
= ⋅  ∑ xi  − 2 x 2 + x 2
n  i =1

=
Beispiel 3:
1  n 2
⋅  ∑ xi  − x 2
n  i =1

Um den Vorteil des Verschiebungssatzes zu illustrieren, berechnen wir die StandardAbweichung aus Beispiel 2 noch einmal unter der Verwendung dieses Satzes:
σ =
0.98 + 1.05 + 1.02 + 0.98 + 0.96
2
2
2
2
5
2
− 0.9982 ≈ 0.03 s
Aufgabe 7.1
a) Berechne die Standardabweichungen beider Klassen in Beispiel 1. Welcher
Zusammenhang besteht zwischen den Resultaten und den Notenverteilungen?
b) Ähnlich wie beim Mittelwert kann die Varianz etwas komfortabler mit Hilfe der
absoluten Häufigkeiten berechnet werden. Wie sieht diese Formel aus?
Seite 25/39
v7
Einführung in die beschreibende Statistik
Die theoretische Varianz (bzw. Standardabweichung) wird verwendet, um die Streuung der Merkmalsausprägungen einer Grundgesamtheit quantitativ zu erfassen. In Beispiel 1 haben wir jeweils
eine Klasse als Grundgesamtheit betrachtet. Kann aber nicht die Grundgesamtheit, sondern nur eine
Stichprobe untersucht werden, so wird in der Regel die so genannte empirische Varianz (bzw.
Standardabweichung) verwendet:
Für eine Stichprobe mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist die empirische
Varianz definiert durch:
s2 =
n
( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2
1
=
⋅ ∑ ( xi − x ) 2
n −1
n − 1 i =1
Die Zahl s heisst empirische Standardabweichung. Sie ist ein Schätzwert für die theoretische
Standardabweichung der entsprechenden Grundgesamtheit.
Um zu begründen, dass hierbei durch n − 1 statt durch n dividiert wird, ist eine ausgereifte
Wahrscheinlichkeitstheorie erforderlich, was den Rahmen dieses Leitprogramms sprengt. Wir
werden deshalb hier nicht näher darauf eingehen.
Aufgabe 7.2
Für genügend grosse n ist der Unterschied zwischen der empirischen und der theoretischen Standardabweichung vernachlässigbar klein. Zeige, dass für n > 50 gilt:
1 < σs < 1.01 .
Seite 26/39
v7
Einführung in die beschreibende Statistik
8 Normalverteilungen
Es scheint in der Natur zahlreicher Merkmale zu liegen, dass die Merkmalsausprägungen einer
angemessenen Stichprobe mehr oder weniger symmetrisch und glockenförmig um den Mittelwert
verteilt sind:
Dazu gehören beispielsweise die Körpergrösse und das Gewicht von Probanden, der IQ (gemessen
an standardisierten IQ-Tests), die Füllmenge von Mineralwasserflaschen, Messfehler in Labors
usw. Eine derartige Verteilung wird jeweils dort beobachtet, wo aus Erfahrung eine Art Norm
erwartet wird. Bei der Körpergrösse werden wir bestimmt nicht erwarten, einen 10 cm oder 5 m
hohen Menschen zu finden. Stattdessen erwarten wir auf Grund unserer Erfahrung, dass die meisten
Werte von Erwachsenen in einem Normbereich um 160-190 cm liegen und dass die Häufigkeit nach
aussen hin abnimmt. Derartige Verteilungen werden Normalverteilungen (oder auch Gaussverteilungen) genannt. Sie werden näherungsweise durch eine nach Carl Friedrich Gauss benannte
Gaussfunktion beschrieben, deren Graph eine glockenförmige Kurve ist:
Alter Zehn-Mark-Schein mit dem
deutschen Mathematiker, Astronomen, Physiker und Philosophen Johann
Carl Friedrich Gauss (1777-1855)
und mit der Gaussschen GlockenKurve.
Seite 27/39
v7
Einführung in die beschreibende Statistik
Eine praktische Besonderheit der Normalverteilung ist der enge Zusammenhang zwischen der
Gaussfunktion und der Standardabweichung:
Entspricht die Urliste einer Normalverteilung, so gilt näherungsweise:
68.3 % aller Werte liegen zwischen x = µ − σ und x = µ + σ
95.5 % aller Werte liegen zwischen x = µ − 2σ und x = µ + 2σ
99.7 % aller Werte liegen zwischen x = µ − 3σ und x = µ + 3σ
Dabei ist µ das arithmetische Mittel der Grundgesamtheit und σ die (theoretische) StandardAbweichung.
Bemerkung: Diese Abschätzungen gelten nur für Normalverteilungen und nur für grosse n.
Aufgabe 8.1
IQ-Tests sind so normiert, dass der Mittelwert bei 100 Punkten liegt und die
Standardabweichung 15 Punkte beträgt. Eine Person mit einem IQ von 130 oder
mehr wird hochbegabt genannt. Wie viele der rund 5 Mio. erwachsenen Schweizer
(Stand: 2015) sind hochbegabt?
Aufgabe 8.2
Würfle mit zwei Spielwürfeln 100-mal, bestimme bei jedem Wurf die Summe der
geworfenen Augenzahlen und notiere wie oft die einzelnen Augenzahlsummen bei
diesen 100 Würfen vorkommen. Bestimme anschliessend für die so erhaltenen Daten
das arithmetische Mittel und die Standardabweichung. Handelt es sich hierbei um
eine Normalverteilung?
Seite 28/39
v7
Einführung in die beschreibende Statistik
9 Quartile
Die in den vorherigen Kapiteln besprochenen Zentral- und Streuungsmasse geben nur wenig
Einblick in die Verteilung der Merkmalsausprägungen einer Urliste. Insbesondere dann, wenn diese
nicht normalverteilt sind, ist es nützlich weitere Kenngrössen zur Hand zu haben, die etwas mehr
Aufschluss über die Verteilung geben. Eine sehr einfache und schnelle Möglichkeit bietet die
Verwendung von so genannten Quartilen:
Die Quartile q1 , q2 , q3 teilen eine sortierte Urliste in vier Abschnitte, sodass in jedem Abschnitt
nahezu 25 % der Daten enthalten sind:
Das Quartil q2 ist der Median der gesamten Urliste.
Das Quartil q1 ist der Median aller Daten (ohne q2 ) im 1. und 2. Abschnitt.
Das Quartil q3 ist der Median aller Daten (ohne q2 ) im 3. und 4. Abschnitt.
Für die graphische Darstellung der Verteilung von Merkmalsausprägungen einer Urliste mit Hilfe
von Quartilen wird oft ein so genanntes Kastenschaubild (Boxplot) verwendet, das auf einfache
Weise einen guten Überblick über die Verteilung der Daten gewährt. Dabei werden der 2. und der
3. Abschnitt als Rechtecke, der 1. und der 4. Abschnitt hingegen durch Strecken dargestellt:
Min und Max bezeichnen hierbei die kleinste und die grösste Merkmalsausprägung.
Seite 29/39
v7
Einführung in die beschreibende Statistik
Beispiel 1:
In der Region Aarau/Buchs (387 m. ü. M.) wurden in den Jahren 1999 und 2014 die
folgenden Windgeschwindigkeiten in m/s gemessen [5]:
Jahr
Jan
Feb
Mrz
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Dez
1999
2.1
2.3
1.7
1.7
1.2
1.3
1.3
1.0
1.1
1.1
1.3
2.4
2014
1.2
1.4
1.1
1.3
1.7
1.5
1.3
1.2
0.9
1.0
0.9
1.4
Anhand der Tabelle erhalten wir folgende Mittelwerte und Standartabweichungen:
1999:
x ≈ 1.54 m/s und σ ≈ 0.47 m/s
2014:
x ≈ 1.24 m/s und σ ≈ 0.23 m/s
Daraus können wir aber nur schliessen, dass die Windgeschwindigkeiten 2014 im
Mittel tiefer und näher beim Mittelwert lagen als im Jahr 1999. Mit Hilfe von
Quartilen und Boxplots erhalten wir einen differenzierteren Einblick in die
Verteilung der Windgeschwindigkeiten. Dazu sortieren wir die Urlisten:
1. Abschnitt
2. Abschnitt
3. Abschnitt
4. Abschnitt
1999
1.0
1.1
1.1
1.2
1.3
1.3
1.3
1.7
1.7
2.1
2.3
2.4
2014
0.9
0.9
1.0
1.1
1.2
1.2
1.3
1.3
1.4
1.4
1.5
1.7
min
q1
q2
q3
max
Die Boxplots sehen nun wie folgt aus:
Seite 30/39
v7
Einführung in die beschreibende Statistik
Durch die Boxplots haben wir nun eine bessere Vorstellung von der Verteilung der
gemessenen Windgeschwindigkeiten. So sehen wir beispielsweise, dass die Verteilung 2014 näher an einer Normalverteilung liegt, als jene im Jahr 1999.
Im Jahr 2014 liegen z.B. je 50% der Daten in den Intervallen [0.9, 1.2] (IntervallLänge 0.3 m/s) und [1.3, 1.7] (Intervalllänge 0.4 m/s), während im Jahr 1999 je 50%
der Messwerte in den Intervallen [1.0, 1.3] (Intervalllänge 0.3 m/s) und [1.3, 2.4]
(Intervalllänge 1.1 m/s) liegen. Wir sehen auch, dass die Spannweite der Messwerte
rechts vom Median im Jahr 1999 deutlich grösser ist als jene links vom Median und
dass der Mittelwert ( x ≈ 1.54 m/s) im Jahr 1999 grösser ist als der Median
( q2 = 1.3 m/s), während der Median und der Mittelwert im Jahr 2014 fast gleich sind
( x ≈ 1.24 m/s und q2 = 1.25 ). Bei einer perfekten Normalverteilung wären der
Mittelwert und der Median gleich und der Boxplot symmetrisch bezüglich einer
Spiegelung am Median.
Aufgabe 9.1
Die folgenden Boxplots zeigen die Studiendauern (in Semestern) der Studenten einer
Universität in verschiedenen Hauptfächern:
Beantworte die folgenden Fragen anhand dieser Boxplots:
a) Welcher Anteil der Philosophie Studenten benötigt höchstens 16 Semester für das
Studium?
b) Wie viele Semester benötigt diejenige Hälfte der Mathematik Studenten, die ihr
Studium am schnellsten beenden.
c) Welcher Anteil der Mathematik Stundenten benötigt 10 bis 12 Semester für das
Studium?
Seite 31/39
v7
Einführung in die beschreibende Statistik
d) Zur Studiendauer im Studienfach Wirtschaft sind folgende Zahlen bekannt:
Dauer in Semester
8
9
10
11
12
13
14
15
16
17
Anzahl Stundenten
27
29
37
42
34
51
41
53
45
21
Erstelle anhand dieser Zahlen einen Boxplot für die Studiendauer im Studienfach
Wirtschaft.
e) Welcher Kennwert ist in Teilaufgabe d) grösser: Median oder Mittelwert?
Lässt sich dieses Resultat alleine mit Hilfe des Boxplots begründen?
Seite 32/39
v7
Einführung in die beschreibende Statistik
Anhang A:
Zusammenhänge zwischen Zentral- und Streuungsmassen
In Kapitel 7 haben wir uns darüber Gedanken gemacht, wie man ein Mass für die Streuung der
Datenwerte um den Mittelwert definieren könnte. Eine Möglichkeit wäre – so unsere Überlegung –
die Abstände | xi − x | zu mitteln, wodurch man die so genannte mittlere absolute Abweichung
erhält:
1
⋅
n
n
∑ |x −x|
i
i =1
Da das Rechnen mit Beträgen sehr aufwendig ist, haben wir stattdessen die Standardabweichung
bzw. ihr Quadrat, die Varianz σ 2 =
∑
1
n
n
i =1
( xi − x ) 2 , eingeführt. Dies ist aber nicht das einzige
Argument, das für die Wahl der Standardabweichung bzw. der Varianz als Streuungsmass in Bezug
auf den Mittelwert spricht. Tatsächlich besteht ein enger Zusammenhang zwischen dem
arithmetischen Mittel x und der Varianz σ 2 . Um diesen Zusammenhang zu verstehen, ist es
sinnvoll, die Varianz etwas allgemeiner als Funktion v( x) eines beliebigen Zentralmasses x zu
definieren (mittlere quadratische Abweichung):
n
v( x) = ⋅ ∑ ( xi − x)2
1
n
i =1
Es gilt dann:
Für das arithmetische Mittel x = x ist die Funktion v( x) minimal und entspricht der Varianz:
σ 2 = v( x ) .
Beweis:
n
n
n
n
n

1
1
1 
v( x) = ⋅ ∑ ( xi − x) 2 = ⋅ ∑ ( xi 2 − 2 xi x + x 2 ) = ⋅  ∑ xi 2 − 2 x ⋅ ∑ xi + ∑ x 2 
n
n
n
i =1
i =1
i =1
i =1
 i =1

n
n
n
n
= ⋅ ∑ xi 2 − 2 x ⋅ ⋅ ∑ xi + ⋅ ∑ x 2 = ⋅ ∑ xi 2 − 2 x ⋅ x + x 2
1
n
1
n
i =1
i =1
=x
1
n
i =1
1
n
i =1
= nx 2
Das heisst, v( x) ist eine quadratische Funktion. Das Minimum der Funktion liegt im
Scheitelpunkt des Funktionsgraphen. Diesen finden wir durch quadratisches Ergänzen:
n
n
v( x) = x 2 − 2 x ⋅ x + ⋅ ∑ xi 2 = ( x − x ) 2 − x 2 + ⋅ ∑ xi 2 = ( x − x ) 2 +
1
n
1
n
i =1
i =1
1
⋅
n
n
∑x
i =1
i
2
− x2
=σ 2 (Verschiebungssatz!)
Somit ist die Funktion v( x) = ( x − x ) 2 + σ 2 minimal für x = x und das Minimum hat
an dieser Stelle den Wert σ 2 ( S( x | σ 2 ) ist der Scheitelpunkt des Funktionsgraphen!).Ñ
Seite 33/39
v7
Einführung in die beschreibende Statistik
Nun stellt sich natürlich die Frage, für welchen x-Wert oder für welches Streuungsmass die mittlere
absolute Abweichung der Datenwerte minimal ist. Um die Frage zu beantworten, definieren wir die
mittlere absolute Abweichung ebenfalls als Funktion a ( x) eines beliebigen x-Wertes:
n
a ( x) = ⋅ ∑ | xi − x |
1
n
i =1
Wir wollen nun der Einfachheit halber den Vorfaktor
1
n
der Funktion a ( x) weglassen. Das können
wir ohne Bedenken tun, denn a ( x) ist genau dann minimal, wenn die Summe Σ in=1| xi − x | minimal
ist. Der Ausdruck Σ in=1| xi − x | ist die Summe der Abstände aller Datenwerte xi vom Argument x.
Stellen wir diese Abstände (blau und rot) in der sortierten Urliste für verschiedene x graphisch dar,
so sieht das folgendermassen aus:
für ungerade n
für gerade n
Wir wählen x zunächst so, dass der Wert entweder genau in der Mitte aller Datenwerte (für
ungerade n) oder an einer beliebigen Stelle zwischen den beiden Werten in der Mitte aller
Datenwerte (für gerade n) liegt, so wie in den oberen beiden Diagrammen dargestellt. Die Summe
der blauen Linien entspricht dann gerade der Summe Σ in=1| xi − x | . Wir können uns nun überlegen,
was passiert, wenn wir den x-Wert (in den Diagrammen grün dargestellt) verschieben. Dazu
betrachten wir die unteren beiden Diagramme: Sobald der x-Wert nicht mehr in der Mitte der
Datenwerte liegt, nimmt die Summe der Abstände zum x-Wert zu (hier jeweils um die rot
markierten Abstände). Dies gilt, wie wir uns anhand der Beispiele überlegen können, für jeden
x-Wert, der nicht in der Mitte aller Datenwerte liegt. Wir stellen also fest, dass die oberen beiden
Diagramme gerade diejenigen x-Werte zeigen, für welche die Summe und damit auch die Funktion
a ( x) minimal ist. Insbesondere6 gilt:
n
Falls x der Median ist, so ist die mittlere absolute Abweichung a ( x) = ⋅ ∑ | xi − x | minimal.
1
n
i =1
6
Bei geraden n ist a( x ) nicht nur für den Median (so wie wir ihn definiert haben), sondern ebenso für jeden beliebigen
Wert zwischen den mittleren beiden Datenwerten minimal.
Seite 34/39
v7
Einführung in die beschreibende Statistik
Anhnang B:
Statistische Auswertungen mit Microsoft Excel 2007
Microsoft Excel beinhaltet alle behandelten statistischen Kenngrössen in Form von Funktionen:
Kenngrösse
Funktion in Excel
Absolute Häufigkeit
ZÄHLENWENN
Stichprobenumfang/Anzahl Daten in einer Klasse
ANZAHL
Arithmetisches Mittel
MITTELWERT
Median
MEDIAN
Modus
MODALWERT
Empirische Varianz (Stichprobe)
VARIANZ
Empirische Standardabweichung (Stichprobe)
STABW
Theoretische Varianz (Grundgesamtheit)
VARIANZEN
Theoretische Standardabweichung (Grundgesamtheit)
STABWN
Mittlere absolute Abweichung vom Mittelwert
MITTELABW
Minimum
MIN
Maximum
MAX
Quartile
QUARTILE7
Über den Menüpunkt „Einfügen“ können zudem verschiedene Diagramme eingefügt werden. Dabei
ist allerdings zu erwähnen, dass Excel kein Statistikprogramm ist und sich deshalb hinsichtlich der
graphischen Darstellung von Daten als etwas umständlich erweist.
7
Quartile werden in Excel nicht ganz genau so definiert, wie wir das in Kapitel 9 getan haben, weshalb die Quartile in
Excel oft leicht von jenen gemäss der Definition in Kapitel 9 abweichen. Es gilt aber auch in Excel die Regel, dass die
Quartile die Urliste in 4 Abschnitte unterteilen, die je ca. 25% der Daten enthalten.
Seite 35/39
v7
Einführung in die beschreibende Statistik
Beispiel 1: Kenngrössen
Beispiel 2: Histogramm
Um ein Histogramm zu erstellen, berechen wir zuerst die absoluten Häufigkeiten der
Werte in Urliste mit dem Befehl „ZÄHLENWENN“. Dann markieren wir die Zellen,
welche die absoluten Häufigkeiten enthalten, klicken dann unter dem Menüpunkt
„Einfügen“ auf das Säulen-Symbol und wählen dort die 2D-Säule aus:
Dadurch wird das gewünschte Histogramm eingefügt. Als nächstes wählen wir (immer
noch im Menüpunkt „Einfügen“ ein passendes Layout, am besten mit Titel und
Achsenbeschriftung:
Durch Rechtsklick auf Teile des Diagramms (z.B. die Säulen) stehen diverse Optionen
zur Anpassung des Layouts zur Verfügung (z.B. Säulenfarbe oder Säulenrand).
Seite 36/39
v7
Einführung in die beschreibende Statistik
Beispiel 3: Boxplot
Das Erstellen von Boxplots (allerdings ohne Median) ist in Excel etwas umständlicher.
Das beginnt mit der Eingabe der Daten zum Zeichnen des Boxplots. Diese müssen
immer mit einem Datum versehen werden und folgende Struktur besitzen:
beliebiges Datum
1. Quartil
Max
Min
3. Quartil
Ferner ist es seltsamerweise nicht möglich nur einen Boxplot zu zeichnen. Wollen wir
trotzdem nur einen Boxplot, so zeichnen wir zweimal denselben und löschen dann
einen davon (durch Löschen der entsprechenden Zeile, sobald das Diagramm erstellt
ist). Boxplots fügen wir ein, indem wir unter dem Menüpunkt „Einfügen“ das Symbol
für „Andere Diagramme“ und dort unter „Kurs“ das passende Symbol auswählen:
Durch etwas Kosmetik (Diagrammlayout mit Titel und Achsenbeschriftung auswählen
und anpassen) erhalten wir dann die gewünschten Boxplots. Löschen wir nun die
zweite, überflüssige Zeile, so haben wir nur noch einen Boxplot.
Seite 37/39
v7
Einführung in die beschreibende Statistik
Seite 38/39
v7
Einführung in die beschreibende Statistik
Quellen- und Literaturverzeichnis
[1]
[2]
B. Eicke, Statistik – Eine Einführung, Pythagoras Lehrmittel, Glarus, 2003
I. Hilsberg, E.Warmuth., Stochastik, Volk und Wissen Verlag GmbH, Berlin, 1997
[3]
[4]
[5]
G. Malle, u.a., Mathematik verstehen, öbv Schulbuch GmbH & Co. KG, Wien, 2010
R. Keller, Unterrichtsskript: Einführung in die Statistik, 2009/2010
http://wind-data.ch/messdaten/monate.php?wmo=66330 (besucht am 28. Juli 2015)
Seite 39/39
v7
Herunterladen