Beschreibende Statistik

Werbung
Beschreibende
Statistik
Eine Zusammenfassung
und Beispiele
Uni Klagenfurt/Buch:
Mathematik verstehen 6
Mag. Carmen Kogler
Beschreibende Statistik
Die beschreibende Statistik beschäftigt sich mit der Erhebung, Auswertung und Darstellung von Daten.
In einer statistischen Erhebung wird aus einer bestimmten Grundgesamtheit eine Stichprobe hinsichtlich bestimmter
Variablen(Merkmale) untersucht. Jede Variable kann bestimmte Variablenwerte(Merkmalausprägungen) annehmen.
Beispielweise kann die Variable „Augenfarbe“ die Variablenwerte „blau“, „braun“, „grün“… annehmen.
Man unterscheidet drei Typen von Variablen:
Nominale oder qualitative Variablen: Diese dienen nur zur Unterscheidung von Variablenwerten. Es sind
Merkmalausprägungen, die keine Rechnungen und keine Rangordnung zulassen (Augenfarbe, Geschlecht,
Religionszugehörigkeit, Familienstand,…).
Ordinale Variablen: Diese legen eine Rangordnung der Variablenwerte fest. Man kann mit ihnen zwar nicht rechnen,
aber man kann sie zumindest ordnen(Schulnoten, Güteklassen bei Lebensmitteln, Rangplatz in einer Fußballliga,…).
Metrische Variablen: Diese werden grundsätzlich durch Zahlen dargestellt, wobei es Abstände zwischen den
Variablenwerten gibt. Man kann die Abstände sinnvoll interpretieren und mit ihnen rechnen (Körpergröße,
Einkommen, Kinderzahl,…).
Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:
a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt
b) Die relative Häufigkeit: Sie erhält man, indem man die absolute Häufigkeit durch die Gesamtzahl dividiert.
Beispiel: Die Augenfarbe von 12 Personen (=Gesamtzahl aller Daten) einer Autofirma wird erhoben:
Urliste: blau, grün, blau, braun, grau, blau, blau, grün, braun, blau, blau, grün
Darstellung der absoluten und relativen Häufigkeiten in einer Tabelle:
Augenfarbe
blau
Absolute Häufigkeit: Hi
6
grün
3
grau
1
braun
2
Relative Häufigkeit: hi
6
= 0,5 = 50%
12
3
= 0,25 = 25%
12
1
≈ 0,08 = 8
%
12
2
≈ 0,17 = 17%
12
Darstellung der Häufigkeiten in drei verschiedenen Abbildungen:
7
6
5
4
3
2
1
0
17%
8%
50%
50%
25%
8% 17%
25%
0%
blau
grün
grau
Stabdiagramm
50%
braun
Kreisdiagramm
Prozentstreifen
100%
Beschreibung der einzelnen Diagrammtypen:
a) Das Stabdiagramm
Beim Stabdiagramm werden die Werte als Längen von Stäben dargestellt. Für die Erstellung eines
Stabdiagramms verwendet man meist die absoluten Häufigkeiten. Ein Vergleich zwischen den Werten ist sehr
gut und schnell möglich.
+
•
•
Vergleich von Größen ist möglich
Sehr übersichtlich
•
Nicht für alle Daten verwendbar
b) Das Kreisdiagramm
Anhand eines Kreisdiagramms lassen sich die Gesamtaufteilung und der Anteil der einzelnen Werte an der
Gesamtheit erkennen. Ein Vergleich zwischen den einzelnen Werten ist schwieriger als beim Stabdiagramm
Die darzustellenden Werte sind als relative Häufigkeiten anzugeben.
(Kreis: 390°=100%)
+
•
Anteile können verglichen werden
•
•
•
Es ist schwer händisch zu erstellen
Anteile sind schwerer zu vergleichen als beim
Stabdiagramm
Nicht für alle Daten verwendbar.
c) Das Streifendiagramm (=Prozentstreifen)
Der Prozentstreifen ist dem Kreisdiagramm sehr ähnlich, allerdings leichter händisch zu zeichnen.
Insbesondere können beim Streifendiagramm auch eher Größenvergleiche zwischen zwei Werten angegeben
werden. Für die Darstellung benötigt man, wie beim Kreisdiagramm, die relativen Häufigkeiten.
+
•
•
•
Die Anteile sind gut vergleichbar
Ein Vergleich ist leichter möglich als beim
Kreisdiagramm
Es ist leicht zu erstellen (händisch)
•
Nicht für alle Daten verwendbar
d) Das Liniendiagramm (=Zeitreihe)
Beim Liniendiagramm werden die zusammengehörigen Werte als Wertepaare aufgefasst und als Punkte in
einem Koordinatensystem eingetragen. Diese Punkte werden dann durch Strecken miteinander verbunden.
An Liniendiagrammen kann man sehr gut erkennen, wie sich ein bestimmter Wert im Verlauf einer gewissen
Zeit verändert (=Zeitreihe). Beispiele dazu sind die Darstellung der Bevölkerungsentwicklung , die Darstellung
der Lebenserwartung im Laufe der Zeit oder die Darstellung für eine Preisentwicklung für ein bestimmtes
Produkt. Beim Liniendiagramm muss man allerdings beachten, dass die gezeichneten Verbindungslinien sich
nicht in jedem Punkt sinnvoll interpretieren lassen.
+
•
Zeitreihenentwicklung
•
•
Nicht für alle Daten verwendbar
Verbindungslinien nicht immer
interpretierbar
Beispiel für ein Liniendiagramm:
Beispiel:
Bei einer Wahl wählen 35% die Partei A, 30% die Partei B, 15% die Partei C, 5% die Partei D, der Rest wählt
ungültig. Die Gesamtzahl der abgegebenen Stimmen beträgt 250000.
a) Gib die absoluten Häufigkeiten der Stimmen an.
Absolute Häufigkeit der Stimmen
Partei A
35% von 250000 =
250000= 87500
250000= 75000
15% von 250000 = 250000= 37500
5% von 250000 = 250000= 12500
15% von 250000 =
250000= 37500
Partei B
30% von 250000 =
Partei C
Partei D
ungültig
b) Fertige ein Kreisdiagramm an:
Relative Häufigkeit der Stimmen
Partei A
= 0,35 = 35%
=
=
=
=
Partei B
Partei C
Partei D
ungültig
0,3 = 30%
0,15 = 15%
0,05 = 5%
0,15 = 15%
Partei A
15%
5%
35%
Partei B
Partei C
15%
Partei D
30%
ungültig
Das Stängel-Blatt-Diagramm
Mit Hilfe eines Stängel-Blatt-Diagramms kann man Daten einer Urliste übersichtlich darstellen. Dabei zerlegt man die
Daten in einen „Stamm“ und in „Blätter“. Als Stamm wählt man, wie im nächsten Beispiel, die Zehnerziffer und als
Blätter die Einerziffer (durch Beistriche getrennt und der Größe nach geordnet)
Beispiel: 25 Schülerinnen und Schüler werden gefragt, wie viele Minuten sie durchschnittlich pro Tag online sind.
Urliste: 12, 45, 21, 13, 24, 39, 10, 7, 56, 42, 37, 75, 19, 23, 38, 26, 22, 20, 39, 16, 39, 39, 18, 61, 30
Stängel-Blatt-Diagramm:
Stamm (Zehnerziffer)
Blätter (Einerziffer)
0
7
1
0,2,3,6,8,9
2
0,1,2,3,4,6
3
0,7,8,9,9,9,9
4
2,5
5
6
6
1
7
5
Man kann die Daten in Intervallen, den so genannten Klassen, die auch unterschiedlich breit sein können,
zusammenfassen:
Zeit (in Minuten)
[0;20[
[20;40[
[40;80[
Absolute Häufigkeit
7
13
5
Bei der Darstellung durch ein Histogramm muss man auf die unterschiedlich breiten Klassen achten.
Die Rechtecke sollen nämlich einen korrekten Eindruck von den absoluten Häufigkeiten liefern:
Beachte: Man ermittelt die Höhe der Rechtecke nach der Formel: Rechteckshöhe =
Histogramm:
!"#!
$%&'!
Statistik und Manipulation:
Bei der graphischen Veranschaulichung statistischer Daten besteht immer die Gefahr, dass der Betrachter in
irgendeiner Weise manipuliert wird. Man muss deshalb solche Grafiken stets sehr kritisch beurteilen.
In den meisten Fällen, vor allem bei Zeitreihen, gibt es keine objektiv „richtigen“ graphischen Darstellungen. Fast jede
Darstellung ist in gewisser Weise subjektiv und manipulativ, und darüber hinaus werden die bewusst und unbewusst
erzielten Effekte auch subjektiv unterschiedlich wahrgenommen. Vielmehr sollte man sich die Frage stellen, ob die
gewählte Darstellung für den intendierten Eindruck brauchbar, angemessen und zweckmäßig ist, oder ob dafür eine
andere Darstellung (oder auch mehrere) besser wäre.
a) Unterschiedliche Skalierungen haben einen Einfluss auf das Aussehen der Darstellung:
Manipulation von Liniendiagrammen:
Die Achseneinheiten sind bei den Graphiken
unterschiedlich gewählt worden.
In der Graphik der Opposition wurde der
Ordinatenursprung verschoben (auf 700000). Der
Zuwachs erscheint somit größer.
In der Graphik der Stadtregierung liegt der
Ordinatenursprung bei 0 und die Skalierungsschritte
sind größer gewählt. Dadurch erscheint der Zuwachs
geringer.
Eine Veränderung der Skalierung der y-Achse
täuscht eine enorme Wachstumszunahme der
Größe der Rekruten vor.
Es entsteht durch die Graphik der Eindruck, dass
sich die Größe der Rekruten in den letzten 100
Jahren verdreifacht hat.
b) Unterbrechung der Stäbe:
Durch die Unterbrechung der Stäbe, der Anordnung der Stäbe und dem Einsatz von Farbe entsteht der
Eindruck, dass Kärnten knapp hinter Tirol und Salzburg liegt und damit sehr hohe Übernachtungszahlen
gegenüber den restlichen Bundesländern hat.
c) Manipulation von Kreisdiagrammen:
Der optische Eindruck von Kreisdiagrammen kann durch die räumliche Darstellung („Torten“) oder der
Perspektive verändert werden.
Auch die Trennung der Kreissektoren (oder eines einzelnen Kreissektors von den anderen), die Anordnung der
Kreisteile oder farbliche Hervorhebungen können den Leser der Graphik täuschen.
3D-Darstellungen
(perspektivische
Darstellungen) verzerren
die realen Werte.
Dies wird noch verstärkt
durch die Auswahl
verschiedener Farben
und durch die Anordnung
der Länder.
Zentralmaße und Quartile
Modus:
Der Modus einer Datenliste ist der am häufigsten vorkommende Wert der untersuchten Variablen.
Dieser Wert ist nicht immer eindeutig bestimmt, da es mehrere häufigste Werte geben kann (d.h. es kann auch zwei
Modi geben)
Median(Zentralwert):
Ordnet man eine Liste von Zahlen der Größe nach, so heißt bei einer ungeraden Anzahl von Zahlen die in der Mitte
stehende Zahl der Median der Liste, bei einer geraden Anzahl von Zahlen bezeichnet man das arithmetische Mittel der
beiden in der Mitte stehenden Zahlen als den Median der Liste.
112234456
1123355567
3+5
2
Median
4
Median
Arithmetisches Mittel (Mittelwert, Durchschnitt):
Unter dem arithmetischen Mittel einer Zahlenliste x1, x2, …… xn versteht man die reelle Zahl:
)* = ) + ) + ⋯ + ),
-
Beispiel: Die durchschnittlichen Temperaturen werden an jedem Augusttag gemessen. Sie sind in der folgenden
Urliste zusammengefasst:
24, 20, 22, 23, 25, 26, 25, 23, 27, 27, 27, 30, 29, 30, 30, 31, 28, 27, 27, 25, 26, 25, 24, 22, 21, 22, 23, 22, 21, 20, 21
Liste ordnen:
20, 20, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 24, 24, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 27, 28, 29, 30, 30, 30, 31
Median
Modus: 27 ( = der am häufigsten auftretende Wert der Liste)
Arithmetisches Mittel:
./ 0
.1 0⋯0
.2
=
,
00000000000030300000404000000050000
≈
=
)* = Wenn in einer Liste mit den Zahlen x1, x2, …… xn der Wert ai (i=1, 2, 3,…k ≤ -)
mit der absoluten Häufigkeit Hi
beziehungsweise mit der relativen Häufigkeit hi auftritt, dann gilt:
)* = , :><? ;< =<
bzw.
)* = :><? ℎ< =<
24,94
Für das obige Beispiel bedeutet das:
Darstellung der absoluten und relativen Häufigkeiten in einer Tabelle:
Temperaturen: ai
20
Absolute Häufigkeit: Hi
2
21
3
22
4
23
3
24
2
25
4
26
2
27
5
28
1
29
1
30
3
31
1
Relative Häufigkeit: hi
2
≈ 0,06
31
3
≈ 0,097
31
4
≈ 0,129
31
3
≈ 0,097
31
2
≈ 0,06
31
4
≈ 0,129
31
2
≈ 0,06
31
5
≈ 0,161
31
1
≈ 0,032
31
1
≈ 0,032
31
3
≈ 0,097
31
1
≈ 0,032
31
C
B = :HF?C EF GF =
A
D
=
(2 20 + 3 21 + 4 22 + 3 23 + 2 24 + 4 25 + 2 26 + 5 27 + 1 28 + 1 29 + 3 30 + 1 31) = 24,94
beziehungsweise
B = :HF?C JF GF =
A
= 0,06 20 + 0,097 21 + 0,129 22 + 0,097 23 + 0,06 24 + 0,129 25 + 0,06 26 + 0,161 27 + 0,032 28 + 0,032 29 + 0,097 30 + 0,032 31
= 24,94
Berechnung des arithmetischen Mittels bei unterschiedlichen Klassenbreiten:
Häufigkeitsverteilung für Unternehmen und ihre Beschäftigungszahlen:
Beschäftigte
0 bis unter 5000
5000 bis unter 10000
10000 bis unter 20000
20000 bis unter 35000
35000 bis unter 45000
45000 bis unter 50000
)* =
2500+57500+815000+527500+037500+247500
Hi
5
5
8
5
0
2
Klassenbreite : Kb
(in 1000 Beschäftigte)
5
5
10
15
10
5
Höhe =
K<
LM
(in 1000)
1
1
0,8
0,33
0
0,4
= 16100 (Die Zahlen 2500, 7500, 15000, 27500, 37500 und 47500 sind jeweils der Durchschnittswert
der jeweiligen Klassen)
Interpretation des arithmetischen Mittels: Würde jedes Unternehmen die gleiche Anzahl an Mitarbeitern führen,
wäre dies 16100.
Ausreißer:
Betrachtet man die folgende Liste von Daten: 1, 1, 1, 2, 3, 3, 4, 4, 1000, so sieht man, dass die Liste „extreme“
Einzelwerte (=Ausreißer) enthalten kann. (Hier ist es die Zahl 1000)
Wie wirkt sich ein Ausreißer auf die verschiedenen Zentralmaße der Liste aus?
Liste
Arithmetisches Mittel
Modus
00030
1, 1, 1, 2, 3, 3, 4, 4, 1000 )* =
1
=113,22
1, 1, 1, 2, 3, 3, 4, 4
)* =
5
0003
=2,375
5
Median
3
1
2,5
Man sieht:
Das arithmetische Mittel, das aus allen Einzelwerten der Liste berechnet wird, reagiert „empfindlich“ auf Ausreißer.
Modus und Median ändern sich durch Ausreißer dagegen wenig oder auch gar nicht, denn ihr Wert hängt nicht davon
ab, wie groß die „Extremwerte“ im einzelnen sind.
Um Datenmanipulationen zu vermeiden, dürfen „Ausreißer“ nicht ohne Weiteres aus Datenlisten ausgeschlossen
werden. Vielmehr ist zu klären, welche Ursachen die Ausreißer haben könnten.
Argumentieren anhand von Zentralmaßen
Beispiel: In der Klasse 6a wurde eine „Notenstatistik“ für die 1. und 2. Schularbeit im Fach Deutsch angefertigt. Die
Tabelle gibt die jeweilige Anzahl der einzelnen Noten an. Welche der beiden Schularbeiten ist „besser“ ausgefallen?
Argumentiere anhand verschiedener Zentralmaße!
1. Schularbeit
2. Schularbeit
1
4
2
2
5
10
Modus
3
2
Median
3
2,5
Note
3
7
6
4
1
3
5
2
3
Lösung:
1. Schularbeit
2. Schularbeit
Mittelwert
≈ 2,58
≈ 2,79
Aufgrund der verwendeten Zentralmaße kann man hinsichtlich der Frage, welche Schularbeit besser ausgefallen ist, zu
einander entgegengesetzten Antworten kommen. Die persönliche Interessenlage entscheidet letztlich, welche
Antwort man bevorzugt.
Beispiel: Für jede der folgenden Variablen wurde eine Datenliste erhoben. Ist die Berechnung des arithmetischen
Mittels stets sinnvoll? Wenn nicht, welches Zentralmaß wäre sinnvoller?
Arithmetisches Mittel sinnvoll
Anderes Zentralmaß sinnvoll
1)
Temperatur
ja
2)
Lebensalter
ja
3)
Haarfarbe
Modus, da Nominaldaten vorliegen
4)
Alter
ja
5)
Familieneinkommen
ja
6)
Einwohnerzahl
ja
7)
Güteklasse eines Lebensmittels
Median, da Ordinaldaten vorliegen
8)
Rangplatz in der Fußballliga
Median, da Ordinaldaten vorliegen
9)
Zeitdauer
ja
10) Familienstand
Modus, da Nominaldaten vorliegen
11) Kinderzahl
Arithm. Mittel (Kommazahlen sinnlos),
Median, bei hohen Datenzahlen: Modus
12) Gewicht
ja
Quartile:
In einer geordneten Liste liegen vor dem Median gleich viele Zahlen wie nach dem Median. Man bezeichnet den
Median mit q2.
1, 2, 2, 3, 4, 5, 5, 6, 6, 7, 8, 8, 8, 9, 10
Median (q2)
Bildet man für die Zahlen vor q2 wiederum den Median q1 und für die Zahlen nach q2 den Median q3, so erhält man
drei Zahlen q1, q2 und q3, die man als Quartile der geordneten Liste bezeichnet.
1, 2, 2,
3, 4, 5, 5, 6, 6, 7, 8, 8, 8, 9, 10
Median (q2)
q1
q3
Durch die Quartile wird die geordnete Liste in vier gleich große Abschnitte zerlegt.
Es gilt:
Vor q1 liegen ca. 25% aller Daten der geordneten Liste
Vor q2 liegen ca. 50% aller Daten der geordneten Liste
Vor q3 liegen ca. 75% aller Daten der geordneten Liste
Quartilabstand (=Interequartilspannweite): Die Differenz q3 – q1 wird Quartilabstand genannt. Zwischen q1 und q3
liegen ungefähr 50% der Daten der geordneten Liste.
Spannweite: Die Differenz zwischen dem größten Wert (max) und dem kleinsten Wert (min) einer geordneten Liste
heißt Spannweite.
Fünfzahlenzusammenfassung:
Die fünf markanten Werte min, q1, q2, q3 und max einer geordneten Liste können wie folgt, zusammengefasst
werden. Zusätzlich wird noch der Quartilabstand (=Interquartilspannweite) und die Spannweite angegeben.
q2
q1
q3 Quartilabstand
min
max Spannweite
Die graphische Darstellung dieser Werte kann in einem Kastenschaubild (Box-Plot) erfolgen:
Der Bereich von q1 bis q3, in dem sich etwa 50% der Werte befinden, wird als Rechteck wiedergegeben. In diesem
Bereich wird auch der Median q2 eingetragen. Die übrigen Bereiche werden als Strecken gekennzeichnet, sofern die
Werte relativ dicht liegen. Einzelne Punkte werden als Ausreißer gekennzeichnet. Welche Werte als Ausreißer gelten
legt der Anwender aufgrund seiner Kenntnis des untersuchten Sachzusammenhangs fest.
Betrachten wir noch einmal das folgende Beispiel:
25 Schülerinnen und Schüler werden gefragt, wie viele Minuten sie durchschnittlich pro Tag online sind.
Urliste: 12, 45, 21, 13, 24, 39, 10, 7, 56, 42, 37, 75, 19, 23, 38, 26, 22, 20, 39, 16, 39, 39, 18, 61, 30
Stängel-Blatt-Diagramm: Gib die Fünfzahlenzusammenfassung an und zeichne dazu ein Kastenschaubild:
Stamm (Zehnerziffer)
0
1
Blätter (Einerziffer)
7
0,2,3,6,8 | 9
2
0,1,2,3,4,6
3
0,7,8,9,9,9 | 9
4
5
6
7
2,5
6
1
5
Fünfzahlenzusammenfassung:
q1=
05
= 18,5
505
= 39
q2 = 26
q3=
Kastenschaubild: Box – Plot
26
18,5
7
39
75
20,5
68
Beispiele zu Kastenschaubildern (Box – Plots):
1)Die beiden Kastenschaubilder stellen die Studiendauern der Kunst- und Wirtschaftsstudierenden eines Landes dar.
a)
b)
c)
d)
e)
Vervollständige die folgenden Sätze:
_50__% der Kunststudierenden benötigen für ihr Studium 14 bis 17 Semester.
75% aller Wirtschaftsstudierenden benötigen für ihr Studium länger als __10__ Semester.
Im Mittel studieren Kunststudierende um ____4___ Semester länger als Wirtschaftsstudierende.
Studiendauern über __14__ Semester sind bei Wirtschaftsstudierenden extreme Einzelfälle.
Nur _25__% aller Kunststudierenden beenden ihr Studium in höchstens 14 Semestern.
2) Grundwehrdienst
Beim Stellungstermin wurden unter anderem die Körpergrößen von 120 Rekruten festgehalten.
Diese sind hier zusammengefasst in Form eines Diagramms dargestellt:
Aufgabenstellung:
Setzen Sie in den folgenden Aussagen die richtigen Zahlen ein:
Aus dem Diagramm kann man entnehmen, dass
ca. 50% der Rekruten kleiner als …177.. cm sind.
ca. 75% der Rekruten größer als …168.. cm sind.
die Rekruten höchstens ..194.. cm groß sind.
jeder Rekrut mindestens …153… cm groß ist.
von den 120 Rekruten ca. …30… Rekruten mindestens 181 cm groß sind.
von den 120 Rekruten ca. …90… Rekruten größer als 168 cm sind.
ca. …60… Rekruten zwischen 168 cm und 181 cm groß sind.
3) In 33 Wirtschaftsbereichen werden von 66 Beschäftigten die Bruttogehälter (in €) erhoben, wovon jeweils 33
von den Männern und 33 von den Frauen sind. Wie allgemein bekannt, klaffen die Gehälter von Männern und
Frauen auseinander. In der nachfolgenden Abbildung ist die Verteilung der Gehälter getrennt nach Frauen und
Männern in zwei Kastenschaubildern dargestellt.
Bruttoeinkommen von 33 Frauen und 33 Männern (in €)
Interpretiere und vergleiche:
Frauengehälter
Das höchste Gehalt liegt bei ca. 2700€.
Das niedrigste Gehalt liegt bei ca. 650€.
Drei Gehälter sind Ausreißer.
Die meisten Mitarbeiterinnen verdienen zwischen 950€
und 1700€.
50% der Frauen verdienen höchstens 1300€ und 50% der
Frauen verdienen mindestens 1300€.
50% der Frauen verdienen zwischen 1150€ und 1450€.
Die Gehälter der Frauen, die die mittleren 50% darstellen,
sind symmetrisch verteilt. Jedoch ist im „dichten“ Bereich
eine Asymmetrie nach oben vorhanden.
Männergehälter
Das höchste Gehalt liegt bei ca. 3200€.
Das niedrigste Gehalt liegt bei ca.700€.
Sieben Gehälter sind sogenannte Ausreißer.
Die meisten Mitarbeiter verdienen zwischen 1550€ und
2300€.
50% der Männer verdienen höchstens 1800€ und 50%
der Männer verdienen mindestens 1800€.
50% der Männer verdienen zwischen 1650€ und 2200€.
Im „dichten“ Bereich ist eine leichte Asymmetrie nach
oben vorhanden.
Vergleich:
Der Median liegt bei den Männern bei ca. 1800€ und bei den Frauen bei ca. 1300€. Dies bedeutet, dass nur eine
Mitarbeiterin (Gehalt: 2700€) mit ihrem Gehalt in jenen Bereich fällt, in welchem 50% der Männer liegen.
Von dieser einen Mitarbeiterin ausgenommen, verdient keine Frau so viel wie 50% der Männer.
Die Ausreißer nach oben sind ebenfalls bei den Männern höher.
4) Beispiel: Die durchschnittlichen Temperaturen werden an jedem Augusttag gemessen. Sie sind in der
folgenden Urliste zusammengefasst:
24, 20, 22, 23, 25, 26, 25, 23, 27, 27, 27, 30, 29, 30, 30, 31, 28, 27, 27, 25, 26, 25, 24, 22, 21, 22, 23, 22, 21, 20, 21
Erstelle ein Kastenschaubild.
20, 20, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 24, 24, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 27, 28, 29, 30, 30, 30, 31
q1
Kastenschaubild (Box-Plot)
q2
q3
5)
Urliste aus der Grafik:
1, 1, 1, 2, 2|2, 2, 2, 3, 3
q1=2
q2 =
| 3, 3, 3, 3, 4 | 4, 4, 4, 5, 5
0
=3
Damit kommt nur das zweite Kastenschaubild in der zweiten Reihe in Frage.
(Das Rechteck reicht von 2 bis 4 und der Median q2 liegt bei 3.)
q3=4
6)
Im folgenden Kastenschaubild wird die Verteilung der Netto-Jahreseinkommen der 15 Mitarbeiterinnen eines
Unternehmens veranschaulicht.
a)Formuliere anhand des Kastenschaubilds mindestens drei konkrete Aussagen über die Verteilung der NettoJahreseinkommen der 15 Mitarbeiterinnen.
Das höchste Netto-Jahreseinkommen liegt bei ca. 22000€.
Das niedrigste Netto-Jahreseinkommen liegt bei ca. 4000€. (Ausreißer)
Die meisten Mitarbeiterinnen verdienen zwischen 10000€ und 22000€
50% verdienen höchstens 15000€ und 50% verdienen mindestens 15000€.
50% verdienen zwischen 13000€ und 19000€.
75% verdienen mindestens 13000€.
25% verdienen mindestens 19000€.
b)Das arithmetische Mittel der 15 Netto-Jahreseinkommen beträgt 15200€. Wie hoch ist das arithmetische Mittel,
wenn man den Ausreißer nicht mitrechnet.
)* =
N3
3
= 16000O
Beispiel: Nenne einen Grund, der bei der Angabe von Durchschnittsgehältern (z. B. in einem Betrieb/Unternehmen)
Für die Verwendung des Medians und gegen die Verwendung des arithmetischen Mittels spricht!
Hohe Managergehälter würden das arithmetische Mittel verfälschen. Das arithmetische Mittel ist sehr
ausreißerempfindlich.
Streuungsmaße
Die folgenden Abbildungen zeigen zwei Häufigkeitsverteilungen mit gleichem Mittelwert )* .
Während sich in der linken Abbildung die Daten relativ eng um das arithmetische Mittel gruppieren, weichen sie in der
rechten Abbildung dem Anschein nach durchschnittlich stärker vom arithmetischen Mittel ab.
Man sagt: Die Streuung der Daten um den Mittelwert ist in der rechten Abbildung größer als in der linken Abbildung.
Streuungsmaße:
Mittelwert der Abweichungsquadrate:
(./ N.* )1 0(.1 N.* )1 0⋯PP0(.2 N.* )1 ,
= s² (=Empirische Varianz der Liste)
Dieser Ausdruck ist als Streuungsmaß geeignet, denn jeder Variablenwert trägt umso mehr zur Streuung bei, je
mehr er sich vom Mittelwert )* unterscheidet.
Er hat aber einen Nachteil: Seine Maßeinheit ist das Quadrat der Maßeinheit der untersuchten Variablen. Das
heißt, er misst die Streuung einer Längenvariablen, die in Meter vorliegt, in Quadratmeter. Das ist oft
unerwünscht, deshalb zieht man aus dem ganzen Ausdruck noch die Wurzel und erhält:
Q
(./ N.* )1 0(.1 N.* )1 0⋯PP0(.2 N.* )1 ,
= s (=Empirische Standardabweichung der Liste)
Beispiel: Berechne den Mittelwert und die empirische Standardabweichung der Liste: 3, 1, 2, 5, 4
)* =
00003
=
=3
s=Q
(N)1 0(N)1 0(N)1 0(N)1 0(3N)1 ≈ 1,41
Empirische Standardabweichungen können zum Vergleich von Verteilungen herangezogen werden. Dabei kann nur
entschieden werden, ob eine Verteilung stärker streut als eine andere. Was der konkrete Wert von s für jede einzelne
Verteilung angibt, lässt sich nur ungenau beschreiben. Bei vielen Verteilungen liegt der „Großteil“ der Daten im
Intervall [)* – s, )* + s].
Vereinfachung: Verschiebungssatz für die empirische Varianz
Für die empirische Varianz s² einer Liste x1, x2, ….., xn mit dem Mittelwert )* gilt:
s² =
AC R0
AS R0⋯0AD R
D
B²
A
Somit kann die Standardabweichung für das obige Beispiel auch so berechnet werden:
s² =
TR0CR0SR0UR0VR
–
U
3² = 2 W s = XS ≈ 1,41
Beachte: Sind a1, a2,…,ak die möglichen Werte einer Variablen und treten diese mit den absoluten Häufigkeiten
H1, H2, ….,Hk auf, so gilt:
s=Q
K/ (Y/ N.* )1 0K1 (Y1 N.* )1 0⋯PP0K2 (Y2 N.* )1 ,
,
wobei n = H1 + H2 + …. +Hk
Beispiel: Berechne die empirische Standardabweichung der Liste: 2, 3, 3, 4, 4, 4, 5, 5, 6
ai
2
3
4
5
6
C
B = :HF?C EF GF =
A
D
s=Q
Hi
1
2
3
2
1
003004
=
5
4
K/ (Y/ N.* )1 0K1 (Y1 N.* )1 0⋯PP0K2 (Y2 N.* )1 =
,
S 0S(TNV)S 0T(VNV)S 0S(UNV)S 0C(ZNV)R
Q(SNV)
5
≈ 1,15
Beispiel: Die folgende Tabelle zeigt die Zahl der beim Arbeitsmarkt vorgemerkten Arbeitslosen von 2000 bis 2011:
Jahr
Arbeitslose (in 1000)
2000
194,3
212,3 222,2 239,2 246,7 250,8 252,7 260,3
2001
203,9
2002
232,4
q2
2003
240,1
2004
243,9
q1
q3
2005
252,7
SCS,T0SSS,S0ST\,S0SVZ,]0SU^,_0SUS,]0SZ^,T
2006
239,2
B=
A
= 240,6
]
2007
222,2
2008
212,3
2009
260,3
2010
250,8
2011
246,7
Berechne für die Arbeitslosen für die Jahre 2005-2011 die folgenden Streuungsmaße:
a) Spannweite, b) Interquartilspannweite, c) empirische Varianz, d) empirische Standardabweichung
(48000 Arbeitslose)
a)
Spannweite = xmax – xmin = 260,3 – 212,3 = 48
b)
Interquartilspannweite: q3 – q1 = 252,7 – 222,2 = 30,5 (30500 Arbeitslose)
c)
Empirische Varianz:
s² =
s² =
d)
./ R0
.1 R0⋯0.2 R
- )* ²
,
,R0,R05,R034,R0,R0,R04,R
–
240,6² ≈ 259,59
(259600 Arbeitslose)
Empirische Standardabweichung:
s = [258,59 ≈ 16,112
(16110 Arbeitslose)
Interpretiere die einzelnen Streuungsmaße:
a) Der Unterschied zwischen dem Jahr mit der höchsten und dem Jahr mit der niedrigsten Arbeitslosenanzahl
beträgt 48000 Arbeitslose
b) Die mittleren 50% der Arbeitslosen reichen von 222200 bis 252700 Arbeitslosen, dies bedeutet eine
Spannweite von 30500 Arbeitslosen.
c) s² ist kaum interpretierbar, da die Einheit die Arbeitslosenanzahl² ist.
d) Die mittlere quadratische Abweichung vom Mittelwert beträgt 16110 Arbeitslose.
Beispiel: Bei der Berechnung des arithmetischen Mittels zweier vorgegebener Listen erhält man jeweils den Wert
5. Die Standardabweichung der ersten Liste beträgt 1, die der zweiten Liste 2. Sind folgende Aussagen zutreffend?
Begründe!
a) Beide Listen haben auch den gleichen Median.
Falsch, da aus dem gleichen arithmetischen Mittel nicht folgt, dass die beiden Listen den gleichen Median
haben müssen. (Arithmetisches Mittel und Median sind zwei voneinander unabhängige Werte)
b) Der Modus beider Listen ist ebenso 5.
Falsch, da aus dem gleichen arithmetischen Mittel nicht folgt, dass die beiden Listen den gleichen Modus
haben müssen. (Arithmetisches Mittel und Modus sind zwei voneinander unabhängige Werte)
c) Die Spannweite der zweiten Liste ist größer als die der ersten Liste.
Richtig, denn bei gleichem arithmetischen Mittel bedeutet eine größere Standardabweichung eine größere
Streuung.
d) In der zweiten Liste müssen doppelt so viele Elemente wie in der ersten Liste sein.
Falsch, da Streuungsmaße nichts über die Anzahl der Daten aussagen.
e) Bei einer „gleichmäßigen“ Verteilung der Summe der beobachteten Werte auf die Grundgesamtheit würde
dies bei beiden Listen 5 bedeuten.
Richtig, da das arithmetische Mittel in beiden Listen 5 ist. Und das arithmetische Mittel = Verteilung der
Summe der beobachteten Werte auf die Grundgesamtheit.
f) 50% der Daten liegen unter 5 und 50% der Daten liegen über 5.
Falsch, denn diese Aussage gilt nur für den Median und nicht für das arithmetische Mittel.
Überblick: Welche Aussagen können aus einem Kastenschaubild gefolgert werden:
•
•
•
•
•
•
•
Der Wert des Medians ist ablesbar und zu interpretieren
Die Werte der Quartile können abgelesen und interpretiert werden.
Man kann die Interquartilspannweite bestimmen und interpretieren.
Eine Aussage ist darüber zu treffen, in welchem Bereich die Daten dicht liegen.
Es können die Ausreißer genannt werden.
Man kann das Minimum und das Maximum angeben.
Es ist leicht zu erkennen, ob die Verteilung nahezu symmetrisch ist.
Herunterladen