Eindimensionale Häufigkeitsverteilungen

Kapitel 1
Beschreibende Statistik
Gegeben: Eine Menge von Objekten
mit Merkmalen
(beobachtet oder gemessen)
Gesucht: Übersichtliche Beschreibung
Die gegebene Menge heißt auch Grundgesamtheit.
Beispiele für Merkmale: rot, grün, blau, . . . ,
verheiratet, ledig, . . . ,
1,54 m groß, 1,87 m groß, 1,62 m groß, . . . ,
gibt 22,1 l Milch, gibt 34,2 l Milch, . . . .
In der Datensammlung muss erkennbar sein, welche
Merkmale ein bestimmtes Objekt hat.
Achtung: Merkmale kann man im allgemeinen durch
Zahlen beschreiben: blond = 1, grün = 2, schwarz
= 3, . . . .
1
aber: Wenn die Zuordnung von Merkmalen auf Zahlen willkürlich ist, darf man daraus nichts herauslesen.
Man darf nicht sagen: fünf blonde Frauen und fünf
schwarzhaarige Frauen haben durchschnittlich
1
· (5 · 1 + 5 · 3) = 2
10
grüne Haare.
Die Rechnung erweckt bei Ahnungslosen den Anschein der Exaktheit,
ist aber vollkommener Blödsinn.
Aber genau das Beispiel mit den grünen Haaren ist
schon vorgekommen
und war ernst gemeint.
Unterscheidung von Datenniveaus:
a) Metrische Daten werden durch eine reelle
Zahl angegeben, z.B. Gewicht, Größe, Zeit, Konzentration.
2
b) Ordinale Daten lassen sich anordnen, z.B. Handelsklasse von Äpfeln, Bonitäten von Blattern
mit Schädlingsbefall.
c) Nominale Daten werden in verschiedene Kategorien eingeteilt, z.B. Augenfarbe, Geschlecht,
Haarfarbe.
Die Häufigkeit des Auftretens einer Kategorie
kann gezählt werden.
3
1.1
1.1.1
Häufigkeitsverteilungen
Eine eindimensionale Häufigkeitsverteilung
Eindimensional heißt bei Häufigkeitsverteilungen:
Es wird ein Merkmal betrachtet.
Milchleistung in dz von Milchkühen eines Hofes:
37, 34, 37, 29, 34, 33, 34, 31, 36, 34, 32, 36
Wie gewinnt man einen Überblick?
Einfache Möglichkeiten:
Strichliste
(größter und kleinster vorkommender Wert?
bei größeren Zahlen: Striche gruppieren
- der besseren Übersicht halber)
Kreuztabelle
(von Hand auf kariertem Papier leicht anzulegen:
größter und kleinster vorkommender Wert?
Wieviel Platz braucht man nach oben?)
Säulendiagramm
(im Prinzip nur Rahmen um die Kreuze der Kreuztabelle)
4
1.1.2
Klassenbildung
Manchmal wird eine Darstellung übersichtlicher durch
Klassenbildung,
zum Beispiel die Klassen 29 - 31, 32 - 34, 35 - 37.
(Eine Klassenbildung hatte man schon am Anfang
durch die Rundung auf ganze Zahlen.)
Andere Klassenbildungen können einen anderen Eindruck hervorrufen.
(Beispiel: Klassen etwas größer,
28 - 31, 32 - 35, 36 - 39.
Die untere Grenze wird um eins kleiner, die obere
Grenze um zwei größer.
Anderes Beispiel:
28 - 30, 31 - 33, 34 - 36, 37 - 39)
Vorsicht beim Lesen von Statistiken!
Sind die Klassen verschieden groß,
dann steckt manchmal eine Täuschungsabsicht dahinter!
1.1.3
Häufigkeit - relative Häufigkeit
H(27) = 0
H(28) = 0
H(29) = 1
H(30) = 0
H(31) = 1
5
H(32) = 1
H(33) = 1
H(34) = 4
H(35) = 0
H(36) = 2
H(37) = 2
H(38) = 0
H(39) = 0
Nach oben und nach unten kann man beliebig weitermachen.
Man erhält eine Funktion, die Häufigkeit, die - je
nach Aufgabenstellung - definiert ist auf N, Z, R.
Oft ist interessanter die relative Häufigkeit h(x)
für den Merkmalswert x:
h(x) =
Anzahl der Werte x
Anzahl aller betrachteten Werte
Beispiel: Dem Arzt sind in seiner Praxistätigkeit
sieben Patienten verstorben.
Er praktiziert seit 42 Jahren und hatte in dieser Zeit
immer ein volles Wartezimmer.
Beispiel: Dem Arzt sind in seiner Praxistätigkeit
sieben Patienten verstorben.
Er hat vor sechs Wochen mit seiner Praxis angefan6
gen und bisher 63 Patienten behandelt.
Bei der Milchleistung ist zum Beispiel:
h(37) =
1
2
=
12 6
h(212) =
0
=0
12
4
1
h(34) =
=
12 3
Die relative Häufigkeit gibt Anlass zu einem Diagramm:
(kleinster Wert? größter Wert?
Wieviel Platz braucht man nach oben?
Höchstens 1!
Maßstab so wählen, dass man etwas sieht!)
1.1.4
Schnelle Ermittlung von Häufigkeiten:
Summenhäufigkeitsfunktion (empirische Verteilungsfunktion)
F (x) =
Anzahl der Werte ≤ x
Anzahl aller betrachteten Werte
Wie berechnet man das?
Wenn man nur endlich viele Werte betrachtet, ganz
einfach:
7
F (x) =
X
h(t)
t≤x
Das erinnert an die Integration von Funktionen.
(h als Integrand)
Wie zeichnet man den Graphen von F ?
Es gilt:
F (x) = 0, falls x < kleinster Wert
F (x) = 1, falls x ≥ größter Wert
Wozu ist das gut?
Wenn man viele Merkmalswerte hat, ist eine Aufgabe der folgenden Art sehr rechenintensiv:
Wieviele Kühe geben zwischen 31,5 und 34,5 dz Milch?
Man muss dazu rechnen: Anzahl(32) + Anzahl(33)
+ Anzahl(34).
Dabei: Anzahl(n) := Anzahl der Kühe auf dem Hof,
die n dz Milch geben.
8
In der Regel hat man viel mehr Merkmalswerte und
auch viel mehr Summanden.
Kennt man die empirische Verteilungsfunktion F , so
rechnet man einfach:
Anzahl der Kühe insgesamt ×(F (34, 5) − F (31, 5)).
Bei der ersten Rechnung erhält man: 1 + 1 + 4 = 6.
Bei der zweiten Rechnung erhält man:
8
2
1
12 × ( − ) = 12 × = 6.
12 12
2
Beide Rechnungen ergeben: Sechs Kühe auf dem Hof
geben zwischen 31,5 und 34,5 dz Milch.
1.1.5
Ein Beispiel: Münzwurf
Ein Hobbyspieler will Profi werden. Er wirft eine
Münze sehr oft. Immer, wenn Adler fällt, beginnt er
eine neue Serie. Er stellt nach langen Aufzeichnungen über die relativen Häufigkeiten in den Serien
fest:
h(genau nullmal Zahl) = 12
h(genau einmal Zahl) = 14
h(genau zweimal Zahl) = 18
9
1
h(genau dreimal Zahl) = 16
...
1
h(genau n-mal Zahl) = 2n+1
Er will nun wissen: Mit welcher Häufigkeit kommt
es vor, dass in einer Serie mindestens zehnmal und
höchstens 50-mal Zahl fällt?
Bezeichnet man mit Z die Anzahl der Zahlen in einer
Serie, so ist gesucht
50
X
1
h(10 ≤ Z ≤ 50) =
n+1
2
n=10
Die Summe auszurechnen ist keine reine Freude.
41 Summanden!
Schreibt man
x
X
1
F (x) := h(Z ≤ x) =
,
n+1
2
n=0
so erhält man mit der geometrischen Reihe:
1 − ( 12 )x+2
1
−
1
=
1
−
F (x) =
2x+1
1 − 12
und damit
10
1
1
h(10 ≤ Z ≤ 50) = F (50) − F (9) = 10 − 51 =
2
2
1
1
·
(1
−
)
10
41
2
2
1
In um ein Minimales weniger als 1024
der Serien tritt
mindestens zehnmal und höchstens 50-mal Zahl auf.
Strategien:
Strategie 1: Einsatz ein Euro, Gewinn 1020 Euro;
Strategie 2: Einsatz ein Euro, Gewinn 1030 Euro.
Welche Strategie gewinnt? 1 oder 2 oder beide?
Liegen viele Werte vor, ist der Umgang
mit der Verteilungsfunktion oft praktischer
als der mit den relativen Häufigkeiten!
11