Eindimensionale Häufigkeitsverteilungen

Werbung
Kapitel 1
Beschreibende Statistik
Gegeben: Eine Menge von Objekten
mit Merkmalen
(beobachtet oder gemessen)
Gesucht: Übersichtliche Beschreibung
Die gegebene Menge heißt auch Grundgesamtheit.
Beispiele für Merkmale: rot, grün, blau, . . . ,
verheiratet, ledig, . . . ,
1,54 m groß, 1,87 m groß, 1,62 m groß, . . . ,
gibt 22,1 l Milch, gibt 34,2 l Milch, . . . .
In der Datensammlung muss erkennbar sein, welche
Merkmale ein bestimmtes Objekt hat.
Achtung: Merkmale kann man im allgemeinen durch
Zahlen beschreiben: blond = 1, grün = 2, schwarz
= 3, . . . .
1
aber: Wenn die Zuordnung von Merkmalen auf Zahlen willkürlich ist, darf man daraus nichts herauslesen.
Man darf nicht sagen: fünf blonde Frauen und fünf
schwarzhaarige Frauen haben durchschnittlich
1
· (5 · 1 + 5 · 3) = 2
10
grüne Haare.
Die Rechnung erweckt bei Ahnungslosen den Anschein der Exaktheit,
ist aber vollkommener Blödsinn.
Aber genau das Beispiel mit den grünen Haaren ist
schon vorgekommen
und war ernst gemeint.
Unterscheidung von Datenniveaus:
a) Metrische Daten werden durch eine reelle
Zahl angegeben, z.B. Gewicht, Größe, Zeit, Konzentration.
2
b) Ordinale Daten lassen sich anordnen, z.B. Handelsklasse von Äpfeln, Bonitäten von Blattern
mit Schädlingsbefall.
c) Nominale Daten werden in verschiedene Kategorien eingeteilt, z.B. Augenfarbe, Geschlecht,
Haarfarbe.
Die Häufigkeit des Auftretens einer Kategorie
kann gezählt werden.
3
1.1
1.1.1
Häufigkeitsverteilungen
Eine eindimensionale Häufigkeitsverteilung
Eindimensional heißt bei Häufigkeitsverteilungen:
Es wird ein Merkmal betrachtet.
Milchleistung in dz von Milchkühen eines Hofes:
37, 34, 37, 29, 34, 33, 34, 31, 36, 34, 32, 36
Wie gewinnt man einen Überblick?
Einfache Möglichkeiten:
Strichliste
(größter und kleinster vorkommender Wert?
bei größeren Zahlen: Striche gruppieren
- der besseren Übersicht halber)
Kreuztabelle
(von Hand auf kariertem Papier leicht anzulegen:
größter und kleinster vorkommender Wert?
Wieviel Platz braucht man nach oben?)
Säulendiagramm
(im Prinzip nur Rahmen um die Kreuze der Kreuztabelle)
4
1.1.2
Klassenbildung
Manchmal wird eine Darstellung übersichtlicher durch
Klassenbildung,
zum Beispiel die Klassen 29 - 31, 32 - 34, 35 - 37.
(Eine Klassenbildung hatte man schon am Anfang
durch die Rundung auf ganze Zahlen.)
Andere Klassenbildungen können einen anderen Eindruck hervorrufen.
(Beispiel: Klassen etwas größer,
28 - 31, 32 - 35, 36 - 39.
Die untere Grenze wird um eins kleiner, die obere
Grenze um zwei größer.
Anderes Beispiel:
28 - 30, 31 - 33, 34 - 36, 37 - 39)
Vorsicht beim Lesen von Statistiken!
Sind die Klassen verschieden groß,
dann steckt manchmal eine Täuschungsabsicht dahinter!
1.1.3
Häufigkeit - relative Häufigkeit
H(27) = 0
H(28) = 0
H(29) = 1
H(30) = 0
H(31) = 1
5
H(32) = 1
H(33) = 1
H(34) = 4
H(35) = 0
H(36) = 2
H(37) = 2
H(38) = 0
H(39) = 0
Nach oben und nach unten kann man beliebig weitermachen.
Man erhält eine Funktion, die Häufigkeit, die - je
nach Aufgabenstellung - definiert ist auf N, Z, R.
Oft ist interessanter die relative Häufigkeit h(x)
für den Merkmalswert x:
h(x) =
Anzahl der Werte x
Anzahl aller betrachteten Werte
Beispiel: Dem Arzt sind in seiner Praxistätigkeit
sieben Patienten verstorben.
Er praktiziert seit 42 Jahren und hatte in dieser Zeit
immer ein volles Wartezimmer.
Beispiel: Dem Arzt sind in seiner Praxistätigkeit
sieben Patienten verstorben.
Er hat vor sechs Wochen mit seiner Praxis angefan6
gen und bisher 63 Patienten behandelt.
Bei der Milchleistung ist zum Beispiel:
h(37) =
1
2
=
12 6
h(212) =
0
=0
12
4
1
h(34) =
=
12 3
Die relative Häufigkeit gibt Anlass zu einem Diagramm:
(kleinster Wert? größter Wert?
Wieviel Platz braucht man nach oben?
Höchstens 1!
Maßstab so wählen, dass man etwas sieht!)
1.1.4
Schnelle Ermittlung von Häufigkeiten:
Summenhäufigkeitsfunktion (empirische Verteilungsfunktion)
F (x) =
Anzahl der Werte ≤ x
Anzahl aller betrachteten Werte
Wie berechnet man das?
Wenn man nur endlich viele Werte betrachtet, ganz
einfach:
7
F (x) =
X
h(t)
t≤x
Das erinnert an die Integration von Funktionen.
(h als Integrand)
Wie zeichnet man den Graphen von F ?
Es gilt:
F (x) = 0, falls x < kleinster Wert
F (x) = 1, falls x ≥ größter Wert
Wozu ist das gut?
Wenn man viele Merkmalswerte hat, ist eine Aufgabe der folgenden Art sehr rechenintensiv:
Wieviele Kühe geben zwischen 31,5 und 34,5 dz Milch?
Man muss dazu rechnen: Anzahl(32) + Anzahl(33)
+ Anzahl(34).
Dabei: Anzahl(n) := Anzahl der Kühe auf dem Hof,
die n dz Milch geben.
8
In der Regel hat man viel mehr Merkmalswerte und
auch viel mehr Summanden.
Kennt man die empirische Verteilungsfunktion F , so
rechnet man einfach:
Anzahl der Kühe insgesamt ×(F (34, 5) − F (31, 5)).
Bei der ersten Rechnung erhält man: 1 + 1 + 4 = 6.
Bei der zweiten Rechnung erhält man:
8
2
1
12 × ( − ) = 12 × = 6.
12 12
2
Beide Rechnungen ergeben: Sechs Kühe auf dem Hof
geben zwischen 31,5 und 34,5 dz Milch.
1.1.5
Ein Beispiel: Münzwurf
Ein Hobbyspieler will Profi werden. Er wirft eine
Münze sehr oft. Immer, wenn Adler fällt, beginnt er
eine neue Serie. Er stellt nach langen Aufzeichnungen über die relativen Häufigkeiten in den Serien
fest:
h(genau nullmal Zahl) = 12
h(genau einmal Zahl) = 14
h(genau zweimal Zahl) = 18
9
1
h(genau dreimal Zahl) = 16
...
1
h(genau n-mal Zahl) = 2n+1
Er will nun wissen: Mit welcher Häufigkeit kommt
es vor, dass in einer Serie mindestens zehnmal und
höchstens 50-mal Zahl fällt?
Bezeichnet man mit Z die Anzahl der Zahlen in einer
Serie, so ist gesucht
50
X
1
h(10 ≤ Z ≤ 50) =
n+1
2
n=10
Die Summe auszurechnen ist keine reine Freude.
41 Summanden!
Schreibt man
x
X
1
F (x) := h(Z ≤ x) =
,
n+1
2
n=0
so erhält man mit der geometrischen Reihe:
1 − ( 12 )x+2
1
−
1
=
1
−
F (x) =
2x+1
1 − 12
und damit
10
1
1
h(10 ≤ Z ≤ 50) = F (50) − F (9) = 10 − 51 =
2
2
1
1
·
(1
−
)
10
41
2
2
1
In um ein Minimales weniger als 1024
der Serien tritt
mindestens zehnmal und höchstens 50-mal Zahl auf.
Strategien:
Strategie 1: Einsatz ein Euro, Gewinn 1020 Euro;
Strategie 2: Einsatz ein Euro, Gewinn 1030 Euro.
Welche Strategie gewinnt? 1 oder 2 oder beide?
Liegen viele Werte vor, ist der Umgang
mit der Verteilungsfunktion oft praktischer
als der mit den relativen Häufigkeiten!
11
Herunterladen