Kapitel 1 Beschreibende Statistik Gegeben: Eine Menge von Objekten mit Merkmalen (beobachtet oder gemessen) Gesucht: Übersichtliche Beschreibung Die gegebene Menge heißt auch Grundgesamtheit. Beispiele für Merkmale: rot, grün, blau, . . . , verheiratet, ledig, . . . , 1,54 m groß, 1,87 m groß, 1,62 m groß, . . . , gibt 22,1 l Milch, gibt 34,2 l Milch, . . . . In der Datensammlung muss erkennbar sein, welche Merkmale ein bestimmtes Objekt hat. Achtung: Merkmale kann man im allgemeinen durch Zahlen beschreiben: blond = 1, grün = 2, schwarz = 3, . . . . 1 aber: Wenn die Zuordnung von Merkmalen auf Zahlen willkürlich ist, darf man daraus nichts herauslesen. Man darf nicht sagen: fünf blonde Frauen und fünf schwarzhaarige Frauen haben durchschnittlich 1 · (5 · 1 + 5 · 3) = 2 10 grüne Haare. Die Rechnung erweckt bei Ahnungslosen den Anschein der Exaktheit, ist aber vollkommener Blödsinn. Aber genau das Beispiel mit den grünen Haaren ist schon vorgekommen und war ernst gemeint. Unterscheidung von Datenniveaus: a) Metrische Daten werden durch eine reelle Zahl angegeben, z.B. Gewicht, Größe, Zeit, Konzentration. 2 b) Ordinale Daten lassen sich anordnen, z.B. Handelsklasse von Äpfeln, Bonitäten von Blattern mit Schädlingsbefall. c) Nominale Daten werden in verschiedene Kategorien eingeteilt, z.B. Augenfarbe, Geschlecht, Haarfarbe. Die Häufigkeit des Auftretens einer Kategorie kann gezählt werden. 3 1.1 1.1.1 Häufigkeitsverteilungen Eine eindimensionale Häufigkeitsverteilung Eindimensional heißt bei Häufigkeitsverteilungen: Es wird ein Merkmal betrachtet. Milchleistung in dz von Milchkühen eines Hofes: 37, 34, 37, 29, 34, 33, 34, 31, 36, 34, 32, 36 Wie gewinnt man einen Überblick? Einfache Möglichkeiten: Strichliste (größter und kleinster vorkommender Wert? bei größeren Zahlen: Striche gruppieren - der besseren Übersicht halber) Kreuztabelle (von Hand auf kariertem Papier leicht anzulegen: größter und kleinster vorkommender Wert? Wieviel Platz braucht man nach oben?) Säulendiagramm (im Prinzip nur Rahmen um die Kreuze der Kreuztabelle) 4 1.1.2 Klassenbildung Manchmal wird eine Darstellung übersichtlicher durch Klassenbildung, zum Beispiel die Klassen 29 - 31, 32 - 34, 35 - 37. (Eine Klassenbildung hatte man schon am Anfang durch die Rundung auf ganze Zahlen.) Andere Klassenbildungen können einen anderen Eindruck hervorrufen. (Beispiel: Klassen etwas größer, 28 - 31, 32 - 35, 36 - 39. Die untere Grenze wird um eins kleiner, die obere Grenze um zwei größer. Anderes Beispiel: 28 - 30, 31 - 33, 34 - 36, 37 - 39) Vorsicht beim Lesen von Statistiken! Sind die Klassen verschieden groß, dann steckt manchmal eine Täuschungsabsicht dahinter! 1.1.3 Häufigkeit - relative Häufigkeit H(27) = 0 H(28) = 0 H(29) = 1 H(30) = 0 H(31) = 1 5 H(32) = 1 H(33) = 1 H(34) = 4 H(35) = 0 H(36) = 2 H(37) = 2 H(38) = 0 H(39) = 0 Nach oben und nach unten kann man beliebig weitermachen. Man erhält eine Funktion, die Häufigkeit, die - je nach Aufgabenstellung - definiert ist auf N, Z, R. Oft ist interessanter die relative Häufigkeit h(x) für den Merkmalswert x: h(x) = Anzahl der Werte x Anzahl aller betrachteten Werte Beispiel: Dem Arzt sind in seiner Praxistätigkeit sieben Patienten verstorben. Er praktiziert seit 42 Jahren und hatte in dieser Zeit immer ein volles Wartezimmer. Beispiel: Dem Arzt sind in seiner Praxistätigkeit sieben Patienten verstorben. Er hat vor sechs Wochen mit seiner Praxis angefan6 gen und bisher 63 Patienten behandelt. Bei der Milchleistung ist zum Beispiel: h(37) = 1 2 = 12 6 h(212) = 0 =0 12 4 1 h(34) = = 12 3 Die relative Häufigkeit gibt Anlass zu einem Diagramm: (kleinster Wert? größter Wert? Wieviel Platz braucht man nach oben? Höchstens 1! Maßstab so wählen, dass man etwas sieht!) 1.1.4 Schnelle Ermittlung von Häufigkeiten: Summenhäufigkeitsfunktion (empirische Verteilungsfunktion) F (x) = Anzahl der Werte ≤ x Anzahl aller betrachteten Werte Wie berechnet man das? Wenn man nur endlich viele Werte betrachtet, ganz einfach: 7 F (x) = X h(t) t≤x Das erinnert an die Integration von Funktionen. (h als Integrand) Wie zeichnet man den Graphen von F ? Es gilt: F (x) = 0, falls x < kleinster Wert F (x) = 1, falls x ≥ größter Wert Wozu ist das gut? Wenn man viele Merkmalswerte hat, ist eine Aufgabe der folgenden Art sehr rechenintensiv: Wieviele Kühe geben zwischen 31,5 und 34,5 dz Milch? Man muss dazu rechnen: Anzahl(32) + Anzahl(33) + Anzahl(34). Dabei: Anzahl(n) := Anzahl der Kühe auf dem Hof, die n dz Milch geben. 8 In der Regel hat man viel mehr Merkmalswerte und auch viel mehr Summanden. Kennt man die empirische Verteilungsfunktion F , so rechnet man einfach: Anzahl der Kühe insgesamt ×(F (34, 5) − F (31, 5)). Bei der ersten Rechnung erhält man: 1 + 1 + 4 = 6. Bei der zweiten Rechnung erhält man: 8 2 1 12 × ( − ) = 12 × = 6. 12 12 2 Beide Rechnungen ergeben: Sechs Kühe auf dem Hof geben zwischen 31,5 und 34,5 dz Milch. 1.1.5 Ein Beispiel: Münzwurf Ein Hobbyspieler will Profi werden. Er wirft eine Münze sehr oft. Immer, wenn Adler fällt, beginnt er eine neue Serie. Er stellt nach langen Aufzeichnungen über die relativen Häufigkeiten in den Serien fest: h(genau nullmal Zahl) = 12 h(genau einmal Zahl) = 14 h(genau zweimal Zahl) = 18 9 1 h(genau dreimal Zahl) = 16 ... 1 h(genau n-mal Zahl) = 2n+1 Er will nun wissen: Mit welcher Häufigkeit kommt es vor, dass in einer Serie mindestens zehnmal und höchstens 50-mal Zahl fällt? Bezeichnet man mit Z die Anzahl der Zahlen in einer Serie, so ist gesucht 50 X 1 h(10 ≤ Z ≤ 50) = n+1 2 n=10 Die Summe auszurechnen ist keine reine Freude. 41 Summanden! Schreibt man x X 1 F (x) := h(Z ≤ x) = , n+1 2 n=0 so erhält man mit der geometrischen Reihe: 1 − ( 12 )x+2 1 − 1 = 1 − F (x) = 2x+1 1 − 12 und damit 10 1 1 h(10 ≤ Z ≤ 50) = F (50) − F (9) = 10 − 51 = 2 2 1 1 · (1 − ) 10 41 2 2 1 In um ein Minimales weniger als 1024 der Serien tritt mindestens zehnmal und höchstens 50-mal Zahl auf. Strategien: Strategie 1: Einsatz ein Euro, Gewinn 1020 Euro; Strategie 2: Einsatz ein Euro, Gewinn 1030 Euro. Welche Strategie gewinnt? 1 oder 2 oder beide? Liegen viele Werte vor, ist der Umgang mit der Verteilungsfunktion oft praktischer als der mit den relativen Häufigkeiten! 11