2 Beschreibende Statistik Erfasse die Schwankungen, den Einfluß des Zufalls. Erster Schritt in diese Richtung: Beschreibende Statistik. Es geht darum, empirische Daten durch Tabellen und Graphiken darzustellen, durch grundlegende Kenngrößen quantitativ zu beschreiben. 2.1 Grundbegriffe Bei einer Datenerhebung werden an ausgewählten Versuchseinheiten mehrere Merkmale festgestellt. Die beobachteten Werte heißen Merkmalsausprägungen. Versuchseinheit Merkmal Merkmalsausprägung Tiere einer Population Gewicht g∈R Geschlecht m/w Cholesterinkonz. c∈R Rang in Hierarchie n∈N Bäume eines Waldes Schädlingsbefall keiner, gering, mittel, stark Höhe, Gewicht h, g ∈ R transgene Arabidopsis Wurzellänge l∈R 2.2 Stichproben und Grundgesamtheit Grundgesamtheit heißt die Menge der Merkmalsträger, über die eine Aussage getroffen werden soll, z.B. Tiere einer Herde, Menschen einer Region oder Stadt. Sie muß bei jeder Datenerhebung genau definiert werden. Eine gesamte Untersuchung ist in der Regel nicht möglich, man wertet repräsentative Teilauswahlen oder Stichproben aus. Eine Möglichkeit, eine repräsentative Teilauswahl zu bekommen, ist die Zufallsstichprobe, in die jedes Element der Grundgesamtheit mit der gleichen Wahrscheinlichkeit aufgenommen wird. 2.3 2.3.1 Darstellungsmethoden für empirische Daten Urliste Genaue, detaillierte Liste, in die jedes Element der Stichprobe eingetragen wird, z.B. durchnumeriert, mit jeweiligen Merkmalsausprägungen. 2.3.2 Häufigkeiten der Merkmalsausprägungen Absolute Häufigkeiten: Merkmalsausprägung i kommt ni -mal vor, bzw. mit Häufigkeit ni . Stichprobengröße X ni (11) n= i Relative Häufigkeiten: Häufigkeit von Merkmalsausprägung i relativ zur Stichprobengröße ni ni hi = P = (12) n j nj 4 2.3.3 Graphische Darstellungen Stab- oder Balkendiagramm, Kuchendiagramm. Beispiel: Erststimmen der Bundestagswahl 2005 im Wahlkreis Bonn, 6 Kandidaten. Höhe der Balken und Winkelanteil im Kuchen entsprechen dem relativen Anteil an gültigen Stimmen. 0.45 Schubert Kandzia 0.4 Westerwelle 0.35 Malborn 0.3 Kelber 0.25 0.2 0.15 0.1 Eisel 0.05 0 1 2 3 4 5 6 Kelber Eisel Westerwelle Kandzia Schubert Malborn Aufteilung ist unmittelbar einsichtig, es gibt 6 Klassen, auf die sich die Daten verteilen. Diese vorgegebene Aufteilung muß nicht immer sinnvoll sein. Betrachte die Verteilung der Stimmen, die der gewählte Kandidat U. Kelber in den 230 Stimmbezirken jeweils erhalten hat. 5 4 3 2 1 0 100 200 300 400 500 600 700 200 300 400 500 600 700 0.025 0.02 0.015 0.01 0.005 0 100 Wie ist das obere Diagramm zu lesen? Auf der waagrechten Achse stehen die Anzahl der Stimmen j, auf der Senkrechen die Anzahl der Bezirke nj , in denen U.K. genau j Stimmen erhalten hat. Das Untere Diagramm? Genauso, nur daß auf der senkrechten Achse hj = nj /n aufgetragen ist, der relative Anteil an Stimmbezirken, in denen genau j Stimmen erzielt wurden. Unpraktisch, weil 5 es aus lauter dünnen Nadeln besteht, den genau j Stimmen treten sehr selten auf. Besser wäre, Stimmbezirke mit ähnlicher Stimmenzahl in eine Gruppe zusammenzufügen. Histogramm und Klasseneinteilung. Betrachte hier den relativen Stimmenanteil von U.K. in den Bezirken, Werte zwischen 0.29 und 0.62. Dieser Bereich wird in 10 (obere Graphik) bzw. 100 (untere Graphik) gleich große Intervalle der Breite g eingeteilt. Bei 10 Intervallen g ≈ 0.03, bei 100 g ≈ 0.003. Dann wird gezählt, in wievielen ni Stimmbezirken Kelbers Anteil in jedem Intervall i liegt. 6 4 2 0 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 10 8 6 4 2 0 0.25 Zeichne nun die Balken in jedem Intervall mit einer Länge li = g n Pi j nj = hi g (13) Die Balkenlänge li entspricht der Häufigkeitsdichte. Sie hat die Eigenschaft X g li = 1 (überprüfe!) (14) i Die Gesamtfläche der Balken ist damit gleich 1. Das wird wichtig bei der empirischen Bestimmung von Wahrscheinlichkeitsdichten (kriejen wir später). Bisher nur noch ein Schönheitsfehler. Jeder der n = 230 Stimmbezirke wird im oberen Diagramm gleich stark mitgezählt, mit relativem Gewicht 1/n = 1/230. Mit der richtigen Gewichtung, jeder Stimmbezirk proportional zur Zahl der gültigen Stimmen, ergibt sich ein leicht geändertes Bild 6 8 6 4 2 0 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 15 10 5 0 0.25 Siehe z.B. höherer Anteil an Bezirken mit ∼ 35%, geringerer an solchen mit ∼ 50%. Wichtig bei der Darstellung: Geeignete Klasseneinteilung. Zu fein: Stark schwankende Balkenhöhen, “Nadeln”, zu grob: Aussagekraft, Feinstruktur der Verteilung kann verloren gehen. Histogramm von zirkulären Daten (Kreisstatistik). Manche Daten liegen nicht als ganze oder reelle Zahlen vor, sondern als Winkel im Kreis. Wichtig: 359◦ liegt nicht ganz weit weg von 0◦ , sondern gleich daneben, genauso weit weg wie 1◦ . Beispiel: M. Müller und R. Wehner haben die Orientierungsfähigkeit von Wüstenameisen (Cataglyphis fortis) untersucht (Proc. Natl. Acad. Sci. 85, 5287–5290 (1988)). Sie merken sich bei (teils über 100m langen) Wegen auf Futtersuche die Nestposition, Richtung und Entfernung, und finden meist zentioder dezimetergenau zurück. Sie machen jedoch auch systematische Fehler, z.B. wenn sie in einem Kanal gezwungen werden, um eine Ecke zu laufen. Nach 15m Lauf im Kanal, 10m vor, 5m nach der Biegung, nahmen Müller & Wehner die Richtungen auf, in denen die Ameisen liefen. Es zeigt sich eine Abweichung von der korrekten (0◦ ) Heimrichtung. 7 90 1 60 120 0.8 0.6 150 30 0.4 0.2 180 0 330 210 240 300 270 Neben dem Streudiagramm, zeigt auch ein zirkuläres Histogramm die Verteilung der Beobachtungsergebnisse, 90 10 120 6 60 8 30 6 30 150 4 4 2 180 2 0 210 0 330 240 300 270 links den gesamten Kreis von 0 bis 360◦ , rechts den interessanten Ausschnitt. 2.4 Quantifizierung empirischer Verteilungen Ziel ist, wesentliche Charakteristika von Meßreihen durch wenige charakteristische Größen zu beschreiben. Dazu gehört • die Lage der Meßwerte, z.B. Mittelwert • ihre Streuung, z.B. Varianz • Gestalt ihrer Verteilung, z.B. Symmetrie oder Schiefe 2.4.1 Arithmetisches Mittel Zu einer Datenreihe x1 , . . . , xn heißt die Zahl n 1 X x1 + . . . + x n x̄ = xi = n i=1 n 8 (15) arithmetisches Mittel. Alle Beobachtungen fließen mit dem gleichen Gewicht 1/n ein. x̄ minimiert die Summe der quadratischen Abstände zu den Meßergebnissen. D.h. die Summe n X S= (xi − y)2 (16) i=1 wird für y = x̄ minimal. Überprüfen: Es muß die Ableitung von S nach y für y = x̄ gleich Null sein. ! 0= X ∂S X = 2(xi − y) = 2 xi − 2ny ∂y i i (17) was offensichtlich gerade für y = x̄ erfüllt ist. Verbindung zwischen arithmetischem Mittel und Häufigkeitsdichte. Angenommen, wir haben die Meßwerte x1 , . . . , xn in k Intervalle mit Mittelpunkten a1 , . . . , ak der Breite g eingeteilt, um eine Häufigkeitsdichte zu bestimmen. Das j-te Intervall reicht also von aj − g/2 bis aj + g/2, es fallen nj Meßwerte hinein, relative Häufigkeit hj und Balkenhöhe lj (s.o.). Dann ist k k k X X 1X aj nj = aj h j = aj glj n j=1 j=1 j=1 (18) eine Näherung an x̄, die umso besser wird, je feiner die Intervalle gewählt sind, also je kleiner g ist. 7 6 5 4 3 2 1 0 −1 −3 −2 −1 0 1 2 3 Siehe Graphik mit zufällig ausgewürfelten Wetten (rote Sterne) und Klassenintervallen [n/2, (n + 1)/2). Bei der approximativen Berechnung des Mittelwerts nach Gl. (18) wird für jeden Meßpunkt nicht der tatsächliche Wert xi sondern der Mittelpunkt der zugehörigen Klasse aj genommen. nicht der 9 Verhalten unter linearen Transformationen. Beispiel: Körpertermperaturen von Patienten in ◦ C und ◦ F gemessen. Seien x1 , . . . , xn die Celsius- und y1 , . . . , yn die Fahrenheit-Werte. Beziehung für alle i 9 yi = xi + 32 5 (19) (20) Daher ist 1X 1X ȳ = yi = n i n i 9 xi + 32 5 = 91X 9 xi + 32 = x̄ + 32 5n i 5 Das gilt natürlich auch für beliebige lineare Transformationen, a statt 9/5 und b statt 32. Fazit: Das arithmetische Mittel der linear transformierten Werte ist gleich der linearen Transformation des arithmetischen Mittels. 2.4.2 Median Der “mittlere Meßpunkt” einer Stichprobe, mit der Eigenschaft, daß genausoviele Punkte unterhalb wie oberhalb liegen. Genauer: Bei n Meßwerten, wenn n ungerade, d.h. n = 2k + 1, ist xmed = xk+1 (21) und, wenn n gerade, d.h. n = 2k, ist xmed = (xk + xk+1 )/2. (22) Der Median ist robust unter Veränderung der Minimal- und Maximalwerte einer Datenreihe, d.h. robust gegen sogenannte Ausreißer. Beispiel: Berechne den Median bei Wurfgrößen von Kaninchen, (3, 3, 4, 6). Nimm an, statt 6 habe der größte Wurf 9 Junge gehabt. Der Median bleibt gleich, der Mittelwert steigt an. Minimaleigenschaften: xmed minimiert die Summe der absoluten Abstände zu den Punkten einer Meßreihe, d.h. die Summe S= n X i=1 |xi − y| (23) wird für y = xmed minimal. Überprüfen: Es muß die Ableitung von S nach y für y = xmed gleich Null sein. ! 0= ∂S X = sign(xi − y) ∂y i (24) wobei die Vorzeichenfunktion signz = 1 für z > 0, = −1 für z < 0, und = 0 für z = 0. Gleichung (24) ist gerade dann erfüllt, wenn gleich viele xi größer und kleiner als y sind, was die Bedingung für den Median ist. Evtl.: Monotone Transformationen. 10 2.4.3 Streuung Im allgemeinen liegen die Meßwerte nicht genau auf dem Mittelwert oder Median, sondern streuen um das Lagemaß. Wie kann man die Streuung charakterisieren? 2.4.4 Empirische Varianz und Standardabweichung Ein Maß für die Streuung sind die quadratischen Abstände zum Mittelwert, (x1 − x̄)2 , . . . , (xn − x̄)2 . Sie sind immer positiv und umso größer, je weiter die Daten streuen. Sie setzen sich zusammen zur empirischen Varianz n 1 X (xi − x̄)2 s = n − 1 i=1 2 (25) Achtung: Hier wird durch n − 1, nicht durch n geteilt, was einen zu kleinen Wert geben würde. Grund dafür ist, daß die Meßergebnisse auch in die Bestimmung von x̄ eingegangen sind, bei ausreißenden Meßwerten unser x̄ auch zu nah an diesen liegt, wir also tendenziell die Varianz unterschätzen würden. Genaueres später. Folgende Formel hilft bei der Berechnung der Varianz n 1 X 2 n s = x̄2 xi − n − 1 i=1 n−1 2 (26) Beweis durch Nachrechnen mit binomischer Formel (n − 1)s 2 = n X (xi − x̄) = = n X x2i i=1 i=1 2 n X i=1 x2i − 2x̄ xi + x̄2 2 − 2x̄nx̄ + nx̄ = n X i=1 x2i − nx̄2 (27) s2 hat eine andere Dimension als die Meßwerte, nämlich deren Quadrat. Daher betrachtet man die Standardabweichung √ s = s2 (28) 2.4.5 Mittlere absolute Abweichung Arithmetisches Mittel minimiert die Summe der quadratischen Abstände, Median die Summe der Abstandsbeträge zu den Meßwerten. Erstere definiert die Varianz, zweitere ebenfalls ein Streumaß, die mittlere absolute Abweichung (mean absolute deviation, MAD) n 1 X |xi − xmed | m= n i=1 (29) Ist die MAD robust gegen Ausreißer? Nein. Überlege! Ein robustes Streumaß ist der auch manchmal verwendete Median der Abweichungen med(|x1 − xmed |, . . . , |xn − xmed |) 11 (30) 2.4.6 Quantile Zu einer Zahl p ∈ (0, 1) ist als p–Quantil der Wert a definiert mit folgender Eigenschaft: Einen zufälligen Wert der Meßreihe ist mit Wahrscheinlichkeit p kleiner als a. Zu einer gegebenen Meßreihe der Länge n definieren wir das empirische p–Quantil wie folgt. Wenn np nicht ganzzahlig x̃p = x[np]+1 , (31) und Wenn np ganzzahlig x̃p = xnp + xnp+1 . 2 (32) Quantile sind also eine Verallgemeinerung des Medians, man sieht sofort, daß xmed = x̃1/2 . In Darstellungen sind vor allem die 1/4– und 3/4–Quantile wichtig, die auch unteres und oberes Quartil heißen. Figur: Empirische Häufigkeitsdichte der Stimmen von U. Kelber in den 230 Bonner Stimmbezirken, mit Mittelwert, Median, Intervall der Standardabweichung um den Mittelwert, sowie 1/4−3/4– und 1/6−5/6–Interquantilintervallen. 10 MittelwertMedian 8 6 4 2 0 −2 0.25 2.4.7 Standardabweichung 1/4−3/4−Interquantil 1/6−5/6−Interquantil 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 Box-Plots Graphische Darstellung von Median, 1/4–Interquantil, 3/4–Interquantil, maximalem und minimalem Extremwert, wobei die drei mittleren Werte in Kastenform gezeichnet werden. Sie gibt eine gute, schnell faßliche Übersicht über das Streuverhalten von Daten. Figur: Boxplot mit Kelbers Stimmen in den Bezirken. Vergleiche mit Interquantilintervallen in der vorhergehenden Abbildung. 12 0.6 0.55 Values 0.5 0.45 0.4 0.35 0.3 1 Column Number 2.4.8 Symmetrie empirischer Verteilungen Eingipflige und zwei- oder mehrgipflige Verteilungen, unimodal und bimodal. Beispiel: Größen von Lachsen in Britisch Kolumbien, spontane Aufteilung der Population in große und kleine (A.P. Hendry & al., Science 290, 516 (2000)). 0.02 0.018 0.016 0.014 0.012 0.01 0.008 0.006 0.004 0.002 0 360 380 400 420 440 460 480 Körperlänge der Weibchen [mm] 500 520 Symmetrische und schiefe Verteilungen. Beispiel für schiefe: Flugweite von Schmetterlingen auf der Suche nach Wirtspflanzen für Eiablage. Wie weit kommen sie innerhalb von einer Stunde. Ausreißer nach oben sind sehr wahrscheinlich, wenn starker Wind die Tiere wegträgt. Bei einer schiefen sind Median und Mittelwert verschieden. 13 −3 3.5 x 10 Mittwelwert: 435 m 3 Median: 187 m 2.5 2 1.5 1 0.5 0 0 1000 2000 3000 Flugweite [m] 4000 Definition der Schiefe oder Skewness. P P 3 3 i (xi − x̄) i (xi − x̄) γ= P = s3 ( i (xi − x̄)2 )3/2 14 5000 (33)