Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden in der Statistik beobachtete Daten betrachtet. Diese erhält man z. B. als Realisierungen von Zufallsvariablen (z. B. beobachtete Augenzahlen bei 10 mal Würfeln) oder durch Ziehen einer Stichprobe aus einer Grundgesamtheit (z. B. Meinungsumfrage). Zur Notation Während Zufallsvariablen meist mit Groÿbuchstaben (typischerweise X, Y , Z) benannt werden, werden für ihre Realisierungen Kleinbuchstaben benutzt. statistik.pdf, Seite 1 Teilgebiete der Statistik Es wird unterschieden zwischen I Beschreibende (deskriptive) Statistik: übersichtliche Darstellung, Ermittlung von Kenngröÿen wie Mittelwert, Varianz I Explorative Statistik: Suche nach Strukturen und Zusammenhängen mit Hilfe von Stichproben I Induktive (schlieÿende) Statistik: Ziehen von allgemeineren Schlussfolgerungen aus einer Stichprobe mit Mitteln der Wahrscheinlichkeitsrechnung statistik.pdf, Seite 2 Eine Stichprobe besteht aus Realisierungen von Zufallsvariablen bzw. wird aus einer Grundgesamtheit (die mathematisch eine Menge darstellt, von der die Stichprobe eine Teilmenge ist) gezogen. Dabei werden bestimmte Der Umfang der Merkmale Stichprobe (oder Variablen) erfasst. ist die Zahl ihrer Elemente, d. h. die Zahl der in der Stichprobe erfassten Einheiten aus der Grundgesamtheit. Man spricht von einer Zufallsstichprobe, wenn sie als Teilmenge der Grundgesamtheit zufällig ausgewählt wird. Beispiel Grundgesamtheit: Stichprobe: Merkmale: Alle Studierenden der h_da Teilnehmer einer Umfrage Studienfach, Alter, Schuhgröÿe, Körpergewicht, ... statistik.pdf, Seite 3 Ausprägungen sind die Werte, die ein Merkmal annehmen kann. Beispiel I Das Merkmal Geschlecht hat die Ausprägungen männlich und weiblich. I Das Merkmal Lebensalter hat die Ausprägungen 0, 1, 2, 3, 4, ... Diskret und stetig I Ein diskretes Merkmal hat nur endlich oder abzählbar viele Ausprägungen. Beispiel: Geschlecht, Alter in Jahren I Ein stetiges Merkmal ⊂ R liegen. hat Ausprägungen, die in einem Intervall Beispiel: Körpergewicht (bei beliebig hoher Messgenauigkeit) statistik.pdf, Seite 4 Skalenniveaus Ein Merkmal heiÿt I nominalskaliert, wenn es für seine Ausprägungen keine natürliche Reihenfolge gibt. In der Regel sind die Ausprägungen keine Zahlenwerte. Beispiel: Geschlecht, Lieblingsfarbe, Partei, Lottozahlen I ordinalskaliert, wenn es für die Ausprägungen eine natürliche Ordnung gibt. Beispiel: Dienstgrad, HotelSterne I intervallskaliert, wenn die Ausprägungen Zahlen sind und die Dierenz zweier Ausprägungen als Abstand interpretiert werden kann. Beispiel: Zeitpunkt, Temperatur I verhältnisskaliert, wenn es zusätzlich einen absoluten Nullpunkt gibt. Beispiel: Gewicht, Kontostand statistik.pdf, Seite 5 Bemerkungen I Nominal- und ordinalskalierrte Merkmale werden auch als qualitative Merkmale bezeichnet, während intervall- und verhältnisskalierte Merkmale als bezeichnet werden. Im erstenen Fall liegt eine eine metrische Skala quantitative Kardinalskala, Merkmale im zweiten Fall vor. I Die vorgestellten Begrie sind nicht immer klar voneinander abgegrenzt. statistik.pdf, Seite 6 Stichproben Man unterscheidet zwischen der Erhebung von univariaten multivariaten Daten, wo nur ein Merkmal betrachtet wird, und Daten, wo mehrere Merkmale gleichzeitig betrachtet werden. Bei einer univariaten Stichprobe vom Umfang eine Urliste x1 , ..., xn n erhält man der beobachteten Werte. Häugkeiten Bei diskreten Merkmalen kann man zählen, wie oft eine bestimmte Ausprägung vorkommt. absolute Häugkeit hi einer xk aus der Urliste mit xk = ai , Die Ausprägung die relative Häugkeit ist gegeben durch fi ai ist die Zahl der = n1 hi . statistik.pdf, Seite 7 Beispiel Bei einer Umfrage zur Lieblingsfarbe erhält man die Antworten x1 = x6 = rot, x2 = grün, x3 = grün, x4 = gelb, x5 = rot, x7 = blau, x8 = gelb, welche die Urliste bilden. grün, Es treten die Ausprägungen a1 = rot, a4 = blau auf mit den absoluten h1 = h3 = 2, h2 = 3 und h4 = 1. und a2 = grün, a3 = gelb Häugkeiten Die relativen Häugkeiten sind f1 = f3 = 2 8 = 25%, f2 = 3 8 = 37, 5% und f4 = 1 8 = 12, 5%. statistik.pdf, Seite 8 Bemerkungen I Die Reihenfolge der Daten spielt für die Häugkeiten keine Rolle. Daher empehlt es sich, die Urliste zunächst zu ordnen, im Beispiel rot, rot, grün, grün, grün, gelb, gelb, blau I Die absoluten Häugkeiten können mit Hilfe einer Strichliste ermittelt werden. I Die Häugkeitsverteilung einer Stichprobe (d. h. die relativen Häugkeiten aller aufgetretenen Ausprägungen) kann in einem Stabdiagramm dargestellt werden. statistik.pdf, Seite 9 Stabdiagramm zur Lieblingsfarbe statistik.pdf, Seite 10 Klassierung Bei vielen verschiedenen Ausprägungen (die typischerweise bei stetigen Merkmalen auftreten) teilt man diese in Man spricht dann von einer klassierten Klassen ein. Stichprobe. Eine Klasse ist eine Teilmenge der Menge aller möglichen Ausprägungen (typischerweise ein Intervall). Häugkeiten von Klassen Die absolute Häugkeit hi der i ten Klasse ist die Zahl der beobachteten Werte aus der Urliste, die in dieser Klasse liegen. Die relative Häugkeit fi = hi /n ist auch hier die absolute Häugkeit geteilt durch den Umfang der Stichprobe. statistik.pdf, Seite 11 Histogramme Die Häugkeitsverteilung einer klassierten Stichprobe wird oft in einem Histogramm dargestellt. Dort gehört zu jeder Klasse ein Rechteck, dessen Fläche gleich der relativen Häugkeit ist. Die Klassen werden dabei im Normalfall gleich breit gewählt. Bemerkung Eine Klassierung erhöht die Übersichtlichkeit der Darstellung, bedeutet aber einen Verlust von Information, da nicht mehr die genauen Ausprägungen, sondern nur noch die Klassenzugehörigkeiten betrachtet werden. Faustregel Die Zahl der Klassen sollte im Normalfall zwischen 5 und 20 gewählt werden und nicht deutlich gröÿer als √ n sein. statistik.pdf, Seite 12 Beispiel Körpergröÿe im cm (gerundet) der deutschen FuÿballNationalspieler (WMKader 2014) liefert die Urliste 193, 188, 188, 192, 183, 190, 187, 187, 191, 198, 184, 187, 189, 190, 182, 170, 182, 183, 171, 182, 186, 182, 183. Für die 6 Klassen k1 = [170; 175), k2 = [175; 180), k3 = [180; 185), k4 = [185; 190), k5 = [190; 195) und k6 = [195; 200) erhält man die folgenden absoluten und relativen Häugkeiten hi und fi : i ki hi fi fi 1 2 3 4 5 6 [170;175) [175;180) [180;185) [185;190) [190;195) [195;200) 2 0 8 7 5 1 2/23 0 8/23 7/23 5/23 1/23 8, 7 % 0 % 34, 8 % 30, 4 % 21, 8 % 4, 3 statistik.pdf, Seite 13 % Histogramm zum Beispiel Körpergröÿe Die Höhe jedes Rechtecks ist gleich 1 5 fi , so dass die Fläche der relativen Häugkeit fi der jeweiligen Klasse entspricht. Die Gesamtäche ist somit gleich 1. statistik.pdf, Seite 14 Kenngröÿen einer Stichprobe charakterisieren die wichtigsten Eigenschaften von Stichproben, deren Ausprägungen Zahlen sind. Lagekennwerte geben an, in welchem Bereich sich die typischen Werte einer Stichprobe benden. Dazu gehören das arithmetische, geometrische und das harmonische Mittel, der Median sowie die Quantile. Streuungsmaÿe geben an, wie weit diese Werte auseinanderliegen. Dazu gehören die empirische Varianz, die Standardabweichung, die Spannweite und der Interquartilsabstand. statistik.pdf, Seite 15 Das arithmetisches Mittel oder einfach der Mittelwert x einer Stichprobe vom Umfang n ist deniert als x = x arithm = n1 (x1 + ... + xn ). Beispiel Bei einer Stichprobe (Körperlänge von n = 10 Fuÿballspielern) erhält man die (geordnete) Urliste 183, 187, 187, 188, 188, 190, 191, 192, 193, 198. Das arithmetische Mittel ist die Durchschnittsgröÿe x = = 1 10 1 10 · (183 + 187 + 187 + 188 + 188 + 190 + 191 + 192 + 193 + 198) · 1897 = 189, 7. Weitere Anwendungsbeispiele für das arithmetische Mittel sind mittleres Einkommen oder eine Durchschnittsnote. statistik.pdf, Seite 16 Das geometrische Mittel x geom = √ n x1 · ... · xn kommt zur Anwendung bei der Berechnung von durchschnittlichen Wachstumsraten, Kursgewinnen und ähnlichem. Es ist nur dann sinnvoll deniert, wenn Stichprobenwerte xk > 0 für alle xk . Beispiel Das geometrische Mittel der Stichprobe x1 = 1, 2, x2 = 0, 8, x3 = 1, 1, x4 = 1, 3, x5 = 0, 7, x6 = 1, 2 ist x geom = (1, 2 · 0, 8 · 1, 1 · 1, 3 · 0, 7 · 1, 2)1/6 ≈ 1, 1531/6 ≈ 1, 024 statistik.pdf, Seite 17 Das harmonische Mittel einer Stichprobe mit x har = 1 x1 xk > 0 n + ... + 1 k ist für alls =1 xn deniert als 1 1 n x1 + ... + 1 xn , d. h. es wird zunächst das arithmetische Mittel der Kehrwerte 1 xk berechnet und davon wiederum der Kehrwert gebildet. Eine typische Anwendung ist die Berechnung einer Durchschnittsgeschwindigkeit. Beispiel x1 = 50, x2 = 150 und x3 = 100 hat die 1 1 1 1 1 = 150 = 100 y1 = x1 = 50 , y2 = und y3 = . x x Die Stichprobe Kehrwerte 1 2 3 Diese haben das arithmetische Mittel y = 1 3 · 1 50 + 1 150 + 1 100 = 1 3 · 11 300 = 11 900 ≈ 0, 012. Das harmonische Mittel der ursprünglichen Stichprobe ist somit x har = 1/y = 900 11 ≈ 81, 8. statistik.pdf, Seite 18 Anwendung/Interpretation Ein Fahrzeug legt eine Strecke von 120 km zurück, davon s = 40 km) mit einer Geschwindigkeit v2 = 50 km/h und v3 = 150 km/h. jeweils ein Drittel (also von v1 = 100 km/h, Wie groÿ ist dann die Durchschnittsgeschwindigkeit? Dazu können zunächst die Fahrzeiten für die einzelnen s = 0, 4 Stunden Streckenabschnitte bestimmt werden: t1 = v1 = 24 Minuten für das erste Drittel sowie t2 = vs2 = 48 Minuten und t3 = vs3 = 16 Minuten für das zweite bzw. dritte Drittel. Die Gesamtfahrzeit ist damit t = t1 + t2 + t3 . Auf der Gesamtstrecke 3s = 120 km erhält man die Durchschnittsgeschwindigkeit 3s t = 3s t1 + t2 + t3 = v har ≈ 81, 8 = s v1 3s + vs2 + s v3 = 1 1 3 · 1 v1 + 1 v2 + 1 v3 km/h. statistik.pdf, Seite 19 Der Median oder Zentralwert x̃ einer Stichprobe ist der Wert in der Mitte der geordneten Urliste. Hat die Urliste die Form so ist x̃ = 1 2 x1 , x2 , ..., xn falls x n+21 x 2n + x 2n +1 xk ≤ xk+1 mit n falls für alle k, ungerade n gerade Beispiel Die Stichprobe 1, 2, 4, 5, 8, 9 hat den Umfang n = 6, also ist der Median gleich x̃ = 21 (x3 + x4 ) = 21 (4 + 5) = 4 21 . Bei der Stichprobe -1; 0; 0,2; 0,9; 1,6; 3,8; 6,1 ist also ist der Median n = 7, x̃ = x4 = 0, 9. statistik.pdf, Seite 20 Bemerkungen I Im Gegensatz zum (arithmetischen) Mittel ist der Median unempndlich gegenüber starken Ausreiÿern. I Sind alle Elemente der Urliste verschieden, so liegen links und rechts vom Median jeweils gleich viele Elemente. I Eine Verallgemeinerung sind Links vom p Quantil x̃p Quantile für liegt der Anteil p p ∈ (0, 1): aller Stichprobenwerte, rechts davon der Anteil 1 I Der Modalwert − p. einer Stichprobe ist die Ausprägung mit der gröÿten Häugkeit. Beispiel: Lieblingsfarbe grün statistik.pdf, Seite 21 Quantile Zu einer Stichprobe vom Umfang man das p Quantil x̃p n und p ∈ (0, 1) deniert wie folgt: k = n · p eine ganze Zahl, so nimmt man einen Wert zwischen xk und xk+1 : x̃p = 12 · (xk + xk+1 ) Ist np 6∈ Z, so wählt man die nächstgröÿere ganze Zahl k und setzt x̃p = xk . I Ist I Für p = 0, 5 entspricht dies der Denition des Medians, p = 0, 25 und p = 0, 75 Quartil bezeichnet. die Quantile für und oberes werden als unteres statistik.pdf, Seite 22 Beispiel n = 10 liegt das x3 und x4 , genauer Für eine Stichprobe vom Umfang 30%Quantil x̃0,3 zwischen x̃0,3 = 12 (x3 + x4 ). Sind x3 und x4 x1 , x2 und x3 (also genau von x̃0,3 und die übrigen verschieden, so liegen 30% aller Stichprobenwerte) links 70% rechts von x̃0,3 . Konkretes Beispiel: Bei einer Stichprobe mit Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist der geordneten x̃0,3 = 12 (2 + 3) = 2 12 . statistik.pdf, Seite 23 Fortsetzung Beispiel mit n = 10 Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist Mit p = 0, 75 ist n · p = 7, 5 6∈ Z, aufgerundet erhält man 8. Damit ist das obere Quartil (= 75%Quantil) der 8. Wert der geordneten Stichprobe x̃0,75 = x8 = 7. x = x8 ist die kleinste Zahl, für die mindestens 75% der Stichprobenwerte ≤x sind und gleichzeitig die gröÿte Zahl, für die mindestens 25% der Stichprobenwerte Darüber hinaus ist für jedes p Quantil x̃p = x8 , < p < 0, 4. p ≥x sind. mit 0, 7 analog ist z. B. < p < 0, 8 das x̃p = x4 für alle p mit 0, 3 statistik.pdf, Seite 24 Empirische Verteilungsfunktion Die empirische Verteilungsfunktion einer Stichprobe vom Umfang n ist deniert als F (x) = d. h. für x ∈R ist Stichprobenwerte, F ist eine 1 n # k : xk ≤ x , F (x) der relative die ≤ x sind. Treppenfunktion, Anteil der d. h. sie ist auf Teilintervallen konstant mit Sprungstellen dazwischen. statistik.pdf, Seite 25 Beispiel Stichprobe 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 Empirische Verteilungsfunktion F (x) mit 30%- und 75%Quantil statistik.pdf, Seite 26 Quantile und empirische Verteilungsfunktion Bei der Bestimmung des Quantils Verteilungsfunktion 1. Der Wert p F (x) x̃p durch die empirische sind zwei Fälle zu unterscheiden: wird von der empirschen Verteilungsfunktion angenommen, d. h. es gibt ein Teilintervall mit x ∈ [x1 , x2 ). In diesem Fall wird das p Quantil als Mittelpunkt dieses 1 Intervall gewählt, also x̃p = (x1 + x2 ). 2 Der Wert p wird von der empirschen Verteilungsfunktion F (x) = p 2. [x1 , x2 ) für alle nicht angenommen. Dann ist x̃p die Sprungstelle von F (x), an der der Wert p übersprungen wird. In diesem Fall gilt für alle F (x) < p für alle x < x̃p und F (x) > p x ≥ x̃p . statistik.pdf, Seite 27 Varianz Ein Maÿ für die Streuung der Werte einen Stichprobe vom n ≥ 2 um den Mittelwert x Varianz oder Stichprobenvarianz Umfang 1 2 s = s= n−1 √ s2 n X (xk − x)2 = k=1 wird als 1 n−1 ist die (empirische) 2 2 (x1 − x) + ... + (xn − x) empirische Standardabweichung bezeichnet. Eine kleine Rechnung zeigt (mit der Denition von s2 = 1 n−1 x12 + x22 + ... + xn2 − n · x 2 x) Achtung: Im Unterschied zur Varianz einer Zufallsvariable ist bei der Stichprobenvarianz der Vorfaktor 1 n−1 statt 1 n . statistik.pdf, Seite 28 Weitere Streuungsmaÿe I Spannweite: Dierenz zwischen dem gröÿten und dem kleinsten Wert der Stichprobe. I Interquartilsabstand dQ = x̃0,75 − x̃0,25 : Dierenz dem 75%Quantil und dem 25%Quantil. zwischen Interpretation: Die Hälfte der Stichprobenwerte liegt innerhalb des Interquartilsabstandes, jeweils ein Viertel sind Ausreiÿer nach oben bzw. nach unten, die keinen Einuss auf den Interquartilsabstand haben. statistik.pdf, Seite 29 Beispiel Die Stichprobe 0, 1, 1, 2, 3, 5, 8, 12, 13 hat x = 19 (0 + 1 + 1 + 2 + 3 + 5 + 8 + 12 + 13) = 5 x̃ = x̃0,5 = x5 = 3 I Mittelwert I Median I Modalwert (häugster Wert) 1 x̃0,25 = x3 = 1 und x̃0,75 = x7 = 8 2 empirische Varianz s = 1 2 2 2 2 2 2 2 2 2 2 8 (0 + 1 + 1 + 2 + 3 + 5 + 8 + 12 + 13 − 9 · 5 ) = 18 (0 − 3)2 + (1 − 3)2 + (1 − 3)2 + (2 − 3)2 I Quartile I +(3 − 3)2 + (5 − 3)2 + (8 − 3)2 + (12 − 3)2 + (13 − 3)2 I I I = 18 (9 + 4 + 4 + 1 + 0 + 4 + 25 + 81 + 100) = 24 √ √ Standardabweichung s = s 2 = 24 ≈ 4, 9 Spannweite 13 − 0 = 13 Interquartilsabstand 8 − 1 = 7 statistik.pdf, Seite 30 Boxplots dienen der graphischen Darstellung statistischer Kennzahlen einer Stichprobe. Der zentrale Teil ist ein Rechteck (die Box), die vom unteren bis zum oberen Quartil reicht und am Median in zwei Teile unterteilt ist. Die Gesamtbreite der Box ist somit der Interquartilsabstand. Verlängert die Box an beiden Seiten durch Linien, welche die Daten jenseits der Quartile kennzeichnen. statistik.pdf, Seite 31