Fachgruppe Mathematik der Kantonsschule am Burggraben, St.Gallen Mathematik-Repetitorium für den Maturastoff 4.1.1 Beschreibende Statistik (Theorie) Ziel der Beschreibenden Statistik 12 Alter Anzahl Anzahl Mit den Mitteln der 22 ll 2 10 23 l 1 Beschreibenden Statistik soll 8 24 lllll 5 eine u.U. sehr grosse 25 lllll lll 8 6 26 lllll ll 7 Datenmenge übersichtlich und 4 27 lllll lllll 10 28 ll 2 2 kompakt beschrieben werden. 29 lllll l 6 0 Dabei soll der wesentliche 30 0 22 23 24 25 26 27 28 29 30 31 l 1 Informationsgehalt Beispiel: Die Altersstruktur in einem Sportverein wurde mit einer herauskristallisiert werden Strichliste erfasst und das Resultat grafisch dargestellt. können. Die wichtigsten Instrumente sind grafische Darstellungen und Kennzahlen über die Verteilung der erhobenen Daten, z.B. zu deren Lage, Streuung oder Zusammenhängen. 31 Grafische Darstellungen Es gibt eine Unzahl von Möglichkeiten zur grafischen Darstellung von erhobenen Daten. Die häufigsten sind das Histogramm (hauptsächlich zur Darstellung von Zähldaten) und das Streudiagramm (oft für Messdaten). Ihre Hauptaufgabe besteht darin, rein optisch einen qualitativen Überblick über die Daten zu bekommen: Grösste Häufigkeiten, Gegensätze, Gemeinsamkeiten, evtl. Zusammenhänge etc. Histogramm In einem Histogramm werden die relativen Häufigkeiten, d.h. der prozentuale Anteil, von Zähldaten dargestellt. Die Summe aller relativen Häufigkeiten ist 1. Das ergibt eine Normierung, die Vergleiche zwischen verschiedenen Gruppen (auch unterschiedlicher Grösse) zulassen. 0.25 0.2 0.15 0.1 0.05 0 22 23 24 25 26 27 28 29 30 31 Beispiel: Obige Altersstruktur mit relativen Häufigkeiten. Beachte die Einheiten auf der y-Achse. Streudiagramm In einem Streudiagramm werden haupsächlich Messdaten dargestellt. Es ist das altbekannte xy-Koordinatensystem, in welchem Zusammenhänge zwischen gemessenen Daten sichtbar werden. 110 100 90 80 70 60 50 40 1.5 1.6 1.7 1.8 1.9 2 2.1 Beispiel: Das Körpergewicht [kg] auf der y-Achse und die Körpergrösse [m] auf der x-Achse für eine zufällig ausgewählte Gruppe von Zuschauern an einem Basketballspiel. Fachgruppe Mathematik der Kantonsschule am Burggraben, St.Gallen Mathematik-Repetitorium für den Maturastoff Kennzahlen Kennzahlen sollen quantitative Aussagen über charakterisierende Eigenschaften und Zusammenhänge von erhobenen Daten erlauben, die in Grafiken nur qualitativ erahnt werden können. Über sie werden Vergleiche mit anderen Daten aussagekräftiger. Wir betrachten Stichproben der Grösse n, und summiert wird über alle Klassen. (In unserem Altersstrukturbeispiel wäre n = 42 und i = 1,…10.) Mittelwert μ (oder ) Der Mittelwert ist ein sogenannter Lageparameter, weil er eine Aussage über den Schwerpunkt der Datenverteilung macht. Mit absoluten Häufigkeiten fi: μ = 1n ∑ f i ⋅ xi , wobei ∑ f i = n i i Mit relativen Häufigkeiten hi: μ = ∑ hi ⋅ xi , wobei hi = i 2 Varianz var (oder σ ) und Standardabweichung s (oder σ) Varianz und Standardabweichung sind sogenannte Streuparameter, weil sie eine Aussage darüber machen, wie eng sich die Daten um den Mittelwert scharen. Kovarianz cov und Korrelation cor (oder ρ) Kovarianz und Korrelation machen eine Aussage über den (linearen) Zusammenhang zwischen zwei Merkmalen x und y. fi und damit n ∑h i =1 i (In unserem Beispiel ist μ = 26.2.) σ 2 = n1−1 ∑ f i ⋅ ( xi − μ ) 2 i ( In unserem Beispiel ist σ2 = 4.01.) Die Varianz ist also so etwas wie die durchschnittliche quadratische Abweichung vom Mittelwert. Die Standardabweichung ist die Wurzel aus der Varianz. Dass der Nenner n-1 lautet, hat mit höheren Anforderungen der Statistik zu tun und soll uns nicht weiter stören. Für den (seltenen) Fall einer Vollerhebung (im Gegensatz zu einer Stichprobe) wird der Nenner zu n. cov( x, y ) = n 1 n −1 ∑ (x i =1 i − μ x )( xi − μ y ) Die Kovarianz ist analog zur Varianz aufgebaut. Da wir jetzt aber zwei Merkmale betrachten, nehmen wir einmal den Mittelwert des Merkmals x (μx) und einmal denjenigen von y (μy), um die Abweichungen zu bestimmen. Viel interessanter ist aber die Korrelation: cov( x, y ) ρ xy = cor ( x, y ) = σ x ⋅σ y Sie ist eine normierte Kovarianz und hat einen Wert zwischen –1 und +1, da die Kovarianz durch die Standardabweichungen der einzelnen Merkmale geteilt wird. ( In unserem Beispiel der Basketballzuschauer ist ρxy = 0.95. Das bedeutet, dass ein sehr hoher Zusammenhang zwischen Körpergrösse und Gewicht besteht, und zwar „je grösser desto schwerer“. Ein Minuszeichen hätte bedeutet: „je grösser desto leichter“. Wäre die Korrelation um 0 herum, so würde das bedeuten, dass praktisch kein Zusammenhang bestünde.)