Der Mittelwert (arithmetisches Mittel) x̄ = n 1X xi n i=1 bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 126 / 355 Mittelwert bei gruppierten Daten x̄ = n 1X xi n i=1 = = 1 (x1 + x2 + . . . + xn ) n k 1X hj aj n j=1 hj : Häufigkeit von aj Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 127 / 355 Das geometrische Mittel v u n uY x̄G = nt xi i=1 arithmetisches Mittel auf der log-Skala xg = exp ! n 1X log (xi ) n i=1 nur geeignet für positive Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 128 / 355 Das harmonische Mittel x̄H := 1 n 1 Pn 1 i=1 xi Das harmonische Mittel entspricht dem Mittel durch Transformation 1 t→ t Deskriptive Statistik WiSe 2015/2016 x̄H = n 1X 1 n xi !−1 i=1 Helmut Küchenhoff (Institut für Statistik, LMU) 129 / 355 Das harmonische Mittel x̄H := 1 n 1 Pn 1 i=1 xi Das harmonische Mittel entspricht dem Mittel durch Transformation 1 t→ t x̄H = n 1X 1 n xi !−1 i=1 Beispiel: x1 , . . . , xn Geschwindigkeiten, mit denen konstante Wegstrecken L zurückgelegt werden Gesamt-Geschwindigkeit: L·n = x̄H L + . . . + xln x1 Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 129 / 355 Allgemeine Transformation des Mittelwerts I Lineare Transformation: g (t) = a + bt yi = a + bxi ⇒ ȳ = a + bx̄ d.h. a + bx = a + bx̄ g (x) = g (x̄) Allgemeine Transformation: Generell ist g (x) 6= g (x̄) Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 130 / 355 Allgemeine Transformation des Mittelwerts II Für konvexe Funktionen g gilt: g 1 n g (x̄) ≤ ! n X xi i=1 g konvex: ⇔ ≤ g (x) n 1X n g (xi ) (Jensen-Ungleichung) i=1 g (λx + (1 − λ)y ) ≤ λg (x) + (1 − λ)g (y ) ∀λ ∈ [0, 1], x, y ∈ Dg Beispiel: x̄ 2 ≤ x 2 Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 131 / 355 Vergleich I Es gilt allgemein für positive xi x̄H ≤ x̄G ≤ x̄ Beweis: a) Die Funktion g : t → log (t) ist konkav, da g 00 (t) = − t12 < 0 ⇒ log (x̄) ≥ log (x) ⇒ x̄ ≥ exp log (x) = exp = Qn i=1 exp (log (xi )) Deskriptive Statistik WiSe 2015/2016 n1 1 n Pn i=1 log (xi ) = x̄G Helmut Küchenhoff (Institut für Statistik, LMU) 132 / 355 Vergleich II b) Die Funktion g2 : t → 1 da g200 (t) = exp(t) ≥0 1 exp(t) ist konvex, Daten log (x1 ), . . . , log (xn ) g2 ⇒ 1 n n P ≤ log (xi ) i=1 s1 n Q n ≤ 1 n xi n P i=1 1 n n P exp(log (xi ))−1 i=1 1 xi i=1 v u n uY n ⇒t xi ≥ 1 n i=1 | {z } xG 1 n P i=1 1 xi | {z } xH Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 133 / 355 Getrimmtes Mittel Um die Ausreißerempfindlichkeit von x̄ abzuschwächen definiert man x̄α = n−r X 1 x(i) n − 2r i=r +1 x(i) : geordnete x-Werte r ist die größte ganze Zahl mit r ≤ nα Es wird also der Anteil α der extremsten Werte abgeschnitten. α-getrimmtes Mittel“ ” Winsorisiertes Mittel (gestutztes Mittel) Der Anteil α der extremsten Werte wird durch das entsprechende Quantil ersetzt. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 134 / 355 Maße für die Streuung Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoeffizient Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 135 / 355 Die Spannweite (Range) Definition: q = xmax − xmin Bereich in dem die Daten liegen“ ” Wichtig für Datenkontrolle Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 136 / 355 Der Quartilsabstand Definition: dQ = x0.75 − x0.25 Größe des Bereichs in dem die mittlere Hälfte der Daten liegt“ ” Bei ordinal skalierten Daten Angabe von x0.75 und x0.25 Zentraler 50%-Bereich Robust gegen Ausreißer Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 137 / 355 Standardabweichung und Varianz Definition n S2 := S = 1 X (xi − x̄)2 Varianz n−1 i=1 √ S2 Standardabweichung Pn Verwende Se2 := n1 i=1 (xi − x̄)2 für Vollerhebung Division durch n − 1 eigentlich nur bei Stichproben sinnvoll Mittlere Abweichung vom Mittelwert“ ” Intervallskala Voraussetzung Empfindlich gegen Ausreißer Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 138 / 355 Transformationsregel yi = a + bxi ⇒ Sey2 Sey = b 2 Sex2 = |b|Sex (Analog für Sx , Sy ) Varianz und Standardabweichung sind stabil mit linearen Transformationen verträglich. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 139 / 355 Verschiebungssatz Für jedes c ∈ R gilt: n n X X (xi − c)2 = (xi − x̄)2 + n(x̄ − c)2 i=1 i=1 c = 0 ⇒ Se2 = n 1X 2 xi − x̄ 2 n = x2 i=1 Se2 − x̄ 2 Beachte: Verschiebungssatz für numerische Berechnung mit Computer nicht geeignet. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 140 / 355 Streuungszerlegung I Seien die Daten in r Schichten aufgeteilt: x1 , . . . , xn1 , xn1 +1 , . . . , xn1 +n2 , . . . , xnr Schichtmittelwerte: x̄1 = n1 n1 +n2 1 X 1 X xi , x̄2 = xi , usw. n1 n2 i=1 i=n1 +1 Schichtvarianzen: n1 n1 +n2 1 X 1 X Se12 = (xi − x̄1 )2 , Se22 = (xi − x̄2 )2 , usw. n1 n2 i=1 Deskriptive Statistik WiSe 2015/2016 i=n1 +1 Helmut Küchenhoff (Institut für Statistik, LMU) 141 / 355 Streuungszerlegung II Dann gilt: x̄ = r 1X nj x̄j n = r r 1 X e2 1 X nj Sj + nj (x̄j − x̄)2 n n j=1 Se2 j=1 Gesamtstreuung = Deskriptive Statistik WiSe 2015/2016 Streuung innerhalb der Schicht j=1 + Streuung zwischen den Schichten Helmut Küchenhoff (Institut für Statistik, LMU) 142 / 355 Variationskoeffizient Das Verhältnis von Standardabweichung und Mittelwert ist gegeben durch v= Se mit x̄ > 0 x̄ Der Variationskoeffizient hat keine Einheit und ist skalenunabhängig. Er ist eine Maßzahl für die relative Schwankung um den Mittelwert. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 143 / 355 Mittlere absolute Abweichung (MAD) Die mittlere absolute Abweichung ist definiert als n MAD = 1X |xi − x̄| n i=1 MedAD := median(|xi − xmed |) Wegen der Jensen-Ungleichung gilt: MAD ≤ Se MAD/ MedAD : nicht so schöne“ theoretische Eigenschaften ” klarer interpretierbar als Se weniger Ausreißer-empfindlich Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 144 / 355 Uni- und multimodale Verteilungen unimodal = eingipflig, multimodal = mehrgipflig Das Histogramm der Zinssätze zeigt eine bimodale Verteilung. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 145 / 355 Symmetrie und Schiefe I symmetrisch ⇔ Rechte und linke Häfte der Verteilung sind annähernd zueinander spiegelbildlich linkssteil (rechtsschief) ⇔ Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab rechtssteil (linksschief) ⇔ Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 146 / 355 Symmetrie und Schiefe II Eine linkssteile (a), symmetrische (b) und rechtssteile Verteilung (c) Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 147 / 355 Lageregeln Symmetrische und unimodale Verteilung: x̄ ≈ xmed ≈ xmod Linkssteile Verteilung: x̄ > xmed > xmod Rechtssteile Verteilung: x̄ < xmed < xmod Bei gruppierten Daten: Auch für Histogramme gültig Beachte: Form der Verteilung bleibt bei linearen Transformationen gleich. Änderung bei nichtlinearen Transformationen. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 148 / 355 Maßzahlen für die Schiefe I Quantilskoeffizient: gp = (x1−p − xmed ) − (xmed − xp ) x1−p − xp p = 0.25 Quartilskoeffizient Werte des Quantilskoeffizienten: gp = 0 gp > 0 gp < 0 für symmetrische Verteilungen für linkssteile Verteilungen für rechtssteile Verteilungen Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 149 / 355 Maßzahlen für die Schiefe II Momentenkoeffizient der Schiefe n gm = m3 1X mit m = (xi − x̄)3 3 se3 n i=1 Werte des Momentenkoeffizienten gm = 0 gm > 0 gm < 0 für symmetrische Verteilungen für linkssteile Verteilungen für rechtssteile Verteilungen Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 150 / 355 Dichtefunktion I Histogramm: Anteil = Fläche unter der Kurve Histogramm ist stückweise konstante Funktion Probleme: Abhängigkeit von der Wahl der Klassengrenzen Ersetze Histogramm durch glatte Funktion f Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 151 / 355 Dichtefunktion II Dichte Eine positive stetige Funktion heißt Dichte(-funktion), wenn f (x) ≥ 0 und Z∞ f (x)dx = 1 −∞ Die Flächen unter der Dichte sollen den approximativen Häufigkeiten entsprechen, d.h. Zb f (x)dx ≈ 1 #{xi |a < xi ≤ b} n a Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 152 / 355 Dichte und Verteilung F (x0 ) = 1 #{xi |xi ≤ x0 } ≈ n Zx0 f (x)dx −∞ Zx0 F̂ (x0 ) = fˆ(x)dx −∞ Quantile 0<p<1 xp ist der Wert auf der x-Achse, für den gilt: Zxp f (x)dx = p −∞ Der Median teilt die Fläche in 2 gleich große Teile. Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 153 / 355 Beispiele Histogramm und Dichte Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 154 / 355 Beispiele Histogramm und Dichte Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 154 / 355 Beispiele Histogramm und Dichte Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 154 / 355 Berechnung von Dichte-Kurven fˆ(x) = 1 n #{xi |xi ∈ [x − h, x + h)} 2h ⇒ Gleitendes Histogramm“ ” n 1X1 K f (x) = n h i=1 x − xi h 1 2 für − 1 ≤ u < 1 0 sonst K : Kernfunktion mit K (u) = Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 155 / 355 Kern-Dichteschätzer K (u) sei Kernfunktion, d.h. R∞ K (u) ≥ 0 und K (u)du = 1 −∞ n 1 X x − xi fˆ(x) = K nh h i=1 heißt Kern-Dichteschätzer Kerne: Epanechnikov-Kern K (u) = 34 (1 − u 2 ) Bisquare-Kern K (u) = 15 16 (1 Gauß-Kern K (u) = √1 exp 2π Deskriptive Statistik WiSe 2015/2016 − u 2 )2 − 21 u 2 für −1 ≤ u < 1, 0 sonst. für −1 ≤ u < 1, 0 sonst. für u ∈ R Helmut Küchenhoff (Institut für Statistik, LMU) 156 / 355 Bemerkungen zur Dichteschätzung Abhängigkeit von der Bandweite h → Verfahren zur Bestimmung von h aus den Daten Abhängigkeit von der Wahl des Kerns eher unbedeutend Kerndichteschätzungen sind insbesondere bei größeren Datenmengen Histogrammen vorzuziehen Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut für Statistik, LMU) 157 / 355