2. Deskriptive Statistik Hajo Holzmann Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten mogliche Werte eines Merkmals: Merkmalsauspragungen Untersuchungseinheit Merkmal Baum Baumart Merkmalauspr agungen Eiche, Buche, . . . arbeitslose Person Schulabschluss keiner, Hauptschule, Person Familienstand ledig, verheiratet, geschieden, . . . Realschule, Gymnasium Hajo Holzmann 2. Deskriptive Statistik 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten mogliche Werte eines Merkmals: Merkmalsauspragungen Untersuchungseinheit Merkmal Baum Baumart Merkmalauspr agungen Eiche, Buche, . . . arbeitslose Person Schulabschluss keiner, Hauptschule, Person Familienstand ledig, verheiratet, geschieden, . . . Realschule, Gymnasium Hajo Holzmann 2. Deskriptive Statistik Stichproben Grundgesamtheit = Menge der moglichen Untersuchungseinheiten Stichprobe = zufallig gewonnene, endliche Teilmenge der Grundgesamtheit Stichprobenumfang = Anzahl der erhobenen Daten Hajo Holzmann 2. Deskriptive Statistik Datentypen fur jedes Datum welche Kategorie, z.B. Autotypen, Baumart, Nationalitat Kategorielle (oder nominale) Daten kategorielle Daten mit geordneten Kategorien, z.B. Noten, Erdbebenstarke auf Richter Skala Ordinale Daten oder diskrete Daten: Zahlen bestimmter Merkmale , z.B. Anzahl mit Geigerzahler registrierten Zerfalle einer Probe, Z ahldaten konnen in Wertebereich { zumindest theoretisch { jeden beliebigen Zahlenwert annehmen, z.B. Groe, Alter, Lange. Stetige (oder kontinuierliche) Daten qualitative Daten: kategorielle und ordinale Daten quantitative oder metrische Daten: Zahldaten und stetige Daten. Hajo Holzmann 2. Deskriptive Statistik Datentypen fur jedes Datum welche Kategorie, z.B. Autotypen, Baumart, Nationalitat Kategorielle (oder nominale) Daten kategorielle Daten mit geordneten Kategorien, z.B. Noten, Erdbebenstarke auf Richter Skala Ordinale Daten oder diskrete Daten: Zahlen bestimmter Merkmale , z.B. Anzahl mit Geigerzahler registrierten Zerfalle einer Probe, Z ahldaten konnen in Wertebereich { zumindest theoretisch { jeden beliebigen Zahlenwert annehmen, z.B. Groe, Alter, Lange. Stetige (oder kontinuierliche) Daten qualitative Daten: kategorielle und ordinale Daten quantitative oder metrische Daten: Zahldaten und stetige Daten. Hajo Holzmann 2. Deskriptive Statistik 2.2 Beschreibung kategorieller Daten absolute Haugkeiten: Wieviele Daten in jeder Kategorie ! auch Kategorien erwahnen, in die keine Daten fallen. relative Haugkeiten: Anteil der Daten in jeder Kategorie ! absolute Haugkeiten / Stichprobenumfang. stets zusammen mit Stichprobenumfang angeben. Visualisierung: relative / absolute Haugkeiten als Balkendiagramme: Stapeldiagramm: nach einzelne Balken ubereinander in einem Balken der Groe Tortendiagramme bzw. Kreisdiagramm: Tortensegmente Hajo Holzmann als Kreis / 2. Deskriptive Statistik 2.2 Beschreibung kategorieller Daten absolute Haugkeiten: Wieviele Daten in jeder Kategorie ! auch Kategorien erwahnen, in die keine Daten fallen. relative Haugkeiten: Anteil der Daten in jeder Kategorie ! absolute Haugkeiten / Stichprobenumfang. stets zusammen mit Stichprobenumfang angeben. Visualisierung: relative / absolute Haugkeiten als Balkendiagramme: Stapeldiagramm: nach einzelne Balken ubereinander in einem Balken der Groe Tortendiagramme bzw. Kreisdiagramm: Tortensegmente Hajo Holzmann als Kreis / 2. Deskriptive Statistik 2.2 Beschreibung kategorieller Daten absolute Haugkeiten: Wieviele Daten in jeder Kategorie ! auch Kategorien erwahnen, in die keine Daten fallen. relative Haugkeiten: Anteil der Daten in jeder Kategorie ! absolute Haugkeiten / Stichprobenumfang. stets zusammen mit Stichprobenumfang angeben. Visualisierung: relative / absolute Haugkeiten als Balkendiagramme: Stapeldiagramm: nach einzelne Balken ubereinander in einem Balken der Groe Tortendiagramme bzw. Kreisdiagramm: Tortensegmente Hajo Holzmann als Kreis / 2. Deskriptive Statistik Visualisierung (Wahlergebnisse) Stapeldiagramm (rel. Häufigkeit) Pie Chart (rel. Häufigkeit) 1.0 Barplot (rel. Häufigkeit) CDU 0.25 SPD FDP DIELINKE GRÜNE CSU Sonstige Relative Häufigkeit 0.15 DIELINKE FDP 0.4 0.2 0.10 0.05 0.0 Sonstige PIRATEN CSU GRÜNE DIELINKE FDP SPD GRÜNE CSU PIRATEN Sonstige SPD 0.00 Relative Häufigkeit 0.6 0.20 0.8 PIRATEN CDU Partei Hajo Holzmann 2. Deskriptive Statistik CDU Visualisierung (Simpson Paradoxon) 1.2e+09 0.4 Fraction of Income paid as Taxes in the USA 1974 Income 1974 1978 Taxes Paid 1974 Taxes Paid 1978 0.0 0.0e+00 2.0e+08 0.1 4.0e+08 0.2 6.0e+08 8.0e+08 0.3 1.0e+09 Income 1978 <5.000$ 5.000−9.999$ 10.000−14.999$ 15.000−99.999$ >100.000$ Total <5.000$ 5.000−9.999$ Income Group 10.000−14.999$ 15.000−99.999$ Income Group Hajo Holzmann 2. Deskriptive Statistik >100.000$ Total 2.3 Zusammenfassung numerischer Daten Lagemae: Wo (auf der reellen Achse) benden sich die Daten? Streumae: Wie weit streuen die Daten um ein Lagema? Weiter: Mae fur Schiefe: Sind die Daten symmetrisch um ihr Lagema? Mae fur heavy tails: Gibt es viele Daten, die besonders weit vom Lagema entfernt liegen? Hajo Holzmann 2. Deskriptive Statistik 2.3 Zusammenfassung numerischer Daten Lagemae: Wo (auf der reellen Achse) benden sich die Daten? Streumae: Wie weit streuen die Daten um ein Lagema? Weiter: Mae fur Schiefe: Sind die Daten symmetrisch um ihr Lagema? Mae fur heavy tails: Gibt es viele Daten, die besonders weit vom Lagema entfernt liegen? Hajo Holzmann 2. Deskriptive Statistik Lagemae: Mittelwert Mittelwert: arithmetisches Mittel der Daten. Daten x1 ;:::;x n 2 R, dann 1X n x = n i = xi x1 + + x =1 gewichtetes Mittel: Gewicht gi n n ; > 0 fur Beobachtung x , dann i Pn g i xi g x + Pi =1 = 1 1 n gi i =1 Hajo Holzmann g1 + g x ; + + g n n n 2. Deskriptive Statistik Lagemae: Mittelwert Mittelwert: arithmetisches Mittel der Daten. Daten x1 ;:::;x n 2 R, dann 1X n x = n i = xi x1 + + x =1 gewichtetes Mittel: Gewicht gi n n ; > 0 fur Beobachtung x , dann i Pn g i xi g x + Pi =1 = 1 1 n gi i =1 Hajo Holzmann g1 + g x ; + + g n n n 2. Deskriptive Statistik Lagemae: Median Ordnungsstatistiken: geordneten Werte kleinste, x( ) grote Wert. x(1) ::: x (n ) , d.h. x(1) n Median (lat. medius: med(x ) = der mittlere) einfachste Lagema. 8 > >x( n+1 > < 2 ) > x n + x n +1 > > (2 ) : (2) 2 fur n ungerade fur n gerade, ! mindestens 50% der Daten und 50% der Daten med(x ). Hajo Holzmann 2. Deskriptive Statistik Streumae: Standardabweichung x = (x1 ; : : : ; x ) beobachtete Daten. n Varianz: var(x ) = 1 n n X 1 (x i i x ) 2 (x1 = x )2 =1 Standardabweichung (engl. + + (x n 1 standard deviation) sd(x ) = Hajo Holzmann p var(x ): 2. Deskriptive Statistik n x )2 Variationskoezient Variationskoezienten: relative Schwankung im Verhaltnis zu ihrem Mittelwert sd(x ) jxj Bsp.: Energieumsatzrate Hajo Holzmann 2. Deskriptive Statistik Interquartilsabstand Quantile: fur 0 < < 1 q (x ) = 8 > < > : x([n+1]) 1 2 x(n) falls n keine ganze Zahl ist, ; + x( +1) ; n falls n eine ganze Zahl ist. ! mindestens 100% der Daten q(x ) und (1 ) 100% der Daten q (x ). unteres Quartil: oberes Quartil: q0;25 (x ), q0;75 (x ), Interquartilsabstand IQR(x ) = q0;75 (x ) Hajo Holzmann : q0;25 (x ) 2. Deskriptive Statistik Interquartilsabstand Quantile: fur 0 < < 1 q (x ) = 8 > < > : x([n+1]) 1 2 x(n) falls n keine ganze Zahl ist, ; + x( +1) ; n falls n eine ganze Zahl ist. ! mindestens 100% der Daten q(x ) und (1 ) 100% der Daten q (x ). unteres Quartil: oberes Quartil: q0;25 (x ), q0;75 (x ), Interquartilsabstand IQR(x ) = q0;75 (x ) Hajo Holzmann : q0;25 (x ) 2. Deskriptive Statistik Ma fur Schiefe Schiefe (engl.: skewness) von x1 ;:::;x : n 1X n skew(x ) = n i =1 xi x sd(x ) 3 : ! kennzeichnet Abweichung von symmetrischer Lage um x. Ist skew(x ) < 0 : linksschief Ist skew(x ) > 0 : rechtsschief. Hajo Holzmann 2. Deskriptive Statistik Ma fur Schiefe Schiefe (engl.: skewness) von x1 ;:::;x : n 1X n skew(x ) = n i =1 xi x sd(x ) 3 : ! kennzeichnet Abweichung von symmetrischer Lage um x. Ist skew(x ) < 0 : linksschief Ist skew(x ) > 0 : rechtsschief. Hajo Holzmann 2. Deskriptive Statistik Verteilungsschwanze (heavy tails) Kurtosis von x1 ;:::;x : n 1X n kurtosis(x ) = n i =1 xi x 4 sd(x ) 3: ! kennzeichnet Abweichung von Verteilungsschwanzen der Normalverteilung. Ist kurtosis(x ) < 0 : low tails Ist kurtosis(x ) > 0 : heavy tails. im Vergleich zur Normalverteilung. Hajo Holzmann 2. Deskriptive Statistik Verteilungsschwanze (heavy tails) Kurtosis von x1 ;:::;x : n 1X n kurtosis(x ) = n i =1 xi x 4 sd(x ) 3: ! kennzeichnet Abweichung von Verteilungsschwanzen der Normalverteilung. Ist kurtosis(x ) < 0 : low tails Ist kurtosis(x ) > 0 : heavy tails. im Vergleich zur Normalverteilung. Hajo Holzmann 2. Deskriptive Statistik Graphische Darstellung numerischer Daten Boxplot Graphische Darstellung der 5 Zahlen Median, unteres und oberes Quartil, Max. und Min. Box. zwischen q0:25 und q0:75 , darin Median als Strich Striche (engl. Whiskers) bis Max. und Min. Histogramm Unterteilung des Wertebereichs in disjunkte Intervalle, Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten in dem Intervall Rug-Plot Erganzend zu Histogramm, Plotte Daten als Striche auf x -Achse Hajo Holzmann 2. Deskriptive Statistik Graphische Darstellung numerischer Daten Boxplot Graphische Darstellung der 5 Zahlen Median, unteres und oberes Quartil, Max. und Min. Box. zwischen q0:25 und q0:75 , darin Median als Strich Striche (engl. Whiskers) bis Max. und Min. Histogramm Unterteilung des Wertebereichs in disjunkte Intervalle, Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten in dem Intervall Rug-Plot Erganzend zu Histogramm, Plotte Daten als Striche auf x -Achse Hajo Holzmann 2. Deskriptive Statistik Graphische Darstellung numerischer Daten Boxplot Graphische Darstellung der 5 Zahlen Median, unteres und oberes Quartil, Max. und Min. Box. zwischen q0:25 und q0:75 , darin Median als Strich Striche (engl. Whiskers) bis Max. und Min. Histogramm Unterteilung des Wertebereichs in disjunkte Intervalle, Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten in dem Intervall Rug-Plot Erganzend zu Histogramm, Plotte Daten als Striche auf x -Achse Hajo Holzmann 2. Deskriptive Statistik 2.4 Transformationen: Linear lineare Transformationen: Fur a; b 2 R; a 6= 0, f (xi ) = ax + b; = 1; : : : ; n: i i Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar. Standardisierung. f (xi ) = Hajo Holzmann xi x sd x : 2. Deskriptive Statistik 2.4 Transformationen: Linear lineare Transformationen: Fur a; b 2 R; a 6= 0, f (xi ) = ax + b; = 1; : : : ; n: i i Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar. Standardisierung. f (xi ) = Hajo Holzmann xi x sd x : 2. Deskriptive Statistik Logarithmus und Potenzen Transformation positiver Daten xi > 0. Logarithmieren: f (x ) = log(x ). i i ! rechtsschiefe Daten symmetrisch machen. Allgemeiner: Box-Cox-Transformationen fur > 0: f (xi ) = xi 1 ; ! 0: erhalte Logarithmus. < < 1: rechtsschiefe Daten symmetrisch machen. f ur 1 < : linksschiefe Daten symmetrisch machen. f ur f ur 0 Hajo Holzmann 2. Deskriptive Statistik Logarithmus und Potenzen Transformation positiver Daten xi > 0. Logarithmieren: f (x ) = log(x ). i i ! rechtsschiefe Daten symmetrisch machen. Allgemeiner: Box-Cox-Transformationen fur > 0: f (xi ) = xi 1 ; ! 0: erhalte Logarithmus. < < 1: rechtsschiefe Daten symmetrisch machen. f ur 1 < : linksschiefe Daten symmetrisch machen. f ur f ur 0 Hajo Holzmann 2. Deskriptive Statistik Visualisierung (Deutschland Daten) Boxplot of BIP 1992 140 Histogram of BIP 1992 40000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 30000 80 20000 60 0 10000 20 40 Frequency 100 120 50000 ● 10000 20000 30000 40000 50000 BIP92 Histogram of log(BIP 1992) Boxplot of log(BIP 1992) 4.4 4.2 60 4.0 40 3.8 20 0 Frequency 80 4.6 100 ● 3.8 4.0 4.2 4.4 4.6 4.8 lBIP92 Hajo Holzmann 2. Deskriptive Statistik