STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005 1 Inhalt • Deskriptive Statistik: • Einfache Kennzahlen – – – – – Lagemaße Streuungsmaße Konzentrationsmaße Verhältniszahlen Indexzahlen 2 Maßzahlen • Parameter, Kollektivmaßzahlen • Lageparameter (Mittelwerte) • Streuungsparameter (Variabilitätsmaße, Variationsmaße) • Schiefe • Wölbung 3 Lagemaße und Mittelwerte • Eigenschaften: – Liegen zwischen Minimum und Maximum der Daten – Wenn alle Daten derselben linearen Transformation unterworfen werden, macht auch das Lagemaß diese Transformation mit 4 Lagemaße und Mittelwerte • • • • • • Arithmetisches Mittel Median Modus Geometrisches Mittel Harmonisches Mittel Quantile 5 Arithmetisches Mittel • Mittelwert, durchschnittlicher Wert. • Für metrisch skalierte Merkmale. • a1,...,an beobachtete Merkmalswerte eines Merkmals X 1 n a ai n i 1 k 1 k x xi hi xifi n i 1 i 1 6 Arithmetisches Mittel • Bsp. Merkmal X: Körpergröße in cm • Merkmalswerte (a1,...,an, n = 5): 162, 170, 155, 187, 179 • ā = 1/5 · (162+170+155+187+179) = 170,6 7 Arithmetisches Mittel Eigenschaften (Betrachte Einzelwerte ai, i=1,...,n): • Summe der Abweichungen der Einzelwerte von ihrem arithmetischen Mittel = 0 n (a i 1 i a) 0 • Summe der quadrierten Abweichungen der Einzelwerte von ihrem arithmetischen Mittel ist kleiner als von einem beliebigen anderen Wert n n i 1 i 1 2 2 (a a ) (a M) i i (M a) 8 Arithmetisches Mittel • Das arithmetische Mittel unterliegt der gleichen linearen Transformation wie die Einzelwerte Lineare Transformation: a *i α βa i (i 1,..., n) a* α β a • Bsp. Körpergröße: ai* = 0,01·ai – Transformierte Werte: 1,62; 1,70; 1,55; 1,87; 1,79 – ā* = 1/5 · (1,62+1,70+1,55+1,87+1,79) = 1,706 – ā* = 0,01 · ā = 0,01 · 170,6 = 1,706 9 Arithmetisches Mittel • Arithmetische Mittel von zwei oder mehr Teilgesamtheiten: 1 a n1 n 2 n2 n1 n 1a 1 n 2 a 2 a 1i a 2i n1 n 2 i 1 • Bsp. Körpergröße: 2 Stpr. mit n1=n2=5 – Stpr. 1: 162, 170, 155, 187, 179 mit ā1 = 170,6 – Stpr. 2: 172, 159, 193, 184, 168 mit ā2 = 175,2 – ā = 1/(5+5) · (853+876) = 172,9 = (5·170,6+5·175,2) / (5+5) = 172,9 10 Arithmetisches Mittel • Gewogenes (gewichtetes) arithmetische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 n a w w ia i i 1 • Für w1 = ... = wn = 1/n ergibt sich das gewöhnliche arithmetische Mittel 11 Median • Median (Zentralwert): mindestens 50% der Beobachtungen ai nehmen eine Wert größer oder gleich bzw. kleiner oder gleich dem Median an. • Sind x1... xn der Größe nach geordnet, ist der Median x̃0,5: x((n+1)/2) n ungerade x̃0,5 = ½(x(n/2)+x(n/2+1)) n gerade 12 Median • Häufigkeitsverteilung: Median ist diejenige Merkmalsausprägung, bei der die Summenhäufigkeitsfunktion den Wert 0,5 überschreitet. • Klassifizierte Daten: Der Median liegt in der Klasse, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht. 13 Median • Bsp. Körpergröße in cm: n = 10, – Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 – Median: x̃0,5 = ½(x(n/2)+x(n/2+1)) = ½(x5+x6) = ½(170+172) = 171 • Bsp. Körpergröße in cm: n = 9, – Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187 – Median: x̃0,5 = x((n+1)/2) = x5 = 170 14 Quantile • Geordnete Beobachtungsreihe x(1)...x(n) • α-Quantil x(k) falls n·α keine ganze Zahl (k ist die auf n·α folgende ganze Zahl) x̃α= 1/2 (x(k)+x(k+1)) falls n·α ganze Zahl k=n·α • Spezielle Quantile: – Median = 0,5-Quantil – Unteres Quartil = 0,25-Quantil – Oberes Quartil = 0,75-Quantil 15 Quantile • Bsp. Körpergröße in cm: – Merkmalswerte der Größe nach geordnet (n=10): 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 – Unteres Quartil = 0,25-Quantil, n · 0,25 = 2,5 also: x̃0,25 = x(k) = x(3) = 162 – Oberes Quartil = 0,75-Quantil, n · 0,75 = 7,5 also: x̃0,75 = x(k) = x(8) = 184 16 Modalwert • Modalwert (Modus, häufigster Wert, dichtester Wert): Gibt die Ausprägung an, die die größte Häufigkeit in der Beobachtungsreihe besitzt. • Für nominal skalierte Daten geeignet. • Es gilt: h(xmod) h(xi) für alle Merkmalsausprägungen xi,...,xk. • Klassifizierte Daten: Modalwert ist definiert als Klassenmitte der am dichtesten besetzten Klasse. 17 Geometrisches Mittel • Voraussetzung: Daten verhältnisskaliert • n Einzelwerte a1, ..., an • Merkmalsausprägungen relative Änderungen (z.B. Lohnerhöhung in %) • Geometrisches Mittel: a g n a 1 a 2 ... a n 18 Geometrisches Mittel • Bsp. Produktionssteigerung eines Betriebes pro Jahr • 4 Jahre mit Produktionssteigerungen von: 2%, 11%, 4%, 7% • Durchschnittliche Steigerung: a g 4 1,02 1,111,04 1,07 4 1,26 1,057 • Durchschnittliche Produktionssteigerung: ~6% 19 Geometrisches Mittel • Gewogenes (gewichtetes) geometrische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 a a w g w1 1 a ... a w2 2 wn n • Für w1=...= wn=1/n ergibt sich das gewöhnliche geometrische Mittel 20 Harmonisches Mittel • Nur positive od. negative Beobachtungswerte a1,...,an ah n n 1 i 1 a i • Gewogenes harmonisches Mittel: Gewichte w1,...,wn mit 0wi1 und Σiwi=1 a hw 1 n wi i 1 a i • Für w1=...= wn=1/n ergibt sich das gewöhnliche harmonische Mittel 21 Harmonisches Mittel • Bsp. Hat man etwa die Beziehung U = P · M und gilt ui = xi·mi und ist ui = U und mi = M, ergibt sich P = U / M ui U ui 1 P , mit w i u i M mi (u i x i ) (w i x i ) u • P ist das mit wi gewogene harmonische Mittel der xi – – – – U = Gesamtumsatz, ui = Einzelumsatz des i-ten Gutes P = durchschnittlicher Preis pro Mengeneinheit, xi = Einzelpreis pro Mengeneinheit des i-ten Gutes M = Gesamtmenge, mi = umgesetzte Menge des i-ten Gutes 22 i Mittel • Vergleich arithmetische- geometrischesund harmonisches Mittel: • Bei positiven Beobachtungswerten a1,...,an gilt stets die Beziehung ah ag a • Bei identischen Beobachtungen a1=...=an sind die Mittel gleich. 23 Streuungsmaße • • • • • • • • Varianz Standardabweichung Variationskoeffizient Mittlere absolute Abweichung Spannweite Quartilsabstand Schiefe Wölbung 24 Varianz • Beobachtungswerte a1,...,an (metrisch skaliert) • Streuungsmaß: Arithmetische Mittel der Abweichungsquadrate der Einzelwerte ai von ihrem arithmetischen Mittel • Varianz (Mittlere quadratische Abweichung) n 1 σ 2 (a i a) 2 n i 1 25 Varianz • Bsp. Körpergröße von 5 Personen: 162, 170, 155, 187, 179 • Arithmetisches Mittel = 170,6 • Varianz (Mittlere quadratische Abweichung) σ² = 1/5 · [(162-170,6)² + … + (179-170,6)² ] σ² = 131,44 26 Streuungsmaß • Streuungsmaß: Summe der quadrierten Abweichungen - nicht Summe der Abweichungen von ai von ihrem arithm. Mittel, da gilt: n (a i 1 i a) 0 • Mittlere quadratische Abweichung bezogen auf einen beliebigen Wert M 1 n MQ(M) (a i M) 2 n i 1 27 Varianz • Verschiebungssatz (Beziehung zw. MQ(M) und Varianz): 2 2 MQ(M) σ (a M) • Das bedeutet: – MQ(M) Varianz – MQ(M) = σ² wenn M = arithm. Mittel – Minimumeigenschaft des arithm. Mittels. n n 2 (a a ) (a M) i i 2 i 1 (M a) i 1 28 Varianz • Rechenvereinfachung: 1 n 1 n 2 2 σ (a i a) a i a 2 n i 1 n i 1 2 • Liegt eine Häufigkeitsverteilung vor: k Merkmalswerte x1,...,xk mit abs. Häufigkeiten hi bzw. rel. Häufigkeiten fi (i=1,...,k) • Varianz: n 1 σ 2 (x i x) 2 h i n i 1 mit n 1 n x xihi xifi n i 1 i 1 n σ (x i x) 2f i 2 i 1 29 Varianz • Varianz einer Grundgesamtheit, die aus 2 Teilgesamtheiten (n1, n2) besteht: 2 2 2 2 n σ n σ n ( a a ) n ( a a ) 2 2 2 2 σ2 1 1 1 1 n1 n 2 n1 n 2 mit n 1a 1 n 2 a 2 a n1 n 2 30 Varianz • Klassifizierte Daten: Häufigkeitsverteilung • Varianz näherungsweise berechnen, statt der Merkmalswerte xi werden die Klassenmitten xi´ verwendet: 1 n 2 σ (x i x) 2 h i n i 1 mit n 1 n x x i h i x i f i n i 1 i 1 n 1 σ 2 (x i x) 2 f i n i 1 31 Varianz • Bei unimodalen Verteilungen, ist die Varianz, die aus den klassifizierten Daten berechnet wird, größer als die Varianz, die aus den Einzelwerten berechnet wird. • Bei konstanten Klasseneinteilungen (Δx): Sheppardsche Korrektur: σ 2 corr (Δ x) σ 12 2 2 σ² ... die aus den klassifizierten Daten näherungsweise bestimmte Varianz 32 Varianz • Dimension: Quadrat der Dimension der einzelnen Beobachtungen • Eigenschaft: Varianz immer 0 • Ist Varianz = 0, liegt keine Streuung vor, alle Beobachtungswerte sind gleich und somit auch gleich dem arithmetischen Mittel. 33 Standardabweichung • Standardabweichung = Quadratwurzel der Varianz σ σ 2 1 n 2 (a i a) n i 1 34 Varianz & Standardabweichung Eigenschaften: • Lineare Transformation der Einzelwerte ai: ai* = α + βai (i=1,...,n) • Dann: Varianz: σ*² = β²σ² Standardabweichung: σ* = |β| σ • Sonderfall: β=1, Transformation ai* = α + ai σ*² = σ² und σ* = σ 35 Standardisierung • Standardisierung: – Spezielle lineare Transformation – Bildet aus Einzelwerten ai standardisierte Werte zi, indem von jedem ai das arithm. Mittel μ abgezogen wird und durch die Standardabweichung dividiert wird. ai μ zi σ • Arithm. Mittel der zi immer 0, • Varianz der zi immer 1. 36 Variationskoeffizient • Streuung zweier oder mehrerer Verteilungen mit sich stark voneinander unterscheidenden Mittelwerten vergleichen • Relatives Streuungsmaß (für verhältnisskalierte Merkmale mit ausschließlich positiven Merkmalswerten), bezieht die Standardabweichung σ (absolutes Streuungsmaß) auf das arithm. Mittel μ. σ VC μ 37 MAD Mittlere absolute Abw. • Arithmetisches Mittel der absoluten Abweichungen der einzelnen Merkmalswerte vom Mittelwert (z.B. arithm. Mittel oder Median) 1 n MAD | a i M | n i 1 • Minimumeigenschaft des Medians: 1 n 1 n | a i Me | | a i M | n i 1 n i 1 M beliebiger Wert 38 MAD • Häufigkeitsverteilung der Daten • MAD bezogen auf Mittelwert μ 1 n MAD | x i μ | h i n i 1 n MAD | x i μ | f i i 1 • MAD aus Häufigkeitsverteilung von klassifizierte Daten: – Merkmalswerte xi durch Klassenmitten xi´ ersetzen. 39 Spannweite (Range) • Abstand zw. dem größten und dem kleinsten Wert • Einzelwerte der Größe nach ordnen: a[1],…,a[n] R = a[n] - a[1] • Häufigkeitsverteilung von k Merkmalsausprägungen: R = xk - x 1 • Häufigkeitsverteilung von klassifizierten Daten: R = xko - x1u • Spannweite ist instabil gegenüber Ausreißern 40 Quartilsabstand • Quartile Q1, Q2 (=Median), Q3 teilen die Gesamtheit in 4 gleich große Teile. • α-Quantil: a(k) falls n·α keine ganze Zahl (k die auf n·α folgende ganze Zahl) ãα= 1/2 (a(k)+a(k+1)) falls n·α ganze Zahl k=n·α • Quartilsabstand (Interquartile Range) definiert als Spannweite der 50% mittleren Werte: QA = Q3 – Q1 • Eigenschaft: stabil gegenüber Ausreißern 41 Box-Plot • Box-Plot: grafische Darstellung einer Beobachtungsreihe (Verteilung und Struktur) 210 110 200 100 190 90 180 80 170 70 160 60 150 50 40 140 N= 37 9 38 GROEßE N= 38 GEWICHT 42 Box-Plot • Box-Plot für Vergleich von 2 Messreihen: 210 200 9 190 180 170 28 GROEßE 160 150 140 N= SEX 20 18 w m 43 Box-Plot • Box-Plot – Box: beinhaltet 50% der Daten (Grenzen: 1. und 3. Quartil), Darstellung des Medians. – Whiskers: maximal 1,5-mal die Länge der Box. – Ausreißer: Werte außerhalb der Whiskers. • Ausreißer • Krasse Ausreißer 44 Schiefe • Gibt Richtung (rechts- oder linksschief) und Größenordnung der Schiefe einer unimodalen Häufigkeitsverteilung an. 1 n (a i a) 3 n i 1 g1 3 1 n (a i a) 2 n i 1 < 0 linksschiefe g1 = 0 symmetrisch > 0 rechtsschiefe • Kein direkter Streuungsparameter 45 Schiefe • Schiefe einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten 1 k (a i a) 3 h i n g1 i 1 3 k 1 (a i a) 2 h i n i 1 1 k (m i a) 3 h i n g1 i 1 3 k 1 (m i a) 2 h i n i 1 • Berechnung mit Klassenmittel und Klassenmitte kann zu unterschiedlichen Ergebnissen führen. 46 Schiefe • Linksschiefe Verteilung: g1 < 0 Häufigkeit Linksschiefe Verteilung Ausprägung 47 Schiefe • Symmetrische Verteilung: g1 = 0 Häufigkeit Symmetrische Verteilung Ausprägung 48 Schiefe • Rechtschiefe Verteilung: g1 > 0 Häufigkeit Rechtsschiefe Verteilung Ausprägung 49 Wölbung • Wölbung od. Kurtosis od. Exzeß: Maßzahl für unimodale Häufigkeitsverteilungen • Gibt an, ob (bei gleicher Varianz) das absolute Maximum der Häufigkeitsvt. größer als bei der Dichte der Normalvt. ist. g2 1 n (a i a) 4 n i 1 1 (a i a) 2 n i 1 n 2 3 50 Wölbung < 0 abs. Max. kleiner als bei N-Vt. g2 = 0 Normalverteilung > 0 abs. Max. größer als bei N-Vt. • Wölbung einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten k g2 1 ( a i a) 4 h i n i 1 1 n ( a i a) 2 h i n i 1 2 3 g2 1 k 4 (m a ) hi i n i 1 1 (m i a) 2 h i n i 1 n 2 3 51