Fachhochschule Jena University of Applied Sciences Jena Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Sommersemester 2008 Formeln Statistik für Business Administration - Deskriptive Statistik Eindimensionale Häufigkeitsverteilungen Merkmal: X Datenmenge (Stichprobe) vom Umfang n ∈ N: x1 , x2 , ..., xn geordnete Stichprobe: x(1) , x(2) , ..., x(n) mit x(1) ≤ x(2) ≤ ... ≤ x(n) Ausprägungen von X (falls X nicht stetiges Merkmal): a1 , a2 , ..., am mit m ∈ N Häufigkeiten: Absolute Häufigkeit: H(ai ) für i = 1, ..., m Anzahl des Vorkommens der Ausprägung ai vom Merkmal X in der Stichprobe. Es gilt: 0 ≤ H(ai ) ≤ n für alle Ausprägungen ai H(a1 ) + H(a2 ) + ... + H(am ) = n . Relative Häufigkeit: h(ai ) = 1 n H(ai ) für i = 1, ..., m Anteil des Vorkommens der Ausprägung ai vom Merkmal X in der Stichprobe. Es gilt: 0 ≤ h(ai ) ≤ 1 für alle Ausprägungen ai h(a1 ) + h(a2 ) + ... + h(am ) = 1 . Summenhäufigkeiten (kumulative Häufigkeiten): Voraussetzung: Die Ausprägungen vom Merkmal X lassen sich der Größe nach ordnen, d.h. a1 < a2 < ... < am . S(ai ) = H(a1 ) + H(a2 ) + ... + H(ai ) Absolute Summenhäufigkeit: i X X = H(ak ) = H(ak ) für i = 1, ..., m. k=1 ak ≤ai Anzahl des Vorkommens aller Ausprägungen vom Merkmal X in der Stichprobe, die kleiner oder gleich ai sind. Es gilt: 0 ≤ S(a1 ) ≤ S(a2 ) ≤ ... ≤ S(am ) = n. Relative Summenhäufigkeit: s(ai ) = n1 S(ai ) = h(a1 ) + h(a2 ) + ... + h(ai ) i X X = h(ak ) = h(ak ) für i = 1, ..., m. k=1 ak ≤ai Anteil des Vorkommens aller Ausprägungen vom Merkmal X in der Stichprobe, die kleiner oder gleich ai sind. Es gilt: 0 ≤ s(a1 ) ≤ s(a2 ) ≤ ... ≤ s(am ) = 1. 1 Empirische Verteilungsfunktion: F : R −→ [0, 1] mit 0 x < a1 s(a1 ) a1 ≤ x < a2 s(a2 ) a2 ≤ x < a3 X F (x) = h(ai ) = : : ai ≤x s(am−1 ) am−1 ≤ x < am 1 am ≤ x Eigenschaften der empirischen Verteilungsfunktion: • Treppenfunktion • monoton wachsend • Sprungstellen (Unstetigkeitsstellen): Merkmalsausprägungen a1 , ..., am • Sprunghöhe an Sprungstelle ai : relative Häufigkeit h(ai ), i = 1, ..., m • rechtsseitig stetig Mittelwerte: 1. Modalwert: xD Ausprägung vom Merkmal X mit größter vorkommender Häufigkeit in der Stichprobe. (xD muß nicht eindeutig bestimmt sein.) 2. Median (Zentralwert): xZ Wert in der Mitte der geordneten Stichprobe, d.h. ( n ungerade x( n+1 ) 2 xZ = 1 x( n2 ) + x( n2 +1) n gerade 2 (xZ muß nicht mit einem Wert der Stichprobe übereinstimmen.) 3. arithmetisches Mittel: x n 1 1X x = (x1 + x2 + ... + xn ) = xi n n i=1 m m X 1X H(ai ) · ai = h(ai ) · ai n i=1 i=1 = 4. geometrisches Mittel: xG xG = √ n x1 · ... · xn = q n H(a1 ) a1 H(am ) · ... · am h(a1 ) = a1 h(am ) · ... · am , falls alle xi , ai > 0. Äquivalente Formel: lg xG = n1 (lg x1 + ... + lg xn ) 5. harmonisches Mittel: xH xH = 1 x1 n + ... + 1 xn = n H(a1 ) a1 + ... + 2 H(am ) am = 1 h(a1 ) a1 + ... + h(am ) am Quantile: α - Quantil für α ∈ (0, 1): xα Aufteilung der geordneten Stichprobe bezüglich α · 100%, d.h. mindestens α · 100% der Daten sind kleiner oder gleich xα und mindestens (1 − α) · 100% der Daten sind größer oder gleich xα . ( 1 αn ganzzahling x(αn) + x(αn+1) 2 Berechnungsvorschrift für xα : xα = x([αn]+1) αn nicht ganzzahlig [αn] bedeutet ganzzahliger Anteil von αn, z.B. [5, 61] = 5. Es gilt: x0.5 = xZ . x0.25 , x0.5 , x0.75 heißen Quartile. x0.75 − x0.25 heißt Quartilsabstand. Streuungsmaße: 1. Spannweite: w = max{x1 , ..., xn } − min{x1 , ..., xn } = x(n) − x(1) 2. mittlere absolute Abweichung von einem Mittelwert: n 1X dx = |xi − x| mittlere absolute Abweichung vom arithmetischen Mittel n i=1 n 1X |xi − xZ | dxZ = mittlere absolute Abweichung vom Zentralwert n i=1 analoge Formeln mit absoluten oder relativen Häufigkeiten, z.B.: m m X 1X |ai − xZ | · H(ai ) = |ai − xZ | · h(ai ) dxZ = n i=1 i=1 3. Varianz und Standardabweichung: Varianz s2 – mittlere quadratische Abweichung vom arithmetischen Mittel: n m m 1 X 1 X n X (xi − x)2 = (ai − x)2 · H(ai ) = (ai − x)2 · h(ai ) s2 = n − 1 i=1 n − 1 i=1 n − 1 i=1 s n √ 1 X 2 (xi − x)2 Standardabweichung: s = s = n − 1 i=1 ! n X 1 andere Berechnungsvorschrift für s2 : s2 = x2 − n(x)2 n − 1 i=1 i 4. Variationskoeffizient: v = s falls x 6= 0. x Klassierte Daten: Klasseneinteilung der Daten (Stichprobenumfang n) in disjunkte Klassen K1 , ..., Km mit Klassenmitten x∗1 , ..., x∗m und absoluten bzw. relativen Klassenhäufigkeiten der i-ten Klasse H(Ki ), h(Ki ), i = 1, ..., m. m m X 1X ∗ Dann gilt: x = x · H(Ki ) = x∗i · h(Ki ) n i=1 i i=1 m s2 = m n X ∗ 1 X ∗ (xi − x)2 · H(Ki ) = (x − x)2 · h(Ki ) n − 1 i=1 n − 1 i=1 i Andere Formeln analog mit x∗i als Repräsentant für die i-te Klasse Ki , i = 1, ..., m. 3