Fachhochschule Jena University of Applied Sciences

Werbung
Fachhochschule Jena
University of Applied Sciences Jena
Fachbereich Grundlagenwissenschaften
Prof. Dr. Viola Weiß
Sommersemester 2008
Formeln Statistik für Business Administration - Deskriptive Statistik
Eindimensionale Häufigkeitsverteilungen
Merkmal: X
Datenmenge (Stichprobe) vom Umfang n ∈ N: x1 , x2 , ..., xn
geordnete Stichprobe: x(1) , x(2) , ..., x(n) mit x(1) ≤ x(2) ≤ ... ≤ x(n)
Ausprägungen von X (falls X nicht stetiges Merkmal): a1 , a2 , ..., am mit m ∈ N
Häufigkeiten:
Absolute Häufigkeit: H(ai ) für i = 1, ..., m
Anzahl des Vorkommens der Ausprägung ai vom Merkmal X in der Stichprobe.
Es gilt: 0 ≤ H(ai ) ≤ n für alle Ausprägungen ai
H(a1 ) + H(a2 ) + ... + H(am ) = n .
Relative Häufigkeit:
h(ai ) =
1
n
H(ai )
für i = 1, ..., m
Anteil des Vorkommens der Ausprägung ai vom Merkmal X in der Stichprobe.
Es gilt: 0 ≤ h(ai ) ≤ 1 für alle Ausprägungen ai
h(a1 ) + h(a2 ) + ... + h(am ) = 1 .
Summenhäufigkeiten (kumulative Häufigkeiten):
Voraussetzung: Die Ausprägungen vom Merkmal X lassen sich der Größe nach ordnen,
d.h. a1 < a2 < ... < am .
S(ai ) = H(a1 ) + H(a2 ) + ... + H(ai )
Absolute Summenhäufigkeit:
i
X
X
=
H(ak ) =
H(ak )
für i = 1, ..., m.
k=1
ak ≤ai
Anzahl des Vorkommens aller Ausprägungen vom Merkmal X in der Stichprobe, die kleiner oder gleich ai sind.
Es gilt: 0 ≤ S(a1 ) ≤ S(a2 ) ≤ ... ≤ S(am ) = n.
Relative Summenhäufigkeit:
s(ai ) = n1 S(ai ) = h(a1 ) + h(a2 ) + ... + h(ai )
i
X
X
=
h(ak ) =
h(ak )
für i = 1, ..., m.
k=1
ak ≤ai
Anteil des Vorkommens aller Ausprägungen vom Merkmal X in der Stichprobe, die kleiner
oder gleich ai sind.
Es gilt: 0 ≤ s(a1 ) ≤ s(a2 ) ≤ ... ≤ s(am ) = 1.
1
Empirische Verteilungsfunktion:
F : R −→ [0, 1] mit

0
x < a1




s(a1 )
a1 ≤ x < a2



 s(a2 )
a2 ≤ x < a3
X
F (x) =
h(ai ) =
:


:
ai ≤x




s(am−1 ) am−1 ≤ x < am


1
am ≤ x
Eigenschaften der empirischen Verteilungsfunktion:
• Treppenfunktion
• monoton wachsend
• Sprungstellen (Unstetigkeitsstellen): Merkmalsausprägungen a1 , ..., am
• Sprunghöhe an Sprungstelle ai : relative Häufigkeit h(ai ), i = 1, ..., m
• rechtsseitig stetig
Mittelwerte:
1. Modalwert: xD
Ausprägung vom Merkmal X mit größter vorkommender Häufigkeit in der Stichprobe.
(xD muß nicht eindeutig bestimmt sein.)
2. Median (Zentralwert): xZ
Wert in der Mitte der geordneten Stichprobe, d.h.
(
n ungerade
x( n+1 )
2
xZ =
1
x( n2 ) + x( n2 +1) n gerade
2
(xZ muß nicht mit einem Wert der Stichprobe übereinstimmen.)
3. arithmetisches Mittel: x
n
1
1X
x =
(x1 + x2 + ... + xn ) =
xi
n
n i=1
m
m
X
1X
H(ai ) · ai =
h(ai ) · ai
n i=1
i=1
=
4. geometrisches Mittel: xG
xG =
√
n
x1 · ... · xn =
q
n
H(a1 )
a1
H(am )
· ... · am
h(a1 )
= a1
h(am )
· ... · am
,
falls alle xi , ai > 0.
Äquivalente Formel: lg xG = n1 (lg x1 + ... + lg xn )
5. harmonisches Mittel: xH
xH =
1
x1
n
+ ... +
1
xn
=
n
H(a1 )
a1
+ ... +
2
H(am )
am
=
1
h(a1 )
a1
+ ... +
h(am )
am
Quantile:
α - Quantil für α ∈ (0, 1): xα
Aufteilung der geordneten Stichprobe bezüglich α · 100%, d.h. mindestens α · 100% der
Daten sind kleiner oder gleich xα und mindestens (1 − α) · 100% der Daten sind größer
oder gleich xα .
( 1
αn ganzzahling
x(αn) + x(αn+1)
2
Berechnungsvorschrift für xα :
xα =
x([αn]+1)
αn nicht ganzzahlig
[αn] bedeutet ganzzahliger Anteil von αn, z.B. [5, 61] = 5.
Es gilt: x0.5 = xZ .
x0.25 , x0.5 , x0.75 heißen Quartile.
x0.75 − x0.25 heißt Quartilsabstand.
Streuungsmaße:
1. Spannweite: w = max{x1 , ..., xn } − min{x1 , ..., xn } = x(n) − x(1)
2. mittlere absolute Abweichung von einem Mittelwert:
n
1X
dx =
|xi − x|
mittlere absolute Abweichung vom arithmetischen Mittel
n i=1
n
1X
|xi − xZ |
dxZ =
mittlere absolute Abweichung vom Zentralwert
n i=1
analoge Formeln mit absoluten oder relativen Häufigkeiten, z.B.:
m
m
X
1X
|ai − xZ | · H(ai ) =
|ai − xZ | · h(ai )
dxZ =
n i=1
i=1
3. Varianz und Standardabweichung:
Varianz s2 – mittlere quadratische Abweichung vom arithmetischen Mittel:
n
m
m
1 X
1 X
n X
(xi − x)2 =
(ai − x)2 · H(ai ) =
(ai − x)2 · h(ai )
s2 =
n − 1 i=1
n − 1 i=1
n − 1 i=1
s
n
√
1 X
2
(xi − x)2
Standardabweichung: s = s =
n − 1 i=1
!
n
X
1
andere Berechnungsvorschrift für s2 : s2 =
x2 − n(x)2
n − 1 i=1 i
4. Variationskoeffizient: v =
s
falls x 6= 0.
x
Klassierte Daten:
Klasseneinteilung der Daten (Stichprobenumfang n) in disjunkte Klassen K1 , ..., Km mit
Klassenmitten x∗1 , ..., x∗m und absoluten bzw. relativen Klassenhäufigkeiten der i-ten Klasse
H(Ki ), h(Ki ), i = 1, ..., m.
m
m
X
1X ∗
Dann gilt: x =
x · H(Ki ) =
x∗i · h(Ki )
n i=1 i
i=1
m
s2 =
m
n X ∗
1 X ∗
(xi − x)2 · H(Ki ) =
(x − x)2 · h(Ki )
n − 1 i=1
n − 1 i=1 i
Andere Formeln analog mit x∗i als Repräsentant für die i-te Klasse Ki , i = 1, ..., m.
3
Zugehörige Unterlagen
Herunterladen