Formelsammlung zur Klausur Beschreibende Statistik

Formelsammlung
zur Klausur
Beschreibende Statistik
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Statistische Daten
Qualitative Daten
Nominal skalierte Merkmalsausprägungen (Unterscheidungsmerkmale)

können nicht durch Auszählen oder Messen ermittelt werden.

haben keine natürliche Reihenfolge.

liefern keine Abstände oder Verhältnisse.
Ordinal skalierte Merkmalsausprägungen (Rangmerkmale)

können in eine natürliche Reihenfolge (auf- oder absteigende Ordnung) gebracht
werden.

sind keine absoluten, sondern nur relative Werte.

liefern keine Abstände oder Verhältnisse.
Quantitative Daten
Metrisch skalierte Merkmalsausprägungen (Abstandsmerkmale)

sind messbar oder abzählbar (reelle Zahlen).

sind absolute Werte.

liefern Abstände und Verhältnisse.

sind diskret, wenn es nur endlich viele Ausprägungen geben kann (zählen).

sind stetig, wenn sie jeden beliebigen reellen Wert zumindest in einem bestimmten Intervall annehmen können (messen).
© JB
Seite 2 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Häufigkeitsverteilung
Absolute Häufigkeit
Die Anzahl hi (i = 1, 2, ..., k) der statistischen Einheiten mit der Merkmalsausprägung xi bezeichnet man als absolute Häufigkeit. Es gilt:
k
h1  h2  h3  ...  hk =
∑ hi
= n
i=1
Relative Häufigkeit
Dividiert man die absoluten Häufigkeiten hi durch die Anzahl n der statistischen Einheiten,
so erhält man die relativen Häufigkeiten fi.
fi =
hi
n
Die Größen 100 * fi % heißen prozentuale Häufigkeiten.
k
Es gilt:
∑ fi
= 1 = 100
i=1
Regel für Klassenbildung
•
Zu viele Klassen machen das Bild unübersichtlich
•
Zu wenige Klassen lassen Informationen verloren gehen
•
In der Regel 5 – 20 Klassen, jedoch weniger als n (n ist Größe der Stichprobe)
•
Es soll eine obere und untere Klassengrenze fest gelegt werden
•
In der Regel gleich breite Klassen verwenden
•
Ungleiche Klassenbreiten nur, wenn viele Beobachtungen in kleinem Bereich und
geringer Rest in weitem Bereich.
Häufigkeitsdichte=
Häufigkeit
Klassenbreite
Häufigkeitssummenverteilung
Aufsummierte Häufigkeiten. Die Addition der Häufigkeiten erfolgt nach der natürlichen
Reihenfolge der Ausprägungen von der kleinsten zur größten. Die Summenverteilung ist
nur für Rang- und Abstandsmerkmale sinnvoll.
Man summiert die Häufigkeiten aller Ausprägungen bis zu einem bestimmten Wert. Die
Häufigkeitssummenverteilung gibt also an, wie viele Einheiten einer Gesamtheit einen bestimmten Wert nicht überschreiten.
Die aufsummierten Häufigkeiten werden durch die Summenkurve grafisch veranschaulicht.
© JB
Seite 3 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Mittelwerte oder Lageparameter
Das arithmetische Mittel
n
Arithmetisches Mittel x =
Summe der Einzelwerte
1
⋅∑ x i =
n i =1
Anzahl der Einheiten
Das gewogene arithmetische Mittel
n
x =
∑ x i⋅hi
i =1
n
∑ hi
i =1
Das arithmetische Mittel klassierter Daten
n
1
x = ∑  x *i⋅h i 
n i =1
mit x *i Klassenmitte der Klasse i
Modalwert oder häufigster Wert
Modalwert = diejenige Merkmalsausprägung die am häufigsten vorkommt.
Zentralwert oder Median
Der Zentralwert ist diejenige Merkmalsausprägung, die in der Mitte der in eine Rangfolge
gebrachten Einzelausprägungen steht.
n1
2
Anzahl der Elemente ungerade:
Median an der Stelle
Anzahl der Elemente gerade:
Median arithmetisches Mittel der Elemente an den
n
n
1
Stellen
und
2
2
© JB
Seite 4 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Quartile
Quartile geben zusammen mit dem Median Hinweise auf die Verteilung der Daten: Links
des unteren Quartils (x0, 25) liegen etwa 25% der Daten und rechts des oberen Quartils
(x0, 75) ebenfalls etwa 25% der Daten. Im mittleren Bereich liegen die restlichen 50%.
Bestimmung der Quartile Q1, Q2 und Q3:
Q2 entspricht dem Median. Bestimmung siehe oben.
Zur Bestimmung von Q1 und Q3 wird die untere bzw. die obere Hälfte der Daten nach der
gleichen Methode wie bei der Bestimmung des Medians nochmals unterteilt.
Geometrisches Mittel
Immer dann, wenn es um die Ermittlung durchschnittlicher Wachstumsraten geht, versagt
das arithmetische Mittel. An seiner Stelle wird das geometrische Mittel verwendet.
GM =
© JB
n x 1⋅x 2⋅...⋅x n
für x i  0
Seite 5 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Streuungsmaße
Spannweite oder Variationsbreite
Spannweite = Differenz zwischen dem grössten (xmax) und dem kleinsten (xmin) Wert.
Quartilsabstand und Boxplot
Der Quartilsabstand ist die Differenz zwischen dem ersten und dritten Quartil. Er umfasst
den Bereich der mittleren 50% der Werte.
Das Box- and Wiskersdiagramm stellt eine Häufigkeitsverteilung dar: Zwischen dem 1.
und 3. Quartil wird ein Kasten aufgebaut. In diesem Bereich liegen 50% der Beobachtungen.
Die seitlich angesetzten Schnurrhaare vermitteln einen Eindruck, wie weit die restlichen
50% der Werte streuen. Wie weit die Schnurrhaare ausgezogen werden ist unterschiedlich. Die gebräuchlichsten Verfahren gehen bis zu den Extremwerten bzw. bis zum 10.
und 90. Perzentil.
Mittlere lineare Abweichung
Mittlere lineare Abweichung bezeichnet das arithmetische Mittel der absoluten Abweichungen der Merkmalswerte von einem Mittelwert (arithmetisches Mittel oder Median).
n
d =
1
∑ ∣x −M∣
n i =1 i
M = Mittelwert
Varianz
n
Summe aller Abweichungsquadrate
1
s =
= ∑  x i −AM 2
Zahl der Meßwerte
n i =1
2
(AM = arithmetisches Mittel)
Standardabweichung
Die Standardabweichung s ist die Wurzel aus der Varianz.
s =
© JB
s
2
=

n
1
 x i −AM 2
∑
n i =1
Seite 6 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Variationskoeffizient
Variationskoeffizient = Quotient aus Standardabweichung und arithmetischem Mittel.
v =
s
AM
Der Variationskoeffizient v ist eine dimensionslose Zahl. Er gibt an, wie viel Prozent vom
arithmetischen Mittelwert die Standardabweichung beträgt.
Der Variationskoeffizienten ist ein relatives oder größenunabhäniges Streuungsmaß. Er ist
daher geeignet, die Streuung mehrerer Verteilungen mit unterschiedlichen Mittelwerten zu
vergleichen.
© JB
Seite 7 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Regression und Korrelation
Lineare Regression
Bestimmung der Geradengleichung y = ax + b.
Berechnungsverfahren 1:
n
a =
n∑ xi yi −
i =1
n
n ∑ x 2i −
i =1
n
b =
i =1
n
i =1
i =1
2
∑ 
n
∑ x ∑ yi
2
i
n
∑ xi ∑ y i
−
i =1
n
n ∑ x 2i −
i =1
n
xi
i =1
n
n
i =1
i =1
2
∑ xi ∑ xi yi
 
n
∑ xi
i =1
Arbeitstabelle:
xi
yi
x i⋅y i
x 2i
∑ xi
∑ yi
∑ xi yi
∑ x 2i
Berechnungsverfahren 2:
n
a =
∑  x i −x  y i −y 
i =1
n
∑  x i −x 2
=
Kovarianz
Varianz der x −Werte
i =1
b = y −a x
© JB
Seite 8 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Arbeitstabelle:
xi
yi
x i − x
 x i − x 
y i − y
 x i −
x y i −
y
∑ xi
∑ yi
∑ x i −x
∑ x i −x 2
∑ y i −y
∑ x i −x  y i −y 
2
Korrelationskoeffizient von Pearson
Der Korrelationskoeffizient von Pearson liefert ein Maß für die Abhängigkeit der beiden
Merkmale x und y. Er kann die Werte zwischen -1 und +1 annehmen.
r=
1:
Alle Beobachtungswerte liegen auf einer steigenden Geraden.
r = –1:
Alle Beobachtungswerte liegen auf einer fallenden Geraden.
r>
0:
Merkmale positiv korreliert, d.h. die Regressionsgerade ist steigend.
r<
0:
Merkmale negativ korreliert, d.h. die Regressionsgerade ist fallend.
r=
0:
Die Merkmale sind unkorreliert, d.h. es besteht kein linearer Zusammenhang.
Berechnungsverfahren 1:
n
r =
∑ x i −x  y i −y 
i =1
∑
n
i =1
x i −
x 2
∑
n
i =1
 y i −
y 2
n
=

1
∑ x −x  y i −y 
n i =1 i

n
n
1
1
x i −
x 2
 y i −
y 2
∑
∑
n i =1
n i =1
s xy
s x⋅s y
=
Arbeitstabelle:
xi
yi
∑ xi
∑ yi
© JB
x i − x
2
x i − x 
y i − y
∑ x i −x 2
Seite 9 / 12
2
y i − y 
x i −
x y i −
y
∑  y i −y 2 ∑  x i −x y i −y 
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Berechnungsverfahren 2:
n
r =
n∑ xi yi −
[
i =1
n
n∑ x −
i =1
2
i
n
n
i =1
i =1
∑ xi ∑ yi
∑  ][ ∑
2
n
i =1
xi
n
n
i =1
2
i
y −
∑  ]
2
n
i =1
yi
Arbeitstabelle:
xi
∑ xi
yi
x i⋅y i
x 2i
y i2
∑ yi
∑ xi y i
∑ x 2i
∑ y 2i
Rangkoeffizient von Spearman
Voraussetzung: es liegen zwei Merkmale vor, die mindestens eine Ordinalskala besitzen.
Die Merkmalswerte eines jeden Merkmals werden aufsteigend geordnet und es wird ihnen
entsprechend ihrem Platz eine Rangzahl zugeordnet.
Für die weitere Berechnungen verwendet man nur noch die Rangzahlen, nicht mehr die
tatsächlichen Merkmalswerte.
n
rs = 1 −
6 ∑ d i2
i =1
2
n n −1
n = Anzahl der statistischen Einheiten
d i = Rang  x i  − Rang y i 
2
d i = quadratische Differenz zwischen den Rängen der beiden Merkmale
© JB
Seite 10 / 12
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Mittlere quadratische Kontingenz
y1
...
yj
...
yr
x1
n11
...
n1j
...
n1r
...
...
...
...
...
...
xi
ni1
...
...
...
...
...
...
xm
nm1
...
nmj
...
nmr
nm*
n*r
n
nij
n*1
nir
n*j
n1*
ni*
Berechnungsverfahren 1:
C =
1
n


∑∑
m
r
i =1 j =1
n ⋅n
n ij − i * * j
n
n i *⋅n * j
n

2

Arbeitstabelle:
nij
n i *⋅n * j
n
n ij −
n i *⋅n * j
n

n ⋅n
nij − i * * j
n

2

∑
© JB
Seite 11 / 12
n ⋅n
n ij − i * * j
n
n i *⋅n * j
n


2
n ⋅n
n ij − i * * j
n
n i *⋅n * j
n

2
Formelsammlung Beschreibende Statistik
2. Semester 2004/2005
Berechnungsverfahren 2:

n 2ij
C = ∑∑
i =1 j =1 n i *⋅n * j
m
r

− 1
Arbeitstabelle:
n ij
n i *⋅n * j
n 2ij
n 2ij
ni *⋅n * j
n2ij
∑ n ⋅n
i*
*j
Vierfelderkoeffizient
n11
n12
n1*
n21
n22
n2*
n*1
n*2
n
 =
n12⋅n 21 − n11⋅n22
 n11n12 n21n22 n11n21 n12n22 
korr =
n12⋅n 21 − n11⋅n 22
n⋅minn11, n 22   n12 n 21 − n11 n22
wenn n12 n 21  n11 n 22
korr =
n12⋅n 21 − n11⋅n 22
n⋅minn 21, n12  − n12 n 21  n11 n22
wenn n12 n 21  n11 n 22
© JB
Seite 12 / 12