Formelsammlung zum Methodenseminar „Statistik für Diplom

Werbung
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Formelsammlung zum Methodenseminar
„Statistik für Diplom Geographen“
Institut für Geographie
Friedrich-Schiller-Universität Jena
P. Krause & M. Santoro
-1-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Teil A Univariate Deskriptive Statistik ......................................................................... 6
1.
Das Summenzeichen .......................................................................................... 6
1.1
Definition ...................................................................................................... 6
1.2
Rechenregeln ............................................................................................... 6
2.
Formelzeichen..................................................................................................... 7
3.
Skalen ................................................................................................................. 7
4.
Häufigkeiten ........................................................................................................ 8
5.
6.
7.
4.1
Einfache Häufigkeiten .................................................................................. 8
4.2
Kumulierte Häufigkeiten (Summenhäufigkeiten) .......................................... 8
Klassierte Daten .................................................................................................. 9
5.1
Klassenzahl, Klassenbreite .......................................................................... 9
5.2
Definition und Berechnung von Klassenmerkmalen ..................................... 9
Lageparameter .................................................................................................. 10
6.1
Modus, Dichtester Wert.............................................................................. 10
6.2
Quantile, Quartile ....................................................................................... 11
6.3
Median, Zentralwert.................................................................................... 11
6.4
Mittelwerte.................................................................................................. 11
6.4.1
Arithmetisches Mittel ........................................................................... 11
6.4.2
Gewogenes arithmetisches Mittel ....................................................... 12
6.4.3
Harmonisches Mittel............................................................................ 12
6.4.4
Geometrisches Mittel .......................................................................... 12
Streuungsparameter.......................................................................................... 13
7.1
7.1.1
Spannweite ......................................................................................... 13
7.1.2
Durchschnittliche Abweichung ............................................................ 13
7.1.3
Varianz ................................................................................................ 13
7.1.4
Standardabweichung .......................................................................... 13
7.2
8.
9.
Absolute Streuungsmaße........................................................................... 13
Relative Streuungsmaße............................................................................ 13
7.2.1
Relative Variabilität ............................................................................. 13
7.2.2
Variationskoeffizient ............................................................................ 13
Formparameter.................................................................................................. 14
8.1
Schiefe ....................................................................................................... 14
8.2
Wölbung – Exzess...................................................................................... 14
Konzentrationsmaße - Disparitätsparameter ..................................................... 15
-2-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
9.1
Absolute Konzentrationsmaße ................................................................... 15
9.1.1
9.2
Herfindahl-Index.................................................................................. 15
Relative Konzentrationsmaße .................................................................... 15
9.2.1
Lorenzkurve ........................................................................................ 15
9.2.2
Gini-Koeffizient.................................................................................... 15
Teil B ....................................................................................................................... 17
Bivariate Deskriptive Statistik ............................................................................ 17
10.
Kontingenztabelle .......................................................................................... 17
10.1
Häufigkeiten ............................................................................................... 17
10.1.1
Absolute Randhäufigkeiten ................................................................. 17
10.1.2
Relative Häufigkeiten, relative Randhäufigkeiten ................................ 17
10.1.3
Bedingte relative Häufigkeiten............................................................. 18
10.1.4
Prüfung auf Unabhängigkeit................................................................ 18
11.
Lageparameter bivariater Verteilungen.......................................................... 18
11.1
Arithmetisches Mittelzentrum ..................................................................... 18
11.2
Gewogenes arithmetisches Mittelzentrum.................................................. 18
11.3
Medianzentrum........................................................................................... 19
12.
12.1
13.
Streuungsparameter bivariater Verteilungen ................................................. 19
Standarddistanz ......................................................................................... 19
Korrelationsanalyse ....................................................................................... 19
13.1
Normierter Kontingenzkoeffizient ............................................................... 19
13.2
Vierfelderkorrelationskoeffizient ρφ (rho-phi) .............................................. 20
13.3
Rangkorrelationskoeffizient nach SPEARMAN .............................................. 20
13.4
Produkt-Moment-Korrelationskoeffizient nach BRAVAIS-PEARSON .............. 20
14.
Regressionsanalyse....................................................................................... 21
14.1
Lineare Regression .................................................................................... 21
14.2
Das Bestimmtheitsmaß, Determinationskoeffizient .................................... 21
14.3
Nonlineare Regression............................................................................... 21
Teil C Schließende Statistik...................................................................................... 22
15.
Wahrscheinlichkeitsrechnung ........................................................................ 22
15.1
Begriffsdefinition und Formelzeichen ......................................................... 22
15.2
Axiome der Wahrscheinlichkeitsrechnung (Kolmogoroff-Axiome) .............. 22
15.3
Klassischer Wahrscheinlichkeitsbegriff ...................................................... 22
15.4
Rechenregeln für die Wahrscheinlichkeit ................................................... 22
15.5
Bedingte Wahrscheinlichkeiten .................................................................. 22
15.6
Stochastische Unabhängigkeit ................................................................... 23
-3-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
16.
Verteilungsfunktion F(x) ................................................................................. 23
16.1
F(x) diskreter Zufallsvariablen .................................................................... 23
16.2
F(x) stetiger Zufallsvariablen ...................................................................... 23
17.
Wahrscheinlichkeitsfunktion f(x) .................................................................... 23
17.1
f(x) diskreter Zufallsvariablen ..................................................................... 23
17.2
f(x) stetiger Zufallsvariablen ....................................................................... 24
18.
Erwartungswert .............................................................................................. 24
18.1
Erwartungswert diskreter Zufallsvariablen.................................................. 24
18.2
Erwartungswert stetiger Zufallsvariablen.................................................... 24
19.
Varianz und Standardabweichung ................................................................. 24
19.1
Varianz und Standardabweichung diskreter Variablen............................... 24
19.2
Varianz und Standardabweichung stetiger Variablen................................. 24
20.
Diskrete theoretische Verteilungen ................................................................ 25
20.1
Bernoulli Experiment .................................................................................. 25
20.1.1
Wahrscheinlichkeitsfunktion der Bernoulli Verteilung.......................... 25
20.1.2
Erwartungswert der Bernoulli Verteilung ............................................. 25
20.1.3
Varianz der Bernoulli Verteilung.......................................................... 25
20.2
Binominal Verteilung .................................................................................. 25
20.2.1
Wahrscheinlichkeitsfunktion der Binominal Verteilung ........................ 25
20.2.2
Erwartungswert der Binominalverteilung ............................................. 26
20.2.3
Varianz der Binominal Verteilung ........................................................ 26
20.3
Hypergeometrische Verteilung ................................................................... 26
20.3.1
Verteilungsfunktion der hypergeometrischen Verteilung ..................... 26
20.3.2
Erwartungswert der hypergeometrischen Verteilung........................... 26
20.3.3
Varianz der hypergeometrischen Verteilung ....................................... 27
20.4
Poisson Verteilung ..................................................................................... 27
20.4.1
21.
Verteilungsfunktion der Poisson Verteilung......................................... 27
Stetige theoretische Verteilungen .................................................................. 27
21.1
Die Exponentialverteilung........................................................................... 27
21.1.1
Dichtefunktion der Exponentialverteilung ............................................ 27
21.1.2
Verteilungsfunktion der Exponentialverteilung .................................... 27
21.1.3
Erwartungswert der Exponentialverteilung .......................................... 27
21.1.4
Varianz der Exponentialverteilung....................................................... 27
21.2
Die Normalverteilung.................................................................................. 28
21.2.1
Dichtefunktion der Normalverteilung ................................................... 28
21.2.2
Verteilungsfunktion der Normalverteilung ........................................... 28
-4-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
21.3
Die Standardnormalverteilung .................................................................... 28
21.3.1
Transformation von der Normalverteilung zur Standardnormalverteilung
28
21.3.2
Dichtefunktion der Standardnormalverteilung ..................................... 28
21.3.3
Verteilungsfunktion der Standardnormalverteilung.............................. 28
21.4
22.
Die Lognormalverteilung ............................................................................ 28
Parametrische Signifikanztests...................................................................... 29
22.1
Mittelwerttest .............................................................................................. 29
22.1.1
Gaußtest ............................................................................................. 29
22.1.2
Der t-Test ............................................................................................ 30
22.2
Varianzentest – χ²-Test .............................................................................. 30
22.3
Anteilstest................................................................................................... 30
22.4
Differenzentest (Mittelwerte) ...................................................................... 31
-5-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Teil A
Univariate Deskriptive Statistik
1. Das Summenzeichen
1.1
Definition
n
∑ xi
i =1
mit:
= x1 + x2 + x3 + L + xn −1 + xn
xi
: Objektausprägung
i
: Laufindex über die Objekte (i = 1 ... n)
n
: Anzahl der Objekte
und:
n
∑ a = (a + a + L + a ) = n ⋅ a
i =1
mit:
1.2
a
: Konstante
Rechenregeln
Regel 1:
Ein konstanter, multiplikativer Faktor lässt sich vor das Summenzeichen
ziehen (ausklammern).
n
n
i =1
i =1
∑ a ⋅ xi = a ∑ x i
da: a ⋅ x1 + a ⋅ x2 + L + a ⋅ x n = a ⋅ ( x1 + x 2 + L + x n )
Regel 2:
Eine Summe innerhalb des Summenzeichens lässt sich gliedweise
summieren:
n
n
n
i =1
i =1
i =1
∑ ( xi + y i ) = ∑ x i + ∑ y i
da:
(x1 + y1 ) + (x2 + y 2 ) + L + (xn + yn ) = (x1 + x2 + L + xn ) + ( y1 + y2 + L + yn )
Bei einem konstanten additiven Faktor gilt:
n
n
n
n
i =1
i =1
i =1
i =1
∑ ( a + xi ) = ∑ a + ∑ x i = n ⋅ a + ∑ x i
Regel 3:
Die Verknüpfung von Regel 1 und 2 ergibt:
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
∑ (a ⋅ xi + b ⋅ yi ) = ∑ (a ⋅ xi ) + ∑ (b ⋅ yi ) = a ∑ xi + b∑ yi
-6-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Regel 4:
Das Summenzeichen entspricht der Addition, daher ist die Operatorenrangfolge („Punkt vor Strich“) zu beachten.
n
n
n
i =1
i =1
i =1
∑ ( xi ⋅ y i ) ≠ ∑ x i ⋅ ∑ y i
2. Formelzeichen
Die Elemente der Grundgesamtheit werden mit N bezeichnet. Ihr Wertebereich
sind die natürlichen Zahlen (1 ... ∞)
Die Elemente der Stichprobe werden mit n bezeichnet. Sie sind eine Teilmenge der
Grundgesamtheit N. Daher liegt ihr Wertebereich zwischen 1 und N.
Die Merkmalsträger werden mit einem Laufindex, meist i bzw. j, bezeichnet
mit: i,j = 1 ... n,N
Die Merkmalsausprägungen der Merkmalsträger werden meist mit x bzw. y und
dem entsprechenden Laufindex (i, j) bezeichnet: xi, yi oder xj, yj.
3. Skalen
In der Statistik werden folgende Skalen unterschieden:
Skala
Zweck
Relationen,
Operationen
Beispiel
Nominalskala
Identifikation von
Untersuchungselementen
xi = xj
xi ≠ xj
Geschlecht,
Farben, Namen
wie oben und
Ordinalskala
Identifikation und
Ordnung
Rangfolge beim
Sport,
Richterskala
Nonmetrische
Skalen
xi < xj
xi > xj
wie oben und
Intervallskala
Metrische
Skalen
Identifikation,
Ordnung und Bewertung (additiv)
xi = xj + a
xi = xj - b
Temperaturen
in °C oder F
xi + xj = c
Rationalskala
Identifikation,
Ordnung und Bewertung (multiplikativ)
-7-
wie oben und
xi = xj · a
xi = xj / b
xi · xj = c
Temperaturen
in K, Längen,
Gewichte,
Flächen
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
4. Häufigkeiten
4.1
Einfache Häufigkeiten
Die absolute Häufigkeit mit der die einzelnen Merkmalsausprägungen xi in der
Stichprobe oder Grundgesamtheit auftreten wird mit hi bezeichnet.
Wertebereich: 1 ... N,n
Die relative Häufigkeit beschreibt den Anteil der Merkmalsausprägungen xi an der
Stichprobe bzw. Grundgesamtheit und wird mit fi bezeichnet. fi ergibt sich aus hi
nach:
fi =
hi
n
der Wertebereich liegt zwischen 0 und 1.
Die prozentuale Häufigkeit beschreibt den Anteil der Merkmalsausprägungen xi an
der Stichprobe bzw. Grundgesamtheit in Prozent. Sie wird mit pi bezeichnet und ergibt sich aus fi nach:
pi = f i ⋅100 der Wertebereich liegt zwischen 0 und 100%.
4.2
Kumulierte Häufigkeiten (Summenhäufigkeiten)
Die kumulierten Häufigkeiten ergeben sich durch sukzessives Aufsummieren der
einfachen Häufigkeiten.
Die kumulierte absolute Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit Hi
bezeichnet. Sie ergibt sich aus den absoluten Häufigkeiten hi der Merkmalsträger
nach:
H 1 = h1
H 2 = h1 + h2
H 3 = h1 + h2 + h3
Wertebereich: 1 ... n,N
L
H n = h1 + h2 + h3 + L + hn
Die kumulierte relative Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit Fi
bezeichnet. Sie ergibt sich aus den relativen Häufigkeiten fi der Merkmalsträger
nach:
F1 = f1
F2 = f1 + f 2
F3 = f1 + f 2 + f 3
Wertebereich: 0 ...1
L
Fn = f1 + f 2 + f 3 + L + f n
-8-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Die kumulierte prozentuale Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit
Pi bezeichnet. Sie ergibt sich aus den relativen Häufigkeiten pi der Merkmalsträger
nach:
P1 = p1
P2 = p1 + p 2
P3 = p1 + p 2 + p3
Wertebereich: 0 ...100%
L
Pn = p1 + p 2 + p3 + L + p n
5. Klassierte Daten
Bei großer Anzahl von Untersuchungselementen n oder N und/oder sehr unterschiedlichen Merkmalsausprägungen xi werden die Daten aus Gründen der Anschaulichkeit
oft klassiert.
5.1
Klassenzahl, Klassenbreite
Zur Ermittlung einer geeigneten Klassenzahl k einer Verteilung mit n Elementen kann
die Faustregel nach STURGES herangezogen werden:
k ≈ 1 + 3.32 ⋅ lg n
mit:
k : Anzahl der Klassen
n : Anzahl der Elemente der Verteilung
Die Klassenbreite ∆x ergibt sich daraus nach:
∆x =
( xmax − xmin )
k
mit:
xmax : Größte Merkmalsausprägung
xmin : Kleinste Merkmalsausprägung
Die Faustregel nach STURGES liefert lediglich einen Anhaltspunkt. Bei der tatsächlichen Einteilung der Klassen sollten folgende Regeln beachtet werden:
o Die Klassen sollen gleich breit sein (äquidistant).
o Die Klassen sollen sich nicht überlappen (disjunkt).
o Die Klassen sollen aneinander angrenzen, d.h. keine Werte zwischen zwei aufeinanderfolgende Klassen sollen ausgelassen werden.
o Die Klassen sollen das gesamte Werteintervall der Urliste abdecken.
5.2
Definition und Berechnung von Klassenmerkmalen
Die untere Klassengrenze der Klasse i wird mit xiu bezeichnet.
Die obere Klassengrenze der Klasse i wird mit xio bezeichnet.
Die Klassenbreite der Klasse i wird mit ∆xi bezeichnet und berechnet sich nach:
∆xi = xio − xiu
-9-
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Die Klassenmitte der Klasse i wird mit xim bezeichnet und wird für weitergehende
Berechnungen als repräsentativ für die Klasse angenommnen. Sie berechnet sich
nach:
xim =
( xiu + xio )
2
Die absolute Häufigkeit der Merkmale in der Klasse i wird mit hi bezeichnet und berechnet sich nach:
hi =
xio
∑ hj
mit
hj : Einzelhäufigkeiten der Merkmale innerhalb der Klasse
j = xiu
Aus hi und n ergibt sich die relative Häufigkeit fi der Klasse i nach:
fi =
hi
n
Und daraus die prozentuale Häufigkeit pi der Klasse i nach:
pi = f i ⋅ 100
6. Lageparameter
Die Lageparameter einer statistischen Verteilung dienen der möglichst aussagekräftigen Beschreibung, Repräsentation oder Charakterisierung der gesamten Daten der
Urliste durch einen einzigen Wert.
6.1
Modus, Dichtester Wert
Als Modus, Modalwert oder Dichtester Wert wird der Wert der Verteilungsfunktion
bezeichnet, der am häufigsten auftritt. Er wird mit D oder xmod bezeichnet und ergibt
sich:
Bei unklassierten Daten nach:
D = xi bei hi = max
Bei klassierten Daten kann der Modus nach folgender Schätzformel näherungsweise berechnet werden:


hi max − hi max −1
 ⋅ ∆xi
xmod = xiu max + 
 2 ⋅ hi max − hi max −1 + hi max +1 
mit:
xiumax
: Klassenuntergrenze der am stärksten besetzten Klasse
himax
: absolute Häufigkeit der am stärksten besetzten Klasse
himax+1, -1
: absolute Häufigkeit der benachbarten Klassen
∆xi
: Klassenbreite
Die Angabe eines Modalwertes sollte nur bei eingipfligen (unimodalen) Verteilungen
erfolgen.
- 10 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
6.2
Quantile, Quartile
Quantile beschreiben bestimmte Stellen in der Verteilungsfunktionen bei denen x
Prozent der Werte oberhalb und 100 - x Prozent der Werte unterhalb liegen. Die
Quantile werden mit qp bezeichnet, wobei p dem gesuchten Prozentwert entspricht.
Beispiel: q20 ist der Wert der Verteilungsfunktion bei dem 20% der Merkmale unterhalb und 80% der Merkmale oberhalb lokalisiert sind.
Die Ermittlung der Quantile erfolgt mit Hilfe der kumulierten relativen oder prozentualen Häufigkeiten.
Die besonders wichtigen Quantile an der 25%, 50% und 75%-Stelle der Verteilung
werden erstes, zweites, drittes Quartil genannt.
6.3
Median, Zentralwert
Der Median oder Zentralwert (= zweites Quartil) ist der Beobachtungswert bei dem
mindestens 50% aller Beobachtungen größer oder gleich bzw. 50% aller Beobachtungswerte kleiner oder gleich dieses Wertes sind. Der Median wird mit Me oder xmed
bezeichnet und berechnet sich
für unklassierte Daten:
bei ungerader Merkmalszahl n nach:
xmed = x n+1
2
bei gerader Merkmalszahl n nach:

1
xmed =  x n + x n 
+1
2 2
2 
Bei klassierten Daten erfolgt die Bestimmung des Medians nach folgender Schätzformel:
xmed = xiu ( med)
mit:
6.4
n

 − H i ( med−1) 

+ ∆xmed ⋅  2
hmed






xiu(med)
: Klassenuntergrenze der Klasse die den Median enthält
∆xmed
: Klassenbreite der Klasse die den Median enthält
Hi(med-1)
: Kumulierte absolute Häufigkeit der Klasse unterhalb
hmed
: Absolute Häufigkeit der Klasse die den Median enthält
Mittelwerte
6.4.1 Arithmetisches Mittel
Das arithmetische Mittel wird mit x bezeichnet und ist der bekannteste Mittelwert.
Die Berechnung erfolgt nach:
x=
1 n
∑ xi für unklassierte, ungruppierte Einzelwerte bzw.:
n i =1
- 11 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
1 n
x = ∑ xi ⋅ hi
n i =1
für klassierte oder gruppierte Werte.
6.4.2 Gewogenes arithmetisches Mittel
Mit dem gewogenen arithmetischen Mittel ( x g ) können einzelne Beobachtungswerte für die Berechnung des Mittelwertes unterschiedlich gewichtet werden. Die Berechnung erfolgt nach:
n
xg =
∑ xi ⋅ g i
i =1
mit gi : Gewichte der Beobachtungswerte xi
n
∑ gi
i =1
6.4.3 Harmonisches Mittel
Das harmonische Mittel ( xh ) kommt zum Einsatz, wenn das Mittel aus Verhältniszahlen mit variablen Nenner berechnet wird.
xh =
n
n
1
∑x
i =1
i
6.4.4 Geometrisches Mittel
Bei multiplikativer Abhängigkeit der Beobachtungswerte, wie z.B. bei Wachstum oder
Reihenfortpflanzungen erfolgt die Mittelwertberechnung mit dem geometrischen
Mittel ( xg ) nach:
xg = n x1 ⋅ x2 ⋅ K ⋅ xn =
n
n
∏ xi
i =1
Alternativ kann mit logarithmierten Werten gerechnet werden nach:
lg xg =
1 n
∑ lg xi
n i =1
Bei gruppierten oder klassierten Werten berechnet sich xg nach:
xg = n x1h ⋅ x2h ⋅ K ⋅ xnh =
1
2
n
n
n
∏ xih
i
i =1
bzw. lg xg =
- 12 -
1 n
∑ hi ⋅ lg xi
n i =1
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
7. Streuungsparameter
Die Streuungsparameter (Streuungsmaße, Dispersionsmaße) geben Auskunft über
die Verteilung der Daten innerhalb der Stichprobe oder der Grundgesamtheit.
7.1
Absolute Streuungsmaße
7.1.1 Spannweite
Die Spannweite wird mit R (Range) bezeichnet und beschreibt die Ausdehnung einer
Verteilung und berechnet sich nach:
R = xmax − xmin
7.1.2 Durchschnittliche Abweichung
Die durchschnittliche Abweichung DA ist als die mittlere absolute Abweichung der
Merkmalsausprägungen von ihrem Mittelwert definiert und berechnet sich nach:
DA =
1 n
∑ ( xi − x )
n i =1
7.1.3 Varianz
Die Varianz s² ist als die Summe der quadratischen Abweichungen der Merkmalsausprägungen von ihrem Mittelwert definiert und berechnet sich nach:
1 n
s = ∑ ( xi − x ) 2
n i =1
2
7.1.4 Standardabweichung
Als Wurzel aus der Varianz ergibt sich die Standardabweichung s, die den Vorteil
besitzt, dass bei ihr Dimension und Einheit der Beobachtungswerte erhalten bleiben.
s=
7.2
1 n
( xi − x ) 2 = s 2
∑
n i =1
Relative Streuungsmaße
Der Vergleich der Streuung unterschiedlicher Verteilung ist auf Grund ihrer absoluten
Ausprägung mit den oben aufgeführten Streuungsmaßen nur bedingt möglich. Besser hierfür geeignet sind die relativen Streuungsmaße.
7.2.1 Relative Variabilität
Die relative Variabilität Vrel [in %] wird durch die Normierung der durchschnittlichen
Abweichung mit dem Betrag des Mittelwertes berechnet:
Vrel =
DA
⋅ 100
x
7.2.2 Variationskoeffizient
Der Variationskoeffizient V [in %] wird durch die Normierung der Standardabweichung mit dem Betrag des Mittelwertes berechnet:
- 13 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
V=
s
⋅ 100
x
8. Formparameter
Mit den Formparametern wird die Form der Verteilungsfunktion beschrieben und bezüglich ihrer Abweichung von der Normalverteilung bewertet.
8.1
Schiefe
Über die Schiefe wird beschrieben ob und wie stark eine Verteilung in ihrer Symmetrie von der Normalverteilung abweicht.
Me < MW
linkssteil – rechtsschief
MW < Me
Me = MW
symmetrisch
rechtssteil - linksschief
Die Schiefe g berechnet sich mit dem dritten Standardmoment nach:
1 n
( xi − x )3
∑
g = n i =1 3
s
Es gilt: g = 0 für symmetrische Verteilungen (Median = Mittelwert)
g > 0 für linkssteile (=rechtsschiefe) Verteilungen (Median < Mittelwert)
g < 0 für rechtssteile (=linksschiefe) Verteilungen (Median > Mittelwert)
8.2
Wölbung – Exzess
Mit dem Exzess wird beschrieben ob und wie stark eine Verteilung hinsichtlich ihrer
Wölbung von der Normalverteilung (Exzess = 3) abweicht.
negative Wölbung
Exzess = 0
positive Wölbung
Der Exzess Ez berechnet sich mit dem vierten Standardmoment nach:
1 n
( xi − x ) 4
∑
Ez = n i =1 4
−3
s
Es gilt: Ez = 0 gleiche Wölbung wie Normalverteilung (= mesokurtisch)
Ez < 0 geringere Wölbung als Normalverteilung (= platykurtisch)
Ez > 0 stärkere Wölbung als Normalverteilung (= leptokurtisch)
- 14 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
9. Konzentrationsmaße - Disparitätsparameter
Mit den Konzentrationsmaßen (= Disparitätsparameter) wird beschrieben wie
stark eine Verteilung bezüglich der Konzentration der Merkmalsausprägungen von
einer entsprechenden Gleichverteilung abweicht.
9.1
Absolute Konzentrationsmaße
Die absoluten Konzentrationsmaße sind für nominal- und ordinalskalierte Beobachtungswerte geeignet.
9.1.1 Herfindahl-Index
Der Herfindahl-Index wird mit CH bezeichnet und berechnet sich als Summe der
quadrierten relativen Häufigkeiten nach:
n
CH = ∑ f i 2
i =1
Der Wertebereich von CH ist:
Mit:
CH =
1
n
CH = 1
9.2
1
≤ CH ≤ 1
n
vollkommene Gleichverteilung
vollkommene Konzentration aller Werte auf einem Merkmalsträger.
Relative Konzentrationsmaße
Die relativen Konzentrationsmaße sind zum Vergleich unterschiedlicher Verteilungen
besser geeignet als die absoluten.
9.2.1 Lorenzkurve
Die Stärke der Abweichung der
resultieren Kurve von der Diagonalen (= Gleichverteilung)
beschreibt die Konzentration.
1
0.9
F(Merkmalsausprägungen)
Die Lorenzkurve dient der grafischen Darstellung der Konzentration einer Verteilung.
Hierzu werden die kumulierten
relativen
Häufigkeiten
der
Merkmalsträger auf der XAchse gegen die kumulierten
relativen
Häufigkeiten
der
Merkmalsausprägungen
auf
der Y-Achse aufgetragen.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
F(Merkmalsträger)
9.2.2 Gini-Koeffizient
Zur Quantifizierung der Abweichung der Lorenzkurve von der Diagonalen wird der
Gini-Koeffizient G berechnet:
- 15 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
n
G=
mit:
1 − ∑ ( Fi − Fi −1 )( Fxi + Fxi −1 )
i =1
1 − fn
Fi
: kumulierte relative Häufigkeit der Merkmalsträger
Fxi
: kumulierte relative Häufigkeit der Merkmalsausprägungen
fn
: relative Häufigkeit der/des n-ten (letzten) Klasse/Merkmalsträger
Der Wertebereich von G ist:
0 ≤ G ≤1
mit:
G=1
G=0
vollkommene Konzentration aller Werte auf einem
Merkmalsträger
vollkommene Gleichverteilung
- 16 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Teil B
Bivariate Deskriptive Statistik
10. Kontingenztabelle
Zur Bearbeitung von zweidimensionalem Datenmaterial wird dieses zunächst in eine
Kontingenztabelle nach folgendem Muster überführt.
Merkmal2
Merkmal1
x1
x2
x3
…
xk
Randhäufigkeit M2
mit:
y1
y2
y3
…
ym
h11
h21
h31
…
hk1
h•1
h12
h22
h32
…
hk2
h•2
h13
h23
h33
…
hk3
h•3
…
…
…
…
…
h1m
h2m
h3m
…
hkm
h•m
xi
Ausprägung des Merkmals 1, mit i = 1 ... k
yj
Ausprägung des Merkmals 2, mit j = 1 ... m
hij
Absolute Einzelhäufigkeit der Merkmalskombination
hi•
Randhäufigkeiten des Merkmals 1
h•j
Randhäufigkeiten des Merkmals 2
Randhäufigkeit M1
h1•
h2•
h3•
hk•
10.1 Häufigkeiten
10.1.1 Absolute Randhäufigkeiten
Die Randhäufigkeiten ergeben sich durch zeilen-, bzw. spaltenweises Aufsummieren
der Einzelhäufigkeiten nach:
m
k
j =1
i =1
hi• = ∑ hij bzw. h• j = ∑ hij
Die Summe der Randhäufigkeiten ist gleich n nach:
k
m
i =1
j =1
∑ hi• = ∑ h• j = n
10.1.2 Relative Häufigkeiten, relative Randhäufigkeiten
Die relativen Einzelhäufigkeiten der Merkmalstupel berechnen sich nach:
f ij =
hij
n
- 17 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Die relativen Randhäufigkeiten berechnen sich nach:
m
k
j =1
i =1
fi• = ∑ fij bzw. f• j = ∑ f ij
10.1.3 Bedingte relative Häufigkeiten
Als bedingte relative Häufigkeit wird die Häufigkeit eines Merkmals xi unter der konstanten Bedingung yj verstanden bzw. umgekehrt. Sie wird mit f(Merkmal|Bedingung)
bezeichnet:
f ( xi | y j )
ist die bedingte Häufigkeit von xi unter der Bedingung yj
f ( y j | xi )
ist die bedingte Häufigkeit von yj unter der Bedingung xi
Sie berechnet sich aus der Einzelhäufigkeit und der zugehörigen Randhäufigkeit
nach:
f ( xi | y j ) =
hij
h• j
bzw.
f ( y j | xi ) =
hij
hi •
10.1.4 Prüfung auf Unabhängigkeit
Sind die beiden Merkmalsausprägungen voneinander unabhängig gilt:
hij =
hi ⋅ h j
n
bzw.
f ij = f i ⋅ f
j
Sind diese Gleichungen nicht wahr bedeutet dies, dass die Merkmale voneinander
abhängen.
11. Lageparameter bivariater Verteilungen
Wie bei den univariaten Verteilungen können auch die bivariaten Verteilungen über
Lageparameter beschrieben werden. Diese sind besonders für geographische Fragestellungen interessant, da hierdurch mittlere Positionen von Punkten im Raum bestimmt werden können. Hierfür werden die Koordinaten von Punkten als Merkmale x
und y betrachtet.
11.1 Arithmetisches Mittelzentrum
Das arithmetische Mittelzentrum P beschreibt den Schwerpunkt einer bivariaten Verteilung. Es setzt sich aus dem arithmetischen Mittel des Merkmals x und dem des
Merkmals y zusammen nach :
P = (x, y)
11.2 Gewogenes arithmetisches Mittelzentrum
Wird anstelle des arithmetischen Mittels das gewogene arithmetische Mittel zur Berechnung eingesetzt, ergibt sich das gewogene arithmetische Mittelzentrum nach:
Pg = ( xg , y g )
- 18 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
11.3 Medianzentrum
Das Medianzentrum ist der Punkt einer bivariaten Verteilung zu dem die Summe der
Distanzen zu allen anderen Punkten minimal ist. Die genaue Lage des Medianzentrum kann nicht direkt berechnet werden. In erster Näherung kann der Median der xi
bzw. yi zur Bestimmung berechnet werden. Durch Verschieben dieses Punktes in x
bzw. y Richtung kann die Summe der Distanzen meist weiter minimiert werden.
12. Streuungsparameter bivariater Verteilungen
12.1 Standarddistanz
Die Standarddistanz sd ist ein Maß für die Streuung der Punkte im Raum und die Lage der Punkte untereinander. Sie berechnet sich nach:
sd =
2
2
1 k m 2
d mit dij2 = ( xi − x j ) + ( yi − y j )
2 ∑∑ ij
n i =1 j =1
oder mit Hilfe des arithmetischen Mittelzentrums nach:
sd =
(
1 n
2
2
( xi − x ) + ( yi − y )
∑
n i =1
)
13. Korrelationsanalyse
Mit der Korrelationsanalyse wird die Stärke und Richtung des Zusammenhangs der
Merkmale von multivariaten Verteilungen bewertet.
13.1 Normierter Kontingenzkoeffizient
Der normierte Kontingenzkoeffizient K* wird zur Berechnung der Korrelation von nominal skalierten Merkmalsausprägungen benutzt. Sein Wertebereich liegt zwischen 0
(unabhängig) und 1 (streng korreliert). Für seine Berechnung sind mehrere Schritte
notwendig:
1. Berechnung der unabhängigen Einzelhäufigkeiten h%ij nach:
h ⋅h j
h%ij = i
n
2. Berechnung von χ² nach:
k
m
χ 2 = ∑∑
(h
i =1 j =1
ij
− h%ij
h%
)
2
ij
3. Berechnung des einfachen Kontingenzkoeffizienten K nach:
χ2
K=
n + χ2
- 19 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
4. Berechnung des Maximalwertes von K
K max =
M −1
M
mit: M = min(k , m)
wobei k die Anzahl der Spalten und m die Anzahl der Zeilen der Kontingenztabelle sind.
5. Berechnung von K* nach:
K* =
K
K max
13.2 Vierfelderkorrelationskoeffizient ρφ (rho-phi)
Der Vierfelderkorrelationskoeffizient dient der Berechnung der Korrelation von zwei
dichotonen (nur zwei mögliche Merkmalsausprägungen) Variablen. Hierzu wird eine
Vierfeldertafel nach folgendem Schema aufgebaut:
x0
x1
y0
h00
h10
h•0
Hieraus berechnet sich ρφ nach:
y1
h01
h11
h•1
h0•
h1•
h00 ⋅ h11 − h01 ⋅ h10
ρφ =
=
( h00 + h01 )( h10 + h11 )( h00 + h10 )( h01 + h11 )
h00 ⋅ h11 − h01 ⋅ h10
h0 ⋅ h1 ⋅ h 0 ⋅ h 1
Der Wertebereich von rho-phi liegt zwischen –1 und +1.
13.3 Rangkorrelationskoeffizient nach SPEARMAN
Die Bewertung der Korrelation ordinal skalierter Daten erfolgt durch die Berechnung
des Rangkorrelationskoeffizienten rsp nach SPEARMAN. Hierzu werden die Einzelausprägungen des Merkmals x bzw. des Merkmals y entsprechend ihrer Größe mit
Rangzahlen Rx bzw. Ry belegt. Hieraus berechnet sich rsp nach:
n
rsp = 1 −
6∑ di2
mit: di = ( Rxi − Ryi )
2
i =1
2
n ⋅ (n − 1)
2
Der Rangkorrelationskoeffizient besitzt einen Wertebereich von –1 bis +1.
13.4 Produkt-Moment-Korrelationskoeffizient nach BRAVAIS-PEARSON
Der Produkt-Moment-Korrelationskoeffizient (Wertebereich: –1 ≤ r ≤ 1) dient der Berechnung der Korrelation von metrisch (intervall, rational) skalierten Daten nach:
n
r=
∑ ( xi − x )( yi − y )
i =1
n
n
i =1
i =1
∑ ( xi − x )2 ∑ ( yi − y )2
- 20 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
14. Regressionsanalyse
14.1 Lineare Regression
Vorraussetzung ist die Trennung der Merkmale in eine Ausgangsvariable x (Prädiktor) und eine Zielvariable y (Regressand). Für die lineare Regression ergibt sich die
Funktionsgleichung:
y = a + bx
Nach dem GAUSSschen Prinzip der kleinsten Quadrate ergibt sich der Regressionskoeffizient (=Steigung) b nach:
n
b=
∑ ( xi − x )( yi − y )
i =1
n
∑ ( xi − x )2
i =1
und die Regressionskonstante (=Achsenabschnitt) a nach:
a = y − bx
14.2 Das Bestimmtheitsmaß, Determinationskoeffizient
Das Bestimmtheitsmaß r² (=Determinationskoeffizient) (Wertebereich 0 ≤ r² ≤ 1) berechnet sich nach:
n
r2 =
∑ ( yˆi − y )2
i =1
n
∑ ( yi − y )
2
mit: yˆ i Werte der Regressionsgleichung
i =1
14.3 Nonlineare Regression
Liegt ein nicht linearer Zusammenhang zwischen Prädiktor und Regressand vor kann
durch eine Variablentransformation der Zusammenhang „linearisiert“ werden. Mit den
transformierten Variablen kann dann wieder wie bei der linearen Regression die
Funktionsgleichung bestimmt werden. Der tatsächliche Zusammenhang ergibt sich
dann durch Retransformation der gefundenen Regressionsgleichung.
- 21 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Teil C
Schließende Statistik
15. Wahrscheinlichkeitsrechnung
15.1 Begriffsdefinition und Formelzeichen
n
Anzahl der Versuche
p ( A)
Wahrscheinlichkeit für das Eintreffen eines Ereignisses A
p ( A)
Wahrscheinlichkeit für das Nichteintreffen eines Ereignisses A
X
Zufallsvariable
xi
Ausprägung der Zufallsvariable
Ω
Ereignisraum der möglichen Ausprägungen von xi
15.2 Axiome der Wahrscheinlichkeitsrechnung (Kolmogoroff-Axiome)
1.
Der Wertebereich der Wahrscheinlichkeit für das Eintreffen des Ereignisses ist
2.
Die Wahrscheinlichkeit für den gesamten Ereignisraum ist p ( Ω ) = 1
3.
0 ≤ p ( A) ≤ 1
Die Wahrscheinlichkeit für die Vereinigung disjunkter (nicht überschneidend)
Ereignisse ist gleich der Summe der Einzelwahrscheinlichkeiten:
P ( A ∪ B ∪ L ∪ Z ) = P ( A) + P ( B ) + L + P ( Z )
15.3 Klassischer Wahrscheinlichkeitsbegriff
P( A) =
A Anzahl der Günstigen
=
Ω Anzahl der Möglichen
15.4 Rechenregeln für die Wahrscheinlichkeit
1.
P ( A ) = 1 − P ( A)
2.
P ( A ) ≤ P ( B ) für A ∈ B
3.
P ( A ) ∪ P ( B ) = P ( A ) + P ( B ) für disjunkte Ereignisse
4.
P ( A ) ∪ P ( B ) = P ( A ) + P ( B ) − P ( A ∩ B ) für non-disjunkte Ereignisse
15.5 Bedingte Wahrscheinlichkeiten
Die Wahrscheinlichkeit von A unter der Bedingung, dass auch B ist:
P( A | B) =
P( A ∩ B)
P( B)
- 22 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
15.6 Stochastische Unabhängigkeit
Zwei Ereignisse A und B werden als stochastisch unabhängig bezeichnet wenn eine
der drei folgenden Bedingungen gilt:
1.
P ( A ∩ B ) = P ( A) ⋅ P ( B )
2.
P ( A | B ) = P ( A ) für P ( B ) > 0
3.
P ( B | A ) = P ( B ) für P ( A ) > 0
16. Verteilungsfunktion F(x)
Die Verteilungsfunktion F(x) beschreibt die Wahrscheinlichkeit, dass die Ausprägung
x einer Zufallsvariable kleiner oder gleich einem bestimmten Wertes z ist. Die Werte
der Verteilungsfunktion entsprechen den kumulierten relativen Häufigkeiten der deskriptiven Statistik.
16.1 F(x) diskreter Zufallsvariablen
Für F(x) diskreter Zufallsvariablen gilt die allgemeine Form der Verteilungsfunktion:
F ( x) = P ( X ≤ z )
Aus den Werten der Verteilungsfunktion ergeben sich die Wahrscheinlichkeiten für
ein bestimmtes Werteintervall zwischen a und b nach:
P ( a < X ≤ b ) = F (b) − F (a )
16.2 F(x) stetiger Zufallsvariablen
Liegt eine stetige Zufallsvariable vor kann die Wahrscheinlichkeit für P ( X ≤ z ) unendlich viele Realisationen annehmen. Die Berechnung erfolgt in diesem Falle durch
die Integration einer geeigneten Funktion f(x) nach:
F ( x) = P ( X ≤ z ) =
x
∫
f (t )dt
−∞
17. Wahrscheinlichkeitsfunktion f(x)
Die Wahrscheinlichkeitsfunktion beschreibt die Wahrscheinlichkeit für die Ausprägung x einer Zufallsvariable. Die Werte der Wahrscheinlichkeitsfunktion entsprechen
den einfachen relativen Häufigkeiten der deskriptiven Statistik.
17.1 f(x) diskreter Zufallsvariablen
 P ( X = xi )
f ( x) = 
0

Die Summe aller Werte der Wahrscheinlichkeitsfunktion ist 1.
n
∑ f ( xi ) = 1
i =0
- 23 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
17.2 f(x) stetiger Zufallsvariablen
f(x) wird bei stetigen Zufallsvariablen Dichtefunktion genannt und berechnet sich als
nach:
f ( x) = F '( x)
18. Erwartungswert
Der Erwartungswert entspricht dem Mittelwert der deskriptiven Statistik. Er wird mit
E(X) oder µ bezeichnet.
18.1 Erwartungswert diskreter Zufallsvariablen
n
E ( X ) = µ = ∑ xi ⋅ f ( xi )
i =1
18.2 Erwartungswert stetiger Zufallsvariablen
E( X ) = µ =
∞
∫ x ⋅ f ( x) dx
−∞
19. Varianz und Standardabweichung
Die Streuung wird wie bei der deskriptiven Statistik mit der Varianz und der Standardabweichung beschrieben.
19.1 Varianz und Standardabweichung diskreter Variablen
n
Varianz:
σ2 = ∑ ( xi − µ ) ⋅ f ( xi )
2
i =1
Standardabweichung:
σ = σ2 =
n
∑ ( xi − µ )
i =1
2
⋅ f ( xi )
19.2 Varianz und Standardabweichung stetiger Variablen
Varianz:
σ2 =
∞
∫ ( x − µ)
−∞
Standardabweichung:
σ = σ2
- 24 -
2
⋅ f ( x) dx
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
20. Diskrete theoretische Verteilungen
20.1 Bernoulli Experiment
Für ein Bernoulli Experiment gelten folgende Randbedingungen:
1. Für jeden Versuch gibt es genau zwei mögliche Ausgänge
2. Die Wahrscheinlichkeiten bleiben bei jedem Durchgang gleich
3. Die einzelnen Durchführungen sind unabhängig voneinander
20.1.1 Wahrscheinlichkeitsfunktion der Bernoulli Verteilung
 p für x = 1

f ( x) =  q für x = 0 mit q = 1 − p
 0 sonst

20.1.2 Erwartungswert der Bernoulli Verteilung
n
µ = E ( X ) = ∑ xi ⋅ p = p
i =1
20.1.3 Varianz der Bernoulli Verteilung
n
σ 2 = ∑ ( xi − µ ) ⋅ f ( xi ) = (1 − p ) ⋅ p = p ⋅ q
i =1
20.2 Binominal Verteilung
Die Binominal Verteilung beschreibt eine n-malige Durchführung eines Bernoulli Experimentes. Es gelten folgende Bedingungen:
1. Für jeden Versuch gibt es genau zwei mögliche Ausgänge
2. Nach jedem Versuch wird das gezogene Element wieder zurückgelegt
3. aus 2 folgt: die Wahrscheinlichkeiten bleiben bei jedem Durchgang gleich und
die einzelnen Versuche sind unabhängig voneinander
20.2.1 Wahrscheinlichkeitsfunktion der Binominal Verteilung
Die Wahrscheinlichkeitsfunktion der Binoninal Verteilung berechnet sich anhand der
beiden Parameter p = Wahrscheinlichkeit für einen Erfolg und n = Anzahl der
Versuche nach:
 n
f ( x) =   p x ⋅ q n− x
 x
 n
 x
Wobei der Ausdruck   (sprich „n über x“) die Anzahl der Kombinationen für ein xfaches Eintreffen des Ergebnisses bei n Versuchen angibt.
- 25 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
n über x berechnet sich nach:
 n
n!
 x  = x! n − x !
(
)
 
Der Ausdruck n! (sprich: „n Fakultät“) berechnet sich nach:
n! = 1 ⋅ 2 ⋅ 3 ⋅ K ⋅ n
Hinweis: Die Fakultät von 0 ist als 1 definiert: 0! = 1
20.2.2 Erwartungswert der Binominalverteilung
n
n
 n
µ = E ( x ) = ∑ x ⋅ f ( x) = ∑ x   p x q n− x
x =0
x =0  x 
Eine vereinfachte Berechnung ergibt sich wenn die Funktionswerte der Binominal
Verteilung als Serie von Bernoulli Experimenten betrachtet werden. Dann folgt:
n
µ = ∑ p = n⋅ p
x =0
20.2.3 Varianz der Binominal Verteilung
n
σ = ∑ p⋅q = n⋅ p⋅q
2
x =0
20.3 Hypergeometrische Verteilung
Mit der hypergeometrischen Verteilung wird die Wahrscheinlichkeit des Erfolges bei
einem Experiment beschrieben, das n-mal durchgeführt wird ohne das gezogene
Element zurückzulegen. Daraus folgt, dass:
1. sich die Wahrscheinlichkeiten bei jedem Durchgang ändern
2. die einzelnen Versuche nicht unabhängig voneinander sind
20.3.1 Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung
Die Verteilungsfunktion ist von drei Parametern abhängig: N = Anzahl aller Elemente, M = Anzahl der günstigen Elemente und n = Anzahl der Versuche.
  M  N − M 
 

−
x
n
x




f ( x) = 
N
n

 

0

für max ( 0, n + M − N ) ≤ x ≤ min ( n, M )
sonst
20.3.2 Erwartungswert der hypergeometrischen Verteilung
µ = E ( x) = n
M
N
- 26 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
20.3.3 Varianz der hypergeometrischen Verteilung
σ2 = n ⋅
M
N
 M
⋅ 1 −
N

 N −n
⋅
 N −1
20.4 Poisson Verteilung
Die Poisson Verteilung stellt einen Sonderfall der Binominal Verteilung dar wenn gilt:
1. Die Anzahl der Versuche n strebt gegen unendlich
2. Der Erwartungswert µ = n ⋅ p ist konstant
3. Aus 1. und 2. folgt: p strebt gegen 0
Merkmale der Poisson Verteilung sind:
1. Erwartungswert ist gleich der Varianz: µ = σ
2
2. Die Verteilungsfunktion ergibt sich allein aus dem Erwartungswert µ
20.4.1 Wahrscheinlichkeitsfunktion der Poisson Verteilung
µ x ⋅ e −µ
f ( x) =
x!
21. Stetige theoretische Verteilungen
21.1 Die Exponentialverteilung
Die Exponentialverteilung besitzt Gültigkeit, wenn die Zufallsvariable X nur positive
Werte annimmt und kleine Werte relativ häufiger als große Werte vorkommen.
21.1.1 Dichtefunktion der Exponentialverteilung
a ⋅ e − ax , x ≥ 0
f ( x) = 
 0 , sonst
mit a > 0
21.1.2 Verteilungsfunktion der Exponentialverteilung
Durch Integration der Dichtefunktion entsteht die Verteilungsfunktion:
x
F ( x) = ∫ a ⋅ e
− au
0
du = ( −e
− au
)
x
= −e − ax + 1
0
21.1.3 Erwartungswert der Exponentialverteilung
E ( x) = µ =
1
a
21.1.4 Varianz der Exponentialverteilung
σ2 =
1
a2
- 27 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
21.2 Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Verteilung in der Statistik und in den
Naturwissenschaften. Da sie durch ihren Erwartungswert und ihre Standardabweichung beschrieben wird, wird sie häufig mit N(µ;σ) abgekürzt.
21.2.1 Dichtefunktion der Normalverteilung
f ( x) =
1
σ ⋅ 2π
⋅e
1  x −µ 
− 

2 σ 
2
21.2.2 Verteilungsfunktion der Normalverteilung
1  u −µ 

σ 
1 x − 2 
F ( x) =
∫e
σ 2π −∞
2
du
Das Integral lässt sich nicht numerisch lösen, da keine elementare Stammfunktion
existiert.
21.3 Die Standardnormalverteilung
Jede Normalverteilung kann in eine Standardnormalverteilung überführt werden. Die
Standardnormalverteilung besitzt einen Erwartungswert von 0 und eine Standardabweichung von 1. Sie wird häufig mit N(0;1) abgekürzt.
21.3.1 Transformation von der Normalverteilung zur Standardnormalverteilung
Normalverteilte Zufallsvariablen X können durch folgende Normierung in standardnormalverteilte Zufallsvariablen Z transformiert werden:
Z=
X −µ
σ
21.3.2 Dichtefunktion der Standardnormalverteilung
2
z
−
1
f ( z) =
⋅e 2
2π
21.3.3 Verteilungsfunktion der Standardnormalverteilung
2
1 z − u2
F ( z) =
∫ e du
2π −∞
Auch dieses Integral lässt sich nicht numerisch lösen, da keine elementare Stammfunktion existiert, aber die Werte für verschiedene Ausprägungen von Z lassen sich
in Tabellen (Tabelle 1 im Anhang) nachsehen.
21.4 Die Lognormalverteilung
Nimmt eine Zufallsvariable X nur Werte größer 0 an und streut ein großer Teil der
Merkmalsträger um einen kleinen Wert von X kann die Verteilung durch eine
Lognormalverteilung beschrieben werden.
- 28 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Sind Mittelwert und Standardabweichung der Lognormalverteilung bekannt können
diese in den Mittelwert und die Standardabweichung einer korrespondierenden Normalverteilung überführt werden nach:
 σ 
σ NV = ln 1 + ln 
 µln 
und
1
µ NV = ln µ ln − σ 2NV
2
Durch Transformation der Normalverteilung in eine entsprechende Standardnormalverteilung kann wiederum Tabelle X (Anhang 1) zur Bestimmung von Wahrscheinlichkeiten genutzt werden. Durch Retransformation werden dann wieder die entsprechenden Werte der Lognormalverteilung berechnet.
22. Parametrische Signifikanztests
Für die Signifikanztests gilt immer folgender Testaufbau:
1. Spezifizierung einer Nullhypothese (H0) und einer Alternativhypothese (HA)
2. Festlegung eines Signifikanzniveaus α
3. Auswahl einer Testfunktion
4. Bestimmung des Testwertes und Entscheidung
Das Signifikanzniveau α, wird auch als Irrtumswahrscheinlichkeit bezeichnet. Diese
Beschreibt die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, obwohl
sie richtig war.
Je nach Parameter der getestet wird und Größe der Stichprobe n kommen unterschiedliche Testfunktionen zum Einsatz. Außerdem werden einseitige Tests (größer,
kleiner Beziehung) und zweiseitige Tests (gleich, ungleich Beziehung) unterschieden.
22.1 Mittelwerttest
22.1.1 Gaußtest
Ist die Standardabweichung und der Mittelwert der Grundgesamtheit bekannt und ist
die Anzahl der Elemente der Stichprobe n größer 30 kommt der Gaußtest zum Einsatz.
Die Testwert v des Gaußtest berechnet sich nach:
v=
mit:
X − µ0
n
σ
X
: Mittelwert der Stichprobe
µ0
: Mittelwert der Grundgesamtheit
σ
: Standardabweichung der Grundgesamtheit
Der Testwert wird mit den Funktionswerten der Standardnormalverteilung (Tabelle 1
im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen.
- 29 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
22.1.2 Der t-Test
Bei einem Stichprobenumfang von n < 30 kommt anstelle des Gaußtests der t-Test
zum Einsatz.
Ist die Standardabweichung (σ) der Grundgesamtheit bekannt, berechnet sich der
Testwert beim t-Test nach:
v=
X − µ0
n
σ
Ist die Standardabweichung der Grundgesamtheit nicht bekannt, berechnet sich der
Testwert beim t-Test nach:
v=
X − µ0
n
s
Mit der Standardabweichung der Stichprobe anstelle der der Grundgesamtheit:
s=
1 n
2
( xi − x )
∑
n − 1 i =1
Der Testwert v wird mit den Funktionswerten der t-Verteilung (Tabelle 2 im Anhang)
an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. Die tVerteilung wird hierzu auf Basis der Freiheitsgrade FG bestimmt, mit:
FG = n − 1
22.2 Varianzentest – χ²-Test
Ist der zu testende Parameter die Varianz (Standardabweichung) einer Stichprobe
gegen die Varianz (Standardabweichung) der Grundgesamtheit berechnet sich die
Testgröße nach:
s2
1 n
2
v = (n − 1) ⋅ 2 = 2 ⋅ ∑ ( xi − x )
σ0 σ0 i =1
Der Testwert v wird mit den Funktionswerten der χ²-Verteilung (Tabelle 3 im Anhang)
an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. Die
χ²-Verteilung wird hierzu auf Basis der Freiheitsgrade FG bestimmt, mit:
FG = n − 1
22.3 Anteilstest
Ist der zu testende Parameter der Anteil eines Merkmals in der Stichprobe, der gegen den Anteil des gleichen Merkmals in der Grundgesamtheit geprüft wird, berechnet sich die Testgröße nach:
v=
mit:
p1 − p0
p0 ⋅ (1 − p0 )
n
p0 : Anteil des Merkmals in der Grundgesamtheit
p1 : Anteil des Merkmals in der Stichprobe
- 30 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Bei hinreichend großem Stichprobenumfang (n > 9 / p(1-p)) wird der Testwert v mit
den Funktionswerten der Standardnormalverteilung (Tabelle 1 im Anhang) an den
Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen.
22.4 Differenzentest (Mittelwerte)
Sollen die Unterschiede der Mittelwerte zweier unabhängiger Stichproben geprüft
werden berechnet sich die Testgröße nach:
v=
mit:
X −Y
2
sx2 s y
+
nx n y
X , Y : Mittelwerte der Stichproben
s x2 , s 2y : Varianzen der Stichproben
nx , n y : Anzahl der Elemente in den Stichproben
Bei hinreichend großem Stichprobenumfang (n > 30) wird der Testwert v mit den
Funktionswerten der Standardnormalverteilung (Tabelle 1 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen.
- 31 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Anhang
Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998
- 32 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998
- 33 -
Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“
Institut für Geographie – Friedrich-Schiller-Universität Jena
Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998
- 34 -
Herunterladen