Häufigkeitsverteilungen

Werbung
Statistik I WS2004/05
Becker/Lautsch
Häufigkeitsverteilungen
Eine Häufigkeitsverteilung gibt die Verteilung eines erhobenen
Merkmals an und ordnet jeder Ausprägung die jeweilige Häufigkeit zu.
Bsp.: 100 Studenten werden gefragt, was sie studieren. Es ergibt
sich folgende Verteilung:
Anzahl
Fach
Psychologie
12
23
Erziehungswissenschaften
Soziologie
45
Anglistik
3
Physik
17
%
12
23
45
3
17
kum. %
12
35
80
83
100
das zugehörige Balkendiagramm:
50
40
30
Absolute Werte
20
10
0
Psychologie
Soziologie
Erziehungswissenscha
Physik
Anglistik
FACH
Mit Häufigkeitsverteilungen werden statistische Daten dargestellt.
Statistik I WS2004/05
Becker/Lautsch
Theoretische Verteilungen
Theoretische Verteilungen geben an, wie in ideellen Fall die Verteilung eines Merkmals in einer Stichprobe zu erwarten wäre.
Bsp.: Typischerweise verteilen sich die Studenten in den Fächern Psychologie, Soziologie, Wirtschaftswissenschaften 2:1:2,
also würde man beim Herausgreifen von 100 Studenten der zugehörigen Fachbereiche die folgende Verteilung erwarten:
Anzahl
Fach
Psychologie
40
Soziologie
20
40
Wirtschaftswissenschaften
%
40
20
40
kum. %
40
60
100
das zugehörige Balkendiagramm:
50
40
Absolute Werte
30
20
10
Psychologie
Wirtschaftswissensch
Soziologie
TEST
Mit theoretischen Verteilungen werden statistische Daten weiterverarbeitet und interpretiert.
Statistik I WS2004/05
Becker/Lautsch
Zufallsvariablen
Definition: Eine Zufallsvariable ist eine Funktion, die jedem Ereigniss eines Zufallsexperiments eine reele Zahl zuordnet.
Jenachdem, wie man die vorliegenden Daten interpretieren will,
wählt man die zu betrachtenden Zufallsvariablen.
Man kann zu jedem Experiment mehrere Zufallsvariablen betrachten.
Man unterscheidet zwischen diskreten (ganzzahligen) und stetigen oder kontinuierlichen (fortlaufenden) Zufallsvariablen.
Zwar scheinen diskrete Verteilungen auf den ersten Blick einfacher, sind aber rechentechnisch wesentlich schwerer zu handhaben als stetige Verteilungen.
Verteilungsfunktion
Definition: Eine Verteilungsfunktion ordnet jedem Wert einer
Zufallsvariablen die Wahrscheinlichkeit zu, dass dieser Wert von
der Zufallsvariablen angenommen wird.
Bei stetigen Zufallsvariablen ist die Verteilungsfunktion i.A. eine stetige Funktion, d.h. sie kann ganz normal mit Mitteln wie
Grenzwertbildung, Differenzieren, etc. behandelt werden.
Statistik I WS2004/05
Becker/Lautsch
Bsp.: Man betrachtet die Summe des Würfelns mit zwei Würfeln, diese reicht von 2 bis 12, wobei die mittleren Werte am
wahrscheinlichsten sind:
Summe Anzahl Ergebnisse
2
1
(1;1)
3
2
(1;2); (2;1)
4
3
(1;3); (2;2); (3;1)
5
4
(1;4); (2;3); (3;2); (4;1)
6
5
(1;5); (2;4); (3;3); (4;2); (1;5)
6
(1;6); (2;5); (3;4); (4;3); (5;2); (6;1)
7
8
5
(2;6); (3;5); (4;4); (5;3); (6;2)
4
(3;6); (4;5); (5;4); (6;3)
9
10
3
(4;6); (5;5); (6;4)
11
2
(5;6); (6;5)
12
1
(6;6)
7
6
5
4
Absolute Werte
3
2
1
0
2
3
SUMME
4
5
6
7
8
9
10
11
12
% kum. %
2,78
2,78
5,56
8,33
8,33 16,67
11,11 27,78
13,89 41,67
16,67 58,33
13,89 72,22
11,11 83,33
8,33 91,67
5,56 97,22
2,78
100
Statistik I WS2004/05
Becker/Lautsch
Einige Verteilungen
Binomialverteilung
Die Binomialverteilung beschreibt ein mehrfach wiederholtes
Experiment mit nur zwei Ereignissesn, bspw. Münzwürfe
Multinomiale Verteilung
Die Multinomiale Verteilung ist eine Verallgemeinerung der
Binomialverteilung, sie beschreibt wiederholte Experimente mit
mehreren Ausgängen.
Hypergeometrische Verteilung
Die Hypergeometrische Verteilung dient der Beschreibung eines
Merkmals in einer Stichprobe aus einer verhältnismäßig kleinen
Grundgesamtheit.
Poisson-Verteilung
Die Poisson-Verteilung benutzt man bei der Betrachtung seltener
Ereignisse
Für die Anwendung in den Gesellschafts- und Sozialwissenschaften besonders wichtig ist die:
Normalverteilung
Die Normalverteilung ist eine Modellvorstellung für die Verteilung eines Merkmals in der Gesamtheit - z.B. Intelligenz.
Ihre besondere Bedeutung liegt darin, dass sie schon bei kleinen
Stichproben eine sehr gute Annäherung an die reale Verteilung
bietet und mathematisch gut verwendbar ist.
Ebenso gehen die Poisson-Verteilung, die Hypergeometrische
Verteilung und die Binomialverteilung (p = 0, 5) für n → ∞
in die Normalverteilung über.
Statistik I WS2004/05
Becker/Lautsch
Binomialverteilung
Für die Binomialverteilung gilt folgende Formel:
Die Wahrscheinlichkeit, bei n Wiederholungen genau k-mal das
Ereignis mit der Wahrscheinlichkeit p zu erhalten beträgt:
P (X = k) = nk · pk · (1 − p)n−k
Bsp.: 3mal würfeln mit einem Würfel. Die Wahrscheinlichkeiten
dafür, k Vieren zu würfeln:
Formel
% kum. %
1 0 5 3
3
57,9
57,9
· 6
0 · 6
3
1 1
5 2
·
·
34,7
92,6
1
6
6
3
1 2
5 1
·
·
6,9
99,5
2
6
6
3
1 3
5 0
·
·
0,5
100
3
6
6
Anzahl Vieren
0
1
2
3
das zugehörige Balkendiagramm:
140
120
100
80
Absolute Werte
60
40
20
0
0
ANZAHL
1
2
3
Statistik I WS2004/05
Becker/Lautsch
Multinomiale Verteilung
Für die Multinomiale Verteilung gilt folgende Formel:
Die Wahrscheinlichkeit, bei N Wiederholungen genau
(n1, . . . , nK )-mal das Ereignis 1, . . . , K (jeweils mit den Einzelwahrscheinlichkeiten (p1, . . . , pK )) zu erhalten beträgt:
N!
n
· pn1 1 · pn2 2 · . . . · pKK .
P (X = (n1, . . . , nK )) =
n1 ! · n2 ! · . . . · nK !
Bspw. denke man daran, Kugeln mehrerer Farben aus einer Urne
zu ziehen.
Hypergeometrische Verteilung
Für die Hypergeometrische Verteilung gilt folgende Formel:
Beim Ziehen einer Stichprobe der Größe n aus einer Grundgesamtheit N beträgt die Wahrscheinlichkeit, k von K Merkmalsträger zu ziehen:
K N −K
P (X = k) =
k
n−k
N
n
Z.B.: Ziehen aus einer Urne ohne Zurücklegen
Poisson-Verteilung
Für die Poisson-Verteilung gilt folgende Formel:
Bei bekanntem Mittelwert λ ein k-maliges Auftreten eines Ereignisses zu beobachten, hat die Wahrscheinlichkeit:
λk −λ
e
P (X = k) =
k!
Statistik I WS2004/05
Becker/Lautsch
Schätzung
Die „Werte“ der Population werden mit µ für Mittelwert und σ
für die Standardabweichung bezeichnet. In der Statistik werden
entsprechend x und s verwendet.
Oft möchte man aufgrund einer oder mehreren Stichproben eine
Schätzung über die Verteilung in der Gesamtpopulation abgeben.
Dabei wird man u.a. fordern, dass eine Schätzung erwartungstreu
ist. Schließlich ergibt sich:
• Der Mittelwert der Stichproben nähert sich bei steigender
Stichprobenzahl dem Mittelwert der Gesamtpopulation an:
E(x) = µ
s
• Für die Varianz der Stichproben gilt: √
liefert einen
N −1
guten Schätzwert für die Varianz der Gesamtheit
Statistik I WS2004/05
Becker/Lautsch
Normalverteilung – N(µ, σ)
Die Normalverteilung ist gegeben durch die Formel:
(x − µ)2
−
1
2σ 2
f (x) = √ · e
σ 2π
0.4
0.3
0.2
0.1
(Standard-)
Normalverteilung
(µ = 0; σ = 1))
-4
-2
4
2
0.8
0.6
0.4
0.2
gestauchte/gestreckte
Normalverteilung
(µ = 0; σ = 0.5 bzw. 2))
-2
-1
1
2
0.2
0.15
0.1
0.05
gestauchte/gestreckte
Normalverteilung
(µ = 0; σ = 0.5 bzw. 2))
-4
-2
2
4
Statistik I WS2004/05
Becker/Lautsch
Standardnormalverteilung – N(0, 1)
In den meisten Fällen benutzt man die sog. z-Transformation
z = x−µ
σ , um die betrachtete Normalverteilung N(µ, σ) in die
Standardnormalverteilung N(0, 1) zu überführen. - Es ist schließlich einfacher, immer mit der gleichen Verteilung mathematisch
arbeiten zu können und sie nur noch interpretieren zu müssen,
als jedesmal alles neu zu berechnen (oder berechnen zu lassen).
0.4
0.3
0.2
0.1
(Standard-)
Normalverteilung
(µ = 0; σ = 1))
-4
-2
2
4
Der Graph der Standardnormalverteilung ist gegeben durch
2
1
− x2
√
f (x) = 2π · e
Statistik I WS2004/05
Becker/Lautsch
Normalverteilung – N(µ, σ)
Typische Eigenschaften der Normalverteilung sind:
• Die Verteilung hat einen glockenförmiger Verlauf.
• Die Verteilung ist symmetrisch.
• Modalwert, Median und Erwartungswert fallen zusammen.
• Die Verteilung nähert sich asymptotisch (d.h. für x → ±∞)
der x-Achse.
• Zwischen den zu den Wendepunkten gehörenden x-Werten
befindet sich ca. 23 der Gesamtfläche.
Ihre Bedeutsamkeit zeigt sich in vier Aspekten:
• die Normalverteilung als empirische Verteilung
• die Normalverteilung als Verteilungsmodell für statistische
Kennwerte
• die Normalverteilung als mathematische Basisverteilung
• die Normalverteilung in der statistischen Fehlertheorie
Statistik I WS2004/05
Becker/Lautsch
Stichprobenkennwerteverteilung
Stichprobenmittelwertverteilung
σ2
Standardabweichung σx = , auch genannt Standardfehler.
n
Der Standardfehler (σx) des Mittelwerts (x) ist als die Standardabweichung der Mittelwerte von gleichgroßen Zufallsstichproben
einer Population definiert.
Der Standardfehler kann durch die folgende Formel geschätzt
werden:
n
X
(xi − x)2
σ
bx2 =
i=1
n−1
Es ist bekannt, dass sich bspw. im Bereich µ ± 2 · σ ca. 95,5%
aller Meßwerte befinden. Wir können also sagen, dass sich Mittelwerte aus Zufallsstichproben mit einer Wahrscheinlichkeit von
ca. 95,5% im Bereich µ ± 2 · σx befinden.
Das zentrale Grenzwerttheorem (Bernoulli-Theorem, siehe Übungen) besagt nun, dass der Mittelwert der Stichprobenmittelwertverteilung (xx) sich mit wachsender Anzahl der Stichproben dem
Mittelwert der Grundgesamtheit µ immer weiter nähert.
Es gilt:
n→∞
xx −→ µ
Statistik I WS2004/05
Becker/Lautsch
Testung von Hypothesen
Die Überprüfung von Vermutungen über die Grundgesamtheit
mit Hilfe von Zufallsstichproben ist eine wichtige Aufgabe der
schließenden Statistik. Man spricht in diesem Zusammenhang
von Hypothesentests.
Die Alternativhypothese
• Unterschieds- und Zusammenhangshypothesen
• Gerichtete und ungerichtete Hypothesen
• Spezifische und unspezifische Hypothesen
• Statistische Hypothesen
Die Nullhypothse
Die Nullhypothese ist eine Negativhypothese, mit der behauptet
wird, dass die zur Alternativhypothese komplementäre Aussage
richtig sei.
Signifikanzniveau und Fehler: α- und β-Fehler
Entscheidung
auf Grund der
Stichprobe
zugunsten der
H0
H1
In der Population gilt die:
H0
H1
richtige
β-Fehler
Entscheidung
richtige
α-Fehler
Entscheidung
Statistik I WS2004/05
Becker/Lautsch
Testung von Hypothesen II
Mögliche Hypothesenpaare:
(bezogen auf den Vergleich von Mittelwerten)
H 1 : µ0 > µ 1 H 0 : µ0 ≤ µ1
H 1 : µ0 < µ 1 H 0 : µ 0 ≥ µ 1
H 1 : µ0 =
6 µ1 H 0 : µ0 = µ1
In ähnlicher Weise formuliert man statistische Hypothesen, die
sich auf Zusammenhänge beziehen (z.B. H1 : ρ > 0; H0 : ρ ≤ 0)
Statistik I WS2004/05
Becker/Lautsch
Beispiel: t-Test für abhängige Stichproben
Studenten sollen schätzen, wie viele von 8 Testaufgaben sie
richtig beantwortet haben:
Vp 1. Stichprobe 2. Stichprobe
Schätzung
Ergebnis
1
4
5
6
4
2
3
5
5
4
3
4
5
7
4
n
P
Es ergeben sich:
n
P
d2i = 15, xd =
i=1
σ
bd =
v
n 2
u
P
u
u n
di
uP 2
u di − i=1
t i=1
n
n−1
q
=
di
i=1
5
15− −0,6
5
4
di
d2i
+1
-2
0
+1
-3
1
4
0
1
9
3
= − sowie
5
= 1, 94 und
σ
bd
σ
bxd = √ ≈ 0, 87
5
Damit erhalten wir als Prüfgröße: temp =
Aus der Tabelle ergibt sich:
t(4; 2,5%) = −2, 776 und t(4; 97,5%) = 2, 776
U-Test und Wilcoxon-Test
xd
−0, 6
=
= −0, 69
σ
bxd
0, 87
Statistik I WS2004/05
Becker/Lautsch
Gruppe 1
Gruppe 2
Schüler Rangplatz Schüler Rangplatz
1
8
1
12,5
2
3
2
21
3
9,5
3
6,5
4
5
4
9,5
5
14
5
12,5
6
3
6
18
7
6,5
7
17
8
11
8
20
9
1
9
3
10
15
10
3
11
19
T1 = 76
T2 = 155
(1)
(2)
(3)
(4)
vorher nachher di Rangplatz von |di|
Betrieb 1
8
4
4
7,5
2
23
16
7
10
3
7
6
1
2
4
11
12
-1
2(-)
5
5
6
-1
2(-)
6
9
7
2
4,5
7
12
10
2
4,5
8
6
10
-4
7,5(-)
9
18
13
5
9
10
9
6
3
6
Summe der (-) Ränge:
T = 11, 5
Summe der Ränge:
T 0 = 43, 5
Statistik I WS2004/05
Becker/Lautsch
Überprüfung von Korrelationshypothesen
Ob eine empirisch ermittelte Korrelation mit der H0 : ρ = 0
zu vereinbaren ist, läßt sich mit dem folgenden Signifikanztest
überprüfen:
√
r· n−2
t= √
1 − r2
t-verteilt, Freiheitsgrade df = n − 2
Ist man daran interessiert zu überprüfen, ob sich die Korrelationen, die für zwei unabhängige Stichproben (Umfänge n1, n2)
ermittelt wurden signifikant unterscheiden, verwendet man den
z-Wert (Standard-Normalverteilung):
Z1 − Z 2
z=
σ(Z1−Z2)
q
1
+
r
i
σ(Z1−Z2) = n11−3 + n21−3 ; Zi = 12 ln
(tabelliert)
1 − ri
Die punktbiseriale Korrelation erfaßt den Zusammenhang zwischen einem dichotomen Merkmal und einem intervallskalierten
Merkmal . Die Signifikanzüberprüfung (H0 : ρ = 0) erfolgt durch
folgenden Test:
rpb
t=s
2
1 − rpb
n−2
t-verteilt, Freiheitsgrade df = n − 2
r
y − y0
n0 · n1
mit rpb = 1
·
sy
n2
Statistik I WS2004/05
Becker/Lautsch
Überprüfung von Korrelationshypothesen
Die Korrelation zwischen zwei dichotomen Merkmalen mißt der
Phi-Koeffizient Φ. Er läßt sich aus der zugehörigen Vierfeldertafel
berechnen, die Signifikanzüberprüfung erfolgt über den 4-Felderχ2-Test:
a·d−b·c
Φ=p
(a + c)(b + d)(a + b)(c + d)
χ2 = n · Φ2,
(df = 1)
Der Zusammenhang zweier ordinalskalierter Merkmale wird
durch die Rangkorrelation nach Spearman erfaßt. Mit di = Differenz der Rangplätze, die eine Untersuchungseinheit i bezüglich
der Merkmale erhalten hat, ergibt sich:
n
P
6 · d2i
i=1
rs =
n · (n2 − 1)
Die H0 : ρs = 0 kann für n ≥ 30 approximativ durch folgenden
t-Test überprüft werden:
rs
t=r
1 − rs2
n−2
t-verteilt, Freiheitsgrade df = n − 2
Herunterladen