pi04_4

Werbung
Statistik: 3.3.04
Relationen zwischen qualitativen
Merkmalen
Beispiel: Unfälle
Für 165 Unfälle wurden registriert:


Ort des Unfalls: (innner-/außerhalb) Stadtgebiet
Personenschaden: ja/nein
P-Schaden Stadt Land Summe
3.3.04
ja
17
35
52
nein
65
48
113
Summe
82
83
165
PI Statistik, SS 2004 (4)
2
Unfälle: Häufigkeitsverteilung
3D-Säulen
Unfallhäufigkeiten und
Personenschaden
Unfälle und Personenschaden
70
60
50
40
ja
30
nein
20
70
60
50
40
10
0
Stadt
Land
ja
30
20
10
0
nein
nein
ja
Stadt
Gruppiertes
Säulendiagramm
3.3.04
PI Statistik, SS 2004 (4)
Land
3
Kontingenztafel
Tabellierung von gemeinsamen Häufigkeiten zweier (oder
mehrerer) qualitativer Merkmale, Häufigkeitsverteilung
Auch Kreuztabellen oder Kreuzklassifikation genannt
y1
…
ys
Summe
x1
n11
…
n1s
n1.
…
…
…
…
…
xr
nr1
…
nrs
nr.
Summe
n.1
…
n.r
n
X
Y
Zelle
3.3.04
Randverteilungen
PI Statistik, SS 2004 (4)
4
Unfälle: Häufigkeitsverteilungen
Unfälle und Personenschaden
120
100
70
60
80
50
40
30
20
10
0
60
40
nein
ja
Stadt
ja
80
70
60
50
40
30
20
10
0
3.3.04
0
Land
90
Stadt
20
Land
nein
Randverteilung nach
• Personenschaden
• Stadt/Land
(bedingte) Verteilung nach Personenschäden von Unfällen in der Stadt
PI Statistik, SS 2004 (4)
5
Rand- und bedingte Verteilungen
ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X
n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals
Y
„.“ gibt an, dass über alle möglichen Werte des Index
summiert wurde
ni. = j nij
ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-)
Merkmals X für Y =yj
nj|i, j =1,…,s : bedingte Verteilung des (Spalten-)
MerkmalsY für X =xi
3.3.04
PI Statistik, SS 2004 (4)
6
Unfälle: Häufigkeitsverteilungen
Gemeinsame Verteilung
P-Schaden Stadt Land Summe
ja
17
35
52
nein
65
48
113
Summe
82
83
165
(bedingte) Verteilung nach Personenschäden von (82!) Unfällen in der Stadt Randverteilung nach
• Personenschaden
• Stadt/Land
3.3.04
PI Statistik, SS 2004 (4)
7
Relative Häufigkeiten
Gemeinsame relative Häufigkeiten
pij 
nij
n
, i  1,..., r , j  1,..., s
z.B.: Anteil der (65) Unfälle ohne Personenschaden in der
Stadt an allen (165) Unfällen
Bedingte relative Häufigkeiten
pi| j 
nij
n. j
, i  1,  , r ,
p j|i 
nij
ni.
, j  1,  , s
z.B.: Anteil der (65) Unfälle ohne Personenschaden
(in der Stadt) an den (82) Unfällen in der Stadt
3.3.04
PI Statistik, SS 2004 (4)
8
Unfälle: Relative Häufigkeiten
Gemeinsame Verteilung
Randverteilung nach
• Stadt/Land
• Personenschaden
P-Schaden Stadt Land Summe
ja
10.3
21.2
31.5
nein
39.4
29.1
68.5
Summe
49.7
50.3
100.0
3.3.04
PI Statistik, SS 2004 (4)
9
Unfälle: Bedingte relative
Häufigkeiten
Bedingte Verteilungen für Unfälle
• mit
• ohne
Personenschaden
P-Schaden Stadt Land Summe
ja
32.7
67.3
100.0
nein
57.5
42.5
100.0
Summe
49.7
50.3
100.0
Analog bedingte Verteilungen für Unfälle in Stadt und Land
nach Personenschaden
3.3.04
PI Statistik, SS 2004 (4)
10
Bedingte Verteilungen
Bedingte Verteilung für Unfälle in Stadt und Land
nach Personenschaden
Unfälle mit und ohne Personenschäden
120,0%
100,0%
80,0%
60,0%
57,8%
79,3%
40,0%
42,2%
20,0%
20,7%
0,0%
Stadt
Land
Gestapeltes Säulendiagramm
3.3.04
PI Statistik, SS 2004 (4)
11
Beziehung zwischen Merkmalen
Das Wissen über die Ausprägung eines Merkmals hilft,
die Ausprägung des anderen Merkmals
vorherzusagen
Beispiel: Unfall passierte auf Autobahn;
Personenschäden sind wahrscheinlicher als wenn der
Unfall im Stadtgebiet stattgefunden hätte
3.3.04
PI Statistik, SS 2004 (4)
12
Merkmale: Unabhängigkeit
Zwei Merkmale X und Y werden als unabhängig
bezeichnet, wenn die bedingten Verteilungen pi|j, i
=1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen
von Y übereinstimmen
3.3.04
PI Statistik, SS 2004 (4)
13
Sind Ort und Personenschäden
bei Unfällen unabhängig?
Was sagen uns:


3.3.04
bedingte Verteilungen für Unfälle mit und ohne Personenschäden
bedingte Verteilungen für Unfälle in Stadt und Land nach
Personenschaden
P-Schaden
ja
Stadt
32.7
Land
67.3
Summe
100.0
nein
57.5
42.5
100.0
Summe
49.7
50.3
100.0
PI Statistik, SS 2004 (4)
14
Erwartete Häufigkeiten
Sind X und Y unabhängige Merkmale, so erwarten
wir die Häufigkeiten
nˆij 
ni.n. j
n
Die erwarteten Häufigkeiten sind
durch die Randverteilungen bestimmt
3.3.04
PI Statistik, SS 2004 (4)
15
Unfälle: Erwartete Häufigkeiten
Beobachtet:
Bei Unabhängigkeit erwartet:
P-Schaden
3.3.04
Summe
ja
17
35
52
nein
65
48
113
Summe
82
83
165
P-Schaden Stadt
25,8
ja
56,2
nein
Summe
Stadt Land
82
Land Summe
26,2
52
56,8
113
83
165
PI Statistik, SS 2004 (4)
16
Chiquadrat-Statistik
Assoziationsmaß, d.h. Maß für Abhängigkeit
zwischen Merkmalen
(nij  nˆij ) 2
T  
nˆij
i 1 j 1
2
2
Bei Unabhängigkeit der Merkmale: T = 0
Bei Abhängigkeit: T ist wesentlich größer als 0
Bei Unabhängigkeit folgt die Chiquadrat-Statistik der
Chiquadrat-Verteilung
3.3.04
PI Statistik, SS 2004 (4)
17
Unfälle
Chiquadrat-Statistik:
T = 8.78
p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn
Unabhängigkeit der Merkmale zutrifft): 0.003
Unabhängigkeit der Merkmale ist unplausibel
3.3.04
PI Statistik, SS 2004 (4)
18
(r x s) - Kontingenztafel
Verallgemeinerung der 2x2-Tafel
Chiquadrat-Statistik:
(nij  nˆij ) 2
T  
nˆij
i 1 j 1
r
s
Bei Unabhängigkeit folgt die Chiquadrat-Statistik
der Chiquadrat-Verteilung mit (r-1)(s-1)
Freiheitsgraden
T   2 (r  1)( s  1) 
3.3.04
PI Statistik, SS 2004 (4)
19
Homogenität
Das Merkmal Y charakterisiert die Population
Homogenität: die bedingten Verteilungen
pi|j, i =1, …, r
sind für alle j Populationen gleich
Zum Überprüfen der Homogenität: ChiquadratStatistik
3.3.04
PI Statistik, SS 2004 (4)
20
Kontingentzkoeffizienten
Von der Chiquadrat -Statistik abgeleitete
Assoziationsmaße:
Pearson´scher Kontingenzkoeffizient
P
T
n T
Cramér´scher Kontingenzkoeffizient
C
T
n min( r  1, s  1)
bei Unabhängigkeit: P = 0, C = 0
Maximalwert: P < 1, C ≤ 0
3.3.04
PI Statistik, SS 2004 (4)
21
Unfälle
Für die Kontingenzkoeffizienten erhalten wir
P
3.3.04
8.78
8.78
 0.225, C 
 0.231
165  8.78
165
PI Statistik, SS 2004 (4)
22
Beispiel: Nochmals Unfälle
Für 165 Unfälle wurden registriert:


Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn
Personenschaden: ja/nein
P-Schaden
OrtsGeb.
LandStaße
A-Bahn
Summe
ja
17
23
12
52
nein
65
44
4
113
Summe
82
67
16
165
2x3 Kontingenztafel
3.3.04
PI Statistik, SS 2004 (4)
23
Beispiel,
Forts.
Chiquadrat-Statistik:
T = 18.68
Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung
mit (r-1)(s-1) = 2 Freiheitsgraden
Der p-Wert beträgt 0.000088 !
Pearson´scher Kontingenzkoeffizient:
P = 0.319
Cramér'scher Kontingenzkoeffizient:
C = 0.336
3.3.04
PI Statistik, SS 2004 (4)
24
Herunterladen