Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen Beispiel: Unfälle Für 165 Unfälle wurden registriert: Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein P-Schaden Stadt Land Summe 3.3.04 ja 17 35 52 nein 65 48 113 Summe 82 83 165 PI Statistik, SS 2004 (4) 2 Unfälle: Häufigkeitsverteilung 3D-Säulen Unfallhäufigkeiten und Personenschaden Unfälle und Personenschaden 70 60 50 40 ja 30 nein 20 70 60 50 40 10 0 Stadt Land ja 30 20 10 0 nein nein ja Stadt Gruppiertes Säulendiagramm 3.3.04 PI Statistik, SS 2004 (4) Land 3 Kontingenztafel Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung Auch Kreuztabellen oder Kreuzklassifikation genannt y1 … ys Summe x1 n11 … n1s n1. … … … … … xr nr1 … nrs nr. Summe n.1 … n.r n X Y Zelle 3.3.04 Randverteilungen PI Statistik, SS 2004 (4) 4 Unfälle: Häufigkeitsverteilungen Unfälle und Personenschaden 120 100 70 60 80 50 40 30 20 10 0 60 40 nein ja Stadt ja 80 70 60 50 40 30 20 10 0 3.3.04 0 Land 90 Stadt 20 Land nein Randverteilung nach • Personenschaden • Stadt/Land (bedingte) Verteilung nach Personenschäden von Unfällen in der Stadt PI Statistik, SS 2004 (4) 5 Rand- und bedingte Verteilungen ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y „.“ gibt an, dass über alle möglichen Werte des Index summiert wurde ni. = j nij ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi 3.3.04 PI Statistik, SS 2004 (4) 6 Unfälle: Häufigkeitsverteilungen Gemeinsame Verteilung P-Schaden Stadt Land Summe ja 17 35 52 nein 65 48 113 Summe 82 83 165 (bedingte) Verteilung nach Personenschäden von (82!) Unfällen in der Stadt Randverteilung nach • Personenschaden • Stadt/Land 3.3.04 PI Statistik, SS 2004 (4) 7 Relative Häufigkeiten Gemeinsame relative Häufigkeiten pij nij n , i 1,..., r , j 1,..., s z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen Bedingte relative Häufigkeiten pi| j nij n. j , i 1, , r , p j|i nij ni. , j 1, , s z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt 3.3.04 PI Statistik, SS 2004 (4) 8 Unfälle: Relative Häufigkeiten Gemeinsame Verteilung Randverteilung nach • Stadt/Land • Personenschaden P-Schaden Stadt Land Summe ja 10.3 21.2 31.5 nein 39.4 29.1 68.5 Summe 49.7 50.3 100.0 3.3.04 PI Statistik, SS 2004 (4) 9 Unfälle: Bedingte relative Häufigkeiten Bedingte Verteilungen für Unfälle • mit • ohne Personenschaden P-Schaden Stadt Land Summe ja 32.7 67.3 100.0 nein 57.5 42.5 100.0 Summe 49.7 50.3 100.0 Analog bedingte Verteilungen für Unfälle in Stadt und Land nach Personenschaden 3.3.04 PI Statistik, SS 2004 (4) 10 Bedingte Verteilungen Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden Unfälle mit und ohne Personenschäden 120,0% 100,0% 80,0% 60,0% 57,8% 79,3% 40,0% 42,2% 20,0% 20,7% 0,0% Stadt Land Gestapeltes Säulendiagramm 3.3.04 PI Statistik, SS 2004 (4) 11 Beziehung zwischen Merkmalen Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte 3.3.04 PI Statistik, SS 2004 (4) 12 Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen 3.3.04 PI Statistik, SS 2004 (4) 13 Sind Ort und Personenschäden bei Unfällen unabhängig? Was sagen uns: 3.3.04 bedingte Verteilungen für Unfälle mit und ohne Personenschäden bedingte Verteilungen für Unfälle in Stadt und Land nach Personenschaden P-Schaden ja Stadt 32.7 Land 67.3 Summe 100.0 nein 57.5 42.5 100.0 Summe 49.7 50.3 100.0 PI Statistik, SS 2004 (4) 14 Erwartete Häufigkeiten Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten nˆij ni.n. j n Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt 3.3.04 PI Statistik, SS 2004 (4) 15 Unfälle: Erwartete Häufigkeiten Beobachtet: Bei Unabhängigkeit erwartet: P-Schaden 3.3.04 Summe ja 17 35 52 nein 65 48 113 Summe 82 83 165 P-Schaden Stadt 25,8 ja 56,2 nein Summe Stadt Land 82 Land Summe 26,2 52 56,8 113 83 165 PI Statistik, SS 2004 (4) 16 Chiquadrat-Statistik Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen (nij nˆij ) 2 T nˆij i 1 j 1 2 2 Bei Unabhängigkeit der Merkmale: T = 0 Bei Abhängigkeit: T ist wesentlich größer als 0 Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung 3.3.04 PI Statistik, SS 2004 (4) 17 Unfälle Chiquadrat-Statistik: T = 8.78 p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003 Unabhängigkeit der Merkmale ist unplausibel 3.3.04 PI Statistik, SS 2004 (4) 18 (r x s) - Kontingenztafel Verallgemeinerung der 2x2-Tafel Chiquadrat-Statistik: (nij nˆij ) 2 T nˆij i 1 j 1 r s Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden T 2 (r 1)( s 1) 3.3.04 PI Statistik, SS 2004 (4) 19 Homogenität Das Merkmal Y charakterisiert die Population Homogenität: die bedingten Verteilungen pi|j, i =1, …, r sind für alle j Populationen gleich Zum Überprüfen der Homogenität: ChiquadratStatistik 3.3.04 PI Statistik, SS 2004 (4) 20 Kontingentzkoeffizienten Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße: Pearson´scher Kontingenzkoeffizient P T n T Cramér´scher Kontingenzkoeffizient C T n min( r 1, s 1) bei Unabhängigkeit: P = 0, C = 0 Maximalwert: P < 1, C ≤ 0 3.3.04 PI Statistik, SS 2004 (4) 21 Unfälle Für die Kontingenzkoeffizienten erhalten wir P 3.3.04 8.78 8.78 0.225, C 0.231 165 8.78 165 PI Statistik, SS 2004 (4) 22 Beispiel: Nochmals Unfälle Für 165 Unfälle wurden registriert: Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn Personenschaden: ja/nein P-Schaden OrtsGeb. LandStaße A-Bahn Summe ja 17 23 12 52 nein 65 44 4 113 Summe 82 67 16 165 2x3 Kontingenztafel 3.3.04 PI Statistik, SS 2004 (4) 23 Beispiel, Forts. Chiquadrat-Statistik: T = 18.68 Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 Freiheitsgraden Der p-Wert beträgt 0.000088 ! Pearson´scher Kontingenzkoeffizient: P = 0.319 Cramér'scher Kontingenzkoeffizient: C = 0.336 3.3.04 PI Statistik, SS 2004 (4) 24