170 ❏ Ein metrisches Merkmal 171 › Beispiel Nitratbelastung in NÖ-Trinkwasser Quelle NösiWAG/WWF 1998 526 Meßstellen, Angaben in mg/l, Grenzwert ist 50mg/l 23 23 32 32 32 12 12 12 23 23 23 12 12 20 20 9 9 9 9 1 1 1 1 1 1 9 9 9 9 47 12 23 12 1 1 13 12 12 12 12 12 12 23 12 20 20 20 20 20 20 20 4 12 4 1 1 1 1 1 1 1 9 9 9 1 1 1 1 1 1 1 1 9 9 9 9 14 14 13 13 47 10 47 . . . ! Information aus Rohdaten ist unübersichtlich. 172 i Darstellung eines metrischen Merkmals Methoden um: Daten zusammenzufassen Information übersichtlich darzustellen. Wesentlicher Begriff: i Häufigkeitsverteilung oder kurz Verteilung Welche Zahlen kommen wie oft vor? ✔ numerische Methoden Wie kann Verteilung mit wenigen Maßzahlen gut und sinnvoll beschrieben werden? ✔ graphische Methoden Wie kann Verteilung gut dargestellt werden? 173 i Häufigkeitsverteilung Durch Auszählen ➜ Häufigkeitstabelle Bestimmen und Angeben der Häufigkeiten aller möglichen Werte (Ausprägungen), die eine Variable annimmt. ! Wie bei kategorialen Daten! › Beispiel: Testergebnisse bei Studenten Punkte bei einem Test von 20 Studenten: 6,3,7,5,6,4,4,6,7,3,5,9,6,4,2,7,5,5,8,6 174 › Beispiel Punkteverteilung bei Test Punkte abs. H. rel. H. 2 1 0.05 3 2 0.10 4 3 0.15 5 4 0.20 6 5 0.25 7 3 0.15 8 1 0.05 9 1 0.05 Gesamt 20 1.00 5 4 3 2 1 0 0 2 4 6 8 10 175 i Histogramme Histogramme: Darstellung (stetiger) metrischer Daten. Fläche der Balken proportional zu Häufigkeiten. Höhe und Breite nicht egal. ! Bei Balkendiagrammen: Höhe der Balken proportional zu den Häufigkeiten, Breite egal. Diskrete Daten: Messungen auf bestimmte Punkte der Zahlengeraden beschränkt, z.B. ganze Zahlen 0, 1, 2, . . .. Stetige Daten: Messung im Prinzip beliebig genau, alle Punkte der Zahlengeraden kommen in Frage ➜ Klasseneinteilung 176 Prozent › Beispiel Punkte in einem Test / Nitrat im Trinkwasser 30 30 20 20 10 10 0 0 2 3 4 5 6 7 Punkte in einem Test 8 9 0 Nitrat 5 10 15 20 25 30 35 40 45 177 Prozent › Beispiel Auswirkungen unterschiedlicher Balkenbreiten 50 50 40 40 30 30 20 20 10 10 0 0 Nitrat Nitrat 178 Prozent › Beispiel Auswirkungen unterschiedlicher Balkenbreiten 50 50 40 40 30 30 20 20 10 10 0 0 Nitrat Nitrat 179 Prozent › Beispiel Auswirkungen unterschiedlicher Balkenbreiten 50 50 40 40 30 30 20 20 10 10 0 0 Nitrat Nitrat 180 i ➊ Regeln zur Erstellung eines Histogramms Anzahl der Klassen k üblicherweise zwischen 5 und 20. Faustregel: k ist die kleinste Zahl, sodaß 2k > n. n bis 8 9–16 17–32 33–64 65–128 129–512 513–1024 k 3 4 5 6 7 8 9 max − min ➋ Klassenbreite = ➌ Höhe der Balken = relative Häufigkeit der Klasse. Gelegentlich ungleiche Klassenbreiten: Fläche des Balkens muß proportional zur relativen Häufigkeit sein. k 181 i Lage und Streuung eines Merkmals Lage Lage ➞ ➞ Schuhgröße 50 ▼ ▼ Streuung Körpergröße 100 150 ▼ ▼ Streuung 182 i Überblick: Statistische Maßzahlen Lagemaße Mittelwert x̄ ∼ Median x Modus Graphische Darstellungen Histogramm Stem-and-Leaf Plot Box Plot Streuungsmaße Varianz s2 Standardabweichung s Interquartilsabstand Spannweite (Range) 183 i Mittelwert - arithmetisches Mittel Mittelwert (arithmetisches Mittel) x̄ = n 1X n j =1 xj = Summe aller Werte Anzahl der Werte ✔ Eingipfelige symmetrische Verteilung › Beispiel: Punktezahl in einem Test Punktezahlen in einem Test von n = 20 Studenten xj : 2,3,3,4,4,4,5,5,5,5,6,6,6,6,6,7,7,7,8,9 184 ? Wann ist der Mittelwert ein gutes Lagemaß? 6 4 2 0 ! E x̄ = 5.4 2 3 4 5 6 7 8 9 Die Form der Verteilung bestimmt, ob Mittelwert ein gutes Maß zur Beschreibung ist. Hier ist der Mittelwert ein gutes Maß, etwa die Hälfte der Wert ist größer bzw. kleiner als x̄. 185 › Beispiel Anzahl der Angestellten in n = 20 Gemüsegeschäften Daten: 2,3,3,3,4,4,4,4,5,5,5,5,5,5,6,6,6,8,10,15 8 6 4 2 0 x̄ = 5.4 2 4 6 8 10 13 14 ! Verwendung von x̄ wenig sinnvoll ➜ schiefe Verteilung. 186 › Beispiel Anzahl der Krankenstandstage von n = 20 Arbeitern Daten: 0,0,0,0,0,0,0,0,1,1,1,1,1,2,2,2,3,3,15,76 10 8 6 4 x̄ = 5.4 2 0 0 20 60 70 80 187 › Beispiel Anzahl der gelesenen Ausgaben einer Monatszeitschrift Anzahl von Ausgaben einer Monatszeitschrift gelesen von n = 20 Personen Daten: 0,0,0,0,0,0,0,1,1,1,2,10,11,11,11,12,12,12,12,12 8 6 4 x̄ = 5.4 2 U-förmige Verteilung 0 0 1 2 3 4 5 6 7 8 9 10 11 12 188 › Beispiel Anzahl der gelesenen Ausgaben einer Monatszeitschrift U-förmige Verteilung ✔ Verteilung ist zwar symmetrisch, hat aber 2 Gipfel ✔ Mittelwert repräsentiert keinen typischen Wert, wie auch bei schiefen Verteilungen ! Zusammenfassung der Daten müßte komplexer sein. z.B. etwa die Hälfte der Leute liest keine oder fast keine Ausgabe, während die andere Hälfte alle oder nahezu alle Ausgaben liest. 189 › Beispiel Gleichverteilung Anzahl der PKWs, die während einer Grünphase über eine Kreuzung fahren (n = 20 Grünphasen) 10 8 6 4 2 x̄ = 5.4 0 Gleichverteilung 4 5 6 7 ✔ Verteilung ist zwar symmetrisch, hat aber keinen Gipfel ! Mittelwert repräsentiert keinen typischen Wert 190 i Lagemaße Es gibt im wesentlichen 2 Arten von Daten: ➊ Einigermaßen symmetrische Verteilung mit einem Gipfel in der Mitte. ➥ Mittelwert ist ein gutes Maß zur Beschreibung, da er typisch für die Daten ist. ➋ Schiefe, U-förmige mehrgipfelige oder Gleichverteilung. Es gibt keine typischen Werte. ➥ Mittelwert ist ein schlechtes Maß. 191 i Der Median ∼ Der Median x ist definiert als der Wert in der Mitte. ! 50% der Werte sind ≤ als der Median 50% der Werte sind ≥ als der Median 17 17 18 18 18 19 19 19 19 20 21 ➞ Werte 1 2 3 4 5 6 ➞ Rangplätze 7 8 9 10 11 m . . . mittlerer Rangplatz 192 i ➊ ➋ ➌ Berechnung des Medians nach J. Tukey Sortieren der Werte der Größe nach Berechnen des Rangplatzes des Medians: m = Bestimmen des Wertes des Medians. n+1 2 E Ist n eine gerade Zahl, nimmt man den Mittelwert der beiden mittleren Zahlen. 17 17 18 18 18 19 19 19 19 20 21 ➞ Werte 1 2 3 4 5 6 ➞ Rangplätze 7 8 9 10 11 m . . . mittlerer Rangplatz 193 i ➊ ➋ ➌ Berechnung des Medians nach J. Tukey Sortieren der Werte der Größe nach Berechnen des Rangplatzes des Medians: m = Bestimmen des Wertes des Medians. n+1 2 E Ist n eine gerade Zahl, nimmt man den Mittelwert der beiden mittleren Zahlen. Werte Rangplätze 17 17 18 18 18 19 19 19 19 20 21 1 2 3 4 5 6 ∼ x= 7 8 18 + 19 2 9 10 11 = 18.5 194 i Stem and Leaf Plot › Beispiel: Berechnen Sie den Median für folgende Werte: 17 19 22 21 27 22 18 18 16 18 15 16 17 20 19 19 19 20 18 18 23 20 18 21 18 17 19 22 17 ➜ Sortieren 195 i Stem and Leaf Plot › Beispiel: Berechnen Sie den Median für folgende Werte: 15 16 16 17 17 17 17 18 18 18 18 18 18 18 19 19 19 19 19 20 20 20 21 21 22 22 22 23 27 ➜ Sortieren 196 i Stem and Leaf Plot › Beispiel: Berechnen Sie den Median für folgende Werte: 15 16 16 17 17 17 17 18 18 18 18 18 18 18 19 19 19 19 19 20 20 20 21 21 22 22 22 23 27 ➜ Sortieren E Stem and Leaf Plot nach John Tukey 197 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 198 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 ← Median 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 199 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 Häufigkeit Wird in SPSS statt Tiefe ausgegeben 200 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 Depth Tiefe Wird in SPSS statt 201 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 Stem Stammweiteausgeg hier 10 202 i Stem and Leaf Plot 1 (1) 1 5 2 (3) 1 66 4 (7) 1 7777 7 (14) 1 8888888 5 1 99999 3 (10) 2 000 2 (7) 2 11 3 (5) 2 222 1 (2) 2 3 1 (1) 2 7 Leaf Blatt darf nur einstellig sein 203 i Der Modus einer Verteilung Der Modus ist Gipfel der Verteilung, der häufigste Wert. › Beispiel: 0,0,1,1,1,1,2,3,5,19 Modus = 1 Manchmal mehr als 1 Modus: › Beispiel: 0,0,1,1,1,2,2,3,3,3,5,19 lokaler Modus bei 1 und bei 3 ! Wenn Verteilung 2 oder mehrere Gipfel hat: bimodal oder multimodal Manchmal kein Modus: 0,1,3,4,6,7,9,11,15 bei Gleichverteilung 204 i Vergleich Mittelwert, Median und Modus Mittelwert Summe der Werte/Anzahl der Werte Median mittlerer Datenpunkt Modus häufigster Wert Bei eingipfeligen, einigermaßen symmetrischen Verteilungen sind die Wert der drei annähernd gleich. ! Bei anderen Formen der Verteilung sind die Werte unterschiedlich. Meist Mittelwert 6= Modus ≈ Median Beispiel Mittelwert Median Modus Testpunkte (symmetrische Vert.) 5.4 5.5 6 Krankenstände (schiefe Vert.) 5.4 1 0 Monatsmagazin (U-förmige Vert.) 5.4 1.5 0 bzw. 12 205 i Skalenniveau und Lagemaße Vergleich Mittelwert, Median und Modus Mittelwert Median Modus Nominalskala – – ok Rangskala – ok ok Intervall- (Rational)skala ok ok ok 206 i Vorteile des Mittelwertes • kann ausgerechnet werden, ohne die Daten zu sortieren. • wenn man x̄ und n kennt, kann man Summe der Einzelwerte berechnen: x̄ = n 1X n j =1 xj → n · x̄ = n X xj j =1 • Mittelwert kann in weiteren Analyeschritten verwendet werden, z.B. bei Zusammenfassen mehrerer Datensätze ➜ gewichtete Mittelwerte 207 i Ausreisser – Outliers Outliers sind Beobachtungen, die weit weg vom Rest liegen. › Beispiel: Krankenstände Mittelwert wäre 1.7 statt 5.4, wenn man die Beobachtung 76 weggelassen hätte. ? Wie enstehen Outliers und was macht man? ✔ Fehler? ➜ korrigieren oder weglassen ✔ reliabel? ➜ weglassen und getrennt darüber berichten ! Median und Modus sind robust gegenüber Ausreissern. 208 i Gewichtete Mittelwerte Bei Kombination von Datensätzen gibt es 2 Möglichkeiten, Gesamtmittelwert zu bestimmen: P n xj x̄ Daten 1: 0,1,1,2,2,3,3,4 8 16 2 Daten 2: 3,4,5 3 12 4 kombiniert: 0,1,1,2,2,3,3,3,4,4,5 11 ➊ Mittelwert der einzelnen Mittelwerte: ➋ Mittelwert aller individuellen Werte 28 x̄1 + x̄2 2 2.55 209 i Gewichtete Mittelwerte Ergebnisse können unterschiedlich sein. für für ➊ ➋ x̄ = 3 x̄ = 2.55 Berechnung des gewichteten Mittels: Die einzelnen Mittelwerte und Stichprobengrößen müssen bekannt sein 28 n1 · x̄1 + n2 · x̄2 8·2+3·4 = = 2.55 x̄ = = 8+3 11 n1 + n2 Jeder Mittelwert mit seinem Anteil an Gesamtbeobachtungszahl gewichtet. 210 i Streuungsmaße Um Daten bzw. Verteilungen zu beschreiben, genügt es nicht, nur eine Maßzahl für die Lage anzugeben. Z.B. das durchschnittliche Alter der Studtenten im HS ist 20.5 ! Auch die Streuung ist wichtig. Oft genügt die Information: Z.B. die meisten Studenten sind zwischen 18 und 21 Jahre alt. Manchmal präzisere Angaben notwendig. 211 i 2 Arten von Streuungsmaßen ? Wie sehr weichen Daten vom Mittelwert ab? • mittlere absolute Abweichung • Varianz • Standardabweichung ? In welchem Bereich liegen die Daten, bzw. zwischen welchen Werten liegen die Daten bzw. 50% der Daten • Spannweite (Range) • Interquartilsabstand (IQD) E Streuungsmaße nur bei eingipfeligen, symmetrischen Verteilungen gut interpretierbar. 212 › Beispiel Zuspätkommende Angestellte Anzahl von Angestellten, die an 5 Werktagen zu spät ins Büro kommen: Daten xj : 11 2 5 1 6 x̄ = 25/5 = 5 ➜ Abweichungen vom Mittelwert dj = xj − x̄ Abweichungen dj : 6 -3 0 -4 1 ! Mittelwert der dj immer Null, kein geeignetes Streuungsmaß. E Besser: Mittelwert der absoluten Abweichungen. 213 i Mittlere absolute Abweichung MAA = n 1X n j =1 |xj − x̄| › Im Beispiel: MAA = (6 + 3 + 0 + 4 + 1)/5 = 2.8 Werte liegen durchschnittlich 2.8 Einheiten vom Mittelwert entfernt. ✔ Vorteile verständliches Maß bei kleinen Stichproben leicht zu berechnen ✔ Nachteile für spätere Analyse nicht verwendbar 214 i Varianz und Standardabweichung Die Varianz ist der Mittelwert der quadrierten Abweichungen var(x) = s2 = n 1X n j =1 (xj − x̄)2 › Beispiel: zuspät kommende Angestellte Abweichungen: Quadrate davon: 6 -3 0 -4 1 36 9 0 16 1 s2 = 62/5 = 12.4 215 i Standardabweichung Varianz in quadrierten Einheiten Um zu ursprünglichen Einheiten zurückzukehren: Standardabweichung ➜ Wurzel aus Varianz v u X √ p u1 n s = Var(x) = s2 = t (xj − x̄)2 n j =1 √ › Im Beispiel: s = 12.4 = 3.5 ! Standardabweichung ist etwas größer als MAA. 216 qqqq qqq qqqq qqqqq qqqq q qq qqqq qqqq qqqqq qqq qq qqq qq qqq qqq qqq q qqqqqqq q q q q qqq q q qqq qqqq qq qq qqqqq qqq qqq q qq q q q qqq qqq q q qq q qqq qqq qqq qqq qqqqq qqq qqq q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q qqqqqq qqq qq qqqq q q q q q qqq q q q q q q q q q q q q q q q q q q q qqq qqqq qqq qq q qqq q q q qqq q q q q qqqq qq qq q q q q qqq qqqq qqqqq q qqq q q q qqq q q q q qqqq qqqq q qqq q qqq q q q q q q q q q q q q q q q q qqq qqqqqqqqqqq qqq q q q q qqq q q q q qqq q qqqqqqqq q q qqq q q q q q q q q q q q q q qq qqq q q qqqq qqqqqqq q q q q q q qqq qqqqq qqqqq q qqq q q q q q q q q q q q q qqq qqqqqq qqq qq qq qqqqqq qqqqq qqqqqqqqqqq qqqq qq qqqqqqq q q qq q qqqqqq q q q q q q q q q q q q qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q qqqqqqq q q qqqq qqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq 217 › Beispiel Wühldauer von Schweinen 100 Schweine in einem neuen Stall 40 30 Prozent 20 10 0 5 15 25 30 20 5 2.0 3.0 4.0 5.0 6.0 7.0 ? Wie lassen sich Mittelwert und Varianz berechnen? 218 i Mittelwert und Varianz aus relativen Häufigkeiten › Beispiel: Punkte im Test von 20 Studenten • Daten xi: 2, 3,3, 4,4,4, 5,5,5,5, 6,6,6,6,6, 7,7,7, 8, 9 Index i bezeichnet die i-te Person, insgesamt n. • unterschiedliche Werte x∗j : 2,3,4,5,6,7,8,9 Index j bezeichnet die j-te Zahl, die vorkommt, insgesamt J verschiedene Zahlen. hj absolute Häufigkeit der j-ten Zahl rj = hj /n relative Häufigkeit der j-ten Zahl 219 i Mittelwert und Varianz aus relativen Häufigkeiten Berechnung des Mittelwerts x̄= (2 + 3 + 3 + 4 + 4 + 4 + . . . + 7 + 7 + 7 + 8 + 9)/20 = (2·1 + 3·2 + 4·3 + 5·4 + 6·6 + 7·3 + 8·1 + 9·1)/20 = x1 · h1 + x2 · h2 + . . . + xJ · hJ )/n 1X xj · hj = n j X = xj · rj = 5.4 j 220 i Mittelwert und Varianz aus relativen Häufigkeiten j 1 2 3 4 5 6 7 8 P 2 3 4 5 6 7 8 9 x∗j I II III IIII IIIII III I I hj 1 2 3 4 5 3 1 1 rj 0.05 0.10 0.15 0.20 0.25 0.15 0.05 0.05 x∗j · rj 0.10 0.30 0.60 1.00 1.50 1.05 0.40 0.40 5.40 [1] x2j 4 9 16 25 36 49 64 81 x∗j 2 · rj 0.20 0.90 2.40 5.00 9.00 7.35 3.20 4.05 32.10 [2] 221 i Mittelwert und Varianz aus relativen Häufigkeiten Mittelwert x̄ = X j xj = X j x∗j · rj = 5.40 Varianz Mittelwert der Quadrate [2] minus Quadrat des Mittelwerts [1]: 2 s = 1X n j x2j − x̄2 = [2] − [1]2 = 32.10 − 5.42 = 2.94 › Übungsaufgabe: dieselbe Rechnung für die Wühldauer der Schweine 222 i Die Spannweite Spannweite (Range) größter Wert − kleinster Wert › Beispiel: xj : 11, 2, 5, 1, 6 x̄ = 5 Spannweite = 11 − 1 = 10 ! Wird in der Praxis nicht als Streuungsmaß verwendet, sondern zur Beschreibung des Wertebereichs (Trägers) der Daten. Jenes Intervall auf der Zahlengeraden, in dem die Werte von X liegen. 223 i Interquartilsabstand Quantile jene Werte, die eine Haufigkeitsverteilung in gleich große Stücke teilen. Quartile teilen eine Häufigkeitsverteilung in 4 Teile Q1: unteres Quartil 25% der Werte sind kleiner als Q1 Q2: Median 50% der Werte sind kleiner als Q2 Q3: oberes Quartil 75% der Werte sind kleiner als Q3 224 › Beispiel Quartile Daten xj := 16, 17, 17, 18, 18, 18, 19, 19, 19, 20, 20, 22 1 1 1 1 2 2 2 6 77 888 999 00 2 Q1 = 17.5 Q2 = 18.5 Q3 = 19.5 225 i Perzentile xp Perzentile teilen Häufigkeitsverteilung in 100 Teile xp ist Wert am Rangplatz p · (n + 1) Wenn keine ganze Zahl, Mittelwert der Nachbarn. x0.25 = Q1 x0.50 = Q2 x0.75 = Q3 0.25 Perzentil (unteres Quartil) 0.50 Perzentil (Median) 0.75 Perzentil (oberes Quartil) › Beispiel (Fortsetzung) 0.25 · 13 = 3.25 ➜ keine ganze Zahl 17 + 18 Q1 = Mittel aus 3. und 4. Wert = = 17.5 2 n = 12, 226 i Interquartilsabstand und mittlerer Quartilsabstand Interquartilsabstand (inter quartile distance) IQD = Q3 − Q1 mittlerer Quartilsabstand MQA = Q3 − Q1 2 ✔ nicht so von extremen Werten wie Maximum und Minimum abhängig. ✔ geben Intervall an, in dem 50% der Werte rund um den Median liegen. ✔ nur bei symmetrischen und eingipfeligen Verteilungen geeignet. 227 i Streuungsmaße und Skalenniveau MAA Varianz IQD Range (Nominalskala) – – – (ok) Rangskala – – ? ok Intervall-(Rational)skala ok ok ok ok 228 i Der Box Plot ✔ gibt Verteilung gut wieder ✔ zeigt Lage- und Streuungsmaße ✔ günstig beim Vergleich mehrer Datensätze Einfache Version ergibt sich aus Minimum, Maximum und Quartilen: 25% min 25% 25% 25% Q1 Q2 Q3 max - 15 17 19 21 23 25 27 229 › Beispiel Boxplot Daten zu diesem Beispiel: (1) (3) (7) (14) (10) (7) (5) (2) (1) 1 1 1 1 1 2 2 2 2 2 5 66 7777 8888888 99999 000 11 222 3 7 n = 29 min = 15 max = 27 Q1 = (17 + 18)/2 = 17.5 Q2 = 19 Q3 = (20 + 21)/2 = 20.5 230 i Anatomie eine Boxplots ? ? y y y ? 231 i Anatomie eine Boxplots Box Main body of data ? ? ? y y y ? 232 i Anatomie eine Boxplots Inner Fences ? ? ? y y ? y ? 233 i Anatomie eine Boxplots 1.5 × Länge der Box ? ? y y - y ? 234 i Anatomie eine Boxplots Outer Fences ? ? ? ? y y y ? 235 i Anatomie eine Boxplots 3 × Länge der Box ? ? - y y - y ? 236 i Anatomie eine Boxplots größter Wert innerhalb der Inner Fences ? ? ? y y y ? 237 i Anatomie eine Boxplots kleinster Wert innerhalb der Inner Fences ? ? ? y y y ? 238 i Anatomie eine Boxplots upper outliers ? ? y y ? y ? 239 i Anatomie eine Boxplots lower outliers ? ? ? ? y y y ? 240 i Anatomie eine Boxplots far lower outliers ? ? ? ? y y y ? 241 i Anatomie eine Boxplots far upper outliers ? ? ? y y y ? 242 ? Frage Ein metrisches Merkmal - wichtige Fragestellungen ➊ In welchem Bereich kann man einen Mittelwert in der Grundgesamtheit erwarten? › Beispiel: In welchem Bereich kann NPDC die Einnahmen aus dem Verkauf von CARIDEX erwarten? 243 ? Frage Ein metrisches Merkmal - wichtige Fragestellungen ➋ Ist ein Mittelwert anders (kleiner, größer oder ungleich) als eine bestimmte Vorgabe? › Beispiel: Erreicht man mit einer bestimmten Diät eine durchschnittliche Gewichtsabnahme von mindestens 5 kg? 244 ? Fragestellung 1 In welchem Bereich kann man den Mittelwert einer Grundgesamtheit erwarten? › Beispiel: CARIDEX, Anzahl der behandelten Zähne pro Woche Gesucht ist der Mittelwert der in einer Woche mit Caridex behandelten Zähne für alle in Frage kommenden Zahnärzte. ? In welchem Bereich kann man diesen Mittelwert erwarten? ? Wenn der Mittelwert aus der Stichprobe errechnet wurde, kann man daraus schließen, wo der unbekannte Mittelwert der Population liegt? 245 › Beispiel CARIDEX Repräsentative Stichprobe n = 400 Zahnärzte: 100 80 60 Anzahl 40 20 0 2 3 4 5 6 7 8 9 10 11 246 i Inferenzstatistik Beschreibende Statistik Graphische und numerische Methoden, um Informationen aus Daten zu gewinnen und zusammenzufassen. Inferenzstatistik – Schliessende Statistik Methoden, um Informationen aus Stichproben so zu nutzen, daß Rückschlüsse auf eine Population gezogen werden können. • • • • Schätzen, Prognose Testen, Prüfen von Fragestellungen Aufspüren von Zusammenhängen Entwicklung von Erklärungsmustern 247 i Inferenzstatistik Meist ist es nicht möglich, die gesamte Population zu untersuchen – zu aufwendig oder zu kostspielig. Einfacher: Stichprobe ziehen ➜ Schlußfolgerungen aufgrund von Statistiken. Aber: Schätzungen und Schlußfolgerungen aufgrund von Stichprobendaten nicht immer korrekt. Daher: Maße für die Zuverlässigkeit von Schlußfolgerungen. ! Konfidenzniveau: Prozentsatz der Fälle, in denen eine Schätzung korrekt ist. Signifikanzniveau: Prozentsatz der Fälle, in denen eine Entscheidung falsch ist. 248 i ➊ ➜ Methoden der Inferenzstatistik Methoden zu Schätzung oder Vorhersage von Werten in einer Population. siehe Fragestellung 2. › Beispiele • Wieviel Prozent der Österreicher sind für die Einführung des Euro? • Wie hoch ist der Durchschnittsverbrauch von Milch/Tag bei Kindern unter 10? 249 i Methoden der Inferenzstatistik ➋ Methoden zur Überprüfung (Testen) von Fragestellungen (Hypothesen), die die Population betreffen. ➜ siehe Fragestellung 3 › Beispiele • Unterscheiden sich Arbeiter und Angestellte bezüglich der durchschnittlichen Anzahl von Krankenstandstagen pro Jahr? • Besteht ein Zusammenhang der Intelligenzquotienten bei verheirateten Paaren? 250 i Methoden der Inferenzstatistik ➌ Modelle zum Auffinden von Zusammenhängen und Erklärungsmustern. ➜ siehe Fragestellung 5: zwei metrische Merkmale › Beispiele • Hängen die Anzahl eingenommener Vitamintabletten und die Anzahl von Krankenstandstagen zusammen? • Läßt sich der Bezinverbrauch durch das Gewicht, Hubraum, PS oder Herstellerland eines Autos erklären? 251 i Grundidee der Inferenzstatistik Population (Grundgesamtheit) Charakteristika einer Population ➜ Parameter › Beispiele: • Durchschnittsalter aller Studenten an der WU • Anteil der Euro-Befürworter in Österreich Stichprobe Charakteristika einer Stichprobe ➜ Statistiken › Beispiele: • Mittelwert, Prozentsatz . . . 252 i Beziehung Parameter ↔ Statistiken 3 Arten von Verteilungen ➊ Verteilung einer Population Häufigkeiten für alle Werte aus einer Population ➋ Verteilung in einer Stichprobe Häufigkeiten für alle Werte aus einer Stichprobe ➌ Verteilung von Statistiken Häufigkeiten, mit der bestimmte Kennwerte (Statistiken) auftreten, wenn viele Stichproben aus derselben Population gezogen werden. 253 i Beziehung Parameter ↔ Statistiken Beispiel ✔ Stichprobe ziehen → Mittelwert berechnen ✔ Zweite Stichprobe ziehen → Mittelwert berechnen ✔ Dritte Stichprobe ziehen → Mittelwert berechnen das macht man viele Male. . . ✔ Histogramm aller so berechneten Mittelwerte ➥ E Resultat sieht immer aus wie eine Normalverteilung, egal wie die Verteilung in der Population war. Das gilt auch für andere Statistiken wie Anteile, Regressionskoeffizienten etc. 254 Verteilung in Population Mittelwert = 16.00 Median = 16.00 Standardabweichung = 2.24 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 5 Stichproben n=5 x̄ = 14.03 1000 Stichproben n=5 x̄ = 16.07 s = 2.22 255 i Die Normalverteilung Theoretische Verteilung, die durch • Mittelwert µ und • Standardabweichung σ relative Häufigkeit festgelegt wird. rrrrrrrrrrrrrrrrrr rrrr rrr r r rrr rr rrr rrrr rrr rr r rr r rr rr r rr rr rr rr rr rr rr rr rr rr rr rrr rr rr rr rrr rr rrr rrr r rr rr r rrr r rr rrr r r r rrr r rr rrrr r r r r rrrr r r rrrrrr rrr r r r rrrrrr r r r r r r rrrrrrrrrrrrrr r r r r r rrrrrrrrrrrrrrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrrrr 1 −(x−µ)2/2σ 2 f (x) = √ e σ 2π 256 i Die Normalverteilung 257 i Gestalt der Normalverteilung Die Gestalt der Verteilung wird durch die Parameter µ und σ bestimmt. Schreibweise: X ∼ N (µ, σ 2) r rrrrrr rrr rrrr r rr rr rrr rrrr rrrr r rrr rrrr rr rrrr rrr r rrr r r r r r r r rrrrr r r rrr r r r rrr r r rr r rrr rr r rrrr rrr r rr r rrr rrr rr r rrr r rr r rrrr rr rr r rrr r r r rr rr rrrrrrrrrrrrrrrrrrrrrr r rrr r r r r r r r r r r r rrr r r r r r r rr r rrrrrr rrr r rrr r r r r r r r r r r r r r r rrr r r r r rrrr rr r rrr r r r r rrr r r r r r r r r r r r r r r r r rrr rrrr rr rrr r r r r r rr r r r r rrrrrrr rr r r rr r r r r r r rrrr r r rr r r r r r r rrr r rrrrrrr rrr r r r r r r r r r rrr r r r r r r r r r r r r r r r rrr r r r r rr rrrrrr rrr r r r r rr r r r r r r r r r r r r r r r r r r rrr rrrrrrr rrrr r r rrrr r r r r r r r r rrrr rrrrrr rr r rr rrrr rrrrr rrrrrr rr rrrrr rrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrr rrrrrrrr r r r r r r r r r r r r r r r r r r r r r rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr r r rrr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr rrrrrrrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr rrrrrrrrrrrrr rrrrrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr N(0,1) N(2,0.5) N(-1,2) -6 -4 -2 0 2 4 6 258 i Die Standardnormalverteilung Z ∼ N (0, 1) Eigenschaften ✔ Verteilung ist eingipfelig und symmetrisch Mittelwert, Median und Modus gleich ✔ Normalverteilung paßt daher oft sehr gut für symmetrische, eingipfelige Daten wie z.B. Körpergröße, IQ etc. ✔ Normalverteilung ist ein Modell, d.h. ein vereinfachtes Abbild der Realität. ✔ sind Mittelwert und Varianz bekannt, kann man die relative Häufigkeit (genauer Wahrscheinlichkeit) angeben, mit der Werte in einem bestimmten Intervall realisiert werden. 259 i Eigenschaften der Standardnormalverteilung ca. 68% der Daten liegen ±1 · σ vom Mittelwert. ca. 95% der Daten liegen ±2 · σ vom Mittelwert. 260 i Normalverteilung Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber jede beliebige Variable X in eine Variable Z so transformieren, daß sie dann Mittelwert 0 und Varianz 1 besitzt. x−µ ➜ Standardisieren z = σ X ∼ N (2, 2) -6 -4 -2 0 2 4 6 8 261 i Normalverteilung Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber jede beliebige Variable X in eine Variable Z so transformieren, daß sie dann Mittelwert 0 und Varianz 1 besitzt. x−µ ➜ Standardisieren z = σ X − 2 ∼ N (0, 2) -6 -4 -2 0 2 4 6 8 262 i Normalverteilung Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber jede beliebige Variable X in eine Variable Z so transformieren, daß sie dann Mittelwert 0 und Varianz 1 besitzt. x−µ ➜ Standardisieren z = σ X −2 ∼ N (0, 1) Z= √ 2 -6 -4 -2 0 2 4 6 8 263 i Zentraler Grenzwertsatz X mit beliebiger Verteilung, Mittelwert µ und Varianz σ 2: E Mittelwerte aus Stichproben der Größe n sind approximativ normalverteilt, wenn n ausreichend groß ist. Dabei gilt: • Mittelwert der Stichprobenmittel = µx̄ = µ σ • Standardabweichung der Stichprobenmittel = σx̄ = √ n ! Faustregel:n > 30 264 i Variabilität der Verteilung in Stichproben und von Statistiken › Beispiel: • Getränk in 1 Liter Flaschen abgefüllt • Maschine arbeitet mit µ = 1 und σ = 0.02 • 10 Tage jeweils 1 Stichprobe von n = 10 Flaschen ➜ Mittelwerte 1.10 u 1.05 u u u u u u u u u u u u u u u u q q q q q q q q q q q q u u u q q q q q q qqqqqqqqqqqqqu u qqqq u q q u u u u q q q q q q q q q q q q q q q q q q q u u u u u u u q q q q q q q q q q q q q q q q q u qqqqqqq u qqq qqqqqq u qqq u qqqqqqqqqqqqqqqqqqqquqqqqqq qqq u u qqqqqqqqqqqqqqu qqqqqqqqqqqqqqqqqqqqqqqqqu qqqqqqqqqqqqqqq u qqqqqqq qqqqqq u uqqqqqqq qqqqqqq qqqq u u qq q q q u u u u u u q q q q q q q qqu q u u u q u u qqqqqq u u u u u qqqqu u u u u u u u u u u u u u u u u u 1.00 Liter u u u u 0.95 0.90 0 2 Stichprobe 4 6 8 10 265 › Beispiel Abfüllanlage ! Verteilung√ der Stichprobenmittelwerte hat eine um den Faktor 1/ n geringere Streuung als Verteilung in Population 1.10 Verteilung aller Werte x̄ = 1.00 s = 0.018 1.05 1.00 0.95 0.90 Verteilung der Mittelwerte x̄x̄ = 1.00 sx̄ = 0.007 266 i Konfidenzintervalle Wir wissen, wie groß die Variabilität der Mittelwerte sein kann und welche Form ihre Verteilung hat. Weiters wissen wir • ca. 68% der Stichprobenmittel liegen ±1σ von µ. • ca. 95% der Stichprobenmittel liegen ±2σ von µ. Fragestellung 1 (Caridex) war: ? Wenn wir den Mittelwert errechnet haben, können wir dann daraus schließen, wo das unbekannte µ liegt? 267 i Konfidenzintervall für den Mittelwert Problem: man kennt µ nicht ➜ Ersetzen durch aktuellen Stichprobenmittelwert (schätzen). Man kennt allerdings auch σ nicht . . . Konfidenzintervall für Mittelwerte bei bekannter Varianz σ 2 der Population KI: x̄ ± c σ c = z(1+γ )/2 √ n ! Es ist sehr plausibel, daß das Intervall das unbekannte µ enthält. Plausibel: mit Konfidenzniveau γ (Sicherheitswahrscheinlichkeit), üblich sind Werte von 95% oder 99%. 268 i Interpretation von Konfidenzintervallen ✔ Ziehen sehr vieler Stichproben ✔ Berechnen des Mittelwerts und des entsprechenden Konfidenz intervalls für jede Stichprobe. ✔ der Anteil der Konfidenzintervalle, die das tatsächliche µ ent halten, beträgt γ. ! für eine einzelnen Stichprobe kann man keine exakte Aussage machen. 269 › Beispiel 15 Stichproben mit 15 Konfidenzintervallen µ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 270 i Konfidenzintervalle bei unbekannter Varianz Normalfall, Varianz muß aus Stichprobe geschätzt werden: s2 → σ̂ 2 2 σ̂ = 1 n−1 X (xi − x̄)2 Anstelle der Normalverteilung wird die t-Verteilung verwendet. • t-Verteilung sieht aus wie Normalverteilung, nur breiter. • Hat Freiheitsgrade df wie χ2-Verteilung. • Wenn df→ ∞: t-Verteilung → Normalverteilung 271 i t-Verteilung Freiheitsgrade -5 -4 -3 -2 -1 0 1 2 3 4 5 1 2 5 ∞ 272 i Konfidenzintervall bei unbekannter Varianz KI: x̄ ± c σ̂ c = t 1+γ ,n−1 √ 2 n t 1+γ ,n−1 = (1 + γ)/2– Perzentil der t-Verteilung mit n − 1 2 Freiheitsgraden. Diese Perzentile sind tabelliert. 273 i Tabelle wichtiger t-Werte für γ = 0.95 df t-Wert 1 12.71 2 4.30 3 3.18 4 2.78 5 2.57 6 2.45 7 2.36 8 2.31 9 2.26 10 2.23 df t-Wert 11 2.20 12 2.18 13 2.16 14 2.14 15 2.13 16 2.12 17 2.11 18 2.10 19 2.09 20 2.09 df t-Wert 21 2.08 22 2.07 23 2.07 24 2.06 25 2.06 26 2.06 27 2.05 28 2.05 29 2.05 30 2.04 df t-Wert 40 2.02 50 2.01 60 2.00 70 1.99 80 1.99 90 1.99 100 1.98 150 1.98 200 1.97 ∞ 1.96 274 › Beispiel Caridex, 95%-Konfidenzintervall • Stichprobe n = 400 • x̄ = 4.015 • σ̂ = 1.76, berechnet mit 1/(n − 1) df= 399, =⇒ t-Wert = 1.96 σ̂ KI: x̄ ± c c = t0.975,399 √ n 1.76 c = 1.96 · √ = 0.172 400 KI: [3.843; 4.187] 275 › Beispiel CARIDEX: Ergebnis SPSS behandelte Zähne Verarbeitete Fälle Fälle Gültig Fehlend N Prozent N Prozent 400 100.0% 0 0.0% Gesamt N Prozent 400 100.0% Univariate Statistiken behandelte Zähne Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze Statistik 4.01 3.84 4.19 Standard fehler 0.09 276 › Beispiel CARIDEX: Ergebnis R In R werden Konfidenzintervalle gemeinsam mit Tests über den Mittelwert (siehe Fragestellung 2) ausgeführt. One Sample t-test data: CAVITIES t = 45.5152, df = 399, p-value =< 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 3.841581 4.188419 sample estimates: mean of x 4.015 277 ? Fragestellung 2 Ist ein Mittelwert anders (ungleich, kleiner oder größer) als eine bestimmte Vorgabe? Man möchte prüfen, ob die Größe eines Durchschnittswerts in der Grundgesamtheit einer bestimmten Annahme entspricht. › Beispiel: Wird mit einer bestimmten Diät innerhalb von 3 Wochen eine durchschnittliche Gewichtsabnahme von mehr als 5 kg erreicht? 278 › Beispiel Diät-Boxplot Stichprobe n = 20 ergab: x̄ = 4.73 8 7 6 5 4 3 2 1 0 279 › Beispiel Diät-Gewichtsabnahme Stichprobe n = 20 ergab: x̄ = 4.73 ? Widerspricht dies der Vorgabe, daß die durchschnittliche Gewichtsabnahme in 3 Wochen mehr als 5 kg beträgt? 2 Lösungsansätze ➊ ➋ Varianz in Population bekannt Varianz in Population unbekannt wird aus Stichprobe geschätzt. 280 i Testen von Hypothesen Eine Hypothese ist eine Vorhersage über einen bestimmten Aspekt einer oder mehrerer Variabler. Problemstellung Liefern Stichprobendaten genügend Evidenz, daß die jeweilige Fragestellung positiv beantwortet werden kann? 2 Arten von Hypothesen • Nullhypothese H0 • Alternativhypothese HA 281 i Die Nullhypothese In der Nullhypothese H0 wird ein einzelner Wert für einen Parameter festgelegt. › Beispiel: Führt eine bestimmte Diät innerhalb von 3 Wochen zu einer durchschnittlichen Gewichtsreduktion von 5 kg? H0 : µ = 5 282 i Alternativhypothese Die Alternativhypothese HA • ist die wichtigere Hypothese, das was man eigentlich sagen will. • ist das logische Gegenteil der Nullhypothese • wird akzeptiert, wenn H0 verworfen wird. • legt einen Bereich für den Wert eines Parameters fest. E Art der Alternative hängt ab von Vorwissen und Interessen, insbesondere von den Kosten einer Fehlentscheidung. ➥ 3 mögliche Formen 283 i Arten von Alternativen ➊ Konsumentenschützer vermuten Schwindel, glauben, daß der Gewichtsverlust geringer ist als angegeben. HA : µ < 5 ➋ Hersteller ist von Diät überzeugt, möchte zeigen, daß Abnahme durchschnittlich mehr als 5 kg beträgt. HA : µ > 5 ➌ Ernährungswissenschaftler möchte nur prüfen, ob die Angabe richtig ist. HA : µ 6= 5 284 i Signifikanzniveau Eine Stichprobe von 20 Personen könnte ergeben x̄ = 4.73. ? Spricht die für oder gegen dies Nullhypothese? ! Entscheidungen nur mit bestimmter Sicherheit Beim Testen verwendet man das Signifikanzniveau (Fehlerniveau) α und nicht wie bei Konfidenzintervallen das Sicherheitsniveau γ. Beziehung: Signifikanzniveau α ↔ Konfidenzniveau γ: α=1−γ Gebräuchliche Werte: α = 0.05, α = 0.01 285 i Testen von Hypothesen – kritische Schranke kritische Schranke HA : µ < 5 α = 0.05 4 J H0 verwerfen 4.41 5 6 I H0 beibehalten 286 i Testen von Hypothesen – p-Wert HA : µ < 5 p-Wert = 0.224 4 4.73 N 5 6 Stichproben-Mittelwert J I H0 verwerfen H0 beibehalten 287 i Prüfen von H0 mittels p-Wert p-Wert ist die Wahrscheinlichkeit, einen bestimmten Stichprobenmittelwert (Teststatistik) oder einen noch extremeren Wert in Richtung Alternativhypothese zu erhalten, unter der Annahme, daß H0 zutrifft. ! Überschreitungswahrscheinlichkeit Damit wird beurteilt, wie plausibel die Nullhypothese ist. Je nach Formulierung von HA gibt es zwei verschiedene Situationen. p-Wert < α =⇒ H0 verwerfen p-Wert ≥ α =⇒ H0 beibehalten 288 i Prüfen von H0 mittels kritischem Wert Kann der p-Wert nicht berechnet werden, dann wird die Nullhypothese beurteilt mittels eines Vergleichs der Teststatistik T mit einem kritischen Wert. Im Beispiel: Teststatistik T = x̄. ! Teststatistik T > oder < kritischer Wert =⇒ H0 verwerfen. HA : µ < µ 0 H0 verwerfen, wenn T < als kritischer Wert. HA : µ > µ 0 H0 verwerfen, wenn T > als kritischer Wert. HA : µ 6= µ0 H0 verwerfen, wenn |T | > als kritischer Wert. 289 › Beispiel Diät-Gewichtsabnahme Erreicht man mit einer bestimmten Diät innerhalb von 3 Wochen eine durchschnittliche Gewichtsabnahme von mehr als 5 kg? ✔ Irrtumswahrscheinlichkeit α = 0.05 ✔ Stichprobe: n = 20, x̄ = 4.73, s = 1.6 ➜ 2 mögliche Situationen ➊ Varianz σ 2 der Population bekannt Einstichproben z-Test mit Normalverteilung in der Praxis eher selten 290 › Beispiel ➋ Diät-Gewichtsabnahme Varianz σ 2 der Population ist nicht bekannt und muß aus der Stichprobe geschätzt werden Einstichproben t-Test ! Berechnung mit Statistikprogrammen, in der Regel werden p-Werte berechnet. 291 › Beispiel Ergebnis: Diät - Gewichtsabnahme – R > t.test(x, mu=5, alternative="greater") One Sample t-test data: abnahme t = -0.7414, df = 19, p-value = 0.7662 alternative hypothesis: true mean is greater than 5 95 percent confidence interval: 4.116767 Inf sample estimates: mean of x 4.734953 292 › Beispiel Ergebnis: Diät - Gewichtsabnahme ✔ p-Wert 0.766 ist größer als 0.05, daher H0 beibehalten. ➥ man erreicht mit dieser Diät keine durchschnittliche Gewichtsabnahme von 5 kg oder mehr innerhalb von 3 Wochen. 293 › Beispiel Ergebnis: Diät - Gewichtsabnahme – SPSS Statistik bei einer Stichprobe Gewichtsabnahme N 20 Mittelwert 4.73 Standardabweichung1.60 Test bei einer Stichprobe Gewichtsabnahme Testwert = 5 T df Sig. (2-seitig) -0.741 19 0.468 294 › Beispiel Ergebnis: Diät - Gewichtsabnahme – SPSS • SPSS gibt den p-Wert nur für 2-seitige Alternative aus, im Beispiel ist HA : µ > 5 aber einseitig. • den einseitigen p-Wert erhält man durch Halbieren des zweiseitigen Wertes: 0.234 = 0.468/2 ! Achtung: das Stichprobenmittel x̄ = 4.73 liegt nicht in der Richtung der Alternative H0 : µ = 5, • ➥ HA : µ > 5 daher ist der korrekte p-Wert: 1 − 0.234 = 0.766. Entscheidung dieselbe wie oben: H0 : µ = 5 beibehalten.