Lagemasse, Lokationsmasse Lageparameter. Charakterisierung das Zentrum der Daten Deskriptive Statistik2 Durchschnittswert (der arithmetische Mittelwert) =average(...) =Mittelwert(...) n x x1 x 2 x n n ¦x i i 1 n Modus (Modalwert, Dichtemittel): der Wert mit der größten Wahrscheinlichkeit; der häufigste Wert einer Häufigkeitsverteilung =mode(...) =Modalwert(...) Median (Zentralwert): halbiert eine Stichprobe. Anzahl der Daten der Stichprobe kleiner als Median = = Anzahl der Daten der Stichprobe größer als Median xmed ­ x( n 1) / 2 falls n ungerade ® ¯( x n / 2 x( n / 21) ) / 2 falls n gerade =median(...) =Median(...) 2 KAD 2014.09.18 Durchschnittswert (der arithmetische Mittelwert) x1 x2 Altersaufbau der deutschen Bevölkerung x3 Unimodal: die Verteilung hat nur einen Gipfel Bimodal: die Verteilung hat zwei Gipfel. Multimodal: die Verteilung hat mehrere Gipfel. 1989-43=1946 x n ¦ (x i 1 i x) ¦x ¦x ¦x i x i nx 0 x 3x 23 J Die Summe der Abweichungen der Daten von diesem Wert ist gleich Null. n x x1 x 2 x n n ¦x i 1 n i =average(...) =Mittelwert(...) 3 4 Weitere Beispiele Linkssteile bzw. rechtschiefe Verteilung f(x) =skew(...) > 0 =Schiefe(...) > 0 MaxwellBoltzmannVerteilung x Modus Median Durchschnitt Komplexität der Tiere z.B. Einkommensverteilungen in einem Land: Der Großteil der Bevölkerung verdient relativ wenig, während es nur wenig Leute gibt, die sehr viel verdienen. 5 6 www.vordenker.de/if_gould/images/verteilung.gif Linksschiefe bzw. rechtssteile Verteilung Daten und ihre Durchschnittswerte f(x) =skew(...) < 0 =Schiefe(...) < 0 Durchschnitt Median Modus Die Daten streuen um den Durchschnittswert. x z.B. Dauer einer Schwangerschaft 7 Pulsfrequenzen (1/Min) Pr.Buch Abb. 10 8 Streuungsmasse (Variabilitätsmaße, Variationsmaße) Mass für die Streubreite von Daten Streuungsparameter. Charakterisierung der Variation der Daten Standardabweichung (Streuung der Messdaten, s): die mittlere Abweichung vom Durchschnitt: das Quadrat der Streuung, die mittlere quadratische Abweichung, auch als Varianz bezeichnet: Spannweite: xmax-xmin n ¦(x s i x) n 1 0 D 1 (seien dazu die xi aufsteigend sortiert): xD 2 i 1 D-Quantil =stdev(...) =Stabw(...) ­ x>nD @1 falls nD keine ganze Zahl ist ® ¯( x nD x nD 1 ) / 2 falls nD ganzzahlig ist x1/4 – unteres Quartil x3/4 – oberes Quartil x1/10 – unteres Dezil x9/10 – oberes Dezil =Quartil(...) halber Quartilabstand : (x3/4 – x1/4)/2 n s2 ¦ ( x i x )2 i 1 n 1 =var(...) =Varianz(...) =max(...)-min(...) mit Wörter: z.B. Dezile Durch Dezile (lat. „Zehntelwerte“) wird die Verteilung in 10 gleich große Teile zerlegt. Unterhalb des dritten Dezils liegen 30 % der Verteilung. 9 10 f(x) rechtsschiefe Verteilung Perzentilenkurven sind ein Werkzeug für den Arzt. x Modus Median Durchschnitt Wachstums- und Gewichtskurven für Mädchen =percentile(...) =Quantil(...) 11 Skalentypen zulässige LageParameter zulässige StreuungsParameter Nominalskala Modus – Ordinalskala Modus, Median – numerische Skalen Modus, Median, Durchschnittswert Spannweite, Quartilabstand, Standardabweichung 12 Häufigkeitsverteilung Häufigkeitsdichte h: Körperhöhe 'N 'h 'N 'h H: kollektive Höhe, Gesamthöhe Spektrum 'H 'h § 1 · ¨¨ ¸¸ © 10 cm ¹ § 1 · ¨¨ 10 cm ¸¸ © ¹ Fläche unter der Kurve: n 'H 'h Fläche unter der Kurve: H H h 160 170 180 190 200 210 Spektrum als eine spezielle Häufigkeitsverteilung 13 160 170 180 190 200 210 h (cm) h (cm) 14 Position des Medians und des Durchschnitts einer Verteilung (1) Emissionsspektrum: wie verteilt sich die emittierte Energie über die Photonenenergien 'E 'H 'N 'x Apunktierte = Aschraffierte 50% 50% charakteristische Größe des Energietransports: Intensität 'J 'O x 'N 'x J Median Schwerlinie Benützung der Wellenlänge ist bequemer als die der Photonenenergie 15 Durchschnitt x 16 Ergänzungsmaterial Summen- (kumulierte/kumulative) Häufigkeitsverteilung Position des Medians und des Durchschnitts einer Verteilung (2) Flächenhalbierungslinie der Häufigkeitsverteilung Flächenhalbierungslinie des Spektrums SummenHäufigkeitsverteilung 'H 'h 'N 'h N 14 10 8 6 4 2 0 150 'N 'h § 1 · ¸¸ ¨¨ © 10 cm ¹ HäufigkeitsdichteVerteilung M=N0-N 0 Median „SummenHäufigkeitsverteilung” h Durchschnittswert relative „SummenHäufigkeitsverteilung” kumulatives Überleben nach der Operation 170 180 190 200 210 220 h (cm) 5 DD-”Spektrum” 4 3 2 1 160 170 180 190 200 210 220 14 12 ID-”Spektrum” 10 8 6 4 2 0 150 17 160 6 0 150 0 Wieviele Werte sind kleiner als h? 12 h (cm) Wieviele Werte sind grösser als h? h (cm) 160 170 180 190 200 210 220 18 Überlebenskurven Quantile und die relative Summenhäufigkeitsverteilung Wirkung der Chemotherapie. Pankreaskarzinom rot: ohne Gemcitabin Fi grün: mit Gemcitabin (Chemotherapie) 0,9 0,75 Coulter Zähler 1 0,25 0,1 x xmax xmin unteres oberes unteres Quartil Quartil Dezil oberes Dezil Quartilabstand Überleben, Tage 20