Lagemasse, Lokationsmasse Lageparameter. Charakterisierung das Zentrum der Daten Deskriptive Statistik2 Durchschnittswert (der arithmetische Mittelwert) =average(...) =Mittelwert(...) n x + x2 + K + xn x= 1 = n ∑x i =1 i n Modus (Modalwert, Dichtemittel): der Wert mit der größten Wahrscheinlichkeit; der häufigste Wert einer Häufigkeitsverteilung =mode(...) =Modalwert(...) Median (Zentralwert): halbiert eine Stichprobe. Anzahl der Daten der Stichprobe kleiner als Median = = Anzahl der Daten der Stichprobe größer als Median ⎧ x( n +1) / 2 falls n ungerade xmed = ⎨ ⎩( x n / 2 + x( n / 2+1) ) / 2 falls n gerade =median(...) =Median(...) 2 KAD 2015.09.16 Durchschnittswert (der arithmetische Mittelwert) + x1 + x2 x3 Altersaufbau der deutschen Bevölkerung = Unimodal: die Verteilung hat nur einen Gipfel Bimodal: die Verteilung hat zwei Gipfel. Multimodal: die Verteilung hat mehrere Gipfel. 1989-43=1946 = n ∑ (x i =1 i + x x − x ) = ∑ xi − ∑ x = ∑ xi − n x = 0 + x =3x 23 J Die Summe der Abweichungen der Daten von diesem Wert ist gleich Null. n x= x1 + x 2 + K + x n = n ∑x i =1 n i =average(...) =Mittelwert(...) 3 4 Weitere Beispiele Linkssteile bzw. rechtsschiefe Verteilung f(x) =skew(...) > 0 =Schiefe(...) > 0 MaxwellBoltzmannVerteilung x Modus Median Durchschnitt Komplexität der Tiere z.B. Einkommensverteilungen in einem Land: Der Großteil der Bevölkerung verdient relativ wenig, während es nur wenig Leute gibt, die sehr viel verdienen. 5 6 www.vordenker.de/if_gould/images/verteilung.gif Linksschiefe bzw. rechtssteile Verteilung Daten und ihre Durchschnittswerte f(x) =skew(...) < 0 =Schiefe(...) < 0 Durchschnitt Median Modus Die Daten streuen um den Durchschnittswert. x z.B. Dauer einer Schwangerschaft 7 Pulsfrequenzen (1/Min) Pr.Buch Abb. 10 8 Streuungsmasse (Variabilitätsmaße, Variationsmaße) Mass für die Streubreite von Daten Streuungsparameter. Charakterisierung der Variation der Daten Standardabweichung (Streuung der Messdaten, s): die mittlere Abweichung vom Durchschnitt: das Quadrat der Streuung, die mittlere quadratische Abweichung, auch als Varianz bezeichnet: Spannweite: xmax-xmin n s= ∑(x i =1 i − x) 0 <α <1 (seien dazu die xi aufsteigend sortiert): falls nα keine ganze Zahl ist ⎧ x xα = ⎨ [nα ]+1 ⎩( x nα + x nα +1 ) / 2 falls nα ganzzahlig ist 2 n −1 α-Quantil =stdev(...) =Stabw(...) x1/4 – unteres Quartil x3/4 – oberes Quartil x1/10 – unteres Dezil x9/10 – oberes Dezil =Quartil(...) halber Quartilabstand : (x3/4 – x1/4)/2 n s2 = ∑ ( x i − x )2 i =1 n −1 =var(...) =Varianz(...) =max(...)-min(...) mit Wörter: z.B. Dezile Durch Dezile (lat. „Zehntelwerte“) wird die Verteilung in 10 gleich große Teile zerlegt. Unterhalb des dritten Dezils liegen 30 % der Verteilung. 9 10 f(x) rechtsschiefe Verteilung Perzentilenkurven sind ein Werkzeug für den Arzt. x Modus Median Durchschnitt Wachstums- und Gewichtskurven für Mädchen =percentile(...) =Quantil(...) 11 Skalentypen zulässige LageParameter zulässige StreuungsParameter Nominalskala Modus – Ordinalskala Modus, Median – numerische Skalen Modus, Median, Durchschnittswert Spannweite, Quartilabstand, Standardabweichung 12 Häufigkeitsverteilung Häufigkeitsdichte h: Körperhöhe ΔN Δh ΔN Δh H: kollektive Höhe, Gesamthöhe Spektrum ΔH Δh ⎛ 1 ⎞ ⎜⎜ ⎟⎟ ⎝ 10 cm ⎠ ⎛ 1 ⎞ ⎜⎜ 10 cm ⎟⎟ ⎝ ⎠ Fläche unter der Kurve: n ΔH Δh Fläche unter der Kurve: H H h 160 170 180 190 200 210 Spektrum als eine spezielle Häufigkeitsverteilung 13 160 170 180 190 200 210 h (cm) h (cm) 14 Position des Medians und des Durchschnitts einer Verteilung (1) Emissionsspektrum: wie verteilt sich die emittierte Energie über die Photonenenergien ΔE Δε ΔN Δx Apunktierte = Aschraffierte 50% 50% charakteristische Größe des Energietransports: Intensität ΔJ Δλ x ΔN Δx J Median Schwerlinie Benützung der Wellenlänge ist bequemer als die der Photonenenergie 15 Durchschnitt x 16 Ergänzungsmaterial Summen- (kumulierte/kumulative) Häufigkeitsverteilung Position des Medians und des Durchschnitts einer Verteilung (2) Flächenhalbierungslinie der Häufigkeitsverteilung ΔH Δh ΔN Δh N SummenHäufigkeitsverteilung Flächenhalbierungslinie des Spektrums 14 10 8 6 4 2 0 150 ΔN Δh ⎛ 1 ⎞ ⎜⎜ ⎟⎟ ⎝ 10 cm ⎠ HäufigkeitsdichteVerteilung M=N0-N 0 Median „SummenHäufigkeitsverteilung” h Durchschnittswert relative „SummenHäufigkeitsverteilung” kumulatives Überleben nach der Operation 170 180 190 200 210 220 h (cm) 5 DD-”Spektrum” 4 3 2 1 160 170 180 190 200 210 220 14 12 ID-”Spektrum” 10 8 6 4 2 0 150 17 160 6 0 150 0 Wieviele Werte sind kleiner als h? 12 h (cm) Wieviele Werte sind grösser als h? h (cm) 160 170 180 190 200 210 220 18 Überlebenskurven Quantile und die relative Summenhäufigkeitsverteilung Wirkung der Chemotherapie. Pankreaskarzinom rot: ohne Gemcitabin Fi grün: mit Gemcitabin (Chemotherapie) 0,9 0,75 Coulter Zähler 1 0,25 0,1 x xmax xmin unteres oberes unteres Quartil Quartil Dezil oberes Dezil Quartilabstand Überleben, Tage 20