Verfahren für metrische Variable Grafische Methoden √ Histogramm Mittelwertsplot Boxplot Lagemaße Mittelwert, Median, Quantile Streuungsmaße Standardabweichung, Interquartilsabstand Lagemaße und Streumaße Üblicherweise wird der Mittelwert gemeinsam mit der Standardabweichung und der Median gemeinsam mit dem Interquartilsabstand präsentiert. Speziell für schief verteilte Daten ist der Median zu bevorzugen. Arithmetisches Mittel, Varianz und Standardabweichung Stichprobe der Größe = n Daten der Stichprobe: x1, x2, …, xn Mittelwert: Varianz: 1 n x = ∑ xi n i =1 n 1 2 2 ( xi −x ) s = ∑ n − 1 i =1 Standardabweichung: s= s 2 Rechenbeispiel: Die Zahl der Kühe von 4 Bauern sei: 3 , 6, 7, 4 2 Stichprobenumfang: n=4 (x − x) i 1 20 x = (3 + 6 + 7 + 4) = =5 4 4 1 10 s = (4 + 1 + 4 + 1) = = 3,333 3 3 2 s = 1,826 Drei Dörfer Dorf 1 Dorf 2 Dorf 3 5, 5, 5, 5 3, 6, 7, 4 x =5 x =5 x =5 s=0 s = 1,826 s = 8,66 0, 0, 0, 20 Variationskoeffizient Setzt die Standardabweichung in Relation zum arithmetischen Mittel s v = ⋅100 x Rechenbeispiel: 1,826 v= ⋅ 100 = 36,52 % 5 Beispiel Kleber 1 x= ⋅ (2,80 + 3,63 + ... + 14,01 + 14,48) = 8,82 MPa 43 1 2 s = ⋅ [(2,80 − 8,82)2 + (3,63 − 8,82)2 + ... + (14,48 − 8,82)2 ] 42 = 9,63 MPa2 s= 9 , 63 = 3 ,10 MPa Grafische Darstellung M itte lw e rt und Standardabw e ichung 14 12 MPa 10 8 6 4 2 0 Kleber 2 Der Median Ist ein anderes Lagemaß für metrische sowie auch ordinale Merkmale. Definition: ~ Der Median ist eine Zahl x, so dass mindestens die Hälfte der Daten größer oder gleich und mindestens die Hälfte der Daten kleiner ~ oder gleich dem Wert x sind. n gerade In diesem Fall liegt der Median zwischen zwei Datenpunkten. An welcher Stelle der Rangliste? unterer Datenpunkt: Stelle = n/2 obere Datenpunkt: Stelle = (n/2)+1 Median = (unterer + oberer Datenpunkt)/2 Rechenbeispiel zum Median (n gerade, d.h. n/2 eine ganze Zahl) Daten: 2,1 3,4 untere Stelle: 2 obere Stelle: 3 7,3 8,9 Wert: 3,4 Wert: 7,3 Median = (3,4 + 7,3)/2 = 5,35 n ungerade In diesem Fall ist der Median einer der Datenpunkte! An welcher Stelle der Rangliste liegt der Median? Stelle = n/2 aufgerundet auf die nächste ganze Zahl. z.B. n = 5 n/2= 2,5 Stelle = 3 Rechenbeispiel zum Median (n ungerade , d.h. n/2 keine ganze Zahl) Daten 3/5=60% 3/5=60% 1,3 2,6 3,6 4,3 5,1 Median ~ x = 3,6 Median der Haftstärke Rangliste: (n = 43) 2,80; 3,63; 4,14; 4,20; 4,58; 5,22; 5,28; 5,51; 6,05; 6,11; 6,49; 6,88; 7,19; 7,26; 7,32; 7,32; 7,39; 7,86; 7,89; 8,02; 8,21; 8,72; 8,88; 8,98; 9,33; 9,39; 10,19; 10,19; 10,25; 11,05; 11,05; 11,08; 11,46; 11,71; 11,90; 12,10; 12,51; 12,70; 13,18; 13,31; 13,43; 14,01; 14,48. 43/2 = 21,5 Daher ist Median die 22-te Beobachtung der Rangliste Das erste und dritte Quartil Das 1. Quartil: (25%-Percentil) eine Zahl, so dass mind. 25% der Beobachtungen kleiner gleich und mind. 75% der Beobachtungen größer gleich dieser Zahl sind. Das 3. Quartil: (75%-Percentil) eine Zahl, so dass mind. 75% der Beobachtungen kleiner gleich und mind. 25% der Beobachtungen größer gleich dieser Zahl sind. Das 2. Quartil ist der Median Berechnung des 1. Quartils (25%-Percentil) n·(1/4) eine ganze Zahl: untere Stelle: n·(1/4) obere Stelle: n·(1/4)+1 z.B. n = 4, n·(1/4)=1 untere Stelle = 1 obere Stelle = 2 n·(1/4) keine ganze Zahl: Stelle = n·(1/4) aufgerundet auf die nächste ganze Zahl z.B. n=5 n·(1/4)=1,25 Stelle = 2 Rechenbeispiele zum 1. Quartil Beispiel 1: 2/5=40% 4/5=80% 1,3; 2,6; 3,6; 4,3; 5,1 n/4=1.25 1. Quartil = 2,6 Rechenbeispiele zum 1. Quartil Beispiel 2: 2,1; 3,4 ; 7,3 ; 8,9 n/4=1 1. Quartil = (2,1 + 3,4 )/2 = 2.75 Berechnung des 3-ten Quartils (75%-Percentil) n·(3/4) eine ganze Zahl: n·(3/4) keine ganze Zahl: untere Stelle: n·(3/4) obere Stelle: n·(3/4)+1 Stelle = n·(3/4) aufgerundet auf die nächste ganze Zahl z.B. n = 4, n·(3/4)=3 untere Stelle = 3 obere Stelle = 4 z.B. n=5 n·(3/4)=3,75 Stelle = 4 Rechenbeispiele zum 3. Quartil 4/5=80% 2/5=40% Beispiel 1: 1,3; 2,6; 3,6; 4,3; 5,1 3. Quartil = 4,3 n·(3/4)=3,75 Rechenbeispiele zum 3. Quartil Beispiel 2: 2,1; 3,4 ; 7,3 ; 8,9 n·(3/4)=3 3. Quartil = (7,3 + 8,9 )/2 = 8,1 1. Und 3.Quartil der Haftstärke Rangliste: (n = 43) 2,80; 3,63; 4,14; 4,20; 4,58; 5,22; 5,28; 5,51; 6,05; 6,11; 6,49; 6,88; 7,19; 7,26; 7,32; 7,32; 7,39; 7,86; 7,89; 8,02; 8,21; 8,72; 8,88; 8,98; 9,33; 9,39; 10,19; 10,19; 10,25; 11,05; 11,05; 11,08; 11,46; 11,71; 11,90; 12,10; 12,51; 12,70; 13,18; 13,31; 13,43; 14,01; 14,48. 43·(1/4) 43·(3/4) =10,75 =32,25 Daher Daher ist ist das das 1. 3. Quartil Quartil die die 11-te 33-te Beobachtung Beobachtung der der Rangliste Rangliste Berechnung des q-Quantils (q·100 %-Percentil) n·q eine ganze Zahl: n·q keine ganze Zahl: untere Stelle: n·q obere Stelle: n·q+1 Stelle = n·q aufgerundet auf die nächste ganze Zahl q- Quantil ist der Mittelwert der entsprechenden Werte aus der Rangliste q-Quantil ist der Wert aus der Rangliste an dieser Stelle Box & Whisker - Plot Max = 14,48 14 Haftstärke [MPa] 12 3. Quartil = 11,46 10 Median = 8,72 8 1. Quartil = 6,49 6 4 Min = 2,80 2 0 Kleber 2 Interquartilsabstand Interquartilsabstand = 3. Quartil – 1. Quartil ist ein Streuungsmaß. Wird im Zusammenhang mit Median verwendet. Haftstärke in Beispiel 1.2: Interquartilsabstand = 11,46 – 6,49 = 4,97 Vergleich der grafischen Methoden für metrische Variable Zeigt die detailierte Verteilung der Daten. „Ausreißer“ sind gut erkennbar 0,3 R e la tiv e H äu fig ke it Histogramm 0,25 0,2 0,15 0,1 0,05 0 3 5 7 9 11 Haftstärke [MPa] Mittelwertsplot Mittelw e rt und Standardfehle r 14 12 10 MPa sehr starke Reduktion der Information 8 6 4 2 0 Boxplot Kleber 2 Gibt einen guten Eindruck der Verteilung der Daten, Minimum, Maximum, Median, Quartile und Quartilsabstand sind direkt ablesbar Platzsparender als Histogramme 14 Haftstärke [MPa] 12 10 8 6 4 2 0 Kleber 2 13 15 Vergleich der Lage- und Streuungsmaße Mittelwert und Varianz Nur für metrische Variable Instabil gegenüber Ausreißern Interpretierbar als durchschnittlicher Wert Spezielle Interpretation für Normalverteilung Der Mittelwert beschreibt das Zentrum der Verteilung von schiefverteilten Daten schlecht. Median und Interquartilsabstand Für metrische und ordinale Variable Robust gegenüber Ausreißern Robustheit gegen „Ausreißer“ Anzahl der täglich gerauchten Zigaretten (7 Personen wurden befragt) Beispiel 1: 0 5 5 10 8 15 20 Mittelwert: 9 Median: 8 Beispiel 2: 0 5 5 10 8 15 100 Mittelwert: 20.4 Median: 8 Symmetrie (Rechts-)Schiefe Verteilung Verteilung 30 30 Anzahl Anzahl 20 20 10 10 0 -2,00 -1,00 0,00 norm 1,00 2,00 3,00 0 1,00 2,00 absnorm 3,00 Mittelwert und Median bei einer symmetrischen Verteilung 150 F r e 100 q u e n 50 c y 0 1.25 2.75 4.25 5.75 Ery Mean=4.025 Median=4.02 Mode=3.67 7.25 Mittelwert und Median bei einer schiefen Verteilung 40 35 Häufigkeit 30 25 20 15 10 5 0 10 30 50 Mittelwert=23.9 Median=3.5 70 90 Die Momente einer Verteilung Um die Schiefe einer Verteilung mathematisch zu beschreiben definieren wir zunächst die Momente. n Definition: Beachte: 1 k mk = ∑ (xi − x ) n i =1 m1 = 0 n 2 m2 = s n −1 Die Schiefe Die Schiefe ist proportional dem dritten Moment n n ∑ (xi − x ) 3 m3 i =1 α 3 = 3/ 2 = 3/ 2 n m2 2 ∑ (xi − x ) i =1 Verteilung symmetrisch: α 3= 0 rechts schief: α 3> 0 links schief: α 3< 0 Alternatives Maß für Schiefe Wie bereits gesehen befindet sich bei einer rechtsschiefen (linksschiefen)Verteilung der Mittlewert rechts (links) vom Median. Bei symmetrischen Verteilung sind Mittelwert und Median gleich. Dieser Zusammenhang kann für folgende Definition genutzt werden: x) 3( x − ~ α 3′ = s