Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Prof Dr Michael Ha bro Faber Prof. Dr. Michael Havbro Faber 1 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit W h h i li hk it von Ereignissen Im ersten Schritt werden wir die die Daten nur beschreiben: ‐ numerisch ‐ grafisch Konsequenzen K von Ereignissen Risiken Entscheidungsfindung 2 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Überblick der beschreibenden Statistik • Numerische Kennwerte Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden? • Grafische Darstellung von Datenmengen Grafische Darstellung von Datenmengen Wie werden Datenmengen informativ in Grafiken umgesetzt? 3 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Körpergrösse p g 170 190 190 175 173 170 183 178 190 175 175 183 164 176 169 178 188 187 164 183 191 176 171 169 165 165 166 183 186 170 174 187 172 164 176 180 178 191 174 178 184 175 183 183 175 178 177 180 183 168 187 160 175 175 162 175 158 158 187 172 184 170 182 176 190 180 189 176 183 178 176 200 181 176 175 185 177 173 175 183 182 171 178 179 160 176 197 185 178 185 184 170 170 188 187 182 186 158 172 176 176 180 180 172 189 185 174 178 188 184 183 179 179 185 175 182 176 183 177 173 183 176 185 176 174 187 166 185 185 187 184 160 189 190 173 168 184 178 187 187 164 177 175 180 184 174 186 185 181 162 195 179 182 179 180 183 182 165 186 175 178 187 180 183 191 187 184 184 175 170 180 180 183 175 174 170 170 174 181 175 183 170 184 182 165 184 174 183 171 183 178 Kennwerte Grafiken 4 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Körpergrösse p g 170 190 190 175 173 170 183 178 190 175 175 183 164 176 169 178 188 187 164 183 191 176 171 169 165 165 166 183 186 170 174 187 172 164 176 180 178 191 174 178 184 175 183 183 175 178 177 180 183 168 187 160 175 175 162 175 158 158 187 172 184 170 182 176 190 180 189 176 183 178 176 200 181 176 175 185 177 173 175 183 182 171 178 179 160 176 197 185 178 185 184 170 170 188 187 182 186 158 172 176 176 180 180 172 189 185 174 178 188 184 183 179 179 185 175 182 176 183 177 173 183 176 185 176 174 187 166 185 185 187 184 160 189 190 173 168 184 178 187 187 164 177 175 180 184 174 186 185 181 162 195 179 182 179 180 183 182 165 186 175 178 187 180 183 191 187 184 184 175 170 180 180 183 175 174 170 170 174 181 175 183 170 184 182 165 184 174 183 171 183 178 Kennwerte Grafiken Keine Annahmen – nur Beschreibung !! 5 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 258. Stichprobe von letzter Woche, n = 202. 6 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p Z.B.: Biegezähigkeit von Büroklammern, m = ∞. Stichprobe, n = 202 7 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p – Damit die Stichprobe die Grundgesamtheit repräsentiert, a t d e St c p obe d e G u dgesa t e t ep äse t e t, müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden. 8 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Körpergrösse p g 170 190 190 175 173 170 183 178 190 175 175 183 164 176 169 178 188 187 164 183 191 176 171 169 165 165 166 183 186 170 174 187 172 164 176 180 178 191 174 178 184 175 183 183 175 178 177 180 183 168 187 160 175 175 162 175 158 158 187 172 184 170 182 176 190 180 189 176 183 178 176 200 181 176 175 185 177 173 175 183 182 171 178 179 160 176 197 185 178 185 184 170 170 188 187 182 186 158 172 176 176 180 180 172 189 185 174 178 188 184 183 179 179 185 175 182 176 183 177 173 183 176 185 176 174 187 166 185 185 187 184 160 189 190 173 168 184 178 187 187 164 177 175 180 184 174 186 185 181 162 195 179 182 179 180 183 182 165 186 175 178 187 180 183 191 187 184 184 175 170 180 180 183 175 174 170 170 174 181 175 183 170 184 182 165 184 174 183 171 183 178 Kennwerte Grafiken Keine Annahmen – nur Beschreibung !! 9 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Zusammenfassen zu nur einem Kennwert Arithmetisches Mittel: 1 n x xi n i1 Für einen Datensatz: x x1, x2 ,..., xn T Um eine Stichprobe nur mit Hilfe eines Kennwertes zu beschreiben, p , wird normalerweise der Stichproben‐Mittelwert verwendet. 10 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Kö Körpergrösse ö [cm] [ ] männlich n = 149 weiblich n = 53 150 160 170 180 190 200 210 11 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Kö Körpergrösse ö [cm] [ ] männlich n = 149 weiblich n = 53 150 160 170 180 190 200 210 Guter Datenüberblick (Maximum, Minimum). Vorsicht bei diskret verteilten Daten ! Vorsicht bei diskret verteilten Daten ! 12 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Kö Körpergrösse ö [cm] [ ] männlich n = 149 weiblich n = 53 150.00 160.00 170.00 180.00 190.00 200.00 210.00 13 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Kö Körpergrösse ö [cm] [ ] männlich n = 149 weiblich n = 53 150.00 160.00 170.00 180.00 190.00 200.00 210.00 1 n Der Stichprobenmittelwert entspricht dem x xi n i1 „Schwerpunkt Schwerpunkt“ der Daten. der Daten 14 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Körpergrösse [cm] Körpergrösse männlich n = 149 weiblich n = 53 Mittelwert Frauen = 168.40 Mittel ert Männer 180 51 Mittelwert Männer= 180.51 150.00 160.00 170.00 180.00 190.00 200.00 210.00 1 n Der Stichprobenmittelwert entspricht dem x xi n i1 „Schwerpunkt Schwerpunkt“ der Daten. der Daten 15 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Histogramm: Einteilung der Datenreihe in Intervalle Einteilung der Datenreihe in Intervalle. Darstellung der Grösse der Intervalle. z.B. die Körpergrösse 16 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Histogramm: Ab bsolute Häu ufigkeit Körpergrösse [cm] Körpergrösse [cm] 100 n = 202 91 80 65 60 36 40 20 5 5 0 150<x≤160 160<x≤170 170<x≤180 180<x≤190 190<x≤200 17 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Histogramm: Ab bsolute Häu ufigkeit Körpergrösse [cm] Körpergrösse [cm] 100 n = 202 91 80 65 60 36 40 20 5 5 0 150<x≤160 150.00 160<x≤170 160.00 170<x≤180 170.00 180<x≤190 180.00 190<x≤200 190.00 200.00 18 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • N Neben dem Mittelwert gibt es noch andere sog. b d Mi l ib h d Lageparameter: ‐ Der Median Der Median oder Zentralwert ist der mittlere Wert einer nach der oder Zentralwert x ist der mittlere Wert einer nach der x1o x2o ... xno Grösse geordneten Stichprobe . x n 1 2 x 1 x x n n 1 2 2 2 ‐ Beispiele: n ungerade n gerade [ 23 [ 23 30 31 33 [ 23 30 31 33 ] 120 ] 120 ] 19 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • N Neben dem Mittelwert gibt es noch andere sog. b d Mi l ib h d Lageparameter: ‐ Der Median oder Zentralwert ist der mittlere Wert einer nach der Der Median oder Zentralwert x ist der mittlere Wert einer nach der x1o x2o ... xno Grösse geordneten Stichprobe . Ab bsolute Häu ufigkeit Körpergrösse [cm] Körpergrösse [cm] 100 n = 202 91 80 65 60 36 40 20 5 5 0 150<x≤160 150.00 160<x≤170 160.00 170<x≤180 170.00 Mittelwert = 177.3 180<x≤190 180.00 Median = 178.0 190<x≤200 190.00 200.00 20 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • N Neben dem Mittelwert gibt es noch andere sog. b d Mi l ib h d Lageparameter: ‐ Der Modus Der Modus oder Modalwert ist der am häufigsten auftretende Wert – oder Modalwert ist der am häufigsten auftretende Wert – bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. 21 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • N Neben dem Mittelwert gibt es noch andere sog. b d Mi l ib h d Lageparameter: ‐ Der Modus Der Modus oder Modalwert ist der am häufigsten auftretende Wert – oder Modalwert ist der am häufigsten auftretende Wert – bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Ab bsolute Häu ufigkeit Körpergrösse [cm] Körpergrösse [cm] 100 91 80 65 60 Modus 36 40 20 n = 202 5 5 0 150<x≤160 150.00 160<x≤170 160.00 170<x≤180 170.00 Mittelwert = 177.3 180<x≤190 180.00 Median = 178.0 190<x≤200 190.00 200.00 22 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert Die Varianz der Stichprobe 1 n s ( xi x )2 n i1 ‐ Die Standardabweichung der Stichprobe 1 n s ( xi x )2 n i1 ‐ Der Variationskoeffizient der Stichprobe p (relative Streuung, COV) s x ‐ 2 23 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert Varianz 1 n s ( xi x )2 n i1 2 1 n s (xi x )2 Standardabweichung COV n i1 s x Beispiel Absolute Hääufigkeit A 60 50 40 30 20 10 0 n = 202 x 177.31 177 31 [[cm]] s 2 63.30 [cm 2 ] s 7.96 [cm] 0.04 [-] Gewicht [kg] Absolute H Häufigkeit Körpergrösse [cm] 45 40 35 30 25 20 15 10 5 0 n = 202 x 70.08 70 08 [kg] s 2 155.82 [kg 2 ] s 12.48 [kg] 0.18 0 18 [[-]] 24 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ Der Schiefekoeffizient der Stichprobe ‐> Mass für die Asymmetrie 1 n 3 ( x x ) i i 1 s3 25 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ 1 n Der Schiefekoeffizient der Stichprobe ‐> Mass für die Asymmetrie 3 ( x x ) i i 1 s3 Beispiel Gewicht [kg] n = 202 Absolute Hääufigkeit A 60 50 40 30 20 10 0 0.16 Absolute H Häufigkeit Körpergrösse [cm] n = 202 45 40 35 30 25 20 15 10 5 0 0.93 26 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ 1 n Der Schiefekoeffizient der Stichprobe ‐> Mass für die Asymmetrie 3 ( x x ) i i 1 s3 Beispiel Gewicht [kg] n = 202 Absolute Hääufigkeit A 60 50 0.16 40 30 20 10 0 Linksschief Absolute H Häufigkeit Körpergrösse [cm] n = 202 45 40 35 30 25 20 15 10 5 0 0.93 Rechtsschief 27 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ Kurtosis der Stichprobe: ‐> Mass für die Spitzigkeit / Gipfligkeit 1 n ( x i 1 i x )4 s4 28 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ Kurtosis der Stichprobe: ‐> Mass für die Spitzigkeit / Gipfligkeit 1 n ( x i 1 i x )4 s4 Beispiel Gewicht [kg] n = 202 Absolute Hääufigkeit A 60 50 40 30 20 10 0 2.64 Absolute H Häufigkeit Körpergrösse [cm] n = 202 45 40 35 30 25 20 15 10 5 0 5.22 29 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften x x1 , x2 , x3 ,,...,, xn T y y1 , y2 , y3 ,..., yn T 30 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften x x1 , x2 , x3 ,,...,, xn T y y1 , y2 , y3 ,..., yn T 31 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm Körpergrösse vs Gewicht Körpergrösse vs. Gewicht 130 G Gewicht [k kg] 110 90 70 50 n= 202 30 150 160 170 180 190 Körpergrösse [cm] 200 210 32 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften A Anzahl "g grosse" Kllammern Das zweidimensionale Streudiagramm 300 Büroklammerbiegetest 250 200 150 100 50 n= 202 0 0 50 100 150 200 250 Anzahl "kleine" Klammern 300 33 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY ( xi x ) ( yi y ) n i1 34 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY ( xi x ) ( yi y ) n i1 Körpergrösse vs. Gewicht 130 x Körpergrösse x 177.3 cm Gewicht [kg] 110 90 y Gewicht 70 y 70.1 70 1 kg 50 n= 202 30 150 160 170 180 190 Körpergrösse [cm] 200 210 35 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY ( xi x ) ( yi y ) n i1 Körpergrösse vs. Gewicht 130 x Körpergrösse x 177.3 cm Gewicht [kg] 110 90 y Gewicht 70 y 70.1 70 1 kg 50 n= 202 30 150 160 170 180 190 Körpergrösse [cm] 200 210 36 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY ( xi x ) ( yi y ) 58.8 n i1 Körpergrösse vs. Gewicht 130 x Körpergrösse x 177.3 cm Gewicht [kg] 110 90 y Gewicht 70 y 70.1 70 1 kg 50 n= 202 30 150 160 170 180 190 Körpergrösse [cm] 200 210 37 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY ( xi x ) ( yi y ) n i1 • Der Korrelationskoeffizient: n rXY (x 1 i 1 n i x ) ( yi y ) s X sY ist limitiert auf das Interval 1,1 38 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften n • Der Korrelationskoeffizient: rXY 1 i 1 n ( xi x ) ( yi y ) s X sY Körpergrösse vs. Gewicht 130 x Körpergrösse x 177.3 cm 110 Gewicht [kg] 0.633 90 y Gewicht 70 y 70.1 70 1 kg 50 n= 202 30 150 160 170 180 190 Körpergrösse [cm] 200 210 39 Statistik und Wahrscheinlichkeitsrechnung Nummerische Zusammenfassungen Lageparameter: Arithmetisches Mittel Median Modalwert p p Schwerpunkt der Stichprobe mittlerer Wert einer Stichprobe am häufigsten vorkommender Wert Streuungsparameter: St t Varianz / Standardabweichung Variationskoeffizient Verteilung um den Mittelwert Variabilität relativ zum Mittelwert Andere Parameter: Schiefekoeffizient Kurtosis Schiefe relativ zum Mittelwert Spitzigkeit/Gipfligkeit um den Mittelwert Masse für Korrelation: Kovarianz Korrelationskoeffizient Tendenz für paarweise beobachtete Eigenschaften Normalisierter Koeffizient zwischen ‐1 und +1 40 Statistik und Wahrscheinlichkeitsrechnung Weitere graphische Darstellungsformen • Histogramm Fortsetzung • Quantil‐Plots • Tukey Box Plots 41 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall 42 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall • Beispiel: Ihre Büroklammerdaten vom letzten Mal „grosse“ Klammern, Stichprobenumfang n = 202, M i l Maximalwert 301, Minimalwert 9. t 301 Mi i l t9 g ; [ , ); [ , ); [ , ); ; [ , ) Einteilung in 15 Intervalle; [0,20); [20,40); [40,60);… ; [300,320) 43 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall 90 absolute Häufigkeit • Beispiel: 80 n = 202 70 60 50 40 30 20 10 0 Anzahl Biegungen der "grosse" Klammern 44 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall • Beispiel: 80 70 15 Intervalle n = 202 60 50 40 30 20 10 0 160 absollute Häufigkeeit absolute Häufigkkeit 90 140 5 Intervalle n = 202 120 100 80 60 40 20 0 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen gr. Klammern Anzahl Biegungen der "grosse" Klammern 45 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall absolute Häufigkkeit 90 80 70 15 Intervalle n = 202 60 50 40 30 20 10 0 160 absollute Häufigkeeit • Beispiel: Aussage abhängig von der Anzahl der Intervalle! Aussage abhängig von der Anzahl der Intervalle! 140 5 Intervalle n = 202 120 100 80 60 40 20 0 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern 46 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall – Faustregel für die Anzahl der Intervalle: k 1 3.3log n 47 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall – Faustregel für die Anzahl der Intervalle: k 1 3.3log • Beispiel: n Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 202 Wertebereich [9 301] Stichprobenumfang n = 202, Wertebereich [9, 301] k 1 3.3log 202 8.61 9 Intervalle 48 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössen Grössen‐Intervalle Intervalle – Auftragen der Häufigkeit je Intervall – Faustregel für die Anzahl der Intervalle: k 1 3.3log • Beispiel: n Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 202 Wertebereich [9 301] Stichprobenumfang n = 202, Wertebereich [9, 301] k 1 3.3log 202 8.61 9 Intervalle oder [0,33); [33,66); [66,99);… ; [297,330) [9,42); [42,75); [75,108);… ; [306,339) ? 49 Statistik und Wahrscheinlichkeitsrechnung Histogramm 9 Intervalle 70 n = 202 60 50 40 30 20 10 ab bsolute Häufigkeit abssolute Häu ufigkeit 80 120 100 9 Intervalle n = 202 80 60 40 20 0 0 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern 50 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Die Form des Histogramms hängt ab von – der Anzahl der Intervalle. der Anzahl der Intervalle – der Wahl des Startpunktes. n = 202 n = 202 60 50 40 30 20 10 0 absolute Häufigkeit 70 absolute Häufigkeit absolu ute Häufigkeit n = 202 n = 202 100 80 60 40 20 0 Anzahl Biegungen der "grosse" Klammern n = 202 n = 202 90 120 80 70 60 50 40 30 20 10 160 absolute Häufigkeit n = 202 n = 202 80 120 100 80 60 40 20 0 0 Anzahl Biegungen der "grosse" Klammern 140 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern 51 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Bisher betrachteten wir die absolute Häufigkeit. a absolute H Häufigkeit 120 n = 202 100 80 60 40 20 0 Anzahl Biegungen der "grosse" Klammern 52 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Bisher betrachteten wir die absolute Häufigkeit. • In der Regel wird die Häufigkeit relativ, also normiert In der Regel wird die Häufigkeit relativ also normiert betrachtet. 0.6 n = 202 100 relative Hääufigkeit absolute H a Häufigkeit 120 80 60 40 20 n = 202 0.5 0.4 0.3 0.2 0.1 0 0 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern 53 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm. Häufigkeitsdiagramm Histogramm kumulatives Häufigkeitsdiagramm n = 202 kumulatiive relative H Häufigkeit reelative Häufiigkeit 0.6 n = 202 0.5 04 0.4 0.3 0.2 0.1 0 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 02 0.2 0.1 0 25.5 58.5 91.5 124.5 157.5 190.5 223.5 256.5 289.5 Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern Anzahl Biegungen der "grosse" Klammern 54 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm. Häufigkeitsdiagramm • Hier kann die Intervalleinteilung beliebig klein sein! 0.9 0.8 0.7 06 0.6 0.5 0.4 0.3 02 0.2 0.1 0 25.5 58.5 91.5 124.5 157.5 190.5 223.5 256.5 289.5 A hl Bi Anzahl Biegungen der "grosse" Klammern d " " Kl 1 0.9 0.8 0.7 06 0.6 0.5 0.4 0.3 0.2 0.1 0 1 11.425 25.975 2 40.525 4 55.075 5 69.625 6 84.175 8 98.725 9 11 13.275 12 27.825 14 42.375 15 56.925 17 71.475 18 86.025 20 00.575 21 15.125 22 29.675 24 44.225 25 58.775 27 73.325 28 87.875 30 02.425 1 n = 202 kumulaative relativee Häufigkeit kumulattive relative Häufigkeit n = 202 Anzahl Biegungen der "grosse" Klammern 55 Kleine Denkaufgabe 4.1 41 Häufigke eit der Beo obachtung ((%) Die Messreihe der jährlichen Durchschnittstemperaturen in Zürich für die letzten 20 Jahre ist gegeben. Das Histogramm ist im folgenden dargestellt. Welches ist der Modus der Daten? n = 100 9 oC 35 % 9o C,9.5o C Jahresdurchschnittstemperatur in Zürich [°C] Kleine Denkaufgabe 4.1 41 Häufigke eit der Beo obachtung ((%) Die Messreihe der jährlichen Durchschnittstemperaturen in Zürich für die letzten 20 Jahre ist gegeben. Das Histogramm ist im folgenden dargestellt. Welches ist der Modus der Daten? n = 100 9o C,9.5o C Jahresdurchschnittstemperatur in Zürich [°C] Statistik und Wahrscheinlichkeitsrechnung Weitere graphische Darstellungsformen • Histogramm Teil II. • Quantil‐Plots • Tukey Box Plots 58 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot Das Quantil ist für eine gegebene Anzahl an Beobachtungen wie folgt definiert: – Das ‐Quantil ist der Wert, der die unteren 100% der Messwerte von den oberen 100% 100% trennt. – Beispiel: Das 0.75‐Quantil wird von der Daten 100% 0.75 100% 25% überschritten. – Die Quantile werden von der geordneten (sortierten) Stichprobe berechnet: x1o x2o ... xno – Der Quantilindex wird wie folgt berechnet: i ; n 1 n : Gesamt Anzahl der Beobachtungen, Beobachtungen i =1,2..., =1 2 n 59 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. und der Quantilindizes gebildet Q Quantilind dex n = 202 Anzahl Biegungen gr. Klammern i 1 2 3 4 5 6 7 8 9 . . i n 1 0.0049261 0.0098522 0.0147783 0.0197044 0.0246305 0.0295567 0 03 828 0.0344828 0.0394089 0.0443350 . . xi 6 8 9 10 10 10 11 12 12 . . 60 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. und der Quantilindizes gebildet n = 202 Q Quantilind dex oberes Quartil = 0.75‐Quantil unteres Quartil = 0.25‐Quantil Anzahl Biegungen gr. Klammern 61 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantile‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. und der Quantilindizes gebildet n = 202 Q Quantilind dex oberes Quartil = 75% Quantil Und was ist das ?? Und was ist das ?? unteres Quartil = 25% Quantil Anzahl Biegungen gr. Klammern Median Mittelwert e e Weiss nicht… 62 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantile‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. und der Quantilindizes gebildet n = 202 Q Quantilind dex oberes Quartil = 75% Quantil Und was ist das ?? Und was ist das ?? unteres Quartil = 25% Quantil Median Anzahl Biegungen gr. Klammern 63 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot • Der Tukey Box Plot illustriert: – Median – untere und obere Quartilwerte – unterer und oberer Nachbarschaftswert t d b N hb h ft t – interquartile Differenz – Ausreisser A i 64 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot n =194 oberes Quartil oberes Quartil = 0.75 0 75‐Quantil Quantil Median = 0.50‐Quantil unteres Quartil = 0.25‐Quantil 65 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot n =194 r oberes Quartil oberes Quartil = 0.75 0 75‐Quantil Quantil Median = 0.50‐Quantil unteres Quartil = 0.25‐Quantil r = interquartile Differenz 66 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot n =194 oberer Nachbarschaftswert grösste Beobachtung kleiner/gleich oberes Quartil + 1 5 * r oberes Quartil + 1.5 * r r oberes Quartil oberes Quartil = 0.75 0 75‐Quantil Quantil Median = 0.50‐Quantil unteres Quartil = 0.25‐Quantil r = interquartile Differenz unterer Nachbarschaftswert kleinste Beobachtung grösser/gleich unteres Quartil ‐ 1.5 * r 67 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Ausreisser oberer Nachbarschaftswert grösste Beobachtung kleiner/gleich oberes Quartil + 1 5 * r oberes Quartil + 1.5 * r r oberes Quartil oberes Quartil = 0.75 0 75‐Quantil Quantil Median = 0.50‐Quantil unteres Quartil = 0.25‐Quantil r = interquartile Differenz unterer Nachbarschaftswert kleinste Beobachtung grösser/gleich unteres Quartil ‐ 1.5 * r 68 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Büroklammern n=194 69 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Körpergrösse n=142 n=52 n=194 70 Kleine Denkaufgabe 4.2 c 42c Jahresdurrchschnittsstemperatu ur in Zürich h [°C] ZZu sehen h ist i t der d Tukey T k Box Plot der B Pl t d jährlichen jäh li h Durchschnittstemperatur D h h itt t t in i Zürich: Welches ist das 0.75 Quantil? Zwischen 9.68 oC und 9.14 oC Gleich 9.68 oC U t 9.68 Unter 9 68 oC Kleine Denkaufgabe 4.2 c 42c Jahresdurrchschnittsstemperatu ur in Zürich h [°C] ZZu sehen ist der Tukey Box Plot der jährlichen Durchschnittstemperatur in h i t d T k B Pl t d jäh li h D h h itt t t i Zürich: Welches ist das 0.75 Quantil? Gleich 9.68 oC Kleine Denkaufgabe 4.2 d 42d Jahresdurrchschnittsstemperatu ur in Zürich h [°C] ZZu sehen h ist i t der d Tukey T k Box Plot der B Pl t d jährlichen jäh li h Durchschnittstemperatur D h h itt t t in i Zürich: Welches ist der interquartile Bereich? = 0.54 oC = 2.08 oC = 9.465 oC Kleine Denkaufgabe 4.2 d 42d Jahresdurrchschnittsstemperatu ur in Zürich h [°C] ZZu sehen ist der Tukey Box Plot der jährlichen Durchschnittstemperatur in h i t d T k B Pl t d jäh li h D h h itt t t i Zürich: Welches ist der interquartile Bereich? = 0.54 oC Statistik und Wahrscheinlichkeitsrechnung • Q‐Q plots dienen zur Darstell ng nd dem Darstellung und dem Vergleich von 2 Datenreihen. • Datenpunkte der beiden p Datenreihen mit demselben Quantilwert werden aufgetragen. d f A Anzahl gros sse Klammeern Q‐Q Plots Anzahl kleine Klammern 75 Statistik und Wahrscheinlichkeitsrechnung Mittelwert‐Differenz Plot • Mittelwert‐Differenz Plots dienen zur Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen. y = grosse Klammern, x = kleine Klammern ( yi xi )/ 2 • Das Mittel wird über die Differenz yi xi aufgetragen. aufgetragen 76 Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung Graphische Darstellung Eindimensionales Streudiagramm Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie. Zweidimensionales Streudiagramm Veranschaulicht den paarweisen Zusammenhang von Daten. Histogramm Stellt die Verteilung von Daten über einem Bereich von Datenreihen dar, zeigt Modalwert und Symmetrie. Quantil‐Plot Stellt Median, Verteilung und Symmetrie dar. Tukey Box Plot Stellt Median, obere/untere Quartile, Symmetrie und Verteilung dar. Symmetrie und Verteilung dar. Q‐Q Plot Vergleicht zwei Datenreihen, relatives Bild. Mittelwert Mittelwert‐ Differenz Plot Vergleicht zwei Datenreihen relatives Bild Vergleicht zwei Datenreihen, relatives Bild. 77 Kleine Denkaufgabe 4.3 43 Relative H Häufigkkeit (% %) Das folgende Histogramm repräsentiert die Messdaten des Verkehrsflusses im Gotthardtunnel: Die Verteilung der Messreihe ist ….?? rechtsschief linksschief symmetrisch Anzahl Autos x 102 Kleine Denkaufgabe 4.3 43 Relative H Häufigkkeit (% %) Das folgende Histogramm repräsentiert die Messdaten des Verkehrsflusses im Gotthardtunnel: Die Verteilung der Messreihe ist ….?? rechtsschief Anzahl Autos x 102 Kleine Denkaufgabe 4.2a 4 2a Gegeben G b seii der d Quantil‐Plot der Q til Pl t d jährlichen jäh li h Durchschnittstemperatur D h h itt t t in Zürich: i Zü i h Welches ist der Median der Durchschnittstemperatur? = 0.8o C Quantile = 9.46o C == 9 9o C Jahresdurchschnittstemperatur in Zürich [°C] Kleine Denkaufgabe 4.2a 4 2a Gegeben sei der Quantil‐Plot der jährlichen Durchschnittstemperatur in Zürich: G b id Q til Pl t d jäh li h D h h itt t t i Zü i h Welches ist der Median der Durchschnittstemperatur? Quantile = 9.46 9 46o C Jahresdurchschnittstemperatur in Zürich [°C] Kleine Denkaufgabe 4.2 b 42b Gegeben G b seii der d Quantil‐Plot der Q til Pl t d jährlichen jäh li h Durchschnittstemperatur D h h itt t t in Zürich: i Zü i h 60% der Daten liegen ... ? über 9.5oC oC unter t 9.5 9 5o Quantile zwischen 9o C und 9.5o C C Jahresdurchschnittstemperatur in Zürich [°C] Kleine Denkaufgabe 4.2 b 42b Gegeben sei der Quantil‐Plot der jährlichen Durchschnittstemperatur in Zürich: G b id Q til Pl t d jäh li h D h h itt t t i Zü i h 60% der Daten liegen ... ? Quantile oC unter t 9.5 9 5o Jahresdurchschnittstemperatur in Zürich [°C]