Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 1 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten Schritt werden wir die Daten nur beschreiben: ‐ numerisch ‐ grafisch Konsequenzen von Ereignissen Risiken Entscheidungsfindung 2 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Überblick der beschreibenden Statistik • Numerische Kennwerte Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden? • Grafische Darstellung von Datenmengen Wie werden Datenmengen informativ in Grafiken umgesetzt? 3 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Kennwerte Grafiken Keine Annahmen – nur Beschreibung !! 4 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 258. Stichprobe von letzter Woche, n = 204. 5 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. Z.B.: Biegezähigkeit von Büroklammern, m = ∞. Stichprobe, n = 204 6 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. – Damit die Stichprobe die Grundgesamtheit repräsentiert, müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden. 7 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Kennwerte Grafiken Keine Annahmen – nur Beschreibung !! 8 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Zusammenfassen zu nur einem Kennwert Arithmetisches Mittel: 1 n x = ∑ xi n i=1 Für einen Datensatz: x = ( x1, x2 ,..., xn ) T Um eine Stichprobe nur mit Hilfe eines Kennwertes zu beschreiben, wird normalerweise der Stichproben‐Mittelwert verwendet. 9 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Eindimensionales Streudiagramm: 10 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Eindimensionales Streudiagramm: Guter Datenüberblick (Maximum, Minimum). Vorsicht bei diskret verteilten Daten ! 11 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Eindimensionales Streudiagramm: Mittelwert Frauen = 166.71 Mittelwert Männer= 181.12 1 n Der Stichprobenmittelwert entspricht dem x = ∑ xi n i=1 „Schwerpunkt“ der Daten. 12 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Histogramm: Einteilung der Datenreihe in Intervalle. Darstellung der Grösse der Intervalle. z.B. die Körpergrösse 13 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Histogramm: 14 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache grafische Darstellung von Stichproben Histogramm: 15 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Mittelwert gibt es noch andere sog. Lageparameter: ‐ x Der Median oder Zentralwert der Stichprobe ist der mittlere Wert x1o ≤ x2o ≤ ... ≤ xno einer nach der Grösse geordneten Stichprobe . ⎧ x n +1 ⎪⎪ 2 x = ⎨ ⎞ 1⎛ ⎪ + x x ⎜ n n ⎟ +1 2 ⎪⎩ ⎝ 2 2 ⎠ ‐ Beispiele: n ungerade n gerade [ 23 30 31 33 [ 23 30 31 33 ] 120 ] 16 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Mittelwert gibt es noch andere sog. Lageparameter: ‐ x Der Median oder Zentralwert der Stichprobe ist der mittlere Wert x1o ≤ x2o ≤ ... ≤ xno einer nach der Grösse geordneten Stichprobe . Mittelwert = 176.52 Median = 177.0 17 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Stichproben‐Mittelwert gibt es noch andere sog. Lageparameter: ‐ Der Modus oder Modalwert der Stichprobe ist der am häufigsten auftretende Wert – bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Absolute Häufigkeit Körpergrösse [cm] n = 204 83 90 80 70 60 50 40 30 20 10 0 61 Modus 42 9 150<x≤160 150 9 Körpergrösse [cm] 160<x≤170 160 170<x≤180 170 180<x≤190 180 Mittelwert = 176.52 Median = 177.0 190<x≤200 190 200 18 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert Die Varianz der Stichprobe 1 n s = ∑( xi − x )2 n i=1 ‐ Die Standardabweichung der Stichprobe 1 n s = ∑( xi − x )2 n i=1 ‐ Der Variationskoeffizient der Stichprobe (relative Streuung, COV) s ν= x ‐ 2 19 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert Varianz 1 n s = ∑( xi − x )2 n i=1 2 1 n s = ∑(xi − x )2 Standardabweichung COV n i=1 ν= s x Beispiel Absolute Häufigkeit 45 40 35 30 25 20 15 10 5 0 n = 204 Gewicht [kg] x = 176.52 [cm] s 2 = 107.33 [cm 2 ] s = 10.36 [cm] ν = 0.059 [-] Absolute Häufigkeit Körpergrösse [cm] 40 35 30 25 20 15 n = 204 x = 69.8 [kg] s 2 = 131.33 [kg 2 ] s = 11.46 [kg] ν = 0.164 [-] 10 5 0 20 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ η= Der Schiefekoeffizient der Stichprobe ‐> Mass für die Asymmetrie 1 ⋅ n ∑( x i =1 i − x )3 s3 Beispiel Gewicht [kg] Absolute Häufigkeit 45 40 35 30 25 20 15 10 5 0 n = 204 η = −2.04 Linksschief Absolute Häufigkeit Körpergrösse [cm] 40 35 n = 204 30 η = 0.67 25 20 15 10 5 0 Rechtsschief 21 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streuungsparameter – Streuung um den Mittelwert n ‐ Kurtosis der Stichprobe: ‐> Mass für die Spitzigkeit / Gipfligkeit 1 κ= ⋅ n ∑( x i =1 i − x )4 s4 Beispiel Gewicht [kg] Absolute Häufigkeit 45 40 35 30 25 20 15 10 5 0 n = 204 κ = 16.0 Absolute Häufigkeit Körpergrösse [cm] 40 35 n = 204 30 25 20 κ = 4.67 15 10 5 0 22 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften x = ( x1 , x2 , x3 ,..., xn ) T y = ( y1 , y2 , y3 ,..., yn ) T 23 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 24 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 25 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz der Stichprobe: 1 n sXY = ∑( xi − x ) ⋅ ( yi − y ) n i=1 x Körpergrösse x = 176.52 cm y Gewicht y = 69.80 kg 26 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz der Stichprobe: 1 n sXY = ∑( xi − x ) ⋅ ( yi − y ) n i=1 • Der Korrelationskoeffizient der Stichprobe: n rXY = (x ∑ 1 i =1 n i − x ) ⋅ ( yi − y ) s X ⋅ sY ist limitiert auf das Interval [ −1,1] 27 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften n • Der Korrelationskoeffizient: rXY 1∑ = i =1 n ( xi − x ) ⋅ ( yi − y ) s X ⋅ sY = 0.693 x Körpergrösse x = 176.52 cm y Gewicht y = 69.80 kg 28 Statistik und Wahrscheinlichkeitsrechnung Nummerische Kennwerte Lageparameter: Arithmetisches Mittel Median Modalwert Schwerpunkt der Stichprobe mittlerer Wert einer Stichprobe am häufigsten vorkommender Wert Streuungsparameter: Varianz / Standardabweichung Variationskoeffizient Verteilung um den Mittelwert Variabilität relativ zum Mittelwert Andere Parameter: Schiefekoeffizient Kurtosis Schiefe relativ zum Mittelwert Spitzigkeit/Gipfligkeit um den Mittelwert Masse für Korrelation: Kovarianz Korrelationskoeffizient Tendenz für paarweise beobachtete Eigenschaften Normalisierter Koeffizient zwischen ‐1 und +1 29 Statistik und Wahrscheinlichkeitsrechnung Weitere grafische Darstellungsformen • Histogramm Fortsetzung • Quantil‐Plots • Tukey Box Plots 30 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle – Auftragen der Häufigkeit je Intervall • Beispiel: Ihre Büroklammerdaten vom letzten Mal „grosse“ Klammern, Stichprobenumfang n = 204, Maximalwert 301, Minimalwert 9. Einteilung in 15 Intervalle; [0,20); [20,40); [40,60);… ; [300,320) 31 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle – Auftragen der Häufigkeit je Intervall • Beispiel: n = 204 32 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle – Auftragen der Häufigkeit je Intervall • Beispiel: Aussage abhängig von der Anzahl der Intervalle! 15 Intervalle n = 204 5 Intervalle n = 204 33 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle – Auftragen der Häufigkeit je Intervall – Faustregel für die Anzahl der Intervalle: k = 1 + 3.3log • Beispiel: ( n) Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 204, Wertebereich [15,296] k = 1+ 3.3log ( 204) = 8.62 ≅ 9 Intervalle oder [0,33); [33,66); [66,99);… ; [297,330) [9,42); [42,75); [75,108);… ; [306,339) ? 34 Statistik und Wahrscheinlichkeitsrechnung Histogramm 9 Intervalle n = 204 9 Intervalle n = 204 35 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Die Form des Histogramms hängt ab von – der Anzahl der Intervalle. – der Wahl des Startpunktes. n = 204 n = 204 n = 204 n = 204 36 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Bisher haben wir die absolute Häufigkeit betrachtet. n = 204 37 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Bisher haben wir die absolute Häufigkeit betrachtet. • In der Regel wird die Häufigkeit relativ, also normiert betrachtet. n = 204 n = 204 38 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm. Histogramm kumulatives Häufigkeitsdiagramm n = 204 n = 204 39 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm. • Hier kann die Intervalleinteilung beliebig klein sein! n = 204 n = 204 40 Statistik und Wahrscheinlichkeitsrechnung Weitere grafische Darstellungsformen • Histogramm Teil II. • Quantil‐Plots • Tukey Box Plots 41 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot Das Quantil ist für eine gegebene Anzahl an Beobachtungen wie folgt definiert: – Das υ ‐Quantil ist der Wert, der die unteren υ ⋅100% der Messwerte von den oberen 100% − υ ⋅100% trennt. – Beispiel: Das 0.75‐Quantil wird von der Daten 100% − 0.75 ⋅100% = 25% überschritten. – Die Quantile werden von der geordneten (sortierten) Stichprobe berechnet: x1o ≤ x2o ≤... ≤ xno – Der Quantilindex wird wie folgt berechnet: υ= i ; n +1 n : Gesamt Anzahl der Beobachtungen, Rang i =1,2...,n 42 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. n = 204 i i n +1 xi 43 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. 1 n = 204 oberes Quartil = 0.75‐Quantil Quantilindex 0.75 0.5 unteres Quartil = 0.25‐Quantil 0.25 0 0 30 60 90 120 150 180 210 240 270 Anzahl Biegungen der "grossen" Klammern 44 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet. 1 n = 204 oberes Quartil = 0.75‐Quantil Quantilindex 0.75 0.5 unteres Quartil = 0.25‐Quantil 0.25 grosse Klammern kleine Klammern 0 0 30 60 90 120 150 180 210 240 270 Anzahl Biegungen der Klammern 45 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot • Der Tukey Box Plot illustriert: – Median – untere und obere Quartilwerte – unterer und oberer Nachbarschaftswert – interquartile Differenz – Ausreisser 46 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot n =204 Ausreisser oberer Nachbarschaftswert grösste Beobachtung kleiner/gleich oberes Quartil + 1.5 * r r = interquartile Differenz r oberes Quartil = 0.75‐Quantil Median = 0.50‐Quantil unteres Quartil = 0.25‐Quantil unterer Nachbarschaftswert kleinste Beobachtung grösser/gleich unteres Quartil ‐ 1.5 * r 47 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Büroklammern 48 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Büroklammern 49 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Körpergrösse 50 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Körpergrösse 51 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Körpergrösse 52 Statistik und Wahrscheinlichkeitsrechnung Tukey Box Plot Körpergrösse 53 Statistik und Wahrscheinlichkeitsrechnung Q‐Q Plots • Q‐Q plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen. • Datenpunkte der beiden Datenreihen mit demselben Quantilwert werden aufgetragen. 54 Statistik und Wahrscheinlichkeitsrechnung Mittelwert‐Differenz Plot • Mittelwert‐Differenz Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen. y = grosse Klammern, x = kleine Klammern ( yi + xi )/ 2 • Das Mittel wird über die Differenz yi − xi aufgetragen. 55 Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung Graphische Darstellung Eindimensionales Streudiagramm Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie. Zweidimensionales Streudiagramm Veranschaulicht den paarweisen Zusammenhang von Daten. Histogramm Stellt die Verteilung von Daten über einem Bereich von Datenreihen dar, zeigt Modalwert und Symmetrie. Quantil‐Plot Stellt Median, Verteilung und Symmetrie dar. Tukey Box Plot Stellt Median, obere/untere Quartile, Symmetrie und Verteilung dar. Q‐Q Plot Vergleicht zwei Datenreihen, relatives Bild. Mittelwert‐ Differenz Plot Vergleicht zwei Datenreihen, relatives Bild. 56 Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 57