Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Statistik und Wahrscheinlichkeitsrechnung Warum Statistik und Wahrscheinlichkeits‐ rechnung im Ingenieurwesen? rechnung im Ingenieurwesen? • Zusammenfassung der letzten Vorlesung g g Statistik und Wahrscheinlichkeitsrechnung ist im Ingenieurwesen notwendig, um: ‐ Unsicherheiten im Zusammenhang mit Ingenieurmodellen zu quantifizieren. ‐ die Ergebnisse von Experimenten zu dokumentieren und zu bewerten. ‐ die Wichtigkeit von unsicheren Einflussgrössen beurteilen zu die Wichtigkeit von unsicheren Einflussgrössen beurteilen zu können. ‐ g effiziente Entscheidungen treffen zu können. 26.02.2008 2 Statistik und Wahrscheinlichkeitsrechnung Aufbau der Vorlesung 26.02.2008 3 Karten Warm up Karten Warm‐up Was studieren Sie? Bauwesen Geodäsie Umwelt Kleine Denkaufgabe 2 1 Kleine Denkaufgabe 2.1 Welchen Nutzen hat Statistik und Wahrscheinlichkeitsrechnung im Ingenieurwesen? im Ingenieurwesen? Im Ingenieurwesen keinen – Im Ingenieurwesen keinen – nützt höchstens dem Verständnis von nützt höchstens dem Verständnis von Wahlergebnissen. Ermöglicht Entscheidungsfindung bei aussergewöhnlichen Fragestellungen. Weiss nicht… Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit W h h i li hk it von Ereignissen Im ersten Schritt werden wir die die Daten nur beschreiben: ‐ numerisch ‐ grafisch 26.02.2008 Konsequenzen K von Ereignissen Risiken Entscheidungsfindung 6 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung • Überblick der beschreibenden Statistik • Numerische Zusammenfassungen Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden? • Grafische Darstellung von Datenmengen Grafische Darstellung von Datenmengen Wie werden Datenmengen informativ in Grafiken umgesetzt? 26.02.2008 7 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen 26.02.2008 8 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 199. Stichprobe von letzter Woche, n = 191. 26.02.2008 9 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p Z.B.: Biegezähigkeit von Büroklammern, m = ∞. Stichprobe, n = 190 26.02.2008 10 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Stichprobe und Grundgesamtheit – Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. p – Damit die Stichprobe die Grundgesamtheit repräsentiert, a t d e St c p obe d e G u dgesa t e t ep äse t e t, müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden. 26.02.2008 11 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Skalenniveau – Nominalskala: Qualitative Eigenschaften, welche nicht der Grösse g , nach sortiert werden können. 26.02.2008 12 Statistik und Wahrscheinlichkeitsrechnung Vorbemerkung • Skalenniveau – Ordinalskala: Qualitative Eigenschaften, welche der Grösse nach g , sortiert werden können – über den Abstand zwischen den Eigenschaften lässt sich nichts aussagen. (Schulnoten, Ligatabelle) (Schulnoten, Ligatabelle) – Intervallskala: Quantitative Eigenschaften, sortierbar, der Abstand zwischen zwei Werten lässt sich sachlich begründen. Nullpunkt willkürlich festgelegt. ( (Temperatur in °C, Jahreszahlen) p ) – Verhältnisskala: Wie Intervallskala, aber mit absolutem Nullpunkt (T (Temperatur in Kelvin, Festigkeit, Körpergrösse) t i K l i F ti k it Kö ö ) 26.02.2008 13 Statistik und Wahrscheinlichkeitsrechnung Ziel der beschreibenden Statistik • Beschreiben von Datenmengen Zahlen Grafiken Keine Annahmen – nur Beschreibung !! 26.02.2008 14 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Zusammenfassen zu nur einer Zahl Arithmetisches Mittel: 1 n x = ∑ xi n i=1 Für einen Datensatz: x = ( x1, x2 ,..., xn ) T Um eine Stichprobe nur mit Hilfe einer Zahl zu beschreiben, wird p , normalerweise der Stichproben‐Mittelwert verwendet. 26.02.2008 15 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Guter Datenüberblick (Maximum, Minimum). Vorsicht bei diskret verteilten Daten ! Vorsicht bei diskret verteilten Daten ! 26.02.2008 16 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Mittelwert = 178.3 Mittelwert 178.3 1 n Der Stichprobenmittelwert entspricht dem x = ∑ xi n i=1 „Schwerpunkt Schwerpunkt“ der Daten. der Daten 26.02.2008 17 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Histogramm: Einteilung der Datenreihe in Klassen. Einteilung der Datenreihe in Klassen Darstellung der Grösse der Klassen. z B die Körpergrösse z.B. die Körpergrösse Klassen 150 < x ≤ 160 160 < x ≤ 170 170 < x ≤ 180 180 < x ≤ 190 190 < x ≤ 200 n = 26.02.2008 Anzahl 6 26 79 74 6 191 18 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Einfache graphische Darstellung von Stichproben Histogramm: 26.02.2008 Klassen 150 < x ≤ 160 160 < x ≤ 170 170 < x ≤ 180 180 < x ≤ 190 190 < x ≤ 200 n = Anzahl 6 26 79 74 6 191 19 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Mittelwert gibt es noch andere sog. Lagemasse: ‐ Der Median oder Zentralwert ist der mittlere Wert einer nach der x Grösse geordneten Stichprobe . x1o ≤ x2o ≤ ... ≤ xno ⎧ x n +1 ⎪⎪ 2 x = ⎨ ⎞ 1⎛ ⎪ x x + ⎜ n n ⎟ +1 2 ⎪⎩ ⎝ 2 2 ⎠ ‐ 26.02.2008 Beispiele: n ungerade g n gerade [ 23 30 31 33 [ 23 30 31 33 ] 120 ] 20 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Mittelwert gibt es noch andere sog. Lagemasse: ‐ 26.02.2008 Der Median oder Zentralwert ist der mittlere Wert einer nach der x x1o ≤ x2o ≤ ... ≤ xno Grösse geordneten Stichprobe . Median = 178.0 Mittelwert = 178.3 21 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Neben dem Mittelwert gibt es noch andere sog. Lagemasse: ‐ Der Modus oder Modalwert ist der am häufigsten auftretende Wert – g bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Modus 26.02.2008 Median = 178.0 Mittelwert = 178.3 22 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streumasse – Streuung um den Mittelwert Die Varianz der Stichprobe 1 n s = ∑( xi − x )2 n i=1 ‐ Die Standardabweichung der Stichprobe 1 n s = ∑( xi − x )2 n i=1 ‐ Der Variationskoeffizient der Stichprobe p (relative Streuung) s ν= x ‐ 26.02.2008 2 23 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streumasse – Streuung um den Mittelwert Varianz 1 n s = ∑( xi − x )2 n i=1 2 1 n s = ∑(xi − x )2 Standardabweichung COV n i=1 ν= s x Beispiel 26.02.2008 x = 178.3 [cm] x = 71.2 [kg] s 2 = 61.65 [cm 2 ] s = 7.85 [cm] ν = 0.04 [-] s 2 = 86.11 [kg 2 ] s = 9.28 [kg] ν = 0.13 [-] 24 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streumasse – Streuung um den Mittelwert ‐ Der Schiefekoeffizient der Stichprobe ‐> Mass für die Asymmetrie 1 η= ⋅ n n 3 ( x − x ) ∑ i i =1 s3 Beispiel η = −0.36 Linksschief 26.02.2008 η = 0.1 Rechtsschief 25 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Streumasse – Streuung um den Mittelwert n ‐ Kurtosis der Stichprobe: ‐> Mass für die Wölbung κ= 1 ⋅ n ∑( x i =1 i − x )4 s4 Beispiel κ = 3.05 26.02.2008 κ = 3.04 26 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften x = ( x1 , x2 , x3 ,,...,, xn ) T y = ( y1 , y2 , y3 ,..., yn ) T 26.02.2008 27 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 26.02.2008 28 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 26.02.2008 29 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY = ∑( xi − x ) ⋅ ( yi − y ) n i=1 x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 71 2 kg 26.02.2008 30 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY = ∑( xi − x ) ⋅ ( yi − y ) = 50.8 n i=1 x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 71 2 kg 26.02.2008 31 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften • Die Kovarianz: 1 n sXY = ∑( xi − x ) ⋅ ( yi − y ) n i=1 • Der Korrelationskoeffizient: n rXY = (x ∑ 1 i =1 n i − x ) ⋅ ( yi − y ) s X ⋅ sY ist limitiert auf das Interval 26.02.2008 [ −1,1] 32 Statistik und Wahrscheinlichkeitsrechnung Datenbeschreibung • Beschreibung von paarweise beobachteten Eigenschaften n • Der Korrelationskoeffizient: rXY 1∑ = i =1 n ( xi − x ) ⋅ ( yi − y ) s X ⋅ sY = 0.697 x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 71 2 kg 26.02.2008 33 Statistik und Wahrscheinlichkeitsrechnung Nummerische Zusammenfassungen Mittelwerte: Arithmetisches Mittel: Median: Modalwert: p p Schwerpunkt der Stichprobe mittlerer Wert einer Stichprobe am häufigsten vorkommender Wert St Streuungsmasse: Varianz / Standardabweichung: Variationskoeffizient : Variationskoeffizient : Verteilung um den Mittelwert Variabilität relativ zum Mittelwert Variabilität relativ zum Mittelwert Andere Masse: ‐ Schiefekoeffizient: ‐ Kurtosis: Schiefe relativ zum Mittelwert Wölbung um den Mittelwert Wölbung um den Mittelwert Masse für Korrelation: ‐ Kovarianz: ‐ Korrelations‐ K l ti koeffizient : 26.02.2008 Tendenz für paarweise beobachtete Eigenschaften Normalisierter Koeffizient zwischen ‐1 und +1 34 Statistik und Wahrscheinlichkeitsrechnung Weitere graphische Darstellungsformen • Histogramm Teil II • Quantile Plots • Tukey Boxplots 26.02.2008 35 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössenklassen – Auftragen der Häufigkeit je Klasse • Beispiel: Ihre Büroklammerdaten vom letzten Mal „grosse“ Klammern, Stichprobenumfang n = 190, M i l Maximalwert 132, Minimalwert 6. t 132 Mi i l t6 g ; ( , ]; ( , ]; ( , ]; ; ( , ] Einteilung in 14 Klassen; (0,10]; (10,20]; (20,30];… ; (130,140] 26.02.2008 36 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössenklassen – Auftragen der Häufigkeit je Klasse • Beispiel: Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern Aussage abhängig von der Anzahl Klassen !!!! 37 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Prinzip: – Aufteilung der Stichprobe in k Aufteilung der Stichprobe in k Grössenklassen – Auftragen der Häufigkeit je Klasse – Faustregel für die Anzahl Klassen: k = 1+ 3.3log • Beispiel: ( n) Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 190 Wertebereich [6 132] Stichprobenumfang n = 190, Wertebereich [6, 132] k = 1+ 3.3log (190) = 8.52 ≅ 9 Klassen oder 26.02.2008 (0,15]; (15,30]; (30,45];… ; (120,135] (5,19]; (19,33]; (36,50];… ; (117,131] ? 38 Statistik und Wahrscheinlichkeitsrechnung Histogramm Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern 39 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Die Form des Histogramms hängt ab von – der Anzahl Klassen. der Anzahl Klassen – der Wahl des Startpunktes. Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 40 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Bisher betrachteten wir die absolute Häufigkeit. • In der Regel wird die Häufigkeit relativ, also normiert In der Regel wird die Häufigkeit relativ also normiert betrachtet. Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern 41 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeits‐ diagramm. diagramm Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 42 Statistik und Wahrscheinlichkeitsrechnung Histogramm • Eine Spielart des Histogramms ist das kumulative Häufigkeits‐ diagramm. diagramm • Hier kann die Klasseneinteilung beliebig klein sein! Anzahl Biegungen gr. Klammern 26.02.2008 Anzahl Biegungen gr. Klammern 43 Statistik und Wahrscheinlichkeitsrechnung Weitere graphische Darstellungsformen • Histogramm Teil II. • Quantile Plots Quantile Plots • Tukey Boxplots 26.02.2008 44 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Definition : – Die Q‐Quantile korrespondiert mit dem Wert der Stichprobe, Die Q Quantile korrespondiert mit dem Wert der Stichprobe welcher mit dem Wert 100% ‐ Q x 100% überschritten wird. – D.h. zum Beispiel: das 0.75‐Quantil wird von D h zum Beispiel: das 0 75‐Quantil wird von 100% ‐ 0.75 x 100% = 25% der Daten überschritten. – Die Quantile werden von der geordneten Stichprobe Die Quantile werden von der geordneten Stichprobe berechnet: x1o ≤ x2o ≤... ≤ xno i Qi = 1+ n 26.02.2008 45 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. und dem Quantilwert gebildet Anzahl Biegungen gr. Klammern 26.02.2008 46 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. und dem Quantilwert gebildet oberes Quartil = 75% Quantil unteres Quartil = 25% Quantil Anzahl Biegungen gr. Klammern 26.02.2008 47 Statistik und Wahrscheinlichkeitsrechnung Quantil ‐ Plot • Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. und dem Quantilwert gebildet oberes Quartil = 75% Quantil Und was ist das ?? Und was ist das ?? unteres Quartil = 25% Quantil Anzahl Biegungen gr. Klammern 26.02.2008 Median Mittelwert e e Weiss nicht… 48 Statistik und Wahrscheinlichkeitsrechnung Tukey Boxplot • Der Tukey Boxplot illustriert: – Median – untere und obere Quartilwerte – Streubreite St b it – Ausreisser 26.02.2008 49 Statistik und Wahrscheinlichkeitsrechnung Tukey Boxplot Ausreisser grösster verbundener Wert grösster Wert kleiner als oberes Quartil + 1 5 * r oberes Quartil + 1.5 * r r oberes Quartil oberes Quartil = 75% Quantil 75% Quantil Median = 50% Quantil unteres Quartil = 25% Quantil r = interquartiler Bereich (50% der Werte) kleinster verbundener Wert kleinster Wert grösser als unteres Quartil ‐ 1.5 * r 26.02.2008 50 Statistik und Wahrscheinlichkeitsrechnung Tukey Boxplot Klammern 120 Durchbiegungen 100 80 60 40 20 0 grosse Klammern 26.02.2008 kleine Klammern 51 Statistik und Wahrscheinlichkeitsrechnung Tukey Boxplot Körpergrösse 200 195 Körp pergrösse 190 185 180 175 170 165 160 26.02.2008 Alle Männer Frauen 52 Statistik und Wahrscheinlichkeitsrechnung Q‐Q Plots • Q‐Q plots dienen zur Darstellung und Vergleich Darstellung und Vergleich von 2 Datenreihen. • Datenpunkte der beiden Datenpunkte der beiden Datenreihen mit demselben Quantilwert werden aufgetragen. 26.02.2008 53 Statistik und Wahrscheinlichkeitsrechnung Mittel‐über‐Differenz Plots • Mittel‐über‐Differenz Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen Vergleich von zwei Datenreihen. yi − xi ( yi + xi )/ 2 • Das Mittel wird über die Differenz aufgetragen. 26.02.2008 54 Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung Graphische Darstellung Ein‐dimensionales Streudiagramm Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie. Zwei‐dimensionales Streudiagramm Veranschaulicht den paarweisen Zusammenhang von Daten. Histogramm Stellt die Verteilung von Daten über einem Bereich von Datenreihen dar, zeigt Modalwert und Symmetrie. Quantile Plot Stellt Median, Verteilung und Symmetrie dar. Tukey – Boxplot Stellt Median, obere/untere Quartile, Symmetrie und Verteilung dar. Symmetrie und Verteilung dar. Q‐Q Plot Vergleicht zwei Datenreihen, relatives Bild. Mittel über Mittel‐über‐ Differenz Plot Vergleicht zwei Datenreihen relatives Bild Vergleicht zwei Datenreihen, relatives Bild. 26.02.2008 55