Statistik und Wahrscheinlichkeitsrechnung

Werbung
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung
Dr. Jochen Köhler
26.02.2008
1
Statistik und Wahrscheinlichkeitsrechnung
Warum Statistik und Wahrscheinlichkeits‐
rechnung im Ingenieurwesen?
rechnung im Ingenieurwesen?
• Zusammenfassung der letzten Vorlesung
g
g
Statistik und Wahrscheinlichkeitsrechnung ist im Ingenieurwesen notwendig, um: ‐
Unsicherheiten im Zusammenhang mit Ingenieurmodellen zu quantifizieren. ‐
die Ergebnisse von Experimenten zu dokumentieren und zu bewerten.
‐
die Wichtigkeit von unsicheren Einflussgrössen beurteilen zu die
Wichtigkeit von unsicheren Einflussgrössen beurteilen zu
können.
‐
g
effiziente Entscheidungen treffen zu können.
26.02.2008
2
Statistik und Wahrscheinlichkeitsrechnung
Aufbau der Vorlesung
26.02.2008
3
Karten Warm up
Karten Warm‐up
Was studieren Sie?
Bauwesen
Geodäsie
Umwelt
Kleine Denkaufgabe 2 1
Kleine Denkaufgabe 2.1
Welchen Nutzen hat Statistik und Wahrscheinlichkeitsrechnung im Ingenieurwesen?
im Ingenieurwesen?
Im Ingenieurwesen keinen –
Im
Ingenieurwesen keinen – nützt höchstens dem Verständnis von nützt höchstens dem Verständnis von
Wahlergebnissen.
Ermöglicht Entscheidungsfindung bei aussergewöhnlichen Fragestellungen. Weiss nicht…
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Ziel:
Daten
Modellbildung
Probabilistisches Modell
Wahrscheinlichkeit W
h h i li hk it
von Ereignissen
Im ersten Schritt
werden wir die die
Daten
nur beschreiben:
‐ numerisch
‐ grafisch
26.02.2008
Konsequenzen K
von Ereignissen
Risiken
Entscheidungsfindung
6
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Überblick der beschreibenden Statistik
• Numerische Zusammenfassungen Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden?
• Grafische Darstellung von Datenmengen
Grafische Darstellung von Datenmengen
Wie werden Datenmengen informativ in Grafiken umgesetzt?
26.02.2008
7
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
26.02.2008
8
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 199.
Stichprobe von letzter Woche, n = 191.
26.02.2008
9
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
Z.B.: Biegezähigkeit von Büroklammern, m = ∞.
Stichprobe, n = 190
26.02.2008
10
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
– Damit die Stichprobe die Grundgesamtheit repräsentiert, a t d e St c p obe d e G u dgesa t e t ep äse t e t,
müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden.
26.02.2008
11
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Skalenniveau
– Nominalskala: Qualitative Eigenschaften, welche nicht der Grösse g
,
nach sortiert werden können.
26.02.2008
12
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Skalenniveau
– Ordinalskala: Qualitative Eigenschaften, welche der Grösse nach g
,
sortiert werden können – über den Abstand zwischen den Eigenschaften lässt sich nichts aussagen. (Schulnoten, Ligatabelle)
(Schulnoten, Ligatabelle)
– Intervallskala: Quantitative Eigenschaften, sortierbar, der Abstand zwischen zwei Werten lässt sich sachlich begründen. Nullpunkt willkürlich festgelegt. (
(Temperatur in °C, Jahreszahlen)
p
)
– Verhältnisskala: Wie Intervallskala, aber mit absolutem Nullpunkt (T
(Temperatur in Kelvin, Festigkeit, Körpergrösse)
t i K l i F ti k it Kö
ö )
26.02.2008
13
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Zahlen
Grafiken
Keine Annahmen –
nur Beschreibung !!
26.02.2008
14
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Zusammenfassen zu nur einer Zahl
Arithmetisches Mittel: 1 n
x = ∑ xi
n i=1
Für einen Datensatz:
x = ( x1, x2 ,..., xn )
T
Um eine Stichprobe nur mit Hilfe einer Zahl zu beschreiben, wird p
,
normalerweise der Stichproben‐Mittelwert verwendet.
26.02.2008
15
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Guter Datenüberblick (Maximum, Minimum).
Vorsicht bei diskret verteilten Daten !
Vorsicht bei diskret verteilten Daten ! 26.02.2008
16
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Mittelwert = 178.3
Mittelwert 178.3
1 n
Der Stichprobenmittelwert entspricht dem x = ∑ xi
n i=1
„Schwerpunkt
Schwerpunkt“ der Daten.
der Daten
26.02.2008
17
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Histogramm: Einteilung der Datenreihe in Klassen.
Einteilung
der Datenreihe in Klassen
Darstellung der Grösse der Klassen.
z B die Körpergrösse
z.B. die Körpergrösse
Klassen
150 < x ≤ 160
160 < x ≤ 170
170 < x ≤ 180
180 < x ≤ 190
190 < x ≤ 200
n =
26.02.2008
Anzahl
6
26
79
74
6
191
18
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Histogramm:
26.02.2008
Klassen
150 < x ≤ 160
160 < x ≤ 170
170 < x ≤ 180
180 < x ≤ 190
190 < x ≤ 200
n =
Anzahl
6
26
79
74
6
191
19
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Mittelwert gibt es noch andere sog. Lagemasse:
‐
Der Median oder Zentralwert ist der mittlere Wert einer nach der x
Grösse geordneten Stichprobe .
x1o ≤ x2o ≤ ... ≤ xno
⎧ x n +1
⎪⎪ 2
x = ⎨
⎞
1⎛
⎪
x
x
+
⎜ n
n ⎟
+1
2
⎪⎩
⎝ 2
2 ⎠
‐
26.02.2008
Beispiele:
n ungerade
g
n gerade
[ 23
30
31
33
[ 23
30
31
33 ]
120 ] 20
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Mittelwert gibt es noch andere sog. Lagemasse:
‐
26.02.2008
Der Median oder Zentralwert ist der mittlere Wert einer nach der x
x1o ≤ x2o ≤ ... ≤ xno
Grösse geordneten Stichprobe .
Median = 178.0 Mittelwert = 178.3
21
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Mittelwert gibt es noch andere sog. Lagemasse:
‐
Der Modus oder Modalwert ist der am häufigsten auftretende Wert –
g
bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Modus
26.02.2008
Median = 178.0 Mittelwert = 178.3
22
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streumasse – Streuung um den Mittelwert
Die Varianz der Stichprobe
1 n
s = ∑( xi − x )2
n i=1
‐
Die Standardabweichung der Stichprobe
1 n
s = ∑( xi − x )2
n i=1
‐
Der Variationskoeffizient der Stichprobe p
(relative Streuung)
s
ν=
x
‐
26.02.2008
2
23
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streumasse – Streuung um den Mittelwert
Varianz
1 n
s = ∑( xi − x )2
n i=1
2
1 n
s = ∑(xi − x )2
Standardabweichung COV
n i=1
ν=
s
x
Beispiel
26.02.2008
x = 178.3 [cm]
x = 71.2 [kg]
s 2 = 61.65 [cm 2 ]
s = 7.85 [cm]
ν = 0.04 [-]
s 2 = 86.11 [kg 2 ]
s = 9.28 [kg]
ν = 0.13 [-]
24
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streumasse – Streuung um den Mittelwert
‐
Der Schiefekoeffizient der Stichprobe
‐> Mass für die Asymmetrie
1
η= ⋅
n
n
3
(
x
−
x
)
∑ i
i =1
s3
Beispiel
η = −0.36
Linksschief
26.02.2008
η = 0.1
Rechtsschief
25
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streumasse – Streuung um den Mittelwert
n
‐
Kurtosis der Stichprobe:
‐> Mass für die Wölbung
κ=
1
⋅
n
∑( x
i =1
i
− x )4
s4
Beispiel
κ = 3.05
26.02.2008
κ = 3.04
26
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften x = ( x1 , x2 , x3 ,,...,, xn )
T
y = ( y1 , y2 , y3 ,..., yn )
T
26.02.2008
27
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm
26.02.2008
28
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
Das zweidimensionale Streudiagramm
26.02.2008
29
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY = ∑( xi − x ) ⋅ ( yi − y )
n i=1
x Körpergrösse
x = 178.3 cm
y Gewicht
y = 71.2
71 2 kg
26.02.2008
30
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY = ∑( xi − x ) ⋅ ( yi − y ) = 50.8
n i=1
x Körpergrösse
x = 178.3 cm
y Gewicht
y = 71.2
71 2 kg
26.02.2008
31
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY = ∑( xi − x ) ⋅ ( yi − y )
n i=1
• Der Korrelationskoeffizient:
n
rXY =
(x
∑
1
i =1
n
i
− x ) ⋅ ( yi − y )
s X ⋅ sY
ist limitiert auf das Interval 26.02.2008
[ −1,1]
32
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
n
• Der Korrelationskoeffizient:
rXY
1∑
= i =1
n
( xi − x ) ⋅ ( yi − y )
s X ⋅ sY
= 0.697
x Körpergrösse
x = 178.3 cm
y Gewicht
y = 71.2
71 2 kg
26.02.2008
33
Statistik und Wahrscheinlichkeitsrechnung
Nummerische Zusammenfassungen
Mittelwerte:
Arithmetisches Mittel: Median:
Modalwert: p
p
Schwerpunkt der Stichprobe
mittlerer Wert einer Stichprobe
am häufigsten vorkommender Wert
St
Streuungsmasse:
Varianz / Standardabweichung:
Variationskoeffizient :
Variationskoeffizient :
Verteilung um den Mittelwert
Variabilität relativ zum Mittelwert
Variabilität relativ zum Mittelwert
Andere Masse:
‐ Schiefekoeffizient:
‐ Kurtosis:
Schiefe relativ zum Mittelwert Wölbung um den Mittelwert
Wölbung um den Mittelwert
Masse für Korrelation:
‐ Kovarianz:
‐ Korrelations‐
K
l ti
koeffizient :
26.02.2008
Tendenz für paarweise beobachtete Eigenschaften
Normalisierter Koeffizient zwischen ‐1 und +1 34
Statistik und Wahrscheinlichkeitsrechnung
Weitere graphische Darstellungsformen
• Histogramm Teil II
• Quantile Plots
• Tukey Boxplots
26.02.2008
35
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössenklassen
– Auftragen der Häufigkeit je Klasse
• Beispiel: Ihre Büroklammerdaten vom letzten Mal
„grosse“ Klammern, Stichprobenumfang n = 190,
M i l
Maximalwert 132, Minimalwert 6.
t 132 Mi i l
t6
g
; ( , ]; ( , ]; ( , ]; ; (
,
]
Einteilung in 14 Klassen; (0,10]; (10,20]; (20,30];… ; (130,140]
26.02.2008
36
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössenklassen
– Auftragen der Häufigkeit je Klasse
• Beispiel:
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
Aussage abhängig von der Anzahl Klassen !!!!
37
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössenklassen
– Auftragen der Häufigkeit je Klasse
– Faustregel für die Anzahl Klassen: k = 1+ 3.3log
• Beispiel: ( n)
Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 190 Wertebereich [6 132]
Stichprobenumfang n = 190, Wertebereich [6, 132]
k = 1+ 3.3log (190) = 8.52 ≅ 9 Klassen
oder
26.02.2008
(0,15]; (15,30]; (30,45];… ; (120,135]
(5,19]; (19,33]; (36,50];… ; (117,131] ?
38
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
39
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Die Form des Histogramms hängt ab von
– der Anzahl Klassen.
der Anzahl Klassen
– der Wahl des Startpunktes.
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
Anzahl Biegungen gr. Klammern
Anzahl Biegungen gr. Klammern
40
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Bisher betrachteten wir die absolute Häufigkeit.
• In der Regel wird die Häufigkeit relativ, also normiert In der Regel wird die Häufigkeit relativ also normiert
betrachtet.
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
41
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeits‐
diagramm.
diagramm
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
Anzahl Biegungen gr. Klammern
42
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeits‐
diagramm.
diagramm
• Hier kann die Klasseneinteilung beliebig klein sein!
Anzahl Biegungen gr. Klammern
26.02.2008
Anzahl Biegungen gr. Klammern
43
Statistik und Wahrscheinlichkeitsrechnung
Weitere graphische Darstellungsformen
• Histogramm Teil II.
• Quantile Plots
Quantile Plots
• Tukey Boxplots
26.02.2008
44
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Definition : – Die Q‐Quantile korrespondiert mit dem Wert der Stichprobe, Die Q Quantile korrespondiert mit dem Wert der Stichprobe
welcher mit dem Wert 100% ‐ Q x 100% überschritten wird.
– D.h. zum Beispiel: das 0.75‐Quantil wird von D h zum Beispiel: das 0 75‐Quantil wird von
100% ‐ 0.75 x 100% = 25% der Daten überschritten.
– Die Quantile werden von der geordneten Stichprobe Die Quantile werden von der geordneten Stichprobe
berechnet: x1o ≤ x2o ≤... ≤ xno
i
Qi =
1+ n
26.02.2008
45
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet.
und dem Quantilwert
gebildet
Anzahl Biegungen gr. Klammern
26.02.2008
46
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet.
und dem Quantilwert
gebildet
oberes Quartil = 75% Quantil
unteres Quartil = 25% Quantil
Anzahl Biegungen gr. Klammern
26.02.2008
47
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantile‐Plots werden durch Auftragen der Daten und dem Quantilwert gebildet.
und dem Quantilwert
gebildet
oberes Quartil = 75% Quantil
Und was ist das ??
Und was ist das ??
unteres Quartil = 25% Quantil
Anzahl Biegungen gr. Klammern
26.02.2008
Median
Mittelwert
e e
Weiss nicht…
48
Statistik und Wahrscheinlichkeitsrechnung
Tukey Boxplot
• Der Tukey Boxplot illustriert:
– Median
– untere und obere Quartilwerte
– Streubreite
St b it
– Ausreisser
26.02.2008
49
Statistik und Wahrscheinlichkeitsrechnung
Tukey Boxplot
Ausreisser
grösster verbundener Wert
grösster Wert kleiner als oberes Quartil + 1 5 * r
oberes Quartil + 1.5 * r
r
oberes Quartil oberes
Quartil = 75% Quantil
75% Quantil
Median = 50% Quantil
unteres Quartil = 25% Quantil
r = interquartiler Bereich (50% der Werte) kleinster verbundener Wert
kleinster Wert grösser als unteres Quartil ‐ 1.5 * r
26.02.2008
50
Statistik und Wahrscheinlichkeitsrechnung
Tukey Boxplot
Klammern
120
Durchbiegungen
100
80
60
40
20
0
grosse Klammern
26.02.2008
kleine Klammern
51
Statistik und Wahrscheinlichkeitsrechnung
Tukey Boxplot
Körpergrösse
200
195
Körp
pergrösse
190
185
180
175
170
165
160
26.02.2008
Alle
Männer
Frauen
52
Statistik und Wahrscheinlichkeitsrechnung
Q‐Q Plots
• Q‐Q plots dienen zur Darstellung und Vergleich
Darstellung und Vergleich von 2 Datenreihen.
• Datenpunkte der beiden Datenpunkte der beiden
Datenreihen mit demselben Quantilwert werden aufgetragen.
26.02.2008
53
Statistik und Wahrscheinlichkeitsrechnung
Mittel‐über‐Differenz Plots
• Mittel‐über‐Differenz Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen
Vergleich von zwei Datenreihen.
yi − xi
( yi + xi )/ 2
• Das Mittel wird über die Differenz aufgetragen.
26.02.2008
54
Statistik und Wahrscheinlichkeitsrechnung
Zusammenfassung Graphische Darstellung
Ein‐dimensionales
Streudiagramm
Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie.
Zwei‐dimensionales
Streudiagramm
Veranschaulicht den paarweisen Zusammenhang von Daten.
Histogramm
Stellt die Verteilung von Daten über einem Bereich von
Datenreihen dar, zeigt Modalwert und Symmetrie.
Quantile Plot
Stellt Median, Verteilung und Symmetrie dar.
Tukey – Boxplot
Stellt Median, obere/untere Quartile,
Symmetrie und Verteilung dar.
Symmetrie und Verteilung dar.
Q‐Q Plot
Vergleicht zwei Datenreihen, relatives Bild.
Mittel über
Mittel‐über‐
Differenz Plot
Vergleicht zwei Datenreihen relatives Bild
Vergleicht zwei Datenreihen, relatives Bild.
26.02.2008
55
Herunterladen