x - FH Dortmund

Werbung
Wissenschaftliches Arbeiten
Studiengang „Energiewirtschaft“
- Auswerten von Daten -
Prof. Dr. Ulrich Hahn
WS 2012/2013
nicht numerische Daten
Text-Daten:
Namen, Eigenschaften, …
Datenbank:
Matrix-Tabellenform
übliche Anordnung:

Spalten: Feld: gemeinsame Merkmale der Daten
Zeilen: Datensatz: Gesamtheit der Merkmale
eines Objektes/Subjektes
Filtern
Datensätze mit bestimmten Feldinhalten auswählen
Sortieren Datensätze in einer bestimmte Reihenfolge anordnen
Sortierkriterien in den einzelnen Feldern
Zählen
Auswertung von Daten
Wie oft kommen bestimmte Werte von Feldern vor?
Excel: Pivottabelle
Modus/Modalwert: häufigster Wert
2
numerische Daten
mehrere Daten (Zahlenwerte) einer (physikalischen) Größe,
z. B. das aktuelle Alter der Deutschen  81.726.000 Werte
Mit welchen Kenngrößen können die Daten charakterisiert werden?
Lagemaße ohne die wesentlichen Eigenschaften der Gesamtheit zu verfälschen:
welchen Wert müsste man nehmen, wenn alle
Daten gleich sind?
Streumaße wie stark unterscheiden sich die individuellen
Daten von dem Lagemaß?
Verteilung wie oft kommen welche Werte vor?
Werte der Größe nach ordnen
Werte der Häufigkeit nach ordnen
Auswertung von Daten
3
Lagemaße
arithmetischer Mittelwert
1 n
xa :  xi
n i 1
Summe aus n gleichen Summanden 𝒙
harmonischer Mittelwert
1
1 n 1
: 
xh n i 1 xi
Summe aus n gleichen Summanden 𝟏/𝒙
geometrischer Mittelwert
x g : n x1  x2  x3  ...  xn
Produkt aus n gleichen Faktoren 𝒙
 „Ausreißer“: wenige extreme Werte
Abhilfe: „gestutzte Mittel“:
5% der großen/kleinen Werte weglassen
Auswertung von Daten
4
Lagemaße
Modus/Modalwert am häufigsten vorkommender Wert
der Daten
auch nicht numerischen Werten
 oft wenig repräsentativ
Medianwert
teilt die Daten in 2 Gruppen mit gleicher
Anzahl von Werten:
* kleiner gleich Medianwert
* größer gleich Medianwert
 unempfindlich gegenüber Ausreißern
auch bei geordneten nicht numerischen Werten
Auswertung von Daten
5
Streumaße
Differenz größter_Wert – kleinster_Wert
 Ausreißer
1 n
mittlere Abweichung vom Lagemaß 𝒙 m. A.   ( xi  x )
n i 1
 wenn 𝑥 das arithmetische Mittel ist
1 n
 m. A.   | xi  x |
n i 1
1 n
2
(
x

x
)
Standardabweichung s :
 i
n  1 i 1
Spannweite
 unempfindlich gegenüber Ausreißern
n – 1: Freiheitsgrade, Zahl der unabhängigen (𝑥𝑖 − 𝑥 )²
Quantil
Auswertung von Daten
teilt die nach Größe geordnete Gesamtheit in 2 Gruppen:
p% aller Werte sind kleiner als das p%Quantil,
100% - p% sind größer.
Median: 50% Quantil
6
Verteilung der Werte
genauere Beschreibung der Gesamtheit aller Werte:
welche Werte treten wie häufig auf?
Anzahl
Anzahl eines bestimmten Wertes xi
Häufigkeit h(xi) :=
Gesamtzahl der Werte
n
 h( x )  1
i 1
i
 numerische Werte vorher der Größe nach ordnen
Summenkurve, Summenhäufigkeit (kumulierte Häufigkeit):
Summe der Anzahlen/Häufigkeiten bis zu einem bestimmten Wert xj
j
N ( x j ) :  n( xi )
nur numerische Werte!
i 1
Auswertung von Daten
7
0
Auswertung von Daten
Ziegenkäse
Unkraut
Sahnetorte
Pfirsich
Orangen
Mohnkuchen
Landjäger
Kuchen
Jägerschnit…
Hasenkeule
Fisch
Eintopf
Dorsch
Chili cC
Auflauf
Anzahl →
Verteilung der Werte
Verteilung der Anzahlen nicht numerischer Werte
6
5
4
3
2
1
8
Verteilung der Werte
Verteilung numerischer Werte
14
100%
Anzahl
Kumulierte Häufigkeit
12
80%
Anzahl →
10
60%
8
6
40%
4
20%
2
0
0%
160
170
180
190
200 cm
210
Größe →
Auswertung von Daten
9
Verteilung der Werte
Privathaushalte
1,2
Problem:
1
Anzahl →
nicht äquidistante Werte,
geringe Häufigkeiten pro
Wert
0,8
0,6
0,4
0,2
0
3000
Auswertung von Daten
6000
kWh
16
90%
kumulierte
Häufigkeit
12
80%
70%
Anzahl →
7000
100%
Anzahl
14
Klassen definieren:
gleich große Werteintervalle
Anzahlen/Häufigkeit
in den Intervallen
bestimmen
5000
Energieverbrauch →
10
60%
8
50%
6
40%
30%
4
kumulierte Häufigkeit →
Abhilfe: Histogramm
4000
20%
2
10%
0
0%
3000
3500
4000
4500
5000
5500
6000
Energieverbrauch in kWh
6500
7000
und
größer
10
Kenngrößen von Verteilungen
Häufigkeiten h(xi) sind (z. B. aus der Theorie) bekannt:
Erwartungswert
welchen Wert erwarte ich bei einer
neuen Beobachtung oder Messung?
n
E ( x)   h( xi )  xi
gewichteter Mittelwert aller Werte x:
i 1
Varianz
welche Streuung erwarte ich bei Messungen von x?
analog zur Standardabweichung:
V ( x)  E ( x  E ( x)) 2
V ( x)  E ( x ²)  ( E ( x)) 2
Häufigkeiten von xi bei realen Beobachtungen 
Wahrscheinlichkeiten, mit denen xi auftreten können
Auswertung von Daten
11
kontinuierliche Verteilungen
Die Größe x kann alle Werte in einem bestimmten Intervall annehmen
Darstellung der Häufigkeit h(x), mit der Werte x auftreten können
durch eine Dichtefunktion f(x)
h([ x, x  dx])  f ( x)  dx
xmax
 f ( x)  dx  1
xmin
kumulierte Häufigkeit (Summenkurve):
H ( ) 
xmax
 f ( x)  dx
xmin
E ( x) 
Erwartungswert:
xmax
 x  f ( x)  dx
xmin
xmax
Varianz: V ( x)   ( x  E ( x))  f ( x)  dx 
2
Auswertung von Daten
xmin
xmax
2
2
x

f
(
x
)

d
x

(
E
(
x
))

xmin
12
spezielle Verteilungen
Binomialverteilung
2 Ereignisse, die sich gegenseitig ausschließen, treten mit einer
bekannten, konstanten Wahrscheinlichkeit p bzw. 1 – p auf.
Münzwurf: „Kopf“ oder „Zahl“
Umfrage: „gut“ oder „schlecht“
radioaktive Atomkerne: „zerfallen“ oder „nicht zerfallen“
m Beobachtungen/Messungen:
Die Häufigkeit, dass das Ereignis (Wahrscheinlichkeit p) x-mal
eintritt (x ≤ m), beträgt
m x
h( x)     p  (1  p ) m  x
x 
h(x) : 2 Parameter, p, m
Auswertung von Daten
13
Binomialverteilung
Erwartungswert:
E ( x)  m  p
Varianz:
V ( x)  m  p  (1  p )
p aus h(x) bestimmen
Auswertung von Daten
 statistische Verfahren
14
spezielle Verteilungen
Poissonverteilung
2 Ereignisse, die sich gegenseitig ausschließen:
Die Zahl der Beobachtungen ist groß: m → ∞
Die Wahrscheinlichkeit für eins der Ereignisse ist klein: p → 0
Der Erwartungswert E(x) := µ = m.p ist bekannt
Grenzfall der Binomialverteilung
Die Häufigkeit, dass das Ereignis x-mal eintritt (x ≤ ∞), beträgt
µ x µ
h( x ) 
e
x!
 Erwartungswert:
E ( x)  µ
 Varianz:
V ( x)  µ
h(x): 1 Parameter µ
Auswertung von Daten
15
0,1
Poisson-Verteilung
Binomial
m = 100, p = 0,75
µ = 75, V(x) = 18,75
h(x) →
0,08
Poisson
0,06
0,04
0,02
0,1
0
50
Binomial
h(x) →
0,08
60
70
80
90
100
90
100
16
x →
Poisson
0,06
m = 1000, p = 0,075
µ = 75, V(x) = 69,38
0,04
0,02
0,1
0
50
60
70
80
90
100
Binomial
x →
0,08
h(x) →
Poisson
m = 10.000, p = 0,0075
µ = 75, V(x) = 74,44
Auswertung von Daten
0,06
0,04
0,02
0
50
60
70
80
x →
spezielle Verteilungen
Gaußverteilung
2 Ereignisse, die sich gegenseitig ausschließen:
Die Zahl der Beobachtungen ist groß: m → ∞
Der Erwartungswert E(x) = µ ist groß gegen die Schrittweite Dx
Dichte der Häufigkeiten:
h( x)  f ( x)  Dx
1
  
e
2
Poisson , µ  Dx

( x  µ )²
2µ
Dx
0,05
Binomial
0,04
Poisson
h(x) →
Gauß
0,03
0,02
0,01
0
Auswertung von Daten
50
60
70
80
x →
90
100
17
Gaußverteilung (Normalverteilung)
x: nicht nur zählbare Ereignisse, sondern auch andere,
kontinuierliche Größen
Abweichungen vom Erwartungswert E(x) = µ werden durch
zufällige Effekte bewirkt
Die Varianz V(x) := s² wird durch die zufälligen Effekte bestimmt
(unabhängig von µ)
h(x): 2 Parameter
g(s_1)
g(s_2)
0,3
g(s_3)
f (x) →
1
f ( x) 
e
2 s
0,4
1 xµ
 (
)²
2 s
g(s_4)
0,2
0,1
0
50
Auswertung von Daten
60
70
80
x →
90
100
18
Eigenschaften der Gaußverteilung
0,1
f (x) →
0,08
0,06
0,04
0,02
0
50
60
70
80
90
100
x →
Definitionsbereich: - ∞ < x < ∞
jeder Wert kann auftreten
Maximum bei x = µ, Wendepunkte bei xW,1 = µ - s, xW,2 = µ + s
68,3% der Werte x liegen im Intervall [µ - s, µ + s]
95,4% der Werte x liegen im Intervall [µ - 2s, µ + 2s]
99,7% der Werte x liegen im Intervall [µ - 3s, µ + 3s]
Auswertung von Daten
19
Messfehler & Gaußverteilung
Messtechnik: Bestimmen des Zahlenwertes einer Größe
Es gibt einen „wahren Wert“ dieser Größe
 unkontrollierbare Einflüsse: angezeigter Wert ≠ wahrer Wert
zufällige Fehler
∞ viele Messungen: gemessene Werte streuen gemäß einer
Gaußverteilung um den wahren Wert µ mit einer Varianz s
Varianz s wird bestimmt durch das Messverfahren!
endlich viele Messungen: µ und s schätzen
n
1 n
1
n 1 2
schätzen
2
2
2
~
µ   x   xi s   s   ( xi  x ) 
s  s2
n i 1
n i 1
n
schätzen
Auswertung von Daten
 Prüfung, ob xi normalverteilt sind: c² - Test
20
Vertrauensbereiche
Stichproben mit n Werten xi aus einer normalverteilten
Grundgesamtheit:
Mittelwerte 𝑥j streuen normalverteilt um den Erwartungswert µ
∞ viele Stichproben: Varianz der Mittelwerte 𝑥j :
s x2 
s2
n
2
s
2
s
endlich viele Stichproben: Varianz der Mittelwerte 𝑥j : x 
n
auch bei nur einer Stichprobe!
die Wahrscheinlichkeit P, dass 𝑥 um 𝜎𝑥 , 2𝜎𝑥 oder 3𝜎𝑥 von µ
abweicht, beträgt 68,3%, 95,4% oder 99,7%
Auswertung von Daten
22
Vertrauensbereiche
Umkehrschluss:
Der Erwartungswert µ befindet sich mit einer Wahrscheinlichkeit
P im Intervall um 𝑥
x  kP
s
n
 µ  x  kP
s
n
Vertrauensbereich
kP = 1, 2 oder 3
Varianz s ² geschätzt aus der Standardabweichung s²:
Vergrößerung der Vertrauensbereiche: kP  tP
x  tP
Auswertung von Daten
s
s
 µ  x  tP
n
n
23
Vertrauensbereiche
Anzahl n der
Werte
2
3
4
5
6
7
8
9
10
20
30
50
100
200
> 200
Auswertung von Daten
P = 68,3%
t0,68
1,84
1,32
1,20
1,14
1,11
1,09
1,08
1,07
1,06
1,03
1,02
1,01
1,01
1,00
1,00
P = 95,4%
t0,95
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,05
2,01
1,98
1,97
1,97
P = 99,7%
t0,99
235,8
19,21
9,22
6,62
5,51
4,90
4,53
4,28
4,09
3,45
3,28
3,16
3,08
3,04
3,00
24
Fehlerfortpflanzung
Berechnung einer Größe E aus einer/mehreren experimentell
bestimmten Größen x (y, z, …): E = f(x) {E = f(x, y, z, …)}
Erwartungswert µE :
µE  E  f (x )
Standardabweichung der berechneten Größe E?

f (x )
lineare Näherung:
f(x) in der Umgebung von
𝒙 durch Gerade ersetzen,
Steigung 𝒇′(𝒙)
E + dE
E
E  dE
d f ( x)
sE  |
| sx
dx x
x  dx
Auswertung von Daten
x + dx
x
x

25
Fehlerfortpflanzung
E = f(x, y, …) :
µE  E  f ( x , y , ...)
partielle Standardabweichungen für jede „Dimension“:
sE , x
 f ( x, y,...)

x
sx
x , y ,...
x, y, … sind nicht voneinander abhängig:
 f ( x, y,...)
sE  (
x
 f ( x, y,...)
sx )  (
y
x , y ,...
s y ) 2  ...
2
x , y ,...
Gaußsches Fehlerfortpflanzungsgesetz
Auswertung von Daten
26
lineare Regression
zwischen 2 experimentell bestimmten Größen x, y besteht
ein linearer Zusammenhang y = m.x + b
Steigung und Ordinatenabschnitt aus den Messdaten?
Spannung U 
3,5
V
3
2,5
2
1,5
1
0,5
0
0
50
100
150
200
Strom I 
250
300 mA 350
xi, yi zufallsbeeinflusst 
Gerade soll Zufallseffekte
ausgleichen
Summe der Abstände der
Geraden zu den Datenpunkten xi, yi minimal
Ausgleichsgerade geht
durch den Datenschwerpunkt (𝑥 , 𝑦)
Excel: „RGP-Funktion“  m, b, sm, sb, r²
Auswertung von Daten
27
Korrelation
Besteht ein linearer Zusammenhang y = m.x + b zwischen zwei
experimentell bestimmten Größen x, y ?
Maß für den Zusammenhang:
n
r :
 ( xi  x )( yi  y )
Korrelationskoeffizient
-1 ≤ r ≤ 1
i 1
n
n
i 1
i 1
( ( xi  x ) 2 )( ( yi  y ) 2 )
r²: Bestimmtheitsmaß
r = 1: perfekter linearer Zusammenhang, steigende Gerade
r > 0,8: linearer Zusammenhang, steigende Gerade
r = 0: kein linearer Zusammenhang
r = -1: perfekter linearer Zusammenhang, fallende Gerade
Auswertung von Daten
28
y →
y →
y →
Korrelation
r=1
r = 0,7
r = 0,93
x 
x 
x 
y →
r=0
y →
y →
r = -0,93
r = 0,5
x 
Auswertung von Daten
x 
x 
29
spezielle Probleme
Vergleich Messergebnis – „Literaturwert“
Kann die Abweichung des Messergebnisses vom Literaturwert
durch zufallsbedingte Einflüsse erklärt werden?
Literaturwert = wahrer Wert
 Literaturwert im Vertrauensbereich des Messergebnisses:
 wahrer Wert liegt mit Wahrscheinlichkeit P im Vertrauensb.
 Abweichungen sind mit P durch den Zufall erklärbar
Messung hat den Literaturwert reproduziert
 Literaturwert außerhalb des Vertrauensbereiches:
 Abweichungen sind nur mit 1- P durch den Zufall erklärbar
oder mit P nicht zufällig
Auswertung von Daten
30
spezielle Probleme
Ausreißer
In einer Messreihe kommt ein Wert vor, der stark von den
anderen abweicht.
ist die Abweichung zufällig?
 Mittelwert und Standardabweichung mit Ausreißer
bestimmen
 Differenz Ausreißer – Mittelwert > 3 s ?
 wenn ja, dann Ausreißer verwerfen!
 Mittelwert und Standardabweichung ohne Ausreißer
bestimmen
Auswertung von Daten
31
spezielle Probleme
Vergleich der Mittelwerte zweier Messungen der gleichen
physikalischen Größe
ist die Abweichung zufällig?
 Mittelwerte befinden sich im jeweiligen Vertrauensbereich
der anderen Messung
 Vertrauensbereiche überlappen sich, aber ein Mittelwert ist
nicht im Vertrauensbereich der anderen Messung
 Vertrauensbereiche überlappen sich nicht
Mittelwerte mehrerer
Messungen zusammenfassen
gewichteter Mittelwert
Auswertung von Daten
n
xi

2
i 1 vi
x n
1

2
v
i 1 i
32
Daten-Matrix

Auswertung von Daten
33
Herunterladen