Ausgleichungsrechnung I

Werbung
Datenanalyse und deskriptive
Statistik
•
•
•
•
Einleitung
Explorative Datenanalyse
Kennwerte statistischer Verteilungen
Statistik in der Messtechnik
Ausgleichungsrechnung I
Gerhard Navratil
Einleitung
Statistik: Zweig der angewandten Mathematik
zerfällt in
– Deskriptive Statistik: Beschreibt Datenmengen
– Induktive Statistik: Schließt von kleinem Ausschnitt
auf das Ganze (siehe Kapitel 8 )
Ziel: Verständnis der statistischen Konzepte
Vorgangsweise: Empirische Betrachtung anhand
geodätischer Messungen
Ausgleichungsrechnung I
Gerhard Navratil
Aufgaben der deskriptiven Statistik
Wir beschreiben die ‚Wirklichkeit‘ oft mit
Zahlen, z.B.
– Jahresbilanz eines Unternehmens
– Verhältnis Waldflächen – Gesamtfläche eines
Landes
–…
Mit deskriptiver Statistik stellen wir die
Zahlen zusammen  Aussagen über
Struktur und Gesetzmäßigkeiten
Ausgleichungsrechnung I
Gerhard Navratil
Beispiel 1
Distanz mehrfach mit einem Maßband
d [m]
gemessen
1 5,24
Was können wir herauslesen?
2 5,28
Häufigkeit der Einzelwerte
3 5,22
Minimum/Maximum
4 5,23
Lücke?
5 5,24
Bessere Ergebnisse bei mehr Messungen?
Ausgleichungsrechnung I
Gerhard Navratil
Beispiel 1 Fortsetzung
80 Messungen
Minimum ist kleiner
geworden
Lücke schmaler
Problem bleibt:
welchen Wert verwenden wir zum Rechen?
Aus der Praxis möglicherweise bekannt:
Mittelwert
Ausgleichungsrechnung I
Gerhard Navratil
Beispiel 2
Strecke mit 3
Geräten gemessen
Charakterisierender
Wert?
Mittelwert
574,751 m
Ausreißer?
Messreihe x
DI1600
3mm+2ppm
Messreihe y
DI2002
1mm+1ppm
Messreihe z
ME5000
0,2mm+0,2ppm
574,775
574,772
574,775
574,777
574,777
574,775
574,773
574,777
574,776
574,770
574,173
574,775
574,775
574,774
574,775
574,772
574,773
574,774
574,776
574,774
574,776
574,776
574,773
574,779
574,774
Ausgleichungsrechnung I
Gerhard Navratil
Skalenniveaus
•
•
•
•
•
Nominalskala: Identität
kategorisch
Ordinalskala: Ordnungsrelation
Intervallskala: Differenzen
metrisch
Rationalskala: Quotienten
Absolutskala: natürliche Maßeinheit
repräsentieren physikalische Größen
Ausgleichungsrechnung I
Gerhard Navratil
Nominalskala
Werte dienen nur zur Benennung
z.B. Beruf, Geschlecht, Blutgruppe
Erfüllt sind folgende Bedingungen
– Reflexivität: a = a
– Symmetrie: a = b  b = a
– Transitivität: a = b  b = c  a = c
Sortieren nicht erlaubt!
Ausgleichungsrechnung I
Gerhard Navratil
Ordinalskala
Reihung der Werte
z.B. Resultat eines Wettbewerbs, militärischer
Rang, akademischer Grad
Keine Aussage über die Abstände der Klassen
Erfüllt sind folgende Bedingungen
– Konnexivität: es gilt immer a > b oder a < b oder a = b
– Transitivität: a > b  b > c  a > c
Spezialfall: Rangskala – jeder Wert genau einmal
vertreten
Ausgleichungsrechnung I
Gerhard Navratil
Intervallskala
Differenzen von Werten sind vergleichbar
Aber: Kein absoluter Nullpunkt, Verhältnisse
sind also nicht sinnvoll
z.B. Temperatur in Grad Celsius, geogr.
Länge
Zusätzliche Operationen: Addition,
Subtraktion  Mittelbildung möglich
Ausgleichungsrechnung I
Gerhard Navratil
Verhältnis-/Rationalskala
Besitzt absoluten Nullpunkt
z.B. Temperatur in Kelvin, Distanz zwischen
zwei Punkten
Multiplikation und Division möglich
Ausgleichungsrechnung I
Gerhard Navratil
Absolutskala
Entspricht einer Rationalskala, aber:
Es gibt eine natürliche Maßeinheit
Maßeinheit meist: Stück (im weitesten
Sinne)
z.B. Anzahl der Teilnehmer
Ausgleichungsrechnung I
Gerhard Navratil
Skalenniveaus in Vermessung und
Geoinformation
Vermessung: i.A. metrische Daten (also
Intervall- oder Rationalskala)
GIS: Metrische Daten möglich (z.B. Straßenbreite, Lichtintensität einzelner Bildpunkte)
Oft aber auch kategorische Daten
(Bodenbedeckung, Eigentümer, …)
Ausgleichungsrechnung I
Gerhard Navratil
Methoden der explorativen
Datenanalyse
Ausgangspunkt: Ungefähre Vorstellung, wie
unsere Datenmenge aussehen sollte
(stochastisches Modell)
Daten, die nicht ins Modell passen, sollen
eliminiert werden: Ausreißer
Im Beispiel 2: Messwert 574,173m
(Messfehler, Schreibfehler???)
Nachträgliches Ändern von Daten
problematisch  Eliminieren
Ausgleichungsrechnung I
Gerhard Navratil
Erster Schritt
Überblick verschaffen
Urliste muss also anschaulich dargestellt
werden
2 Möglichkeiten
– Tabellarische Darstellung
– Grafische Darstellung
Ausgleichungsrechnung I
Gerhard Navratil
Tabellarische Darstellung
Einteilung der Daten in Klassen
Zu jeder Klasse werden Häufigkeiten
angegeben (wie viele Werte sind in der
Klasse)
Ausgleichungsrechnung I
Gerhard Navratil
Klassenbildung
Aufteilung des Wertebereiches in Teilbereiche (Klassen) – Vollständige
Überdeckung des Wertebereiches
Wenige Klassen: Übersichtlich aber großer
Informationsverlust
für n  25
5
Faustformeln:

m n
für 25  n  100
1  4,5  lg n für 100  n

6  m  20
m  10  lg n
Ausgleichungsrechnung I
Gerhard Navratil
Klassengrenzen
d
xmax  xmin
m
Klassenbreite:
Bei offenen Klassen liegen die xmin und xmax in den
offenen Klassen (erste und letzte Klasse)
Arithmetischer Mittelwert der Klassengrenzen:
Klassenmitte
Oft nur mehr Klassenmitte und Häufigkeit gegeben
Werte auf Klassengrenze fallen halb in jede Klasse
Ausgleichungsrechnung I
Gerhard Navratil
Häufigkeitstabellen (1)
Anzahl der Elemente pro Klasse
Unterscheidung
– absolut – relativ
– Häufigkeit – Häufigkeitssumme
Absolute Häufigkeit ki – Probe
m
 ki  n
i 1
Absolute Häufigkeitssumme: Anzahl der
Werte, die einen bestimmten Wert nicht
übersteigen
Ausgleichungsrechnung I
Gerhard Navratil
Häufigkeitstabellen (2)
ki
Relative Häufigkeiten hi – Probe hi 
n
m
 hi  1
i 1
Relative Häufigkeitssumme: Absolute
Häufigkeitssumme dividiert durch Gesamtzahl der Beobachtungen
Ausgleichungsrechnung I
Gerhard Navratil
Häufigkeitstabellen (3)
I
Klassengrenzen
-mitte
k
K
h
H
1
-
574,7705
574,770
1
1
0,042
0,042
2
574,7705
574,7715
574,771
0
1
0
0,042
3
574,7715
574,7725
574,772
2
3
0,083
0,125
4
574,7725
574,7735
574,773
3
6
0,125
0,250
5
574,7735
574,7745
574,774
4
10
0,167
0,417
6
574,7745
574,7755
574,775
6
16
0,250
0,667
7
574,7755
574,7765
574,776
4
20
0,167
0,833
8
574,7765
574,7775
574,777
3
23
0,125
0,958
9
574,7775
574,7785
574,778
0
23
0
0,958
10
574,7785
+
574,779
1
24
0,042
1,000
Summe
24
Ausgleichungsrechnung I
Gerhard Navratil
1
Darstellung als Funktion
(empirische) Verteilungsfunktion
Ordnet jedem Beobachtungswert die
absolute (relative) Häufigkeit(ssumme) zu
0 für -   x  574,7695
z.B.

1
K x   1
3


für
für
für

574,7695  x  574,7705
574,7705  x  574,7715
574,7715  x  574,7725

Die Sprungstellen lassen sich vermeiden
Ausgleichungsrechnung I
Gerhard Navratil
Graphische Darstellungen
• Histogramm
• Kurvendarstellung
• Stamm-und-Blatt-Plan
Ausgleichungsrechnung I
Gerhard Navratil
Histogramm
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
Ausgleichungsrechnung I
Gerhard Navratil
8
9
10
Kurvendarstellung
Direkte Darstellung der Werte möglich, aber: Sortierung
notwendig!
sonst: anderes Ergebnis
Entspricht: Häufigkeitssummenkurve
Ausgleichungsrechnung I
Gerhard Navratil
Relative Häufigkeitssummenkurve
1,2
1
0,8
0,6
0,4
0,2
0
0
1
2
3
4
5
6
Ausgleichungsrechnung I
Gerhard Navratil
7
8
9
10
Stamm-und-Blatt-Plan
K
[cm]
1
57477 0
1
K
[cm]
57477 0
3
22
1
6
333
6
10
4444
16
4444555555
16
555555
23
6666777
20
6666
24
9
23
777
23
24
9
Ausgleichungsrechnung I
Gerhard Navratil
22333
Kennwerte empirischer
Häufigkeitsverteilungen (1)
Häufigkeitsverteilung: Zusammenhang
zwischen Beobachtungswerten und
Häufigkeiten
• Einzelnes Merkmal: univariate
Verteilung
• Zwei Merkmale: bivariate Verteilung
• Sonst: multivariate Verteilung
Ausgleichungsrechnung I
Gerhard Navratil
Kennwerte empirischer
Häufigkeitsverteilungen (2)
Kenngrößen charakterisieren
– Lage
– Streuung
– Form
Jeder Messwert hat Rangzahl (Ordnungsnummer in der Folge der Beobachtungen)
Üblicherweise berechnet aus großen
Beobachtungsreihen (n=10 absolutes
Minimum, oft n>100)
Ausgleichungsrechnung I
Gerhard Navratil
Lagekennwerte (1)
•
•
•
•
Minimaler/maximaler Wert n
1
x   xi
Arithmetisches Mittel
n i 1
Geometrisches Mittel x   x
Quantile: Zerlegt die Datenmenge in zwei
Bereiche – a-Quantil trennt a% der Daten
ab (z.B. 0,1-Quantil oder 10%-Quantil)
n 1
• Median: 0,5-Quantil – r1/ 2  2
auch:
*
n
n
i 1 i
Perzentil
Ausgleichungsrechnung I
Gerhard Navratil
Lagekennwerte (2)
• Quartile: 0,25- und 0,75-Quantil
r1/ 4
n 1
1
2

,
2
r3 / 4
n 1
1
2
 n
2
• Modalwert: Am häufigsten vorkommender
Wert
Ausgleichungsrechnung I
Gerhard Navratil
Streuungskennwerte
• Spannweiten
– Spannweite
– Quartilsspannweite
• Empirische Varianz:
D=xmax-xmin
D0,25=x3/4-x1/4
n

1
xi  x 2
s2 
n  1 i 1
• Empirische Standardabweichung: s  s 2
s
• Empirischer Variationskoeffizient: vx   100 %
x
Ausgleichungsrechnung I
Gerhard Navratil
Zentrieren und Standardisieren
• Zentrierter Beobachtungswert
xi  x
• Standardisierter Beobachtungswert
xi  x
s
Ausgleichungsrechnung I
Gerhard Navratil
Form-Kennwerte
• Schiefe: 3. Potenz der standardisierten
3
n
Beobachtungswerte  1  1   xi  x 
n
i 1 
s

3. standardisierte zentrale Moment4
n
1  xi  x 
• Wölbung (Kurtosis):  2  n   s 
i 1 

4. standardisierte zentrale Moment
4
n
1  xi  x 


• Exzess:
 3
2

n
Ausgleichungsrechnung I
Gerhard Navratil
i 1 
s

Eigenschaften
• Resistenz: Verhalten bei Ausreißern –
Median hohe Resistenz, Mittelwert niedrige
• Optimalitätseigenschaften: Lagekennwerte sollen die Datenmenge ‚optimal‘
repräsentieren
n
erfüllte Kriterien:
 xi  x1/ 2  min
i 1
bzw.
n

2
xi  x  min
i 1
Ausgleichungsrechnung I
Gerhard Navratil
Statistische Begriffe in der
Messtechnik (1)
• Wahrer Wert: Tatsächlicher Wert des Merkmals
(ist leider unbekannt, kann aber explizit vorgegeben sein – Winkelsumme)
• Quasi-wahrer Wert: Hochgenaue Messung,
deren Abweichung vom wahren Wert so gering
ist, dass sie im vorliegenden Fall vernachlässigt
werden kann (auch: richtiger Wert, Sollwert)
• Erwartungswert: Mittelwert aller theoretisch
möglichen Messwerte (Schätzwert: empirischer
Mittelwert)
Ausgleichungsrechnung I
Gerhard Navratil
Statistische Begriffe in der
Messtechnik (2)
• Abweichung: Differenz Messgröße (Ist-Wert) –
Bezugsgröße (Soll-Wert)
• Wahre Abweichung: Bezugsgröße ist der
wahre Wert
Systematischer + zufälliger Anteil
• Systematische Abweichungen: Mathematisches/physikalisches Modell nicht richtig
• Zufällige Abweichungen: Nicht beherrschbare,
nicht einseitig gerichtete Einflüsse
(stochastische Einflüsse)
• Grober Fehler: Irrtümer (durch Kontrollen
eliminiert)
Ausgleichungsrechnung I
Gerhard Navratil
Ausgleichungsrechnung I
Gerhard Navratil
Deskriptive Statistik im
Vermessungswesen
Unterschied systematische – zufällige
Abweichungen schafft Probleme
Elimination zufälliger Abweichungen durch
Mittelbildung
Elimination systematischer Einflüsse durch
– Messanordnung (z.B. 2 Fernrohrlagen, Nivellement
aus der Mitte)
– rechnerische Korrektur (z.B. atmosphärische
Korrekturen, Prismenkonstante)
Annahme im weiteren Verlauf der Vorlesung:
Keine systematischen Einflüsse vorhanden
Ausgleichungsrechnung I
Gerhard Navratil
Bekannter Erwartungswert
Quasi-wahrer Wert m bekannt (z.B. Messung
des Nullwinkels)
Zufällige Abweichungen: ei = xi – m in Vektor e
zusammengefasst
Maß für die Streuung: (theoretische)
Standardabweichung
εT ε
auch: mittlerer Fehler

n
(Statistik: empirisch)
Erwartungswert bekannt, ich verbrauche also keine
Messung um einen Erwartungswert zu bestimmen.
Ausgleichungsrechnung I
Gerhard Navratil
Empirische Schätzung des
Erwartungswertes
n
Schätzwert für den Erwartungswert:
1
x   xi
arithmetisches Mittel
n i 1
Verbesserung vi  x  xi
Empirische Standardabweichung
T
v v
s
n 1
negative Abweichung
Diesmal n-1, da wir den Schätzwert für
den Erwartungswert bestimmen müssen!
Ausgleichungsrechnung I
Gerhard Navratil
Weitere Kennwerte
• Arithmetisches Mittel der VerbesserungsAbsolutbeträge (durchschnittlicher Fehler)
1
t
n
n
 vi
i 1
• Median der Verbesserungs-Absolutbeträge
(wahrscheinlicher Fehler) r  v 1 / 2
• Bei großem n gilt: s    t  5  t bzw. r  2  s
2
Ausgleichungsrechnung I
Gerhard Navratil
4
3
Weitere übliche Fehlermaße
• Relativer Fehler: Standardabweichung in
Relation zur Messgröße
z.B. Strecke von 1km und =5mm 

5

 5  106  5mm / km  5 ppm
m 1000000
• Helmert‘scher Punktlagefehler:
Standardabweichung der Koordinaten
bekannt:
2
2
mH  s x  s y
Ausgleichungsrechnung I
Gerhard Navratil
Genauigkeit – Präzision Richtigkeit
• Genauigkeit: Wie genau stimmen die
Messdaten mit dem Bezugswert überein?
Zusammengesetzt aus Präzision (innere
G.) und Richtigkeit (äußere G.)
• Präzision: Wie gut ist die Wiederholbarkeit der Messungen?
• Richtigkeit: Wie gut stimmen Erwartungswert und wahrer Wert überein?
Ausgleichungsrechnung I
Gerhard Navratil
Ausgleichungsrechnung I
Gerhard Navratil
Zusammenfassung
• Datenmengen werden mit Kenngrößen
charakterisiert
• Darstellung erfolgt meist graphisch
(Histogramm oder Häufigkeitssummenkurve)
• Oft wird eine Klasseneinteilung vorgenommen
• Physikalische Größen haben einen unbekannten
‚wahren Wert‘
• Die Abweichungen werden Fehler genannt
(zufällig, systematisch, grob)
• Zufällige Fehler auch Verbesserungen
Ausgleichungsrechnung I
Gerhard Navratil
Herunterladen