Inhaltsverzeichnis

Werbung
Version 2.0
Inhaltsverzeichnis
FORMELSAMMLUNG
Inhaltsverzeichnis
Inhaltsverzeichnis
1
Datenanalyse und -inversion
2
Grundbegriffe
2
Eindimensionale Stichprobenbeschreibung
2
Mehrdimensionale Stichprobenbeschreibung
5
Wahrscheinlichkeitsdichte und Verteilungsfunktionen
5
Theoretische Verteilungen
6
Schätzverfahren
11
Fehlerrechnung
13
Repräsentanz
14
Prüfverfahren
14
Varianzanalyse
19
Zeitreihenanalyse
21
Hauptkomponentenanalyse
29
Übung zur Datenanalyse und –inversion
32
Grafischer Umgang mit Daten
32
Mutungsbereich-Schätzung (Normalverteilung)
32
Hypothesenüberprüfung
33
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 1
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Datenanalyse und -inversion
Wahrschenlichkeitsrechnung
Grundbegriffe

Statistische Einheit (Variable): Einzelobjekt einer Untersuchung; Träger der Information.
(Würfel)
 Merkmal: bei einer statistischen Untersuchung interessierende Eigenschaft einer statistischen Einheit (Augenangabe).
 Qualitative Merkmale unterscheiden sich durch ihre Art.
 Komparative Merkmale unterscheiden sich durch ihre intensitätsmäßige Ausprägung.
 Quantitative Merkmale unterscheiden sich durch ihre Größe.
 Merkmalsausprägungen / Kategorien: Die interessierenden Werte die ein Merkmal annehmen kann (Angabe: 1,2,3,4,5,6).
 Nominalskala: eine Skala, deren Skalenwerte nur nach dem Kriterium gleich oder verschieden geordnet werden können (z.B. gemessen oder geschätzt)
 Nummernskala: eine Skala, deren Skalenwerte ohne quantitativen Bezug durchnummeriert werden (z.B. Lottokugeln)
 Rangskala: eine Skala, deren Skalenwerte in auf oder absteigender Form geordnet sind
(z.B. Höchster Wert (Rangplatz 1), zweithöchster Wert (Rangplatz 2), und so weiter bis
zum Minimum)
 Kardinalskala / metrische Skala: eine Skala deren Skalenwerte reelle Zahlen sind und
die die Ordnungseingenschaften reeller Zahlen besitzen.
 Intervallskala: eine metrische Skala, die keinen natürlichen Nullpunkt besitzt.
 Rationalskala: eine metrische Skala, die einen natürlichen Nullpunkt besitzt.
 Merkmalswerte (Daten): an einer statistischen Einheit festgestellte Merkmalsausprägung.
(z.B.: 3,5,2,1 mit 𝑛 = 4)
Index
Intervallskala
Rationalskala
Rangskala
1
15,1 °C
288,1 K
2
2
16,7 °C
289,7 K
1
3
14,3 °C
287,3 K
3
Eindimensionale Stichprobenbeschreibung
Grundsätzliche Beschreibungen
Arithmetischer Mittelwert
Der arithmetische Mittelwert ist gegenüber additiven oder subtraktiven Skalentransformationen invariant.
1
1
𝑎̅ = ∑(𝑎𝑖 ) = (𝑎1 + 𝑎2 + ⋯ + 𝑎𝑛 )
𝑛
𝑛
Für eine bekannte Grundgesamtheit mit Dichtefunktion 𝑓(𝐴𝑖 ) bzw. 𝑓(𝐴) ist 𝜇 = ∑𝑛𝑖=1 𝐴𝑖 𝑓(𝐴𝑖 )
∞
bzw. 𝜇 = ∫−∞ 𝑓(𝐴)𝑑𝐴.
Griechische Symbole werden genutzt, wenn die Grundgesamtheit bekannt ist.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 2
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Gewichteter Mittelwert
Für Daten unterschiedlicher Genauigkeit kann dies berücksichtigt werden (Gewichtung 𝑤𝑖 ).
1
𝑎̅𝑤 =
∑(𝑤𝑖 ∙ 𝑎𝑖 )
∑ 𝑤𝑖
Geometrischer Mittelwert
Für logarithmische Skalen kann es sinnvoll sein, den geometrischen Mittelwert zu verwenden.
1
𝑎̅𝐺 = 𝑛√𝑎1 ∙ 𝑎2 ∙ … ∙ 𝑎𝑛 ,
log(𝑎̅𝐺 ) = ∑ log(𝑎𝑖 )
𝑛
Extremmittel
(𝑎𝑚𝑎𝑥 − 𝑎𝑚𝑖𝑛 )
𝑎̅𝐸 =
2
Modus
Der Modus bezeichnet den Gipfelwert / häufigsten Wert.
𝑀𝑜𝑑 = 𝑓(𝑎𝑖 )𝑚𝑎𝑥 = 𝑓(𝑎)𝑚𝑎𝑥
Median
Der Median teilt die Wahrscheinlichkeitsdichtefunktion in zwei gleich große Flächen.
𝑀𝑒𝑑
𝑀𝑒𝑑
∑ 𝑓(𝑎𝑖 ) = ∫
𝑓(𝑎)𝑑𝑎 = 0,5
−∞
𝑖=1
Bei streng symmetrischen Verteilungen ist 𝑀𝑒𝑑 = 𝑀𝑜𝑑 . Bei unsymmetrischen, eingipfligen
Verteilungen ist 𝑎̅ < 𝑀𝑒𝑑 < 𝑀𝑜𝑑 ∨ 𝑎̅ > 𝑀𝑒𝑑 > 𝑀𝑜𝑑.
Quantile
Beschreibt die Stelle, an der die Dichtefunktion einen bestimmten Teil der Fläche erreicht hat.
Bekannt sind die 𝑝-Quantilen 𝑝 = 0,25, 𝑝 = 0,5 und 𝑝 = 0,75, die auch als 1., 2. und 3. Quartil
bezeichnet werden.
𝑥(𝑝) = 𝐹 −1 (𝑝) = 𝐹 −1 ( 𝑚𝑖𝑛𝑥 (𝐹(𝑥(𝑝) ) ≥ 𝑝)
Eigentlich ist die Quantile die kleinste Merkmalausprägung, die die geordnete Reihe so unterteilt, dass mindestens 𝑝% aller Merkmalsprägungen erfasst werden. Also für {1,2,2,2,3,4,4,7}
1
3
1
2
1
wäre die relative Häufigkeit {1: , 2: , 3: , 4: , 7: } und die kumulierte Häufigkeit
1
4
5
7
8
8
8
8
8
8
8
8
8
{1: , 2: , 3: , 4: , 7: 1} und das 𝑝 = 0,75-Quartil wäre 4, weil
5
8
< 0,75 und damit die 4 die nächst
höhere Ausprägung ist (die 75% einschließt).
Zum Beispiel liegen unterhalb des ersten Dezils (10) De1 10 % der Werte.
Variantionsbreite
Auch Schwankungsbreite genannt, ist das einfachste Maß für die Variation der Daten.
𝑏 = 𝑎𝑚𝑎𝑥 − 𝑎𝑚𝑖𝑛
Durchschnittliche Abweichung
Dies ist die Abweichung vom arithmetischen Mittel 𝑎𝑖′ .
1
1
𝑑 = ∑|𝑎𝑖 − 𝑎̅| = ∑|𝑎𝑖′ |
𝑛
𝑛
Standardabweichung
Anstatt einer linearen Abweichung wird die quadratische Abweichung verwendet.
1
𝑛 ∑ 𝑎𝑖2 − (∑ 𝑎𝑖 )2
2
𝑠=√
∑ 𝑎𝑖′ = √
𝑛−1
𝑛(𝑛 − 1)
Varianz
𝑠2 =
1
𝑛 ∑ 𝑎𝑖2 − (∑ 𝑎𝑖 )2
2
∑ 𝑎𝑖′ =
𝑛−1
𝑛(𝑛 − 1)
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 3
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Liegt eine Grundgesamtheit vor, gilt:
𝑛
∞
2
𝜎 = ∑(𝐴𝑖 − 𝜇)2 𝑓(𝐴𝑖 ) ,
𝜎 2 = ∫ (𝐴 − 𝜇)2 𝑓(𝐴)𝑑𝐴 ,
−∞
𝑖=1
∞
𝜇 = ∫ 𝑓(𝐴)𝑑𝐴
−∞
Die Varianz hat folgende Eingeschaften:
 (∀ 𝑛 > 1) ∧ (∀ 𝑎𝑖 ≠ 𝑎𝑗 | 𝑖, 𝑗 ∈ {1,2, … , 𝑛} ∧ 𝑖 ≠ 𝑗): 𝑠 2 > 0
 Invariant bzgl. Transformationen der Form 𝑎𝑖 ∓ 𝐷
1
2
2
′2
 Additiveigenschaft (Zerlegung): 𝑠 2 =
(∑𝐼𝑖=1 𝑎𝑖′ + ∑𝐽𝑗=𝐼 𝑎𝑗′ + ⋯ + ∑𝐾
𝑘=𝑛−𝐾 𝑎𝑘 )
𝑛−1
Variationskoeffizient
𝑣=
Empirische






𝑠
,
𝑎
𝑠
𝑣 = ( ) ∙ 100%
𝑎
Häufigkeitsverteilung
Gleichverteilung
Eingipflige (unimodale) Verteilung
Mehrgipflige (multimodale) Verteilung
J-Verteilung
Inverse J-Verteilung
U-Verteilung
Für schiefe Verteilungen ist 𝑎̅ < 𝑀𝑜𝑑 linkssteil (positive Schiefe) und 𝑎̅ < 𝑀𝑜𝑑 rechtssteil (negative Schiefe). Für unimodale Verteilungen reicht die Standardabweichung nicht zur Be𝑄𝑢3 −𝑄𝑢1
schreibung aus und man benötigt die Exzess-Eigenschaft, zum Beispiel 𝐸𝑥∗ =
.
)
2(𝐷𝑒9 −𝐷𝑒1
Klassenbildung
Dies beschreibt die Zusammenfassung von mehreren Merkmalen nach folgender Systematik:
 Empirische Schätzung der Klassenzahl 𝐾 (im Zweifel Festlegung geringerer Klassenzahl)
 Erstellung gleich großer Klassen ohne Lücken
 Die untere/obere Intervallgrenze der kleinsten/größten Klasse sollte gut mit den Extremwerten übereinstimmen
Klassenschätzung (abrunden!):
 Sturges (1926): 𝐾 = 1 + 3,32 log 𝑛
 Strauch (1956): 𝐾 = 1 + log 𝑛⁄log 2
 Panofsky und Brier (1958): 𝐾 = 5 ∙ log 𝑛
Boxplot
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 4
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Mehrdimensionale Stichprobenbeschreibung
Es gibt mehrere Varianten für Mehrdimensionalität:
 Merkmalswerte sind Vektoren
 Merkmalswerte sollen in Form skalarer oder vektorieller Felder im Raum untersucht werden mit Merkmalswerten als Funktion von 𝑥, 𝑦 und 𝑧
 Kombination von Stichproben (gleicher Umfang) → Stichprobenmatrix
Grundsätzliche Beschreibungen
Im Fall von Vektoren wird oft eine Trennung der Komponenten vorgenommen und dann jeweils eindimensional behandelt.
Arithmetisches Mittelzentrum
Für eine dreidimensionale Stichprobe gilt:
1
1
1
𝑀𝑍 = {𝑥̅ = ∑ 𝑥𝑖 , 𝑦̅ = ∑ 𝑦𝑖 , 𝑧̅ = ∑ 𝑧𝑖 } , 𝑖 ∈ {1, … , 𝑛}
𝑛
𝑛
𝑛
Gewichtung und Klassenbildung sind zur eindimensionalen Beschreibung ident.
Im Fall von Vektoren wird oft eine Trennung der Komponenten vorgenommen und dann jeweils eindimensional behandelt. Bei späterer Wiedervereinigung ist der arithmetische Mittel1
1
wert nicht gleich dem Mittelzentrum. Hierfür benötigt man 𝑀𝑍𝑚 = [𝑎̅ = ∑ 𝑎𝑖1 , 𝑎̅ = ∑ 𝑎𝑖2 ; 𝑎̅ =
1
𝑛
𝑛
𝑛
∑ 𝑎𝑖𝑚 ] , 𝑖 ∈ {1, … , 𝑛}. Bei Werten im Polarkoordinaten empfiehlt sich eine Umrechnung. Die Rich-
tung des Mittelvektors ist im zweidimensionalen Fall gegeben durch:
𝑎̅1 𝑥̅
⃗⃗⃗⃗⃗ = 𝑎̅ 2 + 𝑎̅ 2 = 𝑥̅ 2 + 𝑦̅ 2 ,
|𝑎|
𝑡𝑔𝛼 =
= ,
𝛼: Richtung
1
2
𝑎̅2 𝑦̅
Metereologische Winkelangabe
Da der Wind-Winkel der ist, aus der der Wind kommt, muss man umrechnen:
𝛽 = 𝛼 − 180°
𝛼 = 𝛽 + 180°
𝜑 = 90° − 𝛽
𝛽 = 90° − 𝜑
𝜑 = 270° − 𝛼
𝛼 = 270° − 𝜑
𝛼: metereologischer Winkel, 𝛽: allgemeiner Winkel, 𝜑: Polarwinkel
Für die Umrechnungen in 2D und 3D gelten:
𝑦
𝑥 = 𝑟 cos 𝜑 ∧ 𝑦 = 𝑟 sin 𝜑 | 𝑟 = √𝑥 2 + 𝑦 2 ∧ 𝜑 = arctan ⁄𝑥
𝑦
√𝑥 2 + 𝑦 2
𝑥 = 𝑟 sin 𝜆 cos 𝜑 ∧ 𝑦 = 𝑟 sin 𝜆 sin 𝜑 ∧ 𝑧 = 𝑟 cos 𝜆 | 𝑟 = √𝑥 2 + 𝑦 2 + 𝑧 2 ∧ 𝜑 = arctan ∧ 𝜆 = arctan
𝑥
𝑧
Standardabweichung
Die eindimensionale Standardabweichung entspricht der Standarddistanz (Skalar).
𝑛
𝑆𝐷 = √
1
∑(𝑥𝑖 ′2 + 𝑦𝑖 ′2 + ⋯ + 𝑧𝑖 ′2 )
𝑛−1
𝑖=1
𝑥𝑖 ′2 : Abweichung vom Mittelzentrum 𝑥𝑖 ′2 = 𝑥𝑖 − 𝑀𝑍𝑥
Wahrscheinlichkeitsdichte und Verteilungsfunktionen
Wahrscheinlichkeitsdichtefunktion
Die Integration der Wahrscheinlichkeitsdichtefunktion über ein Intervall [𝑎, 𝑏] ergibt die Wahrscheinlichkeit dass eine Zufallsvariable mit dieser Dichte einen Wert zwischen 𝑎 und 𝑏 annimmt.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 5
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
𝑏
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥 | 𝑎 < 𝑏
𝑎
Verteilungsfunktion
Die Verteilungsfunktion 𝐹(𝑥) entsteht durch Integration der Dichtefunktion bis zur Grenze 𝑥.
𝑥
𝐹(𝑥) = ∫ 𝑓(𝑦)𝑑𝑦 | 0 ≤ 𝐹(𝑥) ≤ 1
−∞
Umgekehrt gilt, dass 𝐹(𝑥) differenzierbar ist: 𝑓(𝑥) = 𝐹 ′ (𝑥) = 𝑑𝐹(𝑥)⁄𝑑𝑥
temperature
maxima
(Graz)
precipitation
(NY City)
particulate
matter
(Illmitz)
Theoretische Verteilungen
Die besprochenen Stichprobenbeschreibungen sind mit Zufälligkeiten behaftet, da der betreffende Vorgang nur partiell erfasst wird (endlicher Umfang). Die Häufigkeitsverteilungen ändern sich mit Stichprobenerweiterung, nicht aber der Typus. Für eine allgemeine Erfassung
benötigt man die Charakteristika der zugehörigen Grundgesamtheit (GG).
Da die GG nicht bekannt ist, werden verschiedene Typen getestet. Um die Anwendung
auf jegliche Daten zu gewährleisten, werden 𝑓(𝑥) und 𝐹(𝑥) stets normiert definiert.
Theoretische Verteilungen werden über drei Parameterarten beschrieben:
 Lageparameter
 Streuparameter
 Formparameter
Die Zuordnung wird als Verteilungsanpassung bezeichnet. Dabei sucht man die am besten
passende theoretische Verteilung und passt diese an die Daten an. Die Güte (Signifikanz)
kann durch Anpassungstests oder graphische Verfahren (subjektiv) geprüft werden.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 6
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Gleichverteilung (GV)
Für das Auftreten der Merkmale sind hier gleiche Wahrscheinlichkeiten vorausgesetzt. Sie ist
diskret; die Merkmale sind zählbar.
1
1
𝑓(𝑥)𝐺𝑉 = = 𝑐𝑜𝑛𝑠𝑡.,
𝐹(𝑥)𝐺𝑉 = 𝑖
𝑁
𝑁
𝑖: Variationsmöglichkeit der Merkmale, für Würfel z.B. 𝑖 = {1,2,3,4,5,6}
Rechtecksverteilung (RV)
Eine GV auf einem bestimmten Intervall, so dass Werte außerhalb dessen die Wahrscheinlichkeit 0 haben.
∀𝑥 < 𝑎
0
𝑓(𝑥)𝑅𝑉 = {1⁄(𝑏 − 𝑎) ∀ 𝑎 ≤ 𝑥 ≤ 𝑏
∀𝑥 > 𝑏
0
GV und RV besitzen nur einen Parameter: 𝑁 ∨ 𝑑 = 𝑏 − 𝑎.
𝑁+1
 Mittelwert: 𝜇 =
2

Median: 𝜇+ = 𝜇

Varianz: 𝜎 2 =


Schiefe: 𝛾 = 0
Exzess: 𝜂 = −1,8
𝑁2 −1
12
Binomialverteilung (BV)
Bei systematischem Abfall einer Ergebniswahrscheinlichkeit kann die Binomialverteilung gül𝑁!
𝑁
tig sein. Mit Gegenwahrscheinlichkeit 𝑞 = 1 − 𝑝 und Binomialkoeffizient ( ) =
gelten:
𝑥!(𝑁−𝑥)!
𝑥
𝑥
𝑓(𝑥)𝐵𝑉
𝑁
𝑁
= ( ) 𝑝 𝑥 (1 − 𝑝)𝑁−𝑥 = ( ) 𝑝 𝑥 𝑞 𝑁−𝑥 ,
𝑥
𝑥
𝑁
𝐹(𝑥)𝐵𝑉 = ∑ ( ) 𝑝𝑖 𝑞 𝑁−𝑖
𝑥
𝑖=0
Der Wert 𝑓(𝑥)𝐵𝑉 gibt die Wahrscheinlichkeit an, bei 𝑁 unabhängigen Versuchen (konstanter
Wahrscheinlichkeit 𝑝) genau 𝑥 Erfolge zu erzielen (z.B. Eistage, Hochwasser,…).
 Mittelwert: 𝜇 = 𝑁𝑝
𝑁𝑝 ∀ 𝑁𝑝 ∈ ℤ
 Median: 𝜇+ = {
Rundung(𝑁𝑝) ∀ 𝑁𝑝 ∉ ℤ
(𝑁 + 1)𝑝 ∀ (𝑁 + 1)𝑝 ∈ ℤ
 Modus: 𝜇Λ = {
𝑧: 𝑧 < (𝑁 + 1)𝑝 ∧ 𝑧 ∈ ℤ | ∀ (𝑁 + 1)𝑝 ∉ ℤ
 Varianz: 𝜎 2 = 𝑁𝑝𝑞
𝑞−𝑝
𝑞−𝑝
 Schiefe: 𝛾 =
=

Exzess: 𝜂 =
𝜎
1−6𝑝𝑞
𝜎2
√𝑁𝑝𝑞
1−6𝑝𝑞
=
𝑁𝑝𝑞
Im Spezialfall 𝑁 ∈ {0,1} geht die BV in die Bernoulli-Verteilung über. Die Rekursionsformel lautet:
(𝑁 − 𝑥)𝑝
𝑓(𝑥 + 1)𝐵𝑉 = 𝑓(𝑥)𝐵𝑉 =
(𝑥 + 1)𝑞
Modifikationen

−𝑁 𝑁
Negative Binomialverteilung: 𝑓(𝑥)𝑁𝐵𝑉 = (
) 𝑝 (−𝑞)𝑥
𝑥

Multinomialverteilung: 𝑓(𝑥)𝑀𝑁𝑉 = 𝑁! ∏𝐾
𝑖=1
𝑥
𝑝𝑖 𝑖
𝑥𝑖 !
mit Einteilung in 𝑖 Klassen
Poissonverteilung (PV)
Die BV geht für 𝑝 → 0 und 𝑁 → ∞ in die PV über (gilt für 𝑁 ≥ 100 ∧ 𝑝 ≤ 0,05 in Näherung). Die
PV wird vor allem verwendet, wenn seltene Ereignisse (𝑝 sehr klein) auftreten.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 7
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
𝑓(𝑥)𝑃𝑉
𝑒 −𝜆 𝜆𝑥
=
,
𝑥!
𝑥
𝐹(𝑥)𝑃𝑉 = 𝑒
−𝜆
∑
𝑖=0
𝜆𝑖
𝑖!
Die PV ist stetig, 𝜆 ist der einzige Parameter und zugleich Mittelwert und Varianz.
 Mittelwert: 𝜇 = 𝜆 = 𝑁𝑝 = 𝜎 2
𝛾∀𝜆 ∈ℤ
 Median: 𝜇+ = {
Rundung(𝜆) ∀ 𝜆 ∉ ℤ
𝜆∧𝜆−1∀𝜆 ∈ ℤ
 Modus: 𝜇Λ = {
𝑧: 𝑧 < 𝜆 ∧ 𝑧 ∈ ℤ | ∀ 𝜆 ∉ ℤ
 Varianz: 𝜎 2 = 𝜆
1
 Schiefe: 𝛾 =

Exzess: 𝜂 =
√𝜆
1
𝜆
Die Rekursionsformel lautet:
𝑓(𝑥 + 1)𝑃𝑉 = 𝑓(𝑥)𝑃𝑉 =
𝜆
𝑥+1
Grafische Überprüfung
Trägt man 𝑓(𝑥)𝑃𝑉 ⁄𝑓(𝑥 + 1)𝑃𝑉 in ein lineares Diagramm ein, so muss sich eine Gerade ergeben,
falls die Verteilung einer PV folgt.
Normalverteilung (NV und zV)
Die BV geht für 𝑁 → ∞ und 𝑝 = 0,5 in die NV über (auch Gauß-Verteilung). Die NV ist stetig,
symmetrisch (𝛾 = 0) und hat die Parameter 𝜇 und 𝜎.
𝑥
1 𝑥−𝜇 2
1 𝑦−𝜇 2
1
1
𝑓(𝑥)𝑁𝑉 =
𝑒 − 2( 𝜎 ) ,
𝐹(𝑥)𝑁𝑉 =
∫ 𝑒 −2( 𝜎 ) 𝑑𝑦
𝜎√2𝜋
𝜎√2𝜋 −∞
 Mittelwert, Median, Modus: 𝜇 = 𝜇+ = 𝜇Λ
 Varianz: 𝜎 2
 Schiefe, Exzess: 𝜆 = 𝜂 = 0
Im Bereich [𝜇, 𝜇 + 𝜎] sind etwa ein Drittel (34,13 %) der Werte zu finden, die beidseitige Betrachtung führt zu [𝜇 − 𝜎, 𝜇 + 𝜎] mit 68,26 % der Werte. Für 𝜇 ± 2𝜎 sind es 𝑝(𝑥) = 95,44 %.
Eine NV gilt für Verteilungen, bei denen mittlere Werte zugleich die wahrscheinlichsten sind
und jede Abweichung davon symmetrisch kleinere Wahrscheinlichkeitswerte annimmt. Dies
ist oft der Fall, somit ist prinzipiell zu prüfen, ob eine NV vorausgesetzt werden kann (verteilungsgebundenes Verfahren, parametrisch), oder nicht (verteilungsfreie Verfahren, nicht parametrisch).
Standadisierte Normalverteilung (zV)
𝑥−𝜇
Setzt man 𝜇 = 0 ∧ 𝜎 = 1 (identisch zur Transformation 𝑧 =
), vereinfacht sich die NV zur
standardisierten Normalverteilung (zV) mit 𝑓(𝑧) =
1
√2𝜋
𝜎
𝑧2
exp (− ). Für die Wahrscheinlichkeit in
2
einem Bereich um 𝜇 Werte zu finden, kann man auch die 𝑧-Tabelle verwenden. Dabei berechΔ𝑎
net man 𝑧 mit 𝑧 =
mit Δ𝑎 als Abweichung vom Mittel. In der 𝑧-Tabelle liest man dann für
𝜎
ein Quantil und den 𝑧-Wert die Wahrscheinlichkeit ab (Achtung: Nur eine Seite wird gewertet
– will man nach „rechts“ und „links“ berechnen, muss man einen Faktor 2 dazurechnen; deshalb steigt 𝑝 nur bis maximal 0,5 an).
Quantile-Quantile-Plot (zV)
Für eine Verteilungsanpassung mit zV kann man beide Verteilungen berechnen lassen. Falls
beide Seiten, sowohl die „sample quantiles“, als auch die „theoretical quantiles“, normiert
sind, sollten sie einer Geraden mit 𝑦 = 𝑥 folgen, falls sie normalverteilt sind. Das Verfahren
ersetzt aber keinen Test.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 8
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Logarithmische Normalverteilung (LNV)
Schiefe Verteilungen sind weit verbreitet, vor allem, wenn das Merkmal einen Grenzwert hat
(z.B. Niederschlag). Bei zusätzlich eingipfliger Verteilung kann die LNV ein Kandidat sein.
2
2
𝑥
1 1 (ln(𝑥)−𝜇
1
1 −1(ln(𝑦)−𝜇
)
)
𝑓(𝑥)𝐿𝑁𝑉 =
𝑒 2𝜎2
∀ 𝑥 > 0,
𝐹(𝑥)𝐿𝑁𝑉 =
∫
𝑒 2 2𝜎2
𝑑𝑦
𝜎√2𝜋 𝑥
𝜎√2𝜋 −∞ 𝑦
𝜎2

Mittelwert: 𝜇 = exp (𝜇 +



Median: 𝜇+ = exp(𝜇)
Modus: 𝜇Λ = exp(𝜇 − 𝜎 2 )
2
Varianz: 𝜎 2 = exp(2𝜇 + 𝜎 2 ) ∙ (𝑒 𝜎 − 1)
2
)
2
2
 Schiefe: 𝛾 = (𝑒 𝜎 + 2)√𝑒 𝜎 − 1
Praktisch ist es empfehlenswert bei einer LNV die Merkmalswerte zu logarithmieren und aus
diesen transformierten Daten Mittelwert und Standardabweichung zu bestimmen. Danach
kann die Anpassung einer LNV erfolgen, als ob eine zV (bzw. NV) vorläge.
Student-t-Verteilung (tV)
Diese stetige Verteilung besitzt nur Φ als Parameter (Zahl der Freiheitsgrade). Bei nur einer
SP vom Umfang 𝑛 ist Φ = 𝑛 − 1. Da sie sich mit wachsendem Φ der zV annähert, wird sie nur
selten herangezogen. Mit der Gammafunktion Γ(𝑥) = lim
𝑛!𝑛𝑥−1
𝑛→∞ 𝑥(𝑥+1)(𝑥+2)…(𝑥+𝑛−1)
𝑓(𝑥)𝑡𝑉
Φ+1
Φ+1
)
𝑡2 2
2
= 𝑓(𝑡) =
(1 + )
,
Φ
Φ
√𝜋ΦΓ ( )
2
Γ(

Mittelwert, Median, Modus: 𝜇 = 𝜇+ = 𝜇Λ = 0

Varianz: 𝜎 2 =


Schiefe: 𝛾 = 0 ∀ Φ ≥ 4
6
Exzess: 𝜂 =
∀Φ≥5
Φ
Φ−2
gilt:
𝑡
𝐹(𝑥)𝑡𝑉 = 𝐹(𝑡) = ∫ 𝑓(𝑦)𝑡𝑉 𝑑𝑦
−∞
∀Φ ≥ 3
Φ−4
Dichtefunktionen unter verschiedenen Bedingungen (links LNV, rechts tV):
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 9
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
𝜒 2 -Verteilung (𝜒 2 V)
Dies ist eine stetige Verteilung mit Parameter Φ (Freiheitsgrade). Die Summe der Quadrate
von Φ unabhängig standardnormalverteilten Zufallsvariablen folgt hier einer 𝜒 2 V mit Φ Freiheitsgraden. Sie wird häufig in der Prüftheorie verwendet (z.B. für Polynomanpassungen).
𝑥
Φ−2
𝑥
1
𝑓(𝑥)𝜒2𝑉 = Φ
𝑥 2 𝑒 −2 ∀ 𝑥 > 0,
𝐹(𝑥)𝜒2𝑉 = ∫ 𝑓(𝑦)𝜒2𝑉 𝑑𝑦
Φ
𝑦=0
22 Γ ( )
2
 Mittelwert: 𝜇 = Φ
Φ−2∀Φ >2
 Modus: 𝜇Λ = {
0 ∀ Φ ∈ {1,2}
 Varianz: 𝜎 2 = 2Φ

Schiefe: 𝛾 =

Exzess: 𝜂 =
√8
√Φ
12
Φ
Für Φ → ∞ konvergiert die 𝜒 2 V zu einer NV mit 𝜇 = Φ ∧ 𝜎 2 = 2Φ.
Fischer-Verteilung (FV)
Eine stetige Verteilung mit Φ1 und Φ2 als Parameter.
Φ1
Φ + Φ2 Φ1 Φ2
Φ1 +Φ2
Γ( 1
)( )
𝑥
Φ−2
2
Φ1
2
Φ2
𝑓(𝑥)𝐹𝑉 =
𝑥 2 [1 +
𝑥]
∀ 𝑥 > 0,
𝐹(𝑥)𝐹𝑉 = ∫ 𝑓(𝑦)𝐹𝑉 𝑑𝑦
Φ
Φ
Φ2
0
Γ ( 1) Γ ( 2)
2
2
𝑢
Φ
Zwei unabhängige 𝜒 2 -verteilte Variablen 𝑢 und 𝑣 in Form von ( ) ∙ ( 2) folgen der FV.
𝑣

Mittelwert: 𝜇 =

Modus: 𝜇Λ =

Varianz: 𝜎 2 =

Schiefe: 𝛾 =

Exzess: 𝜂 =
Φ2
Φ2 −2
Φ2 (Φ1 −2)
∀ Φ2 > 2
∀ Φ1 >
Φ1 (Φ2 +2)
2
2Φ2 (Φ1 +Φ2 −2)
Φ1 (Φ2 −2)2 (Φ2 −4)
2Φ1 +Φ2 −2
Φ2 −6
Φ1
√Φ
2 (Φ1 = 1 ⇒ 𝜇Λ = 0)
∀ Φ2 > 4
8(Φ2 −4)
1 (Φ1 +Φ2 −2)
(Φ2 > 6 ⇒ 𝛾 > 0)
12[(Φ2 −2)2 (Φ2 −4)+Φ1 (Φ1 +Φ2 −2)(5Φ2 −22)]
Φ1 (Φ2 −6)(Φ2 −8)(Φ1 +Φ2 −2)
(Φ2 > 8 ⇒ 𝜂 > 0)
Weibull-Verteilung (WV)
Eine relative neue Verteilung für Stichprobenanpassungen mit drei Parametern 𝑥0 (Lage), 𝑏
(Streuung) und 𝑎 (Form). Die WV kann auch NV- und LNV-ähnliche Form annehmen und erlaubt Simulationen nicht nur von positiver Schiefe.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 10
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG

𝑎 𝑥 − 𝑥0 𝑎−1 −(𝑥−𝑥0 )𝑎
𝑏
(
)
𝑒
∀ 𝑥 ≥ 𝑥0 ,
𝑏
𝑏
1
Mittelwert: 𝜇 = 𝑥0 + 𝑏Γ ( + 1)

Median: 𝜇+ = 𝑥0 + 𝑏(ln 2)𝑎
𝑓(𝑥)𝑊𝑉 =
𝑥−𝑥0 𝑎
)
𝑏
𝐹(𝑥)𝑊𝑉 = 1 − 𝑒 −(
∀ 𝑥 ≥ 𝑥0
𝑎
1
1
1 𝑎
)
𝑎

Modus: 𝜇Λ = 𝑥0 + 𝑏 (1 −

Varianz: 𝜎 2 = 𝑏 2 [Γ ( + 1) − Γ 2 ( + 1)]

Schiefe: 𝛾 =
2
1
𝑎
𝑎
3
𝑎
2
𝑎
1
𝑎
1
𝑎
Γ( +1)−3Γ( +1)Γ( +1)+2Γ3 ( +1)
2
𝑎
1
𝑎
3
[Γ( +1)−Γ2 ( +1)]2
𝑎 < 3,6022 ⇒ positive Schiefe (linkssteil)
| 𝑎 = 3,6022 ⇒ 𝛾 = 0 (Symmetrie)
𝑎 < 3,6022 ⇒ negative Schiefe (rechtssteil)
Exponentialverteilung (EV)
Für 𝑎 = 1 ∧ 𝑥0 = 0 geht die WV in die Exponentialverteilung über. Für 𝑐 = 𝑏 −1 ergibt sich:
𝑓(𝑥)𝐸𝑉 = 𝑐𝑒 −𝑐𝑥 ,
𝐹(𝑥)𝐸𝑉 = 1 − 𝑒 −𝑐𝑥


Mittelwert: 𝜇 = 𝑐 −1
1
Median: 𝜇+ = ln 2




Modus: 𝜇Λ = 0
Varianz: 𝜎 2 = 𝑐 −2
Schiefe: 𝛾 = 2
Exzess: 𝜂 = 6
𝑐
Gumbel-Verteilung (GuV)
Diese gehört zu den Extremwertverteilungen und ist speziell für hydrologische Daten entwickelt worden (z.B. Niederschlag). Sie ist eine linkssteile stetige Verteilung mit zwei Parametern 𝑥0 (Lage) und 𝑏 (Streuung).
(𝑥−𝑥0 )
𝑥−𝑥0
1 𝑥−𝑥0
−
−
𝑓(𝑥)𝐺𝑢𝑉 = 𝑒 − 𝑏 𝑒 −𝑒 𝑏 ,
𝐹(𝑥)𝐺𝑢𝑉 = 𝑒 −𝑒 𝑏
𝑏
 Mittelwert: 𝜇 ≈ 𝑥0 + 0,57722𝑏
𝑏 2 𝜋2

Vaianz: 𝜎 2 =


Schiefe: 𝛾 = 1,13955
Exzess: 𝜂 = 5,4
6
Allgemeine Extremwertverteilung (AEV)
Dies ist eine Gruppe von drei Verteilungen, zu der auch die GuV gehört.
1
𝑓(𝑥)𝐴𝐸𝑉
Typ I:
Typ II:
Typ III:
𝑥 − 𝑥0 𝜉
= exp [− (1 + 𝜉 (
)) ]
𝑏
𝜉 = 0: Gumbel-Verteilung (light tailed)
𝜉 > 0: Frechet-Verteilung (heavy tailed)
𝜉 < 0: Weibull-Verteilung (bounded)
Schätzverfahren
Als statistisches Schätzverfahren wird jede Methode bezeichnet, die geeignet erscheint von
der bekannten Stichprobeninformation (SP) auf entsprechende Informationen der unbekannten Grundgesamtheit (GG) zu schließen.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 11
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Punktschätzung
Punktschätzung ist die Schätzung von Kenngrößen der GG. Die Verteilungsschätzung ist die
Schätzung der Wahrscheinlichkeitsdichtefunktion der GG. Punkt- und Verteilungsschätzung
zielen auf die gleichen Parameter und sind deshalb zusammengefasst.
Parametermethode
Der bekannte SP-Parameter wird schlicht mit dem betreffenden Parameter der GG gleichgesetzt.
Prinzip der optimalen Mutmasslichkeit / Maximum Likelihood
Aus 𝑛 unabhängigen SP-Daten ( 𝑥1 , 𝑥2 , … , 𝑥𝑛 ) wird die likelihood function 𝐿(Θ) =
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; Θ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; Θ) gebildet, welche die Wahrscheinlichkeit für das SP-Ergebnis als
Funktion von Θ angibt. Die Dichtefunktion von GG sollte dabei bekannt sein. Der Schätzwert
2
̂ ergibt sich als Lösung von 𝑑𝐿(Θ) = 0 bzw. 𝑑 ln 𝐿(Θ) = 0 ∧ 𝑑 𝐿(Θ)
Θ
2 < 0.
𝑑Θ
𝑑Θ
𝑑Θ
Verfahren in der Praxis
Zunächst werden die SP-Kenngrössen (Mittelwert, Varianz, ...) nach üblichen Formeln berechnet. Anschließend stellt man auf Grund der SP-Verteilung Vermutungen über die GGVerteilung an. Nun lassen sich die SP-Kenngrößen näherungsweise den unbekannten GGKenngrößen gleichsetzen (Parametermethode). Dieser Schritt sollte aber unbedingt durch die
Abschätzung der zugehörigen Mutungsbereiche abgesichert werden. Aus den nunmehr geschätzten GG-Kenngrößen lassen sich die betreffenden GG-Parameter errechnen und somit
der bekannten SP die geeignet erscheinende GG-Verteilung anpassen.
Intervallschätzung (Mutungsbereiche)
Dies ist eine Schätzung des Intervalls (Mutungsbereich), in dem die Kenngrößen der GG vermutet werden.
Ein Intervall 𝑀𝑢𝑃(𝐺𝐺) = [(𝑃(𝑆𝑃) − 𝐷) ≤ 𝑃(𝑆𝑃) ≤ (𝑃(𝑆𝑃) + 𝐷)] = [𝑃(𝑆𝑃) ∓ 𝐷] heißt Mutungsbereich
oder Konfidenz- bzw. Vertrauensintervall. Die unbekannte Maßzahl der GG wird in eben jenem
Intervall vermutet, verknüpft mit Wahrscheinlichkeit 𝑝 der Form 𝑀𝑢𝑃(𝐺𝐺) = 𝑃(𝑆𝑃) ∓ 𝐷(𝑝).
Für eine NV lassen sich folgende relativen Mutungsbereiche schätzen (𝑛: SP-Umfang, 𝜈: GGUmfang (finit), 𝑧: Argument der zV und gestattet mit 𝑧(𝑝) die Wahl von 𝑝):
𝜎
GG ist infinit:
𝑀𝑢𝜇 = ∓𝑧
√𝑛
 Mittelwert: {
𝜎
𝜈−𝑛
GG ist finit: 𝑀𝑢𝜇 = ∓𝑧 √
𝜈−1
√𝑛
𝜎

Standardabweichung: 𝑀𝑢𝜎 = ∓𝑧

Varianz: 𝑀𝑢𝜎2 = ∓𝑧𝜎 2 √ ≈ ∓𝑧𝑠 2 √
√2𝑛
2
2
𝑛
𝑛
≈ ∓𝑧
𝑠
√2𝑛
Ist die GG-Standardabweichung/-Varianz unbekannt, so darf nur mit 𝑠 und 𝑠 2 gerechnet werden, wenn 𝑛 ≥ 50. Andernfalls muss 𝑧 durch 𝑡 (aus der tV) ersetzt werden.
Expektanz, Ereignisschätzung
Schätzung des Intervalls, in dem nach angenommener GG künftige SP mit definitiver Wahrscheinlichkeit vermutet werden. Das heißt, bei vermuteter/bekannter Dichtefunktion und vorgegebener Wahrscheinlichkeit 𝑝, wird abgeschätzt, welcher Wertebereich Δ𝑎 symmetrisch um
𝑎 = 𝜇𝑆𝑃 bei künftigen SP zu erwarten ist.
𝑎+Δ𝑎
∫
𝑓(𝑥)𝑑𝑥 = 𝐹(𝑎 + Δ𝑎) − 𝐹(𝑎 − Δ𝑎) = 𝑝 = 𝑀𝑢𝜇
𝑎−Δ𝑎
Der Wertebereich 2Δ𝑎 wird Expektanz genannt. Man unterscheidet zwei Fälle:
 𝑝 ist vorgegeben und man schätzt den Wertebereich 2Δ𝑎
 Der Wertebereich ist vorgegeben und man schätzt 𝑝
Für eine NV ist ein Schnellverfahren möglich (∀ 𝑛 ≥ 30):
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 12
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG


SP in Klassen unterteilen und Klassenobergrenzen zur (prozentualen) kumulativen Häufigkeit auftragen; ergibt sich eine Gerade kann NV angenommen werden
Mutungsbereiche 𝑀𝑢𝜇 und 𝑀𝑢𝜎 auf Basis der SP-Kenngrößen schätzen; für kleine Differenzen (𝑎̅ − 𝑀𝑢𝜇 ) ∧ (𝑠 − 𝑀𝑢𝜎 ) darf für die GG ebenfalls NV angenommen werden
(In Praxis kann man die Schritte umkehren und ggf. den SP-Umfang erhöhen. Es gelten
die Faustregeln 𝑝 = 90 % und 𝜖 < 𝑠⁄10)
Fehlerrechnung
Zwei Arten werden unterschieden: Systematische Fehler (1. Art, potentiell erkennbar/eliminierbar) und zufällige Fehler (2. Art, stochastisch). Letztere bestimmen die erreichte Messgenauigkeit. Für Messreihen mit numerisch unterschiedlichen Werten ist in erster Näherung
der arithmetische Mittelwert nach Gauß der Bestwert, d.h. das wahrscheinlichste Resultat.
Durchschnittsfehler (mittlerer absoluter Fehler)
1
∓𝑑 = ∓ ∑|𝑎𝑖′ | ,
𝑎𝑖′ = 𝑎𝑖 − 𝑎̅
𝑛
Standardfehler (mittlerer quadratischer Fehler)
1
∓𝑠 = ∓√
∑ 𝑎𝑖′2
𝑛−1
Standardfehler des Bestwertes
Dieses Maß legt die Genauigkeit fest, der Bestwert sollte nicht genauer angegeben werden,
als die erste in ∓Δ𝑎 erscheinende Ziffer.
1
𝑠
∓Δ𝑎 = ∓√
∑ 𝑎𝑖′2 = ∓
𝑛(𝑛 − 1)
√𝑛
Der Vergleich zum Bestwert wird in Prozent angegeben (relativer Standardfehler des BestΔ𝑎
wertes) ∓ ∙ 100 % = ∓𝛿𝑎.
𝑎
Fehlerfortpflanzung
Welche Fehlerbelastung hat ein zusammengesetztes Messergebnis, z.B. 𝐸 = 𝑓(𝑎, 𝑏, 𝑐)?
Zunächst wird der Bestwert 𝐸̅ = 𝑓(𝑎̅, 𝑏̅, 𝑐̅) errechnet. In weiterer Folge werden die absoluten
und relativen (nicht prozentualen) Standardfehler der Messgrößen berechnet.
Δ𝑎
Δ𝐸
∓𝛿𝑎 = ∓
,
∓𝛿𝐸 = ∓
𝑎
𝐸
Nach Gauß ist die Fortpflanzung wie folgt gegeben:
2
2
𝜕𝐸
𝜕𝐸
∓Δ𝐸 = ∓√( Δ𝑎) + ( Δ𝑏) + ⋯
𝜕𝑎
𝜕𝑏
Folgende Spezialfälle können abgeleitet werden:
 𝐸 = 𝑎 ∓ 𝑏 ∓ ⋯ → ∓Δ𝐸 = ∓√(Δ𝑎)2 + (Δ𝑏)2 + ⋯
Δ𝑎 2
Δ𝑏 2

𝐸 = 𝑎 ∙ 𝑏 ∙ … → ∓𝛿𝐸 = ∓√( ̅ ) + ( ̅ ) + ⋯ = ∓√(𝛿𝑎)2 + (𝛿𝑏)2 + ⋯

𝐸 = √𝑎 → ∓𝛿𝐸 = ∓ 𝛿𝑎 (aus Taylor-Entwicklung 𝐸 = 𝑎𝛼 → ∓𝛿𝐸 = ∓𝛼δa)
𝛼

𝐸=


𝐸 = ln 𝑎 → ±𝛿𝐸 = ± 𝛿𝑎⁄𝑎
𝐸 = log 𝑏 𝑎 → ±𝛿𝐸 = ± 𝛿𝑎⁄(𝑎 ln 𝑏)
𝑎
𝑎
𝑏
𝑏
1
𝛼
= 𝑎𝑏 −1 → ∓𝛿𝐸 = ∓√(𝛿𝑎) + (−1)2 (𝛿𝑏)2 = ∓√(𝛿𝑎2 ) + (𝛿𝑏)2 (aus Taylor-Entwicklung)
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 13
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Repräsentanz
Repräsentanz der Punktaussage
Die Fragen nach der Fehlerbelastung und der zeitlichen Variabilität einer Größe 𝐺(𝑥∗ , 𝑦∗ , 𝑧∗ , 𝑡∗ )
sind fundamental.
Für keine zeitliche Variabilität und ohne systematische Fehler ist die Punktaussage für das
Intervall [−𝑓, +𝑓] repräsentativ. Konkret kommen dafür der Standardfehler der Einzelmessungen ∓𝑠 und der absolute Standardfehler ∓Δ𝑎 des Bestwertes in Betracht.
Für zeitliche (natürliche) Variabilität, die nicht vernachlässigbar sind, stellt sich die Frage, ob
diese stationär ist (Momente gegen Erhöhung des SP-Umfangs invariant).
 Nicht stationär: Wegen eines gleichmäßigen Trends während der Messung, ist die Messung
weder im Sinn einer Fehlerbetrachtung noch im Sinn einer Repräsentanz-Diskussion interpretierbar. Im statistischen Sinn ändert sich die GG und für jeweils gleiche Randbedingungen existiert nur eine Messung, was die Anwendung der Fehlerrechnung ausschließt.
 Stationär: Durch entsprechend lange Messung muss geklärt werden, ob das Streuungsmaß größer als die Fehlerbelastung ist.
Faustregeln:
 Messreihen lange durchführen (𝑛 hinreichend groß zur Fehlerrechnung).
 Prüfen, ob Fehlerverteilungsgesetz annähernd erfüllt ist und Stationarität prüfen.
 Praktisch und theoretisch prüfen, ob zeitliche Variationen vorliegen (übersteigen diese das
Fehlermaß ∓𝑓, so ist stattdessen das Repräsentanzmaß ∓𝐴 anzugeben).
 Sind die zeitlichen Variationen nicht durch die Messreihe erfasst, obwohl sie vernachlässigbar sind, so muss ein Weg gefunden werden, dies zu tun (Grobabschätzung, Repräsentanzmaß evtl. vergrößern).
Repräsentanzmaß
Da ∓Δ𝑎 und ∓𝑠 relativ viel Spielraum lassen (𝑝 = 68,26 %) sollte man die Repräsentanzabschätzung generell auf der Grundlage der Mutungsbereiche mit 𝑧-Faktoren durchführen.
𝑀𝑢𝐴 (𝑝) = ±𝑧𝐴,
𝑧: Parameter der standardisierten NV (entspricht zV)
Bei 𝑝 = 0,95 (geläufig) folgt 𝑧 = 1,96 und somit etwa das doppelte Intervall ∓𝐴, innerhalb dessen die Punktaussage repräsentativ ist.
Örtliche und zeitliche Übertragbarkeit
Es handelt sich dabei um einen Vergleich zwischen dem Repräsentanzmaß ∓𝐴 der Punktaussage und der örtlichen/zeitlichen Variabilität.
Für zeitliche Repräsentanz benötigt man ∓𝑧𝐴, ein Zeitintervall, für das die Repräsentanzaussage gewünscht ist und die zeitliche Variation innerhalb dieses Intervalls.
Prüfverfahren
Statistische Prüfverfahren gehen stets auf die Nullhypothese 𝐻0 zurück, die einer oder zwei
Alternativhypothesen 𝐴1 und 𝐴2 gegenübergestellt wird. Die Nullhypothese besagt, dass eine
zu prüfende Besonderheit zufällig, also nichtig, ist. Die Alternativhypothese besagt, die Besonderheit sei nicht zufällig und damit signifikant. Dies impliziert das Signifikanzniveau 𝑆𝑖 des
Prüfentscheids.
Beispiel
Für 𝑆𝑃𝑎 und 𝑆𝑃𝑏 mit Mittelwerten 𝑎̅, 𝑏̅ mit 𝑎̅ < 𝑏̅ ist die Frage, ob letzterer Zusammenhang zufällig ist. Es gilt nun 𝐻0 : {𝑎 = 𝑏} ∧ 𝐴1 : {𝑎 ≠ 𝑏} oder 𝐻0 : {𝑎 = 𝑏} ∧ 𝐴1 : {𝑎 < 𝑏} ∧ 𝐴2 : {𝑎 > 𝑏} (hier darf
eine Relation nur weggelassen werden, sollte sie uninteressant oder faktisch unmöglich sein).
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 14
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Prüfverfahren
Im Anschluss wird ein Prüfverfahren 𝑃 = 𝑓(𝑎, 𝑏, 𝑐) mit entsprechenden Parametern (z.B. Mittelwert, Varianz, …) benötigt. Die wichtigsten Verteilungen sind hier die tV, 𝜒 2 V, FV und zV.
Prüfentscheid
Für 𝑃Φ,α als Argumente einer Verteilung in Abhängigkeit der Freiheitsgrade Φ und der gewählten Irrtumswahrscheinlichkeit 𝛼 = 1 − 𝑆𝑖 gilt:
< 𝑃Φ,α → 𝐻0
𝑃̂ : {
> 𝑃Φ,𝛼 →\𝐻0
Φ ist dabei selten Φ = 𝑛 − 1 wie bei einer unabhängigen SP, sondern ergibt sich aus der Theorie der Hypothesenüberprüfung.
Üblich sind die Werte 𝑆𝑖 = 95 % und 𝛼 = 0,05, wobei 𝑆𝑖 prozentuell und 𝛼 normalrelativ
angegeben wird.
Real→
↓Test
𝑓(𝑥)
1−𝛼
𝑃Φ,𝛼
1−𝛽
𝛼
𝑥
¬ 𝐻0
richtig:
Fehler 1. Art
(
)
(
)
𝑝=𝛼
𝑝 =1−𝛽
richtig:
Fehler 2. Art
(
)
(
)
𝑝=𝛽
𝑝 =1−𝛼
¬ 𝐻0
𝛽
𝐻0 annehmen
𝐻0
𝐻0
𝐴1 annehmen
Vergleich zweier Mittelwerte (t-Test)
Zwei Mittelwerte 𝑎̅ und 𝑏̅ sollen auf zufälligen/signifikanten Unterschied getestet werden.
Voraussetzungen:
 SPs und GG normalverteilt
 Varianzen nicht signifikant unterschiedlich
Prüfverteilung ist tV, somit gilt der t-Test.
|𝑎̅ − 𝑏̅|
𝑡̂ =
,
Φ = 𝑛𝑎 + 𝑛𝑏 − 2
2
2
(𝑛 − 1)𝑠𝑎 + (𝑛𝑏 − 1)𝑠𝑏
√𝑛𝑎 + 𝑛𝑏 ∙ 𝑎
𝑛𝑎 𝑛𝑏
𝑛𝑎 + 𝑛𝑏 − 2
Bei gleichem Stichprobenumfang gilt:
𝑡̂ =
|𝑎̅ − 𝑏̅|√𝑛
√𝑠𝑎2 + 𝑠𝑏2
,
Φ = 2𝑛 − 2
Modifikation für Unterschiede in den Varianzen
Für die Frage nach dem Unterschied der SP-Varianzen 𝑠𝑎2 ≠ 𝑠𝑏2 gilt:
2
𝑛𝑎 ≠ 𝑛𝑏 : 𝑡̂ =
|𝑎̅ − 𝑏̅|
2
√ 𝑠𝑎
𝑛𝑎
𝑛𝑎 = 𝑛𝑏 : 𝑡̂ =
+
,
Φ=
𝑠𝑏2
𝑛𝑏
|𝑎̅ − 𝑏̅|
2
2
√𝑠𝑎 + 𝑠𝑏
𝑛
,
𝑠2 𝑠2
[ 𝑎 + 𝑏]
𝑛𝑎 𝑛𝑏
2 −2
2
𝑠𝑏2
𝑠𝑎2
[ ]
[ ]
𝑛𝑎
𝑛
+ 𝑏
𝑛𝑎 + 1 𝑛𝑏 + 1
2𝑛 − 2
Φ =𝑛−1+ 2
𝑠𝑎 𝑠𝑏2
+
𝑠𝑏2 𝑠𝑎2
Vergleich eines SP-Mittelwerts mit bekanntem GG-Mittelwert 𝜇 (z-Test / t-Test)
Der SP-Mittelwert 𝑎̅ soll hinsichtlich zufälliger/signifikanter Abweichung von 𝜇 getestet werden.
Voraussetzungen:
 SP und GG entsprechen NV
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 15
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG

SP-Standardabweichung 𝑠 und GG-Standardabweichung 𝜎 sind hinreichend ähnlich
|𝑎̅ − 𝜇|√𝑛
,
Φ=𝑛−1
𝑠
Bei großem Umfang (𝑛 > 100) kann dies auch als z-Test mit 𝑧̂ durchgeführt werden. Für 𝑛 <
30 ist der t-Test verteilungsfrei (NV wird nicht vorausgesetzt).
𝑡̂ =
𝑧̂ =
|𝑎̅ − 𝜇|√𝑛
𝜎
Vergleich zweier Varianzen 𝑠𝑎2 und 𝑠𝑏2 (F-Test)
Zwei Varianzen werden hinsichtlich zufälliger/signifikanter Abweichung voneinander getestet.
Voraussetzungen:
 SPs in guter Näherung normalverteilt
 Größerer Umfang (𝑛𝑎,𝑏 > 30)
𝐹̂ =
𝑠𝑎2
,
𝑠𝑏2
𝑛𝑎 = 𝑛𝑏 : 𝐹̂ =
Φ1 = 𝑛𝑎 − 1 ∧ Φ2 = 𝑛𝑏 − 1 ∧ 𝑠𝑎 > 𝑠𝑏
√𝑛 − 1(𝑠𝑎2 − 𝑠𝑏2 )
2√𝑠𝑎2 𝑠𝑏2
,
Φ=𝑛−1
Vergleich einer Varianz 𝑠 2 mit GG-Varianz 𝜎 2 (𝜒 2 -Test)
Eine Varianz wird hinsichtlich zufälliger/signifikanter Abweichung zur GG-Varianz getestet.
Voraussetzung:
 SP und GG entsprechen NV
(𝑛 − 1)𝑠 2 Φ𝑠 2
̂2 =
𝜒
= 2 ,
Φ =𝑛−1
𝜎2
𝜎
Für 𝑛 > 30 kann auch der z-Test 𝑧̂ = √2𝑛
𝜒 -Test verteilungsfrei.
2
|𝜎−𝑠|
𝜎
verwendet werden. Für 𝑛 > 100 sind z-Test und
Beurteilung einer SP-Schiefe
Eine SP-Schiefe 𝑆𝑓 wird hinsichtlich ihrer Zufälligkeit/Signifikanz untersucht.
Voraussetzungen:
 Große SP (𝑛 > 100)
 Eingipflige Verteilung
|𝑆𝑓|
𝑧̂ =
√6⁄𝑛
Beurteilung eines SP-Exzesses
Ein SP-Exzess 𝐸𝑥 wird hinsichtlich ihrer Zufälligkeit/Signifikanz untersucht.
Voraussetzungen:
 Große SP (𝑛 > 1000)
 Eingipflige Verteilung
𝐸𝑥
𝑧̂ =
2√6⁄𝑛
Vergleich einer SP-Wahrscheinlichkeit mit einer BV
Eine SP-Wahrscheinlichkeit 𝑝̂ wird mit dem zugehörigen Parameter 𝑝 einer BV verglichen.
Voraussetzungen:
 Prozess, auf den die BV anwendbar ist
 Hinreichend große SP (𝑛 > 30, besser 𝑛 > 50)
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 16
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
𝑧̂ =
|𝑝̂ − 𝑝|
√𝑝𝑞 ⁄𝑛
,
𝑞 = 1−𝑝
Vergleich zweier SP-Wahrscheinlichkeiten mit einer BV
Zwei SP-Wahrscheinlichkeiten 𝑝̂1 und 𝑝̂2 werden mit den zugehörigen Parametern 𝑝1 und 𝑝2
einer BV verglichen.
Voraussetzungen:
 Prozesse, auf die die BV anwendbar ist
 Hinreichend große SPs (𝑛 > 30, besser 𝑛 > 50)
|𝑝̂1 − 𝑝̂2 | − |𝑝1 − 𝑝2 |
𝑧̂ = |
|,
𝑞𝑖 = 1 − 𝑝𝑖
√𝑝1 𝑞1 ⁄𝑛1 + 𝑝2 𝑞2 ⁄𝑛2
Vergleich einer empirischen (SP) mit einer theoretischen (GG) Verteilung (𝜒 2 -Anpassungstest)
Es soll die Anpassung einer GG auf eine SP auf Signifikanz getestet werden.
Voraussetzungen:
 SP muss klassenorientiert vorliegen
 SP muss hinreichend groß sein (𝑛 > 30)
 Klassenbesetzung nicht zu klein (𝑛𝑗 (𝑘) ≥ 4, nach Sachs)
 Verteilungsfreier Test
𝐾
𝑃̂ = ∑
𝑘=1
[𝐻𝑘 (𝑆𝑃) − 𝐻𝑘 (𝐺𝐺)]2
,
𝐻𝑘 (𝐺𝐺)
Φ=𝐾−𝑍
Hier wird über 𝑘 = {1; 2; … ; 𝐾} Klassen summiert, 𝑍 ist die Anzahl der zu schätzenden Parameter (Anzahl der Parameter der Verteilung).
Kolmogoroff-Smirnoff-Test
Der 𝜒 2 -Anpassungstest hat Probleme in Bereichen geringer Häufigkeiten. Der KolmogoroffSmirnoff-Test ist hier die bessere Wahl.
Voraussetzungen:
 SP muss klassenorientiert vorliegen
 SP muss hinreichend groß sein (𝑛 > 35, besser 𝑛 > 50)
 Kumulative Häufigkeiten 𝐾𝐻 müssen berechnet werden
𝑃̂ =
|max(𝐾𝐻𝑘 (𝑆𝑃) − 𝐾𝐻𝑘 (𝐺𝐺))|
𝑛
Vergleich zweier beliebiger SP-Verteilungen (Wilcoxon-Test / Whitney U-Test (verteilungsfrei))
Zwei beliebige SP-Verteilungen sollen bzgl. zufälligem/signifikantem Unterschied getestet
werden.
Voraussetzungen:
 SPs müssen hinreichend groß sein (𝑛𝑎,𝑏 > 10)
 Daten in Rangordnung (gemeinsame, aufsteigende Reihenfolge)
Auf die Zwischengrößen 𝑈1 und 𝑈2 wird später ein z-Test angewandt.
𝑛𝑎 (𝑛𝑎 + 1)
𝑛𝑏 (𝑛𝑏 + 1)
𝑈1 = 𝑛𝑎 ∙ 𝑛𝑏 +
− 𝑅𝑎 ,
𝑈2 = 𝑛𝑎 ∙ 𝑛𝑏 +
− 𝑅𝑏
2
2
Dabei sind 𝑅𝑖 die Rangplatzsummen, d.h. alle Daten (beide SPs) müssen gemäß ihrer Werte
„geranked“ werden (mit 1,2,3,…), 𝑅𝑖 ist dann einfach die Summe der „Plätze“, die zu 𝑆𝑃𝑎 oder
𝑆𝑃𝑏 gehören.
𝑛 − 𝑛𝑏
|𝑈 − 𝑎
|
2
𝑈 = min(𝑈1 , 𝑈2 ): 𝑧̂ =
√𝑛𝑎 𝑛𝑏 (𝑛𝑎 + 𝑛𝑏 + 1)
12
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 17
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Treten mehrere gleiche Datenwerte auf (Rangbindungen), so dürfen, wenn dies nicht zu oft
geschieht (< 30 %), die Mittelwerte der Rangplätze gebildet werden.
Rangbindungen
Bei zu vielen Rangbindungen gilt (Anzahl 𝐵, 𝑏𝑖 Häufigkeit gleicher Datenwerte):
|𝑈 − (𝑛2 ⁄2)|
𝑧̂ =
𝑛2
8𝑛2 − 2𝑛 𝐵 𝑏𝑖3 − 𝑏𝑖
√
∑𝑖=1
12
12
2𝑛(2𝑛 − 1)
Vergleich mehrerer SPs hinsichtlich gemeinsamer GG (H-Test, Kruskal-Wallis-Test (verteilungsfrei)
Für mehrere (≥ 3) vorliegende SP-Verteilungen soll die Signifikanz einer GG getestet werden.
Voraussetzung:
 Daten in Rangordnung (gemeinsame, aufsteigende Reihenfolge)
𝑘
̂ = −3(𝑛 + 1) +
𝐻
12
𝑅𝑖2
∑
𝑛(𝑛 + 1)
𝑛𝑖
𝑖=1
Hier sind 𝑅𝑖 die Rangplatzsummen, 𝑘 die Anzahl der Verteilungen und 𝑛 = ∑𝑖 𝑛𝑖 die gesamte
̂ = 𝜒 2 | Φ = 𝑘 − 1.
Werteanzahl. Für 𝑛𝑖 > 5 und 𝑘 > 4 gilt 𝐻
Rangbindungen
Bei zu vielen (> 25 %) Rangbindungen (Anzahl 𝐵, 𝑏𝑖 Häufigkeit gleicher Datenwerte) gilt die
Korrektur:
̂
𝐻
̂=
𝐻
𝐵
∑ (𝑏 3 − 𝑏𝑖 )
1 − 𝑖=1 3 𝑖
𝑛 −𝑛
Prüfung auf Datenunabhängigkeit
Daten einer SP sollen auf Unabhängigkeit (𝐻0 ) geprüft werden.
Voraussetzungen:
 Hinreichend große SP (𝑛 > 10, besser 𝑛 > 30)
 Iterationswechsel (Auflistung, ob Datenwerte zum jeweils vorderen auf-/absteigen)
Für 𝐼 Iterationen gilt:
∀𝑛>30
2𝑛 − 7 ⏞
| −0,5
8
𝑧̂ =
,
∀ 𝑛 > 30: Term " − 0,5" weggelassen
√(16𝑛 − 29)⁄90
Sind die Daten Zeitreihen, so sollte die Autokorrelation verwendet werden.
|𝐼 − 1 −
Konfidenzintervalle
Für Konfidenzintervalle/Vertrauensbereiche 𝑉𝐵 werden zwei Zielsetzungen verfolgt:
 Wertintervall, in welchem nach SP-Informationen ein GG-Parameter vermutet wird (ident
mit Mutungsbereich)
 Abschätzung, ob aus SP errechneten Kenngrößen mit denen einer GG vereinbar sind
Im zweiten Fall liegt eine Hypothesenüberprüfung vor.
Mittelwert
Die Formel für den Vertrauensbereich ist sehr ähnlich zu der des Mutungsbereichs:
𝑎
𝜎 𝜈−𝑛
√
𝑉𝐵𝜇 = 𝑎̅ ∓ 𝑧𝑎
falls GG infinit,
𝑉𝐵𝜇 = 𝑎̅ ∓ 𝑧𝑎
falls GG finit
√𝑛
√𝑛 𝜈 − 1
Für den Fall, dass die GG-Varianz 𝜎 2 aus der SP geschätzt werden soll (𝑠 2 ≈ 𝜎 2 ) und 𝑛 < 100
𝑠
gilt, so kann 𝑉𝐵𝜇 = 𝑎̅ ± 𝑡Φ,𝛼
mit Φ = 𝑛 − 1 verwendet werden.
√𝑛
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 18
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Median
Bei signifikanter Abweichung von NV (bestätigt durch 𝜒 2 -Test) und 𝑛 < 200 ist es günstig den
Median abzuschätzen (SP muss dafür in aufsteigender Reihenfolge vorliegen):
1
𝑉𝐵𝜇+ = 𝑎ℎ < 𝜇 < 𝑎𝑛−ℎ+1 ,
ℎ = (𝑛 − 𝑧𝛼 √𝑛 − 1)
2
Varianz
Der Vertrauensbereich und (falls erforderlich) der Schätzwert der Varianz lässt sich bei annähernder NV und 𝑛 ≥ 30 ermitteln:
𝑠 2 (𝑛 − 1)
𝑠 2 (𝑛 − 1)
𝑠 2 (𝑛 − 1)
𝑉𝐵𝜎2 =
≤ 𝜎̂ 2 ≤
,
𝜎̂ =
2
2
𝜒Φ,𝛼
𝜒𝜎,1−𝛼
𝜒2 1
2
Φ,
2
2
Varianzanalyse
Die Varianzanalyse ist im Prinzip ein F-Test, allerdings mit einer Aufteilung der SP in mehrere
Teilkollektive und einem aufwändigen Rechenverfahren (abhängig vom SP-Umfang). Man
prüft den Einfluss mehrerer Einflussgrößen oder Randbedingungen bei hinreichend großem
SP-Umfang 𝑛 > 30 (besser 𝑛 > 50) und hinreichend großen Teilkollektivumfängen 𝑛𝑗 ≥ 10.
Teilkollektive werden Gruppen 𝑗 = 1,2, … 𝐽 genannt mit Umfang 𝑛𝑗 und Mittelwert 𝑎̅𝑗 .
Einfache Varianzanalyse
Die Frage ist, ob SP-Teilkollektive hinsichtlich der SP homogen sind (𝐻0 ) und somit einer GG
entstammen. Unter Betrachtung eines bestimmten Einflusses kann dieser auf signifikante
Wirkung geprüft werden.
Voraussetzungen:
 SP, GG und nach Möglichkeit für alle Teilkollektive gilt NV
 SP-Varianz 𝑠 2 und GG-Varianz 𝜎 2 nicht signifikant verschieden
Somit ist das Prüfverfahren NV-gebunden (nicht verteilungsfrei).
Nun folgt die Gesamtsumme 𝐺 = ∑𝑛𝑖=1(𝑎𝑖 − 𝑎̅)2 = (𝑛 − 1)𝑠 2 , die quadratische Zwischengruppen𝑛𝑗
2
summe 𝑍 = ∑𝐽𝑗=1 𝑛𝑗 (𝑎𝑗 − 𝑎̅) und die quadratische Innerhalbgruppensumme 𝐼 = ∑𝐽𝑗=1 ∑𝑖=1(𝑎𝑖 − 𝑎̅)2
mit Additiveigenschaft 𝐺 = 𝑍 + 𝐼.
𝑠 2 (𝑍)
𝐹̂ = 2
,
Φ1 = 𝐽 − 1 ∧ Φ2 = 𝑛 − 𝐽
𝑠 (𝐼)
Vereinfacht kann berechnet werden:
𝐽
𝑠
2 (𝑍)
𝑍
1
2
=
=
∑ 𝑛𝑗 (𝑎𝑗 − 𝑎̅)
𝐽−1 𝐽−1
𝑗=1
Falls Gesamtvarianz 𝑠 2 bekannt: 𝑠 2 (𝐼) =
(𝑛 − 1)𝑠 2 − 𝑠 2 (𝑍) ∙ (𝐽 − 1)
𝑛−𝐽
Doppelte Varianzanalyse
Hier werden zwei Einflüsse/Randbedingungen gleichzeitig geprüft. Dazu werden die SP Daten
𝑎𝑖 in eine Matrix 𝑎𝑖 → 𝑎𝑗𝑘 bezüglich der Einflüsse geordnet. Der Einfluss 𝐴 variiert von Zeile zu
Zeile, der Einfluss 𝐵 von Spalte zu Spalte.
1
1
Es folgen die Zeilenmittelwerte 𝑎̅𝑗 = ∑𝐾
̅𝑘 = ∑𝐽𝑗=1 𝑎𝑗𝑘 und der Ge𝑘=1 𝑎𝑗𝑘 , Spaltenmittelwerte 𝑎
𝐾
1
1
𝑛
𝐽
𝐽
1
samtmittelwert 𝑎̅ = ∑𝑛𝑖=1 𝑎𝑖 = ∑𝐽𝑗=1 𝑎̅𝑗 + ∑𝐾
̅𝑘 . Die quadratische Gesamtsumme ist nun 𝐺 =
𝑘=1 𝑎
𝐽
∑𝐾
𝑘=1 ∑𝑗=1(𝑎𝑗𝑘
2
− 𝑎̅) =
∑𝑛𝑖=1(𝑎𝑖
𝐾
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
2
− 𝑎̅) , die quadratische Zeilensumme 𝑍 = 𝐾 ∑𝐽𝑗=1(𝑎̅𝑗 − 𝑎̅) und die
2
Seite 19
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
quadratische Spaltensumme 𝑆 = 𝐽 ∑𝐾
̅𝑘 − 𝑎̅)2 mit Additiveigenschaft 𝐺 = 𝑍 + 𝑆 + 𝑅 , welche
𝑘=1(𝑎
2
𝐽
die quadratische Restsumme 𝑅 = 𝐺 − 𝑍 − 𝑆 = ∑𝐾
̅𝑗 − 𝑎̅𝑘 − 𝑎̅) beinhaltet.
𝑘=1 ∑𝑗=1(𝑎𝑗𝑘 − 𝑎
Nun gilt:
𝑍
𝑆
𝑅
,
𝑠 2 (𝑆) =
,
𝑠 2 (𝑅) =
(𝐽
𝐽−1
𝐾−1
− 1)(𝐾 − 1)
Der Testentscheid ist schlussendlich gegeben durch:
𝑠 2 (𝑍)
𝐹̂𝐴 = 2
,
Φ1 = 𝐽 − 1 ∧ Φ2 = (𝐽 − 1)(𝐾 − 1)
𝑠 (𝑅)
𝑠 2 (𝑆)
𝐹̂𝐵 = 2
,
Φ1 = 𝐾 − 1 ∧ Φ2 = (𝐽 − 1)(𝐾 − 1)
𝑠 (𝑅)
𝑠 2 (𝑍) =
Barlett-Test
Der Bartlett-Test kann also zur Homoginitätsüberprüfung einer in Klassen unterteilten SP hinsichtlich eines Einflusses anhand der Varianzunterschiede der Gruppen verwendet werden.
Voraussetzung:
 NV für SP und GG
1
1
∑( )−
2
∑(Φ
𝑠
)
Φ
Φ
1
𝑗
𝑗
𝑗
𝑔
𝜒̂ 2 = 2,3026 (Φ𝑔 log (
)) − ∑(Φ𝑗 log(𝑠𝑗2 )) ,
Φ= 𝐾−1∧𝑐 =
+1
𝑐
Φ𝑔
3(𝐾 − 1)
𝐾: Klassenanzahl, Φ𝑔 : Anzahl d. Freiheitsgrade Φ𝑔 = 𝑛 − 𝐾, Φ𝑗 : Freiheitsgrade je Klasse
𝑠𝑗2 : Varianzen je Klasse, 𝑐: Parameter des Barlett-Tests (für Φ𝑗 ≥ 30: 𝑐 ≈ 1)
Friedmann-Test
Homogenitätsuntersuchung nach zwei Einflüssen/Randbedingungen (bei einem Einfluss wird
zweiter zufällig gewählt) in Form einer Datenmatrix 𝑎𝑖 → 𝑎𝑗𝑘 unterteilten SP.
Voraussetzungen:
 SP hinreichend groß (𝑛 ≥ 30)
 Daten in Rangfolge transformiert (verteilungsfrei)
𝐾
𝐽
𝑘=1
𝑗=1
2
12
𝜒̂ 2 =
∑ (∑ 𝑅𝑗 ) − 3𝐽(𝐾 + 1),
𝐽 ∙ 𝐾(𝐾 + 1)
Φ=𝐾−1
𝑘
𝑅 bezeichnet hier die Rangplätze der Zeilenwerte. Gleiche Identitäten sind nicht erlaubt.
Wilcoxon-Paardifferenzen-Rangtest
Die Prüfung, ob zwei SP aus der gleichen GG kommen, kann auch als Homogenitätsüberprüfung stattfinden (ohne Klassenunterteilung).
Voraussetzungen:
 Symmetrie um den Median
 SPs von gleichem Umfang
Es käme auch zur Ablehnung von 𝐻0 , falls die GG signifikant unsymmetrisch um den Median
verteilt wäre.
Die Daten müssen zunächst paarweise geordnet werden. Aus den Differenzen 𝑎𝑖 (𝐴) − 𝑎𝑗 (𝐵)
errechnet man nun 𝑁 (Anzahl unterschiedlicher Differenzen), 𝑅+ bzw. 𝑅− (Rangplatzsummen
der Vorzeichen) und 𝑇 (𝑇 = min(𝑅+ , 𝑅− )).
𝑁(𝑁 + 1)
|𝑅 −
|
4
𝑧̂ =
√𝑁(𝑁 + 1)(2𝑁 + 1)
24
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 20
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Zeitreihenanalyse
Zeitreihen sind zeitlich geordnete Folgen von Beobachtungen (Messungen) 𝑦𝑡 : 𝑡 ∈ 𝑇.
Alle Daten sind als Funktion der Zeit gegeben (hier schlicht äquidistante Zeitreihen).
Nicht-zyklische Variationsanteile
Manchmal werden diese auch als transiente Variabilität bezeichnet.
 Keine relativen Maxima und Minima
 Monotone Zeitreihe
 Trend (linear und nicht-linear): Langfristige Entwicklung
Zyklische Variationsanteile
Weisen (in regelmäßigen Abständen) relative Maxima und Minima auf.
 Periodische Variationen: 𝑦𝑡 = 𝑦𝑡+𝑇
(nicht nur Perioden, auch Amplituden sind exakt konstant)
 Zyklische Variationen: 𝑦𝑡 ≈ 𝑦𝑡+𝑇̅
Stochastische Komponente
Zufallsschwankungen (Restkomponente) durch einmalige und zufällige Einflüsse.
 Ursache, Zeitpunkt und Stärke sind schwer/nicht abschätzbar
 Zufallseigenschaft sollten durch Test auf NV geprüft werden
 Evtl. signifikant abweichende Extremwerte
Aufgaben der Zeitreihenanalyse
 Aufdecken und Separation charakteristischer Variationskomponenten
 Analyse der bisherigen Entwicklung
 Kontrolle (Steuerung oder Regelung) der Prozesse
 Prognosen erstellen
Schwierigkeiten sind, dass Zeitreihen sich nicht genau bzgl. eines Typs determinieren lassen,
Überlagerung von Typen vorkommen (Superposition) und sie diskret, mit endlicher Länge
vorliegen.
Ein Zyklus bzw. eine Periode lässt sich nur dann erfassen, wenn mindestens drei Extremwerte in das Beobachtungsintervall fallen.
Stochastische Prozesse
Mathematische Beschreibung von (unendlich), zeitlich angeordneten, zufälligen Vorgängen.
Ein Prozess {𝑌𝑡 }𝑡=0,1,,2… heißt auch datenerzeugender Prozess der Zeitreihe 𝑦0 , 𝑦1 , 𝑦2 ,… und wird
vereinfachend bei 𝑡 = 0 begonnen.
Fehlerterme 𝜖𝑡 werden oft als stochastische Prozesse dargestellt. Hier werden Auswirkungen
unbeobachteter Variablen implementiert, sowie Messfehler und Zufallsprozesse. Häufig wird
das weiße Rauschen als Fehlerterm verwendet.
Weißes Rauschen
Der einfachste stochastische Prozess: 𝜖~𝑊𝑁(0, 𝜎𝜖2 ) („White Noise“).
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 21
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Weißes Rauschen von
normalverteilten Zufallszahlen (Gaußsches
weißes Rauschen)
Markow-Kette
Spezieller stochastischer Prozess mit „kurzem Gedächtnis“ (Zustandswahrscheinlichkeit ist
abhängig von vorherigem Zustand, aber nicht vom gesamten Prozess), was die Prognose nach
kurzer Beobachtungszeit ebenso gut wie nach Beobachtung des gesamten Prozesses macht.
Random-Walk
Dies ist eine „Irrfahrt“ mit Drift, wenn mit Konstante 𝛿 und weißes Rauschen 𝜖𝑡 gilt:
𝑌𝑡 = 𝛿 + 𝑌𝑡−1 + 𝜖𝑡
Für 𝛿 = 0 ∧ 𝑌0 = 0 sind Erwartungswert und Varianz:
𝑌𝑡 = 𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ⇒ ⟨𝑌𝑡 ⟩ = ⟨𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ⟩ = ⟨𝜖𝑡 ⟩ + ⟨𝜖𝑡−1 ⟩ + ⋯ + ⟨𝜖1 ⟩ = 0
Var(𝑌𝑡 ) = Var(𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ) = Var(𝜖𝑡 ) + Var(𝜖𝑡−1 ) + ⋯ + Var(𝜖1 ) = 𝑡 Var(𝜖𝑡 ) = 𝑡𝜎𝜖2
Es existiert keine Drift! Für 𝛿 ≠ 0 hat 𝑌𝑡 einen Erwartungswert > 0 und damit einen Drift.
Zeitreihen und stochastische Prozesse
Prinzipiell sind stochastische Prozesse und Zeitreihen ein und dasselbe.



Eine Zeitreihe ist eine Folge von 𝑛 Beochbactungen 𝑌𝑡 .
Die Beobachtungen sind Realisationen der Zufallsvariablen 𝑌1 , 𝑌2 ,…, 𝑌𝑛 .
Die Folge der Zufallsvariablen ist ein Ausschnitt des zu Grunde liegenden stochastischen
Prozesses.
 Die GG wird mit dem stochastischen Prozess {𝑌𝑡 }𝑡=−∞,…,∞ beschrieben.
Zufallsvariablen eines stochastischen Prozesses sind im Allgemeinen abhängig. Zu jedem
Zeitpunkt liegt nur eine Beobachtung vor (Parameterschätzung kann verzerrt sein). Zur Parameterschätzung muss die Zeitreihe stationär sein (zeitunabhängig).
Autokovarianz und Autokorrelation
Wichtige Methoden sind die Autokovarianz 𝛾𝑡,𝑠 = Cov(𝑌𝑡 , 𝑌𝑠 ) = ⟨(𝑌𝑡 − 𝜇𝑡 )(𝑌𝑠 − 𝜇𝑠 )⟩ und die Autokorrelation 𝑅𝑡,𝑠 = Corr(𝑌𝑡 , 𝑌𝑠 ) =
Cov(𝑌𝑡 ,𝑌𝑠 )
√Var(𝑌𝑡 )√Var(𝑌𝑠 )
; dazu mehr in Autokorrelation, Seite 24.
Stationarität
stark stationärer Prozess: Verteilung hängt nicht von der Verschiebung 𝑘 ∈ 𝑇 ab.
schwach stationärer Prozess (kovarianz-stationär): Erstes und zweites Moment hängen
nicht von der Zeit ab.
Bei (schwach) stationären Prozessen ist der Erwartungswert ∀𝑡 ∈ 𝑇 konstant, die Autokovarianz stabil gegenüber Verschiebungen und die Varianz konstant. Wenn Zeitreihen nicht stationär sind, erzeugen viele Testverfahren (F-Test, t-Test, …) verzerrte Schätzer. Es bestünde
die Gefahr von Scheinregression.
Im nachfolgenden Bild (CO2 -Konzentration) ist ⟨𝑌𝑡 ⟩ nicht konstant, die Zeitreihe ist nicht stationär. Auch ein linearer Trend scheint nicht der Fall zu sein (rote Linie).


KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 22
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Typen von Instationaritäten
 Trend: nicht Mittelwert-stationär
 linear
 polynomial
 exponentiell
 …
 Heteroskedastizität: nicht Varianz-stationär
 Periodizitäten (auch sehr lange Perioden möglich)
 Trend und Heteroskedastizität: nicht Mittelwert- und nicht Varianz-stationär
Zu den Problemen gehört die Datenunabhängigkeit einer SP (Autokorrelation!).




Erkennen stationärer Zeitreihen
Subjektiv durch Zeitreihenplot
Autokorrelationsfunktion (auch partiell)
Tests
Fenstertechnik (Aufteilung des Datensatzes, berechnen der Merkmale und Vergleich)
Der Zeitreihenplot sollte Ausgangspunkt jeder Zeitreihenanalyse sein. Sie sind wichtige Analyseinstrumente, die aber mit Vorsicht interpretiert werden sollten.
Methoden zur Beschreibung von Zeitreihen
Lagged Scatterplot
Streudiagramm
Lineare Abhängigkeit von der Vergangenheit
direkt erkennbar.
Für weißes Rauschen wäre die Verteilung
eine um ein Zentrum kreisförmig verteilte
Abbildung von Punkten.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 23
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Korrelation und Regression allgemein
Für Zusammenhänge mehrerer Kollektive kann nicht nur die Antwort „ja“ und „nein“ gefunden
werden, sondern auch eine quantitative Bewertung ausgeführt werden. Bei der Korrelationsrechnung wird die Güte des Zusammenhangs von SPs durch die Gütemaßzahl des Korrelationskoeffizienten ausgedrückt. Die Regressionsrechnung dient der Ermittlung des explizitien
funktionalen Zusammenhangs, welcher in einer Beziehungsgleichung ausgedrückt wird.
Die Regressionsgleichung 𝑎̂ = 𝑓(𝑏, 𝑐, 𝑑, … ) basiert auf die Methode der kleinsten Quadrate, die
quadratischen Abweichungen 𝑎̂𝑖 sollen minimal sein. Die Eingangsgrößen 𝑏, 𝑐,… werden als
fehlerfrei angesehen.
Für zwei SPs mit gleichem Umfang 𝑛𝑎 = 𝑛𝑏 und vermuteter linearer Beziehung (Gerade), bedingt eine 2-dimensionale Korrelationsrechnung. Als Maßzahl der Güte gilt ein 2-dimensionaler Korrelationskoeffizient 𝑅, mit −1 ≤ 𝑅 ≤ 1. 𝑅 = 0 bedeutet dabei, dass kein Zusammenhang
besteht, |𝑅| = 1 wäre ein vollkommener Zusammenhang.
Bei der Interpretation der Korrelationsanalyse ist es häufig sinnvoll statt 𝑅 das Quadrat, das
sogenannte Bestimmtheitsmaß 𝑅2 anzugeben (auch erklärte Varianz). Dieses gibt die gemeinsame Varianz der analysierten SPs an, wobei es meist prozentual angegeben wird (𝑅2 ∙
100%). Das Residuum 1 − 𝑅2 ist die nicht erklärte Varianz. Für 𝑅 = 0,7 ⇒ 𝑅2 = 49 % folgt, dass
er weniger als 50 % der erfassten Varianz erklärt.
Wichtig sind folgende Punkte für den linearen Korrelationskoeffizienten:
 Er setzt (neben Linearität) die NV für SP und GG voraus.
 Er setzt Datenunabhängigkeit innerhalb der SPs voraus.
 Er kann durch andere Größen beeinflusst werden (⇒ 2-D-Rechnung unvollständig/falsch)
 Er gilt nur für die SPs und nicht sofort für die GG und damit für den Prozess allgemein
Man sollte niemals Daten ohne deterministischem (z.B. physikalischen) Zusammenhang korrelieren!
Autokorrelation
Die Korrelation allgemein ist ein Begriff aus der Signalverarbeitung. Hierbei wird eine Faltung
zweier Funktionen ausgeführt. Im Endeffekt kann man eine Abhängigkeit der beiden Signale
zueinander ablesen.
Die Autokorrelation beschreibt die Übereinstimmung eines Signals mit sich selbst bezüglich
der Zeit. Sie beginnt typischerweise bei 𝑘 = 1 an der Stelle 𝑥 = 0 (für eine 𝑥-Achse auf der die
„Lags“ (Verschiebungen) aufgetragen werden); an dieser Stelle wird das Rauschen abgebildet
– Rauschen ist stets mit sich selbst ident, deshalb ist hier stets eine 1 gegeben, da alles
Rauschen auf der Stelle 𝑡 = 0 abgebildet wird. Die unverschobene Folge ist sozusagen mit sich
selbst ident.
Ist eine Verschiebung in sich selbst zu erkennen, indem ein Maximum (Annäherung an 1 oder
−1) auftritt, so ist das gleich einer Periodizität des Signals. Ist zum Beispiel ein Signal vorher
mit der Zeit gemessen worden, also mit 𝑡 in Minuten, so ist für eine gute Übereinstimmung
bei 𝑘 = 30 als Verschiebung eine Periodizität mit 30 min gefunden worden.
Eine Autokorrelation sollte stets normiert sein und nimmt Werte von −1 bis 1 an. Die Anzahl
der 𝑥-Werte entspricht der Anzahl der Eingangswerte.
Wenn eine Zeitreihe verschoben wird (SP wird „kürzer“), gibt es neue Mittelwerte und Standardabweichungen. Empirische Richtwerte sind:
 Maximaler Lag: 𝑛⁄2
 Vorsichtiger Lag: 𝑛⁄3
 𝑛 ≥ 30, besser 𝑛 ≥ 100
Die Autokorrelation 𝜌𝑡,𝑠 mit 𝑠 = 𝑡 − 𝑘, 𝑘 ∈ {0, ±1, ±2, … } gibt die Abhängigkeit von 𝑌𝑡 zu 𝑌𝑡−𝑘 an
(Verschiebung 𝑘); mit der Autokovarianz 𝛾𝑘 . Die Autokorrelation ist so einheitenlos normiert.
stationär
Cov(𝑌𝑡 , 𝑌𝑡−𝑘 )
𝑅𝑡,𝑘 =
⏞ 𝑅𝑘 = Corr(𝑌𝑡 , 𝑌𝑡−𝑘 ) =
√Var(𝑌𝑡 ) √Var(𝑌𝑡−𝑘 )
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 24
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
stationär
𝛾𝑡,𝑘
=
⏞
𝛾𝑘 = Cov(𝑌𝑡 , 𝑌𝑠 ) = ⟨(𝑌𝑡 − 𝜇𝑡 )(𝑌𝑡−𝑘 − 𝜇𝑡−𝑘 )⟩
Für stationäre Prozesse gilt:
1) Autokovarianz nur von 𝑘 abhängig (𝛾𝑡,𝑘 = 𝛾𝑘 = 𝛾−𝑘 )
2) 𝜎 ist unabhängig von Zeitpunkt (Produkt der Standardabweichungen im Nenner ist
Varianz der Zufallsvariablen)
3) 𝛾0 = Cov(𝑌𝑡 , 𝑌𝑡 ) = Var(𝑌𝑡 ) und 𝜌𝑘 = 𝛾𝑘 ⁄𝛾0
Daten müssen äquidistant vorliegen; Lücken sind ein Problem!
Wenn die Zeitreihe nicht stationär ist, sind die Autokorrelationen stark positiv (zeitlich benachbarte Punkte liegen tendenziell auf derselben Seite des arithmetischen Mittels). Eine Interpretation ist unzulässig.
Für eine Zufallszeitreihe (stationär) sind die theoretischen Autokorrelationen gleich 0, die
Schätzungen aber ≠ 0. Für lange Zeitreihen gilt, dass die geschätzte Autokorrelation normalverteilt (Standardfehler 1⁄√𝑛) ist, sie liegt deshalb (𝑝 = 95%) innerhalb des Bandes ± 2⁄√𝑛.
Empirische Autokorrelationen innerhalb des Bandes ±
2
√𝑛
werden als zufällig verschie-
den, außerhalb als tatsächlich verschieden von Null betrachtet.
Durbin-Watson-Test
𝑁0 bedeutet, es liegt keine Autokorrelation vor. Mit 𝜖𝑡 als Residuen der Regression in der 𝑡ten Periode gilt:
∑𝑇𝑡=2(𝜖𝑡 − 𝜖𝑡−1 )2
𝑑̂ =
∑𝑇𝑡=2 𝜖𝑡2
𝑑 → 0: positive Autokorrelation, 𝑑 → 2: keine Autokorrelation, 𝑑 → 4: negative Autokorrelation
Kreuzkorrelation
Für die Kreuzkorrelation werden zwei Signale gegeneinander korreliert. Hier sind natürlich
auch die Erkenntnisse der Autokorrelation wichtig, aber einen entscheidenden Faktor kann
man außerdem Ablesen: Die Hauptverschiebung. Meist (wenn es eine Verbindung der Signale
gibt) ist ein Maximum in der Nähe von 0 zu finden. Die Abweichung von 0 ist nun die Verschiebung der beiden Signale, so kann zum Beispiel ein Signal dem anderen zeitlich nachlaufen.
Zum Beispiel kann man für ein Radarsignal die zurückgeworfene Welle hiermit analysieren
und über die Verschiebung auf die Entfernung eines z.B. Flugzeugs schließen. In der Astrophysik kann man mit der gleichen Arbeitsweise Dopplerverschiebungen von Spektren analysieren.
Die Kreuzkorrelation 𝑅𝐶,𝑘 für 𝑘 ∈ {0, ±1, ±2, … } beinhaltet die Kreuzkovarianz.
Cov(𝑌1,𝑡 , 𝑌2,𝑡−𝑘 )
𝑅𝐶,𝑘 =
√Var(𝑌1,𝑡 ) √Var(𝑌2,𝑡−𝑘 )
Cov(𝑌1,𝑡 , 𝑌2,𝑡−𝑘 ) = ⟨(𝑌1,𝑡 − 𝜇1,𝑡 )(𝑌2,𝑡−𝑘 − 𝜇2,𝑡−𝑘 )⟩
Kreuzkorrelationen werden auch oft nicht normiert angegeben, teils sogar logarithmisch.
Grafische Korrelationsanalyse
Hier ist links die normale Autokorrelation eines Signals gezeigt, rechts die Kreuzkorrelation:
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 25
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG


Mögliche Reduktion der Freiheitsgrade berücksichtigen
Eventuell Modifikationen bei Problemen (z.B. keine NV, nicht-lineare Zusammenhänge)
Methode der kleinsten Fehlerquadrate (Leastsquares)
Zum Auffinden unbekannter Parameter einer Funktion aus gemessenen Daten kann
die Leastsquares-Methode verwendet werden.
Für eine Messung eine Größe 𝑥 mit Werten 𝑦𝑖 und Fehler 𝜖𝑖 gilt die Minimierungsfunktion. Der
beste Schätzer 𝑥̃ und die Varianz 𝜎 2 sind je nach Voraussetzungen unterschiedlich.
Messung gleicher Genauigkeit
Die Messfehler sind normalverteilt mit 𝑦𝑖 = 𝑥 + 𝜖𝑖 ∧ ⟨𝜖𝑖 ⟩ = 0 ∧ ⟨𝜖𝑖2 ⟩ = 𝜎 2.
𝑀 = ∑(𝑦𝑖 − 𝑥)2 = ∑ 𝜖𝑖2 = min
𝑖
𝑖
1
𝑥̃ = 𝑦̅ = ∑ 𝑦𝑖 ,
𝑛
𝜎 2 (𝑥̃) =
𝑖
𝜎2
𝑛
Messung unterschiedlicher Genauigkeit
Die Messfehler sind normalverteilt mit 𝑦𝑖 = 𝑥 + 𝜖𝑖 ∧ ⟨𝜖𝑖 ⟩ = 0 ∧ ⟨𝜖𝑖2 ⟩ = 𝜎 2 ⁄𝑔𝑖 .
(𝑦𝑖 − 𝑥)2
𝑀=∑
= ∑ 𝑔 ∙ (𝑦𝑖 − 𝑥)2 = ∑ 𝑔𝑖 𝜖𝑖2 = min
𝜎𝑖2
𝑖
𝑖
∑𝑖 𝑔𝑖 𝑦𝑖
𝑥̃ =
,
∑𝑖 𝑔𝑖
1
𝜎 2 (𝑥̃) = (∑ 2 )
𝜎𝑖
𝑖
−1
𝑖
−1
= (∑ 𝑔𝑖 )
𝑖
Indirekte Messungen
Bei Betrachtung mehrerer Unbekannter 𝑥𝑖 gilt 𝑓𝑗 = 𝜂𝑗 + 𝑎𝑗,0 + 𝑎𝑗,1 𝑥1 + 𝑎𝑗,2 𝑥2 + ⋯ + 𝑎𝑗,𝑟 𝑥𝑟 . Man kann
auch 𝑓𝑗 = 𝜂𝑗 + 𝑎𝑗,0 + 𝑎𝑗T 𝑥 oder 𝑓 + 𝜂 + 𝑎0 + 𝐴̂𝑥 = 0 schreiben. Mit einer diagonalen Kovarianzmatrix 𝐶̂𝑦 und Gewichtsmatrix 𝐺̂𝑦 gelten:
𝜂1
𝑎10
𝑎11 𝑎12 ⋯ 𝑥1
̂
𝜂
𝑎
𝑎
𝑓 + 𝜂 + 𝑎0 + 𝐴𝑥 = 0 = 𝑓 + ( 2 ) + ( 20 ) + ( 21 𝑎22 ⋯) (𝑥2 )
⋮
⋮
⋮
⋮
⋱
⋮
𝜎12 0 ⋯
𝑔
0 ⋯
1
1
𝐶̂𝑦 = 𝐶̂𝜖 = ( 0 𝜎22 ⋯) mit 𝜎𝑗2 = ,
𝐺̂𝑦 = 𝐺̂𝜖 = 𝐶𝜖−1 = ( 0 𝑔2 ⋯)
𝑔𝑗
⋮
⋮ ⋱
⋮
⋮
⋱
Für die Vektordarstellung der Messung mit Fehler gilt 𝑦 = 𝜂 + 𝜖 und damit 𝑦 − 𝜖 + 𝑎0 + 𝐴̂𝑥 = 0.
Es folgt die Minimierungsfunktion Min:
𝑛
Min = ∑
𝑗=1
𝜖𝑗2
𝜎𝑗2
2
=∑
𝑗
(𝑦𝑗 + 𝑎𝑗T 𝑥 + 𝑎𝑗0 )
𝜎𝑗2
T
T
= (𝑦 + 𝑎0 + 𝐴̂𝑥 ) 𝐺̂𝑦 (𝑦 + 𝑎0 + 𝐴̂𝑥 ) = (𝑐 + 𝐴̂𝑥 ) 𝐺̂𝑦 (𝑐 + 𝐴̂𝑥 ) = 𝜖 T 𝐺𝑦 𝜖
Mit 𝑐 = 𝑦 + 𝑎0 und 𝜖 = 𝑦 + 𝑎0 + 𝐴̂𝑥 . Die positiv-definite, symmetrische Matrix 𝐺̂ kann aus 𝐺̂𝑦 =
̂T𝐻
̂ zusammengesetzt werden. Es ist:
𝐻
1⁄𝜎1
0
⋯
2
̂T 𝐻
̂,
̂=( 0
̂ 𝐴̂)𝑥 + 𝐻
̂𝑐)
𝐺̂𝑦 = 𝐻
𝐻
⇒ 𝑀𝑖𝑛 = ((𝐻
1⁄𝜎2 ⋯) ,
⋮
⋮
⋱
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 26
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Zur Bestimmung der geschätzten Fitparameter 𝑥̃ gilt:
−1
𝑥̃ = −(𝐴̂T 𝐺̂𝑦 𝐴̂) 𝐴̂T 𝐺̂𝑦 𝑐
Die verbesserten Abweichungen, Messwerte und die Kovarianzmatrix des Schätzers sind:
−1
̂ T ̂ ̂ −1
𝜖̃ = 𝐴̂𝑥̃ + 𝑐 ,
𝜂̃ = 𝑦 − 𝜖̃ = 𝐴̂(𝐴̂T 𝐺̂𝑦 𝐴̂) 𝐴̂T 𝐺̂𝑦 𝑐 − 𝑎0 ,
𝐺̂ −1
̃ = (𝐴 𝐺𝑦 𝐴)
𝑥
Bei 𝐺̂𝑥−1
̂̃ können die Wurzeln der Diagonalelemente als Messfehler genommen werden.
Anwendungshinweise
Für typische Geraden- und Polynomfits ist folgende Vorgehensweise zielführend:
1 ↓ 𝑡 ↓ 𝑡2 ↓
1
𝑡1 𝑡12
𝐴̂𝑥 = 𝑦,
𝐴̂: nach Modell definieren (minus beachten!) z.B.: 𝐴̂ = −
( 1
𝑡2 𝑡22 )
⋮
⋮
⋮
Gewichtungen hinzufügen:
1⁄𝜎1
0
⋯
̂T𝐻
̂,
̂=( 0
̂ 𝐴̂,
̂𝑦
𝐺̂ = 𝐻
𝐻
𝐴̂′ = 𝐻
𝑦′ = 𝐻
1⁄𝜎2 ⋯) ,
⋮
⋮
⋱
Ergebnisse berechnen:
−1
−1 T
T
𝐶̂ = (𝐴̂′T 𝐴̂′ ) ,
𝑥̃ = 𝐶̂ ∙ 𝐴̂′ 𝑦 ′ = −(𝐴̂′T 𝐴̂′ ) 𝐴̂′ 𝑦 ′
Fehler berechnen:
T
Δ𝑥̃ = √(𝐶1,1 , 𝐶2,2 , 𝐶3,3 , … )
Verbesserte Messwerte könnte man mit 𝜂̃ = −𝐴̂𝑥̃ und deren Fehler mittels 𝐶𝜂⃗̃ = 𝐴̂𝐶̂ 𝐴̂T , wobei
die Wurzel der Diagonalelemente die Fehler für 𝜂̃ angeben.
Trends
Wie bereits erwähnt können diese in verschiedenen Formen (linear, polynomial, exponentiell,
logarithmisch, …) vorliegen.
𝑋𝑡 = 𝑓(𝑡, 𝑢𝑡 ),
𝑢𝑡 : Zufallsprozess/Störung
Hier wird von unkorrelierten, unabhängigen 𝑢𝑡 -Störungen ausgegangen.
Für die Abschätzung gibt es zwei Möglichkeiten:
 globale Anpassung: Alle Beobachtungen gehen in die Trendabschätzung ein.
 lokale Anpassung: Die nächste Nachbarschaft gehen in die Trendabschätzung ein.
Gleitendes Mittel
Voraussetzung:
 Messung ist zeitabhängig 𝑦 = 𝑦(𝑡) (äquidistant vorliegend)
 𝑦 besteht aus zwei Termen 𝑦𝑖 = 𝜂𝑖 + 𝜖𝑖
𝑖+𝑘
1
𝑢𝑖 =
∑ 𝑦𝑗
2𝑘 + 1
𝑗=𝑖−𝑘
𝑢𝑖 : ungewichtete Mittel zu Zeiten 𝑡𝑖−𝑘 , … , 𝑡𝑖−1 , 𝑡𝑖 , 𝑡𝑖+1 , … , 𝑡𝑖+𝑘
Mittels Leastsquares-Methode lässt sich ein gleitendes Mittel „gewichten“ und auch mit anderen Funktionen, zum Beispiel mit einem Polynom beschreiben. Bei gleich genauen Messungen
ist 𝐺̂ ein Vielfaches der Einheitsmatrix und man kann sich die Gewichtung sparen. Man benö−1
tigt nur die erste Zeile der Matrix −(𝐴̂T 𝐴̂) , welche als 𝑎 beschrieben wird:
𝑢𝑖 = 𝑎 𝑦𝑖 = 𝑎1 𝑦𝑖−𝑘 + 𝑎2 𝑦𝑖−𝑘+1 + ⋯ + 𝑎2𝑘+1 𝑦𝑖+𝑘
Gleitende Mittel können nur als Schätzung des Trends für jene Punkte benutzt werden, die
links und rechts je 𝑘 benachbarte Messungen besitzen.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 27
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Fourier-Analyse
Die Fourier-Analyse ist die Verteilung der Gesamtvarianz als Funktion der Frequenz.
Die Datenfolge wird so in einzelne harmonische Komponenten zerlegt, dass sie bei zusammenfügen wieder die Zeitreihe ergeben würde. Es ist eine Darstellung in Sinus/Cosinus-Funktionen.
𝜋
Jede Funktion 𝑓: [−𝜋, 𝜋] → ℂ mit ∥ 𝑓 ∥2 = ∫−𝜋|𝑓(𝑡)|2 𝑑𝑡 < ∞, also (stückweise) stetige Funktion, lässt sich als Fourier-Reihe des Orthogonalsystems {𝑒𝑘 }∞
𝑘=−∞ darstellen.
𝐾
Für Koeffizienten {𝑐𝑘 } mit ∥ 𝑓 − ∑𝑘=−𝐾 𝑐𝑘 𝑒𝑘 ∥→ 0 ∀ 𝐾 → ∞ kann die Orthogonalität verwendet werden, um diese zu berechnen:
1
1 𝜋 −𝑖𝑘𝑡
⟨𝑒𝑘 , 𝑓⟩ =
𝑐𝑘 =
∫ 𝑒
𝑓(𝑡)𝑑𝑡
2𝜋
2𝜋 −𝜋
Für 𝑘 = 0 ist 𝑒0 (𝑡) = 1 und somit 𝑐0 =
1
2𝜋
⟨𝑒0 , 𝑓⟩ =
1 𝜋
∫ 𝑓(𝑡)𝑑𝑡,
2𝜋 −𝜋
also der Mittelwert von 𝑓.
Frequenzfixierte Funktion
∞
∞
Die Fourier-Reihe ist 𝑓(𝑡) = ∑∞
−∞ 𝑐𝑘 𝑒𝑘 (𝑡) = ∑−∞ 𝑐𝑘 (cos(𝑘𝑡) + 𝑖 sin(𝑘𝑡)) , damit 𝑓(𝑡) = 𝑐0 + ∑1 (𝑐𝑘 +
𝑐−𝑘 ) cos(𝑘𝑡) + 𝑖 ∑∞
1 (𝑐𝑘 − 𝑐−𝑘 ) sin(𝑘𝑡). Fundamental sind:
∞
𝑎0 ≔ 𝑐0
𝑎
𝑎𝑘 ≔ 𝑐𝑘 + 𝑐−𝑘 } ⇒ 𝑓(𝑡) = 0 + ∑[𝑎𝑘 cos(𝑘𝑡) + 𝑏𝑘 sin(𝑘𝑡)]
2
𝑏𝑘 ≔ 𝑖(𝑐𝑘 − 𝑐−𝑘 )
𝑘=1
∞
1
𝑓(𝑡) = 𝑓(−𝑡) "gerade" ⇒ 𝑓(𝑡) = (𝑓(𝑡) + 𝑓(−𝑡)) = ∑ 𝑎𝑘 cos(𝑘𝑡)
2
𝑘=0
∞
1
𝑓(𝑡) = −𝑓(−𝑡) "ungerade" ⇒ 𝑓(𝑡) = (𝑓(𝑡) − 𝑓(−𝑡)) = ∑ 𝑏𝑘 sin(𝑘𝑡)
2
𝑘=1
Frequenzbedingte Funktion
Für Periodendauer 𝑇 und 𝑡 = 𝑇𝜃 ⁄2𝜋 sind Fourier-Reihe und Koeffizienten wie folgt:
∞
𝑎0
𝑓(𝑡) =
+ ∑[𝑎𝑘 cos(𝑘𝜔𝑡) + 𝑏𝑘 sin(𝑘𝜔𝑡)] ,
2
𝜃 = 𝜔𝑡
𝑘=1
𝑇
2 +2
𝑎𝑘 ≔ ∫ 𝑓(𝑡) cos(𝑘𝜔𝑡) 𝑑𝑡 ,
𝑇 −𝑇
2
𝑇
2 +2
𝑏𝑘 ≔ ∫ 𝑓(𝑡) sin(𝑘𝜔𝑡) 𝑑𝑡
𝑇 −𝑇
2
Voraussetzungen sind Dirichlet-Bedingungen:
 Es handelt sich um eine periodische Funktion mit Periodendauer 𝑇
 Funktion hat eine endliche Anzahl an Unstetigkeitsstellen
 Funktion hat eine endliche Anzahl finiter Maxima und Minima
𝜋
 Das Integral ∫−𝜋|𝑓(𝜃)|𝑑𝜃 ist endlich
Ablauf der Fourier-Transformation:
 Klären, ob die Funktion gerade oder ungerade ist
 Zunutze machen der Symmetrieeigenschaften
 Berechnung der Fourier-Koeffizienten
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 28
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Exponentielle Form
1
1
Diese erhält man über die Eulergleichungen sin(𝑘𝜔𝑡) = (𝑒 𝑖𝑘𝜔𝑡 − 𝑒 −𝑖𝑘𝜔𝑡 ) ∧ cos(𝑘𝜔𝑡) = (𝑒 𝑖𝑘𝜔𝑡 +
2𝑖
2
𝑒 −𝑖𝑘𝜔𝑡 ).
𝑇
∞
𝑓(𝑡) = ∑ 𝑐𝑘 𝑒
𝑖𝑘𝜔𝑡
,
𝑘=−∞
1 2
𝑐𝑘 = ∫ 𝑓(𝑡)𝑒 𝑖𝑘𝜔𝑡 𝑑𝑡
𝑇 −𝑇
2
Die Fourier-Reihe kann hier negative Werte von 𝑘 beinhalten. Diese haben keinerlei physikalische Relevanz, sondern sind schlicht eine Folge des Formalismus, der Sinus- und Kosinusfunktionen in Paare von Exponentialfunktionen überführt.
Fourier-Integral
∞
𝐹(𝜔) = ℱ(𝑓(𝑡)) = ∫ 𝑓(𝑡)𝑒 −𝑖𝜔𝑡 𝑑𝑡 ,
𝑓(𝑡) = ℱ −1 (𝐹(𝜔)) =
−∞
1 ∞
∫ 𝐹(𝜔)𝑒 𝑖𝜔𝑡 𝑑𝜔
2𝜋 −∞
𝐹(𝜔) = ℱ(𝑓(𝑡)) ist die Fourier-Transformierte von 𝑓(𝑡), 𝑓(𝑡) = ℱ −1 (𝐹(𝜔)) wiederum ist die inverse Fourier-Transformation von 𝐹(𝜔). Die Fourier-Synthese bedeutet, dass ich durch die
Inverse das komplette Ausgangssignal rekonstruieren kann. Bei Zeitverschiebung ändert sich
die Phase Ψ𝑘 , die Amplitude 𝑅𝑘 bleibt gleich.
Das Amplitudenspektrum ist die Auftragung von 𝑅𝑘 über 𝜔𝑘. Das Betragsquadrat 𝐹(𝜔)𝐹 ∗ (𝜔) =
|𝐹(𝜔)|2 des Amplitudenspektrums wird als Leistungsdichtespektrum (Powerspektrum) bezeichnet. Dies beinhaltet keine Informationen über die Phase mehr. Das Powerspektrum ist
symmetrisch; für nur positive Anteile ist darauf zu achten, dass man deshalb eventuell einen
Faktor 2 zur Energieerhaltung einbringen muss.
Abtasttheorem
Es gelten folgende Bezeichnungen:
 Abtastintervall: Zeitschritt zwischen zwei Abtastpunkten Δ𝑡
 Abtastfrequenz: 1⁄Δ𝑡
 diskretes Signal: Abtastung verwandelt kontinuierliches in diskretes Signal
Das Abtasttheorem (Shannon-Theorem) besagt, dass man das ursprüngliche Signal fehlerfrei
aus den abgetasteten Werten rekonstruieren kann, solange die Abtastfrequenz mindestens
doppelt so groß, wie die im Signal enthaltene Maximalfrequenz ist. Die minimale Abtastfrequenz wird auch Nyquist-Frequenz genannt.
𝑓𝑁 = 2 ∙ max(𝑓𝑆𝑖𝑔𝑛𝑎𝑙 )
Das Aliasing bezeichnet Fehler, die auf höhere Signalfrequenzen (als die Abtastfrequenz es
zulässt) zurückzuführen sind.
Zero-Padding
Hier werden schlicht Nuller an das Signal angehängt. Die Fourier-Transformierte wird dadurch
nicht qualitativ verändert, die Dichte im Powerplot wird allerdings erhöht. Man nutzt dies auch
oft, damit man eine Anzahl von 𝑛 = 2𝑥 Datenpunkten bekommt, da dies die Fourier-Transformation bezüglich ihrer Performanz stark verbessert.
Hauptkomponentenanalyse
Diese gehört zu den multivariaten Analyseverfahren.
 Mehrere Variablen werden gleichzeitig untersucht
 Zusammenhänge/Abhängigkeiten der Variablen werden gesucht
 Erkennen/extrahieren einer Struktur der Daten
 Reduzierung der Zahl der Variablen möglichst ohne Informationsverlust
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 29
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG

Mathematisches Verfahren, bei dem kein statistisches Modell zur Erklärung der Fehlerstruktur verlangt wird
Zusammenfassung:
 Die Hauptkomponentenanalyse ist eine orthogonale Transformation im p-dimensionalen
Raum der Originalvariablen in eine neue Variablenmenge.
 Diese Methode liefert Information über die Struktur der Daten.
 Sie kann zu einer Reduktion der Anzahl der Variablen führen und oft ist es sinnvoll, nur
die wichtigsten Hauptkomponenten in weiterführenden Analysen zu verwenden.
Aufbau
Die Datenmatrix 𝑋̂ mit 𝑛-Daten an 𝑝 Orten (zum Beispiel) wird in zwei Komponenten 𝐹̂ und 𝐴̂
zerlegt. 𝐹̂ enthält die Hauptkomponenten, 𝐴̂ erklärt das Muster. Danach reduziert man auf 𝑘
Variablen.
̂𝑛×𝑘 𝐴̂T𝑘×𝑝 + 𝐸⏟
̂𝑛×𝑝
𝑋̂𝑛×𝑝 = 𝐹̂𝑛×𝑝 𝐴̂T𝑝×𝑝 ⇒ 𝑋̂𝑛×𝑝 = 𝐹
⏟
Reduktion
Fehler
Die Hauptkomponentenanalyse transformiert einen Datensatz mit bestimmten “Variablen” (müssen nicht physikalisch sein) in eine neue Menge unkorrelierter Variablen.
Nun wird eine Eigenwertzerlegung durchgeführt. Der Eigenvektor mit dem größten Eigenwert
zeigt in die gleiche Richtung wie die erste Hauptkomponente, der Eigenvektor mit dem zweitgrößten Eigenwert zeigt in die gleiche Richtung wie die zweite Hauptkomponente und steht
senkrecht auf den ersten. Spinnt man dies weiter, entsteht ein neuer Satz unkorrelierter
künstlicher Variablen. Die erste Komponente erklärt am meisten Varianz der Daten, die zweite
am meisten der Restvarianz, usw.!
Die erste Hauptkomponente 𝑓1 = 𝑎1T 𝑥 besteht aus dem Eigenvektor 𝑎1 der Kovarianzmatrix Σ und dem Datenvektor 𝑥 . Die Varianz der ersten Hauptkomponente ist gleich
dem Eigenwert 𝜆1 .
Die zweite Hauptkomponente 𝑓2 = 𝑎2T 𝑥 besteht aus dem Eigenvektor 𝑎2 der Kovarianzmatrix Σ und dem Datenvektor 𝑥 . Die Varianz der zweiten Hauptkomponente ist gleich
dem zweitgrößte Eigenwert 𝜆2 .
Mit der Kovarianzmatrix Σ = ⟨(𝑥 − ⟨𝑥 ⟩)T ∙ (𝑥 − ⟨𝑥 ⟩)⟩ ( ⟨… ⟩ als Erwartungswert) wird gefordert,
dass 𝑎T Σ 𝑎 maximal werden möge. Dieser Schritt geschieht über die Lagrange-Multiplikatoren.
Vorgehen
Λp×p sei die Kovarianzmatrix von 𝑓 (Σ ist jene von 𝑥), welche die Eigenwerte in der Hauptdiagonale hat.
𝜆1 0 ⋯
Λ = ( 0 𝜆2 ⋯) ,
Λ = 𝐴̂T Σ𝐴̂ ∧ Σ = 𝐴̂Λ𝐴̂T
⋮
⋮ ⋱
p
𝑝
𝑝
∑ Var(𝑓𝑖 ) = ∑ 𝜆𝑖 = Spur(𝛬) = Spur(Σ) = ∑ Var(𝑥𝑖 )
i=1
𝑖=1
𝑖=1
Die Summe der Varianzen der ursprünglichen Variablen ist ident mit der Summe der Varianzen der Hauptkomponenten.
𝑝
 Die 𝑖-te Hauptkomponente erklärt (𝜆𝑖 ⁄∑𝑗=1 𝜆𝑗 )100% der Gesamtvarianz der ursprünglichen
Variablen.
𝑝
 Die ersten 𝑘(𝑘 ≤ 𝑝) Hauptkomponenten erklären (∑𝑘𝑗=1 𝜆𝑗 ⁄∑𝑗=1 𝜆𝑗 )100% der Gesamtvarianz.
Verwendung der Korrelationsmatrix
Oft wird anstelle von der Kovarianzmatrix auch die Korrelationsmatrix verwendet. Man bekommt andere Hauptkomponenten, wenn man die Korrelationsmatrix anstelle der Kovarianzmatrix verwendet.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 30
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Datenanalyse und -inversion
FORMELSAMMLUNG
Kovarianzmatrix Σ vs. Korrelationsmatrix 𝑃̂ : Die Eigenwerte und Eigenvektoren von Σ
und 𝑃̂ sind nicht ident und können nicht durch eine einfache Formel ineinander übergeführt werden!






Vorteil, wenn Variablen unterschiedliche Einheiten haben
Vorteil, wenn die Zufallsvariablen stark streuen
Nachteil der Verwendung der Korrelationsmatrix: oft schwieriger zu interpretieren
Korrelationskoeffizient nicht berechnen: wenn die Beziehung zwischen zwei Variablen offensichtlich nicht-linear ist
Verwenden Sie die Kovarianzmatrix, wenn alle Variablen
die selbe Einheit haben
Probleme
Auch bei ändern der Einheit der Eingangswerte ändern sich die Hauptwerte: Die Hauptkomponenten hängen von der Skalierung ab.
Nachteil der Hauptkomponentenanalyse: Die Ergebnisse der Hauptkomponenten sind
abhängig von der Skalierung und daher nicht eindeutig
Praktisches Vorgehen
 Betrachten Sie die Korrelationsmatrix und achten Sie darauf, ob es offensichtliche Gruppen in den Variablen mit hohen Korrelationen gibt. Wenn alle Korrelationen annähernd
Null sind, dann ist eine Hauptkomponentenanalyse nicht angebracht.
 Berechnen Sie die Kovarianz- oder Korrelationsmatrix.
 Berechnen Sie die Eigenwerte und Eigenvektoren der Matrix.
 Betrachten Sie die Eigenwerte und entscheiden Sie, wie viele der Eigenwerte wirklich
“groß” sind. Diese Zahl gibt Ihnen die effektive Dimension der Daten an.
 Schauen Sie, ob die Hauptkomponenten Ihnen Hinweise auf Gruppierungen der Variablen
geben und versuchen Sie die Hauptkomponenten zu interpretieren.
 Benutzen Sie die Hauptkomponentenanalyse für weitere Analysen um damit die Dimension der Daten zu reduzieren.
Mittelwertkorrektur
Manchmal ist es zweckmäßig den Erwartungswert abzuziehen: 𝑓 = 𝐴̂T (𝑥 − 𝜇). Die Daten werden zuerst verschoben bevor die Transformation in die Hauptkomponenten durchgeführt
wird. Wenn die Daten nur verschoben werden, dann ändert sich die Kovarianzmatrix nicht,
d.h. Eigenwerte und Eigenvektoren ändern sich nicht.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 31
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Übung zur Datenanalyse und –inversion
FORMELSAMMLUNG
Übung zur Datenanalyse und –inversion
In R und Python
Grafischer Umgang mit Daten
Zunächst können die Dichtefunktion und die empirische Verteilungsfunktion (kumulativ) geplottet werden. Für einen Datensatz „data“ mit der Spalte „Wert“ sieht der Code in r wie folgt
aus:
plot(density(data$Wert,na.rm=TRUE),col=’red’)
plot(ecdf(data$Wert,na.rm=TRUE),col=’blue’)
Mutungsbereich-Schätzung (Normalverteilung)
Für diverse Wahrscheinlichkeiten gibt es unterschiedliche z-Werte (Tabelle).
r-Code:
mean <- mean(data$Wert,na.rm=TRUE)
sd <- sd(data$Wert,na.rm=TRUE)
n <- length(data$Wert)
z <- 1.96 # z-Wert fuer p = 0.95
MuMeanz <- z*sd/sqrt(n)
MuSDz <- z*sd/sqrt(2*n)
Man kann auch mit dem t-Wert den Mutungsbereich schätzen; diese Version ist vorsichtiger.
r-Code:
mean <- mean(data$Wert,na.rm=TRUE)
sd <- sd(data$Wert,na.rm=TRUE)
n <- length(data$Wert)
t <- 1.98 # t-Wert fuer p = 0.95
MuMeant <- t*sd/sqrt(n)
MuSDt <- t*sd/sqrt(2*n)
Soll der Mutungsbereich nicht ungenauer sein, als ein bestimmter Wert, so muss eine bestimmte Anzahl an Messungen vorliegen.
r-Code:
n95 <- z**2*sd**2/0.1**2
Das Ergebnis gibt die Anzahl der notwendigen Messungen. Zur Überprüfung kann noch zurückgerechnet werden, indem man die originale Anzahl mit dem Wert der notwendigen Anzahl
berechnet.
r-Code:
nOrig <- z**2*sd**2/MuMeanz**2
n == round(nOrig) # wenn TRUE ist alles richtig
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 32
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Übung zur Datenanalyse und –inversion
FORMELSAMMLUNG
Hypothesenüberprüfung
t-Test
Hierbei ist im Speziellen der Einstichproben- bzw. Zweistichproben-t-Test auf einen Mittelwertunterschied gemeint.
Einstichproben-t-Test
Ein Stichprobenmittelwert wird gegen einen Sollwert verglichen. Es wird vorausgesetzt, dass
die Daten einer normalverteilten Grundgesamtheit entstammen (bzw. der Umfang groß genug
ist, so dass der zentrale Grenzwertsatz erfüllt ist).
Zweistichproben-t-Test (Welch-Test)
Prüft die Unterschiede zwischen den Mittelwerten der Grundgesamtheiten zweier Stichproben.
Voraussetzung ist, dass die Daten einer Normalverteilung entstammen (bzw. der Umfang groß
genug ist, so dass der zentrale Grenzwertsatz erfüllt ist).
Der klassische t-Test setzt voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz entstammen. Der Welch-Test oder t-Test nach Satterthwaite ist eine Variante,
die die Gleichheit der Varianzen nicht voraussetzt.
r-Code:
nA <- 30
nB <- 20
MeanA <- 5.7
MeanB <- 7.1
VarA <- 2.5
VarB <- 2.9
A <- rnorm(nA,MeanA,sd=sqrt(VarA))
B <- rnorm(nB,MeanB,sd=sqrt(VarB))
t <- t.test(A,B)
Dabei sind die Freiheitsgrade 𝑑𝑓 = 𝑛𝐴 + 𝑛𝐵. Für gleiche Mittelwerte nähert sich der Wert 𝑝 = 1
an.
Paarweisen-t-Test
Für mehrere Verteilungen, die man mit dem Welch-Test vergleichen möchte, gibt es eine
extra Funktion.
r-Code:
pairwise.t.test(Obs,Ort,pool.sd=TRUE)
Shapiro-Test
Hierbei wird schlicht geprüft, ob die Daten normalverteilt sind.
r-Code:
A <- rnorm(n=100,mean=10,sd=5)
B <- rnorm(n=100,mean=10,sd=3)
shapiro.test(A)
shapiro.test(B)
Je eher die Daten normalverteilt sind, desto eher nähert sich der Wert 𝑝 = 1. Aber je nach
Umfang kann auch 0,1 noch ein gutes Ergebnis sein.
Verteilungsanpassung
F-Test
Vergleich der Varianzen zweier Wertelisten. Für diesen Test müssen die Beiden getesteten
Datensätze normalverteilt sein.
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 33
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Version 2.0
Übung zur Datenanalyse und –inversion
FORMELSAMMLUNG
A <- rnorm(n=100,mean=10,sd=2.1)
B <- rnorm(n=100,mean=10,sd=2)
var(test(A,B))
Kolmogorov-Smirnov-Test
Hier kann entweder geprüft werden, ob eine Stichprobe einer vorher angenommenen Verteilung entspricht, oder aber ob zwei Stichproben derselben Grundgesamtheit entspringen.
Im folgenden Beispiel wird ein Datenset auf die Übereinstimmung mit einer normalverteilten
Grundgesamtheit geprüft.
r-Code:
GG <- rnorm(length(data$Wert),mean(data$Wert,na.rm=TRUE),sd(data$Wert,na.rm=TRUE))
ks.test(data$Wert,GG)
Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung.
Wilcoxon-Mann-Whitney-Test
Prüfen der Signifikanz zweier Verteilungen, also ob beide Verteilungen zur selben Grundgesamtheit gehören.
r-Code:
wilcox.test(data$Wert1,data$Wert2)
Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung.
Kruskal-Wallis Test
Dieser Test ist dem Wilcoxon-Mann-Whitney-Test sehr ähnlich, kann aber mehr als nur zwei
Stichproben vergleichen.
r-Code:
kruskal.test(Temperature ~ Month,data=data)
Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung. Interessant
ist, dass hier möglicherweise die Werte aus einer Beobachtungs-Grundgesamtheit stammen
können, aber nicht zwangsläufig einer statistischen solchen entspringen müssen (z.B. für
Temperatur: gleiche Station, aber nicht gleicher Messmonat).
KFU Graz
Laurenz Sproß
34 Seiten
[email protected]
Seite 34
Private Mitschrift
Masterstudium Physik
05.05.2017 20:15
Zugehörige Unterlagen
Herunterladen