Version 2.0 Inhaltsverzeichnis FORMELSAMMLUNG Inhaltsverzeichnis Inhaltsverzeichnis 1 Datenanalyse und -inversion 2 Grundbegriffe 2 Eindimensionale Stichprobenbeschreibung 2 Mehrdimensionale Stichprobenbeschreibung 5 Wahrscheinlichkeitsdichte und Verteilungsfunktionen 5 Theoretische Verteilungen 6 Schätzverfahren 11 Fehlerrechnung 13 Repräsentanz 14 Prüfverfahren 14 Varianzanalyse 19 Zeitreihenanalyse 21 Hauptkomponentenanalyse 29 Übung zur Datenanalyse und –inversion 32 Grafischer Umgang mit Daten 32 Mutungsbereich-Schätzung (Normalverteilung) 32 Hypothesenüberprüfung 33 KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 1 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Datenanalyse und -inversion Wahrschenlichkeitsrechnung Grundbegriffe Statistische Einheit (Variable): Einzelobjekt einer Untersuchung; Träger der Information. (Würfel) Merkmal: bei einer statistischen Untersuchung interessierende Eigenschaft einer statistischen Einheit (Augenangabe). Qualitative Merkmale unterscheiden sich durch ihre Art. Komparative Merkmale unterscheiden sich durch ihre intensitätsmäßige Ausprägung. Quantitative Merkmale unterscheiden sich durch ihre Größe. Merkmalsausprägungen / Kategorien: Die interessierenden Werte die ein Merkmal annehmen kann (Angabe: 1,2,3,4,5,6). Nominalskala: eine Skala, deren Skalenwerte nur nach dem Kriterium gleich oder verschieden geordnet werden können (z.B. gemessen oder geschätzt) Nummernskala: eine Skala, deren Skalenwerte ohne quantitativen Bezug durchnummeriert werden (z.B. Lottokugeln) Rangskala: eine Skala, deren Skalenwerte in auf oder absteigender Form geordnet sind (z.B. Höchster Wert (Rangplatz 1), zweithöchster Wert (Rangplatz 2), und so weiter bis zum Minimum) Kardinalskala / metrische Skala: eine Skala deren Skalenwerte reelle Zahlen sind und die die Ordnungseingenschaften reeller Zahlen besitzen. Intervallskala: eine metrische Skala, die keinen natürlichen Nullpunkt besitzt. Rationalskala: eine metrische Skala, die einen natürlichen Nullpunkt besitzt. Merkmalswerte (Daten): an einer statistischen Einheit festgestellte Merkmalsausprägung. (z.B.: 3,5,2,1 mit 𝑛 = 4) Index Intervallskala Rationalskala Rangskala 1 15,1 °C 288,1 K 2 2 16,7 °C 289,7 K 1 3 14,3 °C 287,3 K 3 Eindimensionale Stichprobenbeschreibung Grundsätzliche Beschreibungen Arithmetischer Mittelwert Der arithmetische Mittelwert ist gegenüber additiven oder subtraktiven Skalentransformationen invariant. 1 1 𝑎̅ = ∑(𝑎𝑖 ) = (𝑎1 + 𝑎2 + ⋯ + 𝑎𝑛 ) 𝑛 𝑛 Für eine bekannte Grundgesamtheit mit Dichtefunktion 𝑓(𝐴𝑖 ) bzw. 𝑓(𝐴) ist 𝜇 = ∑𝑛𝑖=1 𝐴𝑖 𝑓(𝐴𝑖 ) ∞ bzw. 𝜇 = ∫−∞ 𝑓(𝐴)𝑑𝐴. Griechische Symbole werden genutzt, wenn die Grundgesamtheit bekannt ist. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 2 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Gewichteter Mittelwert Für Daten unterschiedlicher Genauigkeit kann dies berücksichtigt werden (Gewichtung 𝑤𝑖 ). 1 𝑎̅𝑤 = ∑(𝑤𝑖 ∙ 𝑎𝑖 ) ∑ 𝑤𝑖 Geometrischer Mittelwert Für logarithmische Skalen kann es sinnvoll sein, den geometrischen Mittelwert zu verwenden. 1 𝑎̅𝐺 = 𝑛√𝑎1 ∙ 𝑎2 ∙ … ∙ 𝑎𝑛 , log(𝑎̅𝐺 ) = ∑ log(𝑎𝑖 ) 𝑛 Extremmittel (𝑎𝑚𝑎𝑥 − 𝑎𝑚𝑖𝑛 ) 𝑎̅𝐸 = 2 Modus Der Modus bezeichnet den Gipfelwert / häufigsten Wert. 𝑀𝑜𝑑 = 𝑓(𝑎𝑖 )𝑚𝑎𝑥 = 𝑓(𝑎)𝑚𝑎𝑥 Median Der Median teilt die Wahrscheinlichkeitsdichtefunktion in zwei gleich große Flächen. 𝑀𝑒𝑑 𝑀𝑒𝑑 ∑ 𝑓(𝑎𝑖 ) = ∫ 𝑓(𝑎)𝑑𝑎 = 0,5 −∞ 𝑖=1 Bei streng symmetrischen Verteilungen ist 𝑀𝑒𝑑 = 𝑀𝑜𝑑 . Bei unsymmetrischen, eingipfligen Verteilungen ist 𝑎̅ < 𝑀𝑒𝑑 < 𝑀𝑜𝑑 ∨ 𝑎̅ > 𝑀𝑒𝑑 > 𝑀𝑜𝑑. Quantile Beschreibt die Stelle, an der die Dichtefunktion einen bestimmten Teil der Fläche erreicht hat. Bekannt sind die 𝑝-Quantilen 𝑝 = 0,25, 𝑝 = 0,5 und 𝑝 = 0,75, die auch als 1., 2. und 3. Quartil bezeichnet werden. 𝑥(𝑝) = 𝐹 −1 (𝑝) = 𝐹 −1 ( 𝑚𝑖𝑛𝑥 (𝐹(𝑥(𝑝) ) ≥ 𝑝) Eigentlich ist die Quantile die kleinste Merkmalausprägung, die die geordnete Reihe so unterteilt, dass mindestens 𝑝% aller Merkmalsprägungen erfasst werden. Also für {1,2,2,2,3,4,4,7} 1 3 1 2 1 wäre die relative Häufigkeit {1: , 2: , 3: , 4: , 7: } und die kumulierte Häufigkeit 1 4 5 7 8 8 8 8 8 8 8 8 8 {1: , 2: , 3: , 4: , 7: 1} und das 𝑝 = 0,75-Quartil wäre 4, weil 5 8 < 0,75 und damit die 4 die nächst höhere Ausprägung ist (die 75% einschließt). Zum Beispiel liegen unterhalb des ersten Dezils (10) De1 10 % der Werte. Variantionsbreite Auch Schwankungsbreite genannt, ist das einfachste Maß für die Variation der Daten. 𝑏 = 𝑎𝑚𝑎𝑥 − 𝑎𝑚𝑖𝑛 Durchschnittliche Abweichung Dies ist die Abweichung vom arithmetischen Mittel 𝑎𝑖′ . 1 1 𝑑 = ∑|𝑎𝑖 − 𝑎̅| = ∑|𝑎𝑖′ | 𝑛 𝑛 Standardabweichung Anstatt einer linearen Abweichung wird die quadratische Abweichung verwendet. 1 𝑛 ∑ 𝑎𝑖2 − (∑ 𝑎𝑖 )2 2 𝑠=√ ∑ 𝑎𝑖′ = √ 𝑛−1 𝑛(𝑛 − 1) Varianz 𝑠2 = 1 𝑛 ∑ 𝑎𝑖2 − (∑ 𝑎𝑖 )2 2 ∑ 𝑎𝑖′ = 𝑛−1 𝑛(𝑛 − 1) KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 3 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Liegt eine Grundgesamtheit vor, gilt: 𝑛 ∞ 2 𝜎 = ∑(𝐴𝑖 − 𝜇)2 𝑓(𝐴𝑖 ) , 𝜎 2 = ∫ (𝐴 − 𝜇)2 𝑓(𝐴)𝑑𝐴 , −∞ 𝑖=1 ∞ 𝜇 = ∫ 𝑓(𝐴)𝑑𝐴 −∞ Die Varianz hat folgende Eingeschaften: (∀ 𝑛 > 1) ∧ (∀ 𝑎𝑖 ≠ 𝑎𝑗 | 𝑖, 𝑗 ∈ {1,2, … , 𝑛} ∧ 𝑖 ≠ 𝑗): 𝑠 2 > 0 Invariant bzgl. Transformationen der Form 𝑎𝑖 ∓ 𝐷 1 2 2 ′2 Additiveigenschaft (Zerlegung): 𝑠 2 = (∑𝐼𝑖=1 𝑎𝑖′ + ∑𝐽𝑗=𝐼 𝑎𝑗′ + ⋯ + ∑𝐾 𝑘=𝑛−𝐾 𝑎𝑘 ) 𝑛−1 Variationskoeffizient 𝑣= Empirische 𝑠 , 𝑎 𝑠 𝑣 = ( ) ∙ 100% 𝑎 Häufigkeitsverteilung Gleichverteilung Eingipflige (unimodale) Verteilung Mehrgipflige (multimodale) Verteilung J-Verteilung Inverse J-Verteilung U-Verteilung Für schiefe Verteilungen ist 𝑎̅ < 𝑀𝑜𝑑 linkssteil (positive Schiefe) und 𝑎̅ < 𝑀𝑜𝑑 rechtssteil (negative Schiefe). Für unimodale Verteilungen reicht die Standardabweichung nicht zur Be𝑄𝑢3 −𝑄𝑢1 schreibung aus und man benötigt die Exzess-Eigenschaft, zum Beispiel 𝐸𝑥∗ = . ) 2(𝐷𝑒9 −𝐷𝑒1 Klassenbildung Dies beschreibt die Zusammenfassung von mehreren Merkmalen nach folgender Systematik: Empirische Schätzung der Klassenzahl 𝐾 (im Zweifel Festlegung geringerer Klassenzahl) Erstellung gleich großer Klassen ohne Lücken Die untere/obere Intervallgrenze der kleinsten/größten Klasse sollte gut mit den Extremwerten übereinstimmen Klassenschätzung (abrunden!): Sturges (1926): 𝐾 = 1 + 3,32 log 𝑛 Strauch (1956): 𝐾 = 1 + log 𝑛⁄log 2 Panofsky und Brier (1958): 𝐾 = 5 ∙ log 𝑛 Boxplot KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 4 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Mehrdimensionale Stichprobenbeschreibung Es gibt mehrere Varianten für Mehrdimensionalität: Merkmalswerte sind Vektoren Merkmalswerte sollen in Form skalarer oder vektorieller Felder im Raum untersucht werden mit Merkmalswerten als Funktion von 𝑥, 𝑦 und 𝑧 Kombination von Stichproben (gleicher Umfang) → Stichprobenmatrix Grundsätzliche Beschreibungen Im Fall von Vektoren wird oft eine Trennung der Komponenten vorgenommen und dann jeweils eindimensional behandelt. Arithmetisches Mittelzentrum Für eine dreidimensionale Stichprobe gilt: 1 1 1 𝑀𝑍 = {𝑥̅ = ∑ 𝑥𝑖 , 𝑦̅ = ∑ 𝑦𝑖 , 𝑧̅ = ∑ 𝑧𝑖 } , 𝑖 ∈ {1, … , 𝑛} 𝑛 𝑛 𝑛 Gewichtung und Klassenbildung sind zur eindimensionalen Beschreibung ident. Im Fall von Vektoren wird oft eine Trennung der Komponenten vorgenommen und dann jeweils eindimensional behandelt. Bei späterer Wiedervereinigung ist der arithmetische Mittel1 1 wert nicht gleich dem Mittelzentrum. Hierfür benötigt man 𝑀𝑍𝑚 = [𝑎̅ = ∑ 𝑎𝑖1 , 𝑎̅ = ∑ 𝑎𝑖2 ; 𝑎̅ = 1 𝑛 𝑛 𝑛 ∑ 𝑎𝑖𝑚 ] , 𝑖 ∈ {1, … , 𝑛}. Bei Werten im Polarkoordinaten empfiehlt sich eine Umrechnung. Die Rich- tung des Mittelvektors ist im zweidimensionalen Fall gegeben durch: 𝑎̅1 𝑥̅ ⃗⃗⃗⃗⃗ = 𝑎̅ 2 + 𝑎̅ 2 = 𝑥̅ 2 + 𝑦̅ 2 , |𝑎| 𝑡𝑔𝛼 = = , 𝛼: Richtung 1 2 𝑎̅2 𝑦̅ Metereologische Winkelangabe Da der Wind-Winkel der ist, aus der der Wind kommt, muss man umrechnen: 𝛽 = 𝛼 − 180° 𝛼 = 𝛽 + 180° 𝜑 = 90° − 𝛽 𝛽 = 90° − 𝜑 𝜑 = 270° − 𝛼 𝛼 = 270° − 𝜑 𝛼: metereologischer Winkel, 𝛽: allgemeiner Winkel, 𝜑: Polarwinkel Für die Umrechnungen in 2D und 3D gelten: 𝑦 𝑥 = 𝑟 cos 𝜑 ∧ 𝑦 = 𝑟 sin 𝜑 | 𝑟 = √𝑥 2 + 𝑦 2 ∧ 𝜑 = arctan ⁄𝑥 𝑦 √𝑥 2 + 𝑦 2 𝑥 = 𝑟 sin 𝜆 cos 𝜑 ∧ 𝑦 = 𝑟 sin 𝜆 sin 𝜑 ∧ 𝑧 = 𝑟 cos 𝜆 | 𝑟 = √𝑥 2 + 𝑦 2 + 𝑧 2 ∧ 𝜑 = arctan ∧ 𝜆 = arctan 𝑥 𝑧 Standardabweichung Die eindimensionale Standardabweichung entspricht der Standarddistanz (Skalar). 𝑛 𝑆𝐷 = √ 1 ∑(𝑥𝑖 ′2 + 𝑦𝑖 ′2 + ⋯ + 𝑧𝑖 ′2 ) 𝑛−1 𝑖=1 𝑥𝑖 ′2 : Abweichung vom Mittelzentrum 𝑥𝑖 ′2 = 𝑥𝑖 − 𝑀𝑍𝑥 Wahrscheinlichkeitsdichte und Verteilungsfunktionen Wahrscheinlichkeitsdichtefunktion Die Integration der Wahrscheinlichkeitsdichtefunktion über ein Intervall [𝑎, 𝑏] ergibt die Wahrscheinlichkeit dass eine Zufallsvariable mit dieser Dichte einen Wert zwischen 𝑎 und 𝑏 annimmt. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 5 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG 𝑏 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥 | 𝑎 < 𝑏 𝑎 Verteilungsfunktion Die Verteilungsfunktion 𝐹(𝑥) entsteht durch Integration der Dichtefunktion bis zur Grenze 𝑥. 𝑥 𝐹(𝑥) = ∫ 𝑓(𝑦)𝑑𝑦 | 0 ≤ 𝐹(𝑥) ≤ 1 −∞ Umgekehrt gilt, dass 𝐹(𝑥) differenzierbar ist: 𝑓(𝑥) = 𝐹 ′ (𝑥) = 𝑑𝐹(𝑥)⁄𝑑𝑥 temperature maxima (Graz) precipitation (NY City) particulate matter (Illmitz) Theoretische Verteilungen Die besprochenen Stichprobenbeschreibungen sind mit Zufälligkeiten behaftet, da der betreffende Vorgang nur partiell erfasst wird (endlicher Umfang). Die Häufigkeitsverteilungen ändern sich mit Stichprobenerweiterung, nicht aber der Typus. Für eine allgemeine Erfassung benötigt man die Charakteristika der zugehörigen Grundgesamtheit (GG). Da die GG nicht bekannt ist, werden verschiedene Typen getestet. Um die Anwendung auf jegliche Daten zu gewährleisten, werden 𝑓(𝑥) und 𝐹(𝑥) stets normiert definiert. Theoretische Verteilungen werden über drei Parameterarten beschrieben: Lageparameter Streuparameter Formparameter Die Zuordnung wird als Verteilungsanpassung bezeichnet. Dabei sucht man die am besten passende theoretische Verteilung und passt diese an die Daten an. Die Güte (Signifikanz) kann durch Anpassungstests oder graphische Verfahren (subjektiv) geprüft werden. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 6 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Gleichverteilung (GV) Für das Auftreten der Merkmale sind hier gleiche Wahrscheinlichkeiten vorausgesetzt. Sie ist diskret; die Merkmale sind zählbar. 1 1 𝑓(𝑥)𝐺𝑉 = = 𝑐𝑜𝑛𝑠𝑡., 𝐹(𝑥)𝐺𝑉 = 𝑖 𝑁 𝑁 𝑖: Variationsmöglichkeit der Merkmale, für Würfel z.B. 𝑖 = {1,2,3,4,5,6} Rechtecksverteilung (RV) Eine GV auf einem bestimmten Intervall, so dass Werte außerhalb dessen die Wahrscheinlichkeit 0 haben. ∀𝑥 < 𝑎 0 𝑓(𝑥)𝑅𝑉 = {1⁄(𝑏 − 𝑎) ∀ 𝑎 ≤ 𝑥 ≤ 𝑏 ∀𝑥 > 𝑏 0 GV und RV besitzen nur einen Parameter: 𝑁 ∨ 𝑑 = 𝑏 − 𝑎. 𝑁+1 Mittelwert: 𝜇 = 2 Median: 𝜇+ = 𝜇 Varianz: 𝜎 2 = Schiefe: 𝛾 = 0 Exzess: 𝜂 = −1,8 𝑁2 −1 12 Binomialverteilung (BV) Bei systematischem Abfall einer Ergebniswahrscheinlichkeit kann die Binomialverteilung gül𝑁! 𝑁 tig sein. Mit Gegenwahrscheinlichkeit 𝑞 = 1 − 𝑝 und Binomialkoeffizient ( ) = gelten: 𝑥!(𝑁−𝑥)! 𝑥 𝑥 𝑓(𝑥)𝐵𝑉 𝑁 𝑁 = ( ) 𝑝 𝑥 (1 − 𝑝)𝑁−𝑥 = ( ) 𝑝 𝑥 𝑞 𝑁−𝑥 , 𝑥 𝑥 𝑁 𝐹(𝑥)𝐵𝑉 = ∑ ( ) 𝑝𝑖 𝑞 𝑁−𝑖 𝑥 𝑖=0 Der Wert 𝑓(𝑥)𝐵𝑉 gibt die Wahrscheinlichkeit an, bei 𝑁 unabhängigen Versuchen (konstanter Wahrscheinlichkeit 𝑝) genau 𝑥 Erfolge zu erzielen (z.B. Eistage, Hochwasser,…). Mittelwert: 𝜇 = 𝑁𝑝 𝑁𝑝 ∀ 𝑁𝑝 ∈ ℤ Median: 𝜇+ = { Rundung(𝑁𝑝) ∀ 𝑁𝑝 ∉ ℤ (𝑁 + 1)𝑝 ∀ (𝑁 + 1)𝑝 ∈ ℤ Modus: 𝜇Λ = { 𝑧: 𝑧 < (𝑁 + 1)𝑝 ∧ 𝑧 ∈ ℤ | ∀ (𝑁 + 1)𝑝 ∉ ℤ Varianz: 𝜎 2 = 𝑁𝑝𝑞 𝑞−𝑝 𝑞−𝑝 Schiefe: 𝛾 = = Exzess: 𝜂 = 𝜎 1−6𝑝𝑞 𝜎2 √𝑁𝑝𝑞 1−6𝑝𝑞 = 𝑁𝑝𝑞 Im Spezialfall 𝑁 ∈ {0,1} geht die BV in die Bernoulli-Verteilung über. Die Rekursionsformel lautet: (𝑁 − 𝑥)𝑝 𝑓(𝑥 + 1)𝐵𝑉 = 𝑓(𝑥)𝐵𝑉 = (𝑥 + 1)𝑞 Modifikationen −𝑁 𝑁 Negative Binomialverteilung: 𝑓(𝑥)𝑁𝐵𝑉 = ( ) 𝑝 (−𝑞)𝑥 𝑥 Multinomialverteilung: 𝑓(𝑥)𝑀𝑁𝑉 = 𝑁! ∏𝐾 𝑖=1 𝑥 𝑝𝑖 𝑖 𝑥𝑖 ! mit Einteilung in 𝑖 Klassen Poissonverteilung (PV) Die BV geht für 𝑝 → 0 und 𝑁 → ∞ in die PV über (gilt für 𝑁 ≥ 100 ∧ 𝑝 ≤ 0,05 in Näherung). Die PV wird vor allem verwendet, wenn seltene Ereignisse (𝑝 sehr klein) auftreten. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 7 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG 𝑓(𝑥)𝑃𝑉 𝑒 −𝜆 𝜆𝑥 = , 𝑥! 𝑥 𝐹(𝑥)𝑃𝑉 = 𝑒 −𝜆 ∑ 𝑖=0 𝜆𝑖 𝑖! Die PV ist stetig, 𝜆 ist der einzige Parameter und zugleich Mittelwert und Varianz. Mittelwert: 𝜇 = 𝜆 = 𝑁𝑝 = 𝜎 2 𝛾∀𝜆 ∈ℤ Median: 𝜇+ = { Rundung(𝜆) ∀ 𝜆 ∉ ℤ 𝜆∧𝜆−1∀𝜆 ∈ ℤ Modus: 𝜇Λ = { 𝑧: 𝑧 < 𝜆 ∧ 𝑧 ∈ ℤ | ∀ 𝜆 ∉ ℤ Varianz: 𝜎 2 = 𝜆 1 Schiefe: 𝛾 = Exzess: 𝜂 = √𝜆 1 𝜆 Die Rekursionsformel lautet: 𝑓(𝑥 + 1)𝑃𝑉 = 𝑓(𝑥)𝑃𝑉 = 𝜆 𝑥+1 Grafische Überprüfung Trägt man 𝑓(𝑥)𝑃𝑉 ⁄𝑓(𝑥 + 1)𝑃𝑉 in ein lineares Diagramm ein, so muss sich eine Gerade ergeben, falls die Verteilung einer PV folgt. Normalverteilung (NV und zV) Die BV geht für 𝑁 → ∞ und 𝑝 = 0,5 in die NV über (auch Gauß-Verteilung). Die NV ist stetig, symmetrisch (𝛾 = 0) und hat die Parameter 𝜇 und 𝜎. 𝑥 1 𝑥−𝜇 2 1 𝑦−𝜇 2 1 1 𝑓(𝑥)𝑁𝑉 = 𝑒 − 2( 𝜎 ) , 𝐹(𝑥)𝑁𝑉 = ∫ 𝑒 −2( 𝜎 ) 𝑑𝑦 𝜎√2𝜋 𝜎√2𝜋 −∞ Mittelwert, Median, Modus: 𝜇 = 𝜇+ = 𝜇Λ Varianz: 𝜎 2 Schiefe, Exzess: 𝜆 = 𝜂 = 0 Im Bereich [𝜇, 𝜇 + 𝜎] sind etwa ein Drittel (34,13 %) der Werte zu finden, die beidseitige Betrachtung führt zu [𝜇 − 𝜎, 𝜇 + 𝜎] mit 68,26 % der Werte. Für 𝜇 ± 2𝜎 sind es 𝑝(𝑥) = 95,44 %. Eine NV gilt für Verteilungen, bei denen mittlere Werte zugleich die wahrscheinlichsten sind und jede Abweichung davon symmetrisch kleinere Wahrscheinlichkeitswerte annimmt. Dies ist oft der Fall, somit ist prinzipiell zu prüfen, ob eine NV vorausgesetzt werden kann (verteilungsgebundenes Verfahren, parametrisch), oder nicht (verteilungsfreie Verfahren, nicht parametrisch). Standadisierte Normalverteilung (zV) 𝑥−𝜇 Setzt man 𝜇 = 0 ∧ 𝜎 = 1 (identisch zur Transformation 𝑧 = ), vereinfacht sich die NV zur standardisierten Normalverteilung (zV) mit 𝑓(𝑧) = 1 √2𝜋 𝜎 𝑧2 exp (− ). Für die Wahrscheinlichkeit in 2 einem Bereich um 𝜇 Werte zu finden, kann man auch die 𝑧-Tabelle verwenden. Dabei berechΔ𝑎 net man 𝑧 mit 𝑧 = mit Δ𝑎 als Abweichung vom Mittel. In der 𝑧-Tabelle liest man dann für 𝜎 ein Quantil und den 𝑧-Wert die Wahrscheinlichkeit ab (Achtung: Nur eine Seite wird gewertet – will man nach „rechts“ und „links“ berechnen, muss man einen Faktor 2 dazurechnen; deshalb steigt 𝑝 nur bis maximal 0,5 an). Quantile-Quantile-Plot (zV) Für eine Verteilungsanpassung mit zV kann man beide Verteilungen berechnen lassen. Falls beide Seiten, sowohl die „sample quantiles“, als auch die „theoretical quantiles“, normiert sind, sollten sie einer Geraden mit 𝑦 = 𝑥 folgen, falls sie normalverteilt sind. Das Verfahren ersetzt aber keinen Test. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 8 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Logarithmische Normalverteilung (LNV) Schiefe Verteilungen sind weit verbreitet, vor allem, wenn das Merkmal einen Grenzwert hat (z.B. Niederschlag). Bei zusätzlich eingipfliger Verteilung kann die LNV ein Kandidat sein. 2 2 𝑥 1 1 (ln(𝑥)−𝜇 1 1 −1(ln(𝑦)−𝜇 ) ) 𝑓(𝑥)𝐿𝑁𝑉 = 𝑒 2𝜎2 ∀ 𝑥 > 0, 𝐹(𝑥)𝐿𝑁𝑉 = ∫ 𝑒 2 2𝜎2 𝑑𝑦 𝜎√2𝜋 𝑥 𝜎√2𝜋 −∞ 𝑦 𝜎2 Mittelwert: 𝜇 = exp (𝜇 + Median: 𝜇+ = exp(𝜇) Modus: 𝜇Λ = exp(𝜇 − 𝜎 2 ) 2 Varianz: 𝜎 2 = exp(2𝜇 + 𝜎 2 ) ∙ (𝑒 𝜎 − 1) 2 ) 2 2 Schiefe: 𝛾 = (𝑒 𝜎 + 2)√𝑒 𝜎 − 1 Praktisch ist es empfehlenswert bei einer LNV die Merkmalswerte zu logarithmieren und aus diesen transformierten Daten Mittelwert und Standardabweichung zu bestimmen. Danach kann die Anpassung einer LNV erfolgen, als ob eine zV (bzw. NV) vorläge. Student-t-Verteilung (tV) Diese stetige Verteilung besitzt nur Φ als Parameter (Zahl der Freiheitsgrade). Bei nur einer SP vom Umfang 𝑛 ist Φ = 𝑛 − 1. Da sie sich mit wachsendem Φ der zV annähert, wird sie nur selten herangezogen. Mit der Gammafunktion Γ(𝑥) = lim 𝑛!𝑛𝑥−1 𝑛→∞ 𝑥(𝑥+1)(𝑥+2)…(𝑥+𝑛−1) 𝑓(𝑥)𝑡𝑉 Φ+1 Φ+1 ) 𝑡2 2 2 = 𝑓(𝑡) = (1 + ) , Φ Φ √𝜋ΦΓ ( ) 2 Γ( Mittelwert, Median, Modus: 𝜇 = 𝜇+ = 𝜇Λ = 0 Varianz: 𝜎 2 = Schiefe: 𝛾 = 0 ∀ Φ ≥ 4 6 Exzess: 𝜂 = ∀Φ≥5 Φ Φ−2 gilt: 𝑡 𝐹(𝑥)𝑡𝑉 = 𝐹(𝑡) = ∫ 𝑓(𝑦)𝑡𝑉 𝑑𝑦 −∞ ∀Φ ≥ 3 Φ−4 Dichtefunktionen unter verschiedenen Bedingungen (links LNV, rechts tV): KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 9 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG 𝜒 2 -Verteilung (𝜒 2 V) Dies ist eine stetige Verteilung mit Parameter Φ (Freiheitsgrade). Die Summe der Quadrate von Φ unabhängig standardnormalverteilten Zufallsvariablen folgt hier einer 𝜒 2 V mit Φ Freiheitsgraden. Sie wird häufig in der Prüftheorie verwendet (z.B. für Polynomanpassungen). 𝑥 Φ−2 𝑥 1 𝑓(𝑥)𝜒2𝑉 = Φ 𝑥 2 𝑒 −2 ∀ 𝑥 > 0, 𝐹(𝑥)𝜒2𝑉 = ∫ 𝑓(𝑦)𝜒2𝑉 𝑑𝑦 Φ 𝑦=0 22 Γ ( ) 2 Mittelwert: 𝜇 = Φ Φ−2∀Φ >2 Modus: 𝜇Λ = { 0 ∀ Φ ∈ {1,2} Varianz: 𝜎 2 = 2Φ Schiefe: 𝛾 = Exzess: 𝜂 = √8 √Φ 12 Φ Für Φ → ∞ konvergiert die 𝜒 2 V zu einer NV mit 𝜇 = Φ ∧ 𝜎 2 = 2Φ. Fischer-Verteilung (FV) Eine stetige Verteilung mit Φ1 und Φ2 als Parameter. Φ1 Φ + Φ2 Φ1 Φ2 Φ1 +Φ2 Γ( 1 )( ) 𝑥 Φ−2 2 Φ1 2 Φ2 𝑓(𝑥)𝐹𝑉 = 𝑥 2 [1 + 𝑥] ∀ 𝑥 > 0, 𝐹(𝑥)𝐹𝑉 = ∫ 𝑓(𝑦)𝐹𝑉 𝑑𝑦 Φ Φ Φ2 0 Γ ( 1) Γ ( 2) 2 2 𝑢 Φ Zwei unabhängige 𝜒 2 -verteilte Variablen 𝑢 und 𝑣 in Form von ( ) ∙ ( 2) folgen der FV. 𝑣 Mittelwert: 𝜇 = Modus: 𝜇Λ = Varianz: 𝜎 2 = Schiefe: 𝛾 = Exzess: 𝜂 = Φ2 Φ2 −2 Φ2 (Φ1 −2) ∀ Φ2 > 2 ∀ Φ1 > Φ1 (Φ2 +2) 2 2Φ2 (Φ1 +Φ2 −2) Φ1 (Φ2 −2)2 (Φ2 −4) 2Φ1 +Φ2 −2 Φ2 −6 Φ1 √Φ 2 (Φ1 = 1 ⇒ 𝜇Λ = 0) ∀ Φ2 > 4 8(Φ2 −4) 1 (Φ1 +Φ2 −2) (Φ2 > 6 ⇒ 𝛾 > 0) 12[(Φ2 −2)2 (Φ2 −4)+Φ1 (Φ1 +Φ2 −2)(5Φ2 −22)] Φ1 (Φ2 −6)(Φ2 −8)(Φ1 +Φ2 −2) (Φ2 > 8 ⇒ 𝜂 > 0) Weibull-Verteilung (WV) Eine relative neue Verteilung für Stichprobenanpassungen mit drei Parametern 𝑥0 (Lage), 𝑏 (Streuung) und 𝑎 (Form). Die WV kann auch NV- und LNV-ähnliche Form annehmen und erlaubt Simulationen nicht nur von positiver Schiefe. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 10 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG 𝑎 𝑥 − 𝑥0 𝑎−1 −(𝑥−𝑥0 )𝑎 𝑏 ( ) 𝑒 ∀ 𝑥 ≥ 𝑥0 , 𝑏 𝑏 1 Mittelwert: 𝜇 = 𝑥0 + 𝑏Γ ( + 1) Median: 𝜇+ = 𝑥0 + 𝑏(ln 2)𝑎 𝑓(𝑥)𝑊𝑉 = 𝑥−𝑥0 𝑎 ) 𝑏 𝐹(𝑥)𝑊𝑉 = 1 − 𝑒 −( ∀ 𝑥 ≥ 𝑥0 𝑎 1 1 1 𝑎 ) 𝑎 Modus: 𝜇Λ = 𝑥0 + 𝑏 (1 − Varianz: 𝜎 2 = 𝑏 2 [Γ ( + 1) − Γ 2 ( + 1)] Schiefe: 𝛾 = 2 1 𝑎 𝑎 3 𝑎 2 𝑎 1 𝑎 1 𝑎 Γ( +1)−3Γ( +1)Γ( +1)+2Γ3 ( +1) 2 𝑎 1 𝑎 3 [Γ( +1)−Γ2 ( +1)]2 𝑎 < 3,6022 ⇒ positive Schiefe (linkssteil) | 𝑎 = 3,6022 ⇒ 𝛾 = 0 (Symmetrie) 𝑎 < 3,6022 ⇒ negative Schiefe (rechtssteil) Exponentialverteilung (EV) Für 𝑎 = 1 ∧ 𝑥0 = 0 geht die WV in die Exponentialverteilung über. Für 𝑐 = 𝑏 −1 ergibt sich: 𝑓(𝑥)𝐸𝑉 = 𝑐𝑒 −𝑐𝑥 , 𝐹(𝑥)𝐸𝑉 = 1 − 𝑒 −𝑐𝑥 Mittelwert: 𝜇 = 𝑐 −1 1 Median: 𝜇+ = ln 2 Modus: 𝜇Λ = 0 Varianz: 𝜎 2 = 𝑐 −2 Schiefe: 𝛾 = 2 Exzess: 𝜂 = 6 𝑐 Gumbel-Verteilung (GuV) Diese gehört zu den Extremwertverteilungen und ist speziell für hydrologische Daten entwickelt worden (z.B. Niederschlag). Sie ist eine linkssteile stetige Verteilung mit zwei Parametern 𝑥0 (Lage) und 𝑏 (Streuung). (𝑥−𝑥0 ) 𝑥−𝑥0 1 𝑥−𝑥0 − − 𝑓(𝑥)𝐺𝑢𝑉 = 𝑒 − 𝑏 𝑒 −𝑒 𝑏 , 𝐹(𝑥)𝐺𝑢𝑉 = 𝑒 −𝑒 𝑏 𝑏 Mittelwert: 𝜇 ≈ 𝑥0 + 0,57722𝑏 𝑏 2 𝜋2 Vaianz: 𝜎 2 = Schiefe: 𝛾 = 1,13955 Exzess: 𝜂 = 5,4 6 Allgemeine Extremwertverteilung (AEV) Dies ist eine Gruppe von drei Verteilungen, zu der auch die GuV gehört. 1 𝑓(𝑥)𝐴𝐸𝑉 Typ I: Typ II: Typ III: 𝑥 − 𝑥0 𝜉 = exp [− (1 + 𝜉 ( )) ] 𝑏 𝜉 = 0: Gumbel-Verteilung (light tailed) 𝜉 > 0: Frechet-Verteilung (heavy tailed) 𝜉 < 0: Weibull-Verteilung (bounded) Schätzverfahren Als statistisches Schätzverfahren wird jede Methode bezeichnet, die geeignet erscheint von der bekannten Stichprobeninformation (SP) auf entsprechende Informationen der unbekannten Grundgesamtheit (GG) zu schließen. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 11 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Punktschätzung Punktschätzung ist die Schätzung von Kenngrößen der GG. Die Verteilungsschätzung ist die Schätzung der Wahrscheinlichkeitsdichtefunktion der GG. Punkt- und Verteilungsschätzung zielen auf die gleichen Parameter und sind deshalb zusammengefasst. Parametermethode Der bekannte SP-Parameter wird schlicht mit dem betreffenden Parameter der GG gleichgesetzt. Prinzip der optimalen Mutmasslichkeit / Maximum Likelihood Aus 𝑛 unabhängigen SP-Daten ( 𝑥1 , 𝑥2 , … , 𝑥𝑛 ) wird die likelihood function 𝐿(Θ) = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; Θ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; Θ) gebildet, welche die Wahrscheinlichkeit für das SP-Ergebnis als Funktion von Θ angibt. Die Dichtefunktion von GG sollte dabei bekannt sein. Der Schätzwert 2 ̂ ergibt sich als Lösung von 𝑑𝐿(Θ) = 0 bzw. 𝑑 ln 𝐿(Θ) = 0 ∧ 𝑑 𝐿(Θ) Θ 2 < 0. 𝑑Θ 𝑑Θ 𝑑Θ Verfahren in der Praxis Zunächst werden die SP-Kenngrössen (Mittelwert, Varianz, ...) nach üblichen Formeln berechnet. Anschließend stellt man auf Grund der SP-Verteilung Vermutungen über die GGVerteilung an. Nun lassen sich die SP-Kenngrößen näherungsweise den unbekannten GGKenngrößen gleichsetzen (Parametermethode). Dieser Schritt sollte aber unbedingt durch die Abschätzung der zugehörigen Mutungsbereiche abgesichert werden. Aus den nunmehr geschätzten GG-Kenngrößen lassen sich die betreffenden GG-Parameter errechnen und somit der bekannten SP die geeignet erscheinende GG-Verteilung anpassen. Intervallschätzung (Mutungsbereiche) Dies ist eine Schätzung des Intervalls (Mutungsbereich), in dem die Kenngrößen der GG vermutet werden. Ein Intervall 𝑀𝑢𝑃(𝐺𝐺) = [(𝑃(𝑆𝑃) − 𝐷) ≤ 𝑃(𝑆𝑃) ≤ (𝑃(𝑆𝑃) + 𝐷)] = [𝑃(𝑆𝑃) ∓ 𝐷] heißt Mutungsbereich oder Konfidenz- bzw. Vertrauensintervall. Die unbekannte Maßzahl der GG wird in eben jenem Intervall vermutet, verknüpft mit Wahrscheinlichkeit 𝑝 der Form 𝑀𝑢𝑃(𝐺𝐺) = 𝑃(𝑆𝑃) ∓ 𝐷(𝑝). Für eine NV lassen sich folgende relativen Mutungsbereiche schätzen (𝑛: SP-Umfang, 𝜈: GGUmfang (finit), 𝑧: Argument der zV und gestattet mit 𝑧(𝑝) die Wahl von 𝑝): 𝜎 GG ist infinit: 𝑀𝑢𝜇 = ∓𝑧 √𝑛 Mittelwert: { 𝜎 𝜈−𝑛 GG ist finit: 𝑀𝑢𝜇 = ∓𝑧 √ 𝜈−1 √𝑛 𝜎 Standardabweichung: 𝑀𝑢𝜎 = ∓𝑧 Varianz: 𝑀𝑢𝜎2 = ∓𝑧𝜎 2 √ ≈ ∓𝑧𝑠 2 √ √2𝑛 2 2 𝑛 𝑛 ≈ ∓𝑧 𝑠 √2𝑛 Ist die GG-Standardabweichung/-Varianz unbekannt, so darf nur mit 𝑠 und 𝑠 2 gerechnet werden, wenn 𝑛 ≥ 50. Andernfalls muss 𝑧 durch 𝑡 (aus der tV) ersetzt werden. Expektanz, Ereignisschätzung Schätzung des Intervalls, in dem nach angenommener GG künftige SP mit definitiver Wahrscheinlichkeit vermutet werden. Das heißt, bei vermuteter/bekannter Dichtefunktion und vorgegebener Wahrscheinlichkeit 𝑝, wird abgeschätzt, welcher Wertebereich Δ𝑎 symmetrisch um 𝑎 = 𝜇𝑆𝑃 bei künftigen SP zu erwarten ist. 𝑎+Δ𝑎 ∫ 𝑓(𝑥)𝑑𝑥 = 𝐹(𝑎 + Δ𝑎) − 𝐹(𝑎 − Δ𝑎) = 𝑝 = 𝑀𝑢𝜇 𝑎−Δ𝑎 Der Wertebereich 2Δ𝑎 wird Expektanz genannt. Man unterscheidet zwei Fälle: 𝑝 ist vorgegeben und man schätzt den Wertebereich 2Δ𝑎 Der Wertebereich ist vorgegeben und man schätzt 𝑝 Für eine NV ist ein Schnellverfahren möglich (∀ 𝑛 ≥ 30): KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 12 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG SP in Klassen unterteilen und Klassenobergrenzen zur (prozentualen) kumulativen Häufigkeit auftragen; ergibt sich eine Gerade kann NV angenommen werden Mutungsbereiche 𝑀𝑢𝜇 und 𝑀𝑢𝜎 auf Basis der SP-Kenngrößen schätzen; für kleine Differenzen (𝑎̅ − 𝑀𝑢𝜇 ) ∧ (𝑠 − 𝑀𝑢𝜎 ) darf für die GG ebenfalls NV angenommen werden (In Praxis kann man die Schritte umkehren und ggf. den SP-Umfang erhöhen. Es gelten die Faustregeln 𝑝 = 90 % und 𝜖 < 𝑠⁄10) Fehlerrechnung Zwei Arten werden unterschieden: Systematische Fehler (1. Art, potentiell erkennbar/eliminierbar) und zufällige Fehler (2. Art, stochastisch). Letztere bestimmen die erreichte Messgenauigkeit. Für Messreihen mit numerisch unterschiedlichen Werten ist in erster Näherung der arithmetische Mittelwert nach Gauß der Bestwert, d.h. das wahrscheinlichste Resultat. Durchschnittsfehler (mittlerer absoluter Fehler) 1 ∓𝑑 = ∓ ∑|𝑎𝑖′ | , 𝑎𝑖′ = 𝑎𝑖 − 𝑎̅ 𝑛 Standardfehler (mittlerer quadratischer Fehler) 1 ∓𝑠 = ∓√ ∑ 𝑎𝑖′2 𝑛−1 Standardfehler des Bestwertes Dieses Maß legt die Genauigkeit fest, der Bestwert sollte nicht genauer angegeben werden, als die erste in ∓Δ𝑎 erscheinende Ziffer. 1 𝑠 ∓Δ𝑎 = ∓√ ∑ 𝑎𝑖′2 = ∓ 𝑛(𝑛 − 1) √𝑛 Der Vergleich zum Bestwert wird in Prozent angegeben (relativer Standardfehler des BestΔ𝑎 wertes) ∓ ∙ 100 % = ∓𝛿𝑎. 𝑎 Fehlerfortpflanzung Welche Fehlerbelastung hat ein zusammengesetztes Messergebnis, z.B. 𝐸 = 𝑓(𝑎, 𝑏, 𝑐)? Zunächst wird der Bestwert 𝐸̅ = 𝑓(𝑎̅, 𝑏̅, 𝑐̅) errechnet. In weiterer Folge werden die absoluten und relativen (nicht prozentualen) Standardfehler der Messgrößen berechnet. Δ𝑎 Δ𝐸 ∓𝛿𝑎 = ∓ , ∓𝛿𝐸 = ∓ 𝑎 𝐸 Nach Gauß ist die Fortpflanzung wie folgt gegeben: 2 2 𝜕𝐸 𝜕𝐸 ∓Δ𝐸 = ∓√( Δ𝑎) + ( Δ𝑏) + ⋯ 𝜕𝑎 𝜕𝑏 Folgende Spezialfälle können abgeleitet werden: 𝐸 = 𝑎 ∓ 𝑏 ∓ ⋯ → ∓Δ𝐸 = ∓√(Δ𝑎)2 + (Δ𝑏)2 + ⋯ Δ𝑎 2 Δ𝑏 2 𝐸 = 𝑎 ∙ 𝑏 ∙ … → ∓𝛿𝐸 = ∓√( ̅ ) + ( ̅ ) + ⋯ = ∓√(𝛿𝑎)2 + (𝛿𝑏)2 + ⋯ 𝐸 = √𝑎 → ∓𝛿𝐸 = ∓ 𝛿𝑎 (aus Taylor-Entwicklung 𝐸 = 𝑎𝛼 → ∓𝛿𝐸 = ∓𝛼δa) 𝛼 𝐸= 𝐸 = ln 𝑎 → ±𝛿𝐸 = ± 𝛿𝑎⁄𝑎 𝐸 = log 𝑏 𝑎 → ±𝛿𝐸 = ± 𝛿𝑎⁄(𝑎 ln 𝑏) 𝑎 𝑎 𝑏 𝑏 1 𝛼 = 𝑎𝑏 −1 → ∓𝛿𝐸 = ∓√(𝛿𝑎) + (−1)2 (𝛿𝑏)2 = ∓√(𝛿𝑎2 ) + (𝛿𝑏)2 (aus Taylor-Entwicklung) KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 13 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Repräsentanz Repräsentanz der Punktaussage Die Fragen nach der Fehlerbelastung und der zeitlichen Variabilität einer Größe 𝐺(𝑥∗ , 𝑦∗ , 𝑧∗ , 𝑡∗ ) sind fundamental. Für keine zeitliche Variabilität und ohne systematische Fehler ist die Punktaussage für das Intervall [−𝑓, +𝑓] repräsentativ. Konkret kommen dafür der Standardfehler der Einzelmessungen ∓𝑠 und der absolute Standardfehler ∓Δ𝑎 des Bestwertes in Betracht. Für zeitliche (natürliche) Variabilität, die nicht vernachlässigbar sind, stellt sich die Frage, ob diese stationär ist (Momente gegen Erhöhung des SP-Umfangs invariant). Nicht stationär: Wegen eines gleichmäßigen Trends während der Messung, ist die Messung weder im Sinn einer Fehlerbetrachtung noch im Sinn einer Repräsentanz-Diskussion interpretierbar. Im statistischen Sinn ändert sich die GG und für jeweils gleiche Randbedingungen existiert nur eine Messung, was die Anwendung der Fehlerrechnung ausschließt. Stationär: Durch entsprechend lange Messung muss geklärt werden, ob das Streuungsmaß größer als die Fehlerbelastung ist. Faustregeln: Messreihen lange durchführen (𝑛 hinreichend groß zur Fehlerrechnung). Prüfen, ob Fehlerverteilungsgesetz annähernd erfüllt ist und Stationarität prüfen. Praktisch und theoretisch prüfen, ob zeitliche Variationen vorliegen (übersteigen diese das Fehlermaß ∓𝑓, so ist stattdessen das Repräsentanzmaß ∓𝐴 anzugeben). Sind die zeitlichen Variationen nicht durch die Messreihe erfasst, obwohl sie vernachlässigbar sind, so muss ein Weg gefunden werden, dies zu tun (Grobabschätzung, Repräsentanzmaß evtl. vergrößern). Repräsentanzmaß Da ∓Δ𝑎 und ∓𝑠 relativ viel Spielraum lassen (𝑝 = 68,26 %) sollte man die Repräsentanzabschätzung generell auf der Grundlage der Mutungsbereiche mit 𝑧-Faktoren durchführen. 𝑀𝑢𝐴 (𝑝) = ±𝑧𝐴, 𝑧: Parameter der standardisierten NV (entspricht zV) Bei 𝑝 = 0,95 (geläufig) folgt 𝑧 = 1,96 und somit etwa das doppelte Intervall ∓𝐴, innerhalb dessen die Punktaussage repräsentativ ist. Örtliche und zeitliche Übertragbarkeit Es handelt sich dabei um einen Vergleich zwischen dem Repräsentanzmaß ∓𝐴 der Punktaussage und der örtlichen/zeitlichen Variabilität. Für zeitliche Repräsentanz benötigt man ∓𝑧𝐴, ein Zeitintervall, für das die Repräsentanzaussage gewünscht ist und die zeitliche Variation innerhalb dieses Intervalls. Prüfverfahren Statistische Prüfverfahren gehen stets auf die Nullhypothese 𝐻0 zurück, die einer oder zwei Alternativhypothesen 𝐴1 und 𝐴2 gegenübergestellt wird. Die Nullhypothese besagt, dass eine zu prüfende Besonderheit zufällig, also nichtig, ist. Die Alternativhypothese besagt, die Besonderheit sei nicht zufällig und damit signifikant. Dies impliziert das Signifikanzniveau 𝑆𝑖 des Prüfentscheids. Beispiel Für 𝑆𝑃𝑎 und 𝑆𝑃𝑏 mit Mittelwerten 𝑎̅, 𝑏̅ mit 𝑎̅ < 𝑏̅ ist die Frage, ob letzterer Zusammenhang zufällig ist. Es gilt nun 𝐻0 : {𝑎 = 𝑏} ∧ 𝐴1 : {𝑎 ≠ 𝑏} oder 𝐻0 : {𝑎 = 𝑏} ∧ 𝐴1 : {𝑎 < 𝑏} ∧ 𝐴2 : {𝑎 > 𝑏} (hier darf eine Relation nur weggelassen werden, sollte sie uninteressant oder faktisch unmöglich sein). KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 14 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Prüfverfahren Im Anschluss wird ein Prüfverfahren 𝑃 = 𝑓(𝑎, 𝑏, 𝑐) mit entsprechenden Parametern (z.B. Mittelwert, Varianz, …) benötigt. Die wichtigsten Verteilungen sind hier die tV, 𝜒 2 V, FV und zV. Prüfentscheid Für 𝑃Φ,α als Argumente einer Verteilung in Abhängigkeit der Freiheitsgrade Φ und der gewählten Irrtumswahrscheinlichkeit 𝛼 = 1 − 𝑆𝑖 gilt: < 𝑃Φ,α → 𝐻0 𝑃̂ : { > 𝑃Φ,𝛼 →\𝐻0 Φ ist dabei selten Φ = 𝑛 − 1 wie bei einer unabhängigen SP, sondern ergibt sich aus der Theorie der Hypothesenüberprüfung. Üblich sind die Werte 𝑆𝑖 = 95 % und 𝛼 = 0,05, wobei 𝑆𝑖 prozentuell und 𝛼 normalrelativ angegeben wird. Real→ ↓Test 𝑓(𝑥) 1−𝛼 𝑃Φ,𝛼 1−𝛽 𝛼 𝑥 ¬ 𝐻0 richtig: Fehler 1. Art ( ) ( ) 𝑝=𝛼 𝑝 =1−𝛽 richtig: Fehler 2. Art ( ) ( ) 𝑝=𝛽 𝑝 =1−𝛼 ¬ 𝐻0 𝛽 𝐻0 annehmen 𝐻0 𝐻0 𝐴1 annehmen Vergleich zweier Mittelwerte (t-Test) Zwei Mittelwerte 𝑎̅ und 𝑏̅ sollen auf zufälligen/signifikanten Unterschied getestet werden. Voraussetzungen: SPs und GG normalverteilt Varianzen nicht signifikant unterschiedlich Prüfverteilung ist tV, somit gilt der t-Test. |𝑎̅ − 𝑏̅| 𝑡̂ = , Φ = 𝑛𝑎 + 𝑛𝑏 − 2 2 2 (𝑛 − 1)𝑠𝑎 + (𝑛𝑏 − 1)𝑠𝑏 √𝑛𝑎 + 𝑛𝑏 ∙ 𝑎 𝑛𝑎 𝑛𝑏 𝑛𝑎 + 𝑛𝑏 − 2 Bei gleichem Stichprobenumfang gilt: 𝑡̂ = |𝑎̅ − 𝑏̅|√𝑛 √𝑠𝑎2 + 𝑠𝑏2 , Φ = 2𝑛 − 2 Modifikation für Unterschiede in den Varianzen Für die Frage nach dem Unterschied der SP-Varianzen 𝑠𝑎2 ≠ 𝑠𝑏2 gilt: 2 𝑛𝑎 ≠ 𝑛𝑏 : 𝑡̂ = |𝑎̅ − 𝑏̅| 2 √ 𝑠𝑎 𝑛𝑎 𝑛𝑎 = 𝑛𝑏 : 𝑡̂ = + , Φ= 𝑠𝑏2 𝑛𝑏 |𝑎̅ − 𝑏̅| 2 2 √𝑠𝑎 + 𝑠𝑏 𝑛 , 𝑠2 𝑠2 [ 𝑎 + 𝑏] 𝑛𝑎 𝑛𝑏 2 −2 2 𝑠𝑏2 𝑠𝑎2 [ ] [ ] 𝑛𝑎 𝑛 + 𝑏 𝑛𝑎 + 1 𝑛𝑏 + 1 2𝑛 − 2 Φ =𝑛−1+ 2 𝑠𝑎 𝑠𝑏2 + 𝑠𝑏2 𝑠𝑎2 Vergleich eines SP-Mittelwerts mit bekanntem GG-Mittelwert 𝜇 (z-Test / t-Test) Der SP-Mittelwert 𝑎̅ soll hinsichtlich zufälliger/signifikanter Abweichung von 𝜇 getestet werden. Voraussetzungen: SP und GG entsprechen NV KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 15 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG SP-Standardabweichung 𝑠 und GG-Standardabweichung 𝜎 sind hinreichend ähnlich |𝑎̅ − 𝜇|√𝑛 , Φ=𝑛−1 𝑠 Bei großem Umfang (𝑛 > 100) kann dies auch als z-Test mit 𝑧̂ durchgeführt werden. Für 𝑛 < 30 ist der t-Test verteilungsfrei (NV wird nicht vorausgesetzt). 𝑡̂ = 𝑧̂ = |𝑎̅ − 𝜇|√𝑛 𝜎 Vergleich zweier Varianzen 𝑠𝑎2 und 𝑠𝑏2 (F-Test) Zwei Varianzen werden hinsichtlich zufälliger/signifikanter Abweichung voneinander getestet. Voraussetzungen: SPs in guter Näherung normalverteilt Größerer Umfang (𝑛𝑎,𝑏 > 30) 𝐹̂ = 𝑠𝑎2 , 𝑠𝑏2 𝑛𝑎 = 𝑛𝑏 : 𝐹̂ = Φ1 = 𝑛𝑎 − 1 ∧ Φ2 = 𝑛𝑏 − 1 ∧ 𝑠𝑎 > 𝑠𝑏 √𝑛 − 1(𝑠𝑎2 − 𝑠𝑏2 ) 2√𝑠𝑎2 𝑠𝑏2 , Φ=𝑛−1 Vergleich einer Varianz 𝑠 2 mit GG-Varianz 𝜎 2 (𝜒 2 -Test) Eine Varianz wird hinsichtlich zufälliger/signifikanter Abweichung zur GG-Varianz getestet. Voraussetzung: SP und GG entsprechen NV (𝑛 − 1)𝑠 2 Φ𝑠 2 ̂2 = 𝜒 = 2 , Φ =𝑛−1 𝜎2 𝜎 Für 𝑛 > 30 kann auch der z-Test 𝑧̂ = √2𝑛 𝜒 -Test verteilungsfrei. 2 |𝜎−𝑠| 𝜎 verwendet werden. Für 𝑛 > 100 sind z-Test und Beurteilung einer SP-Schiefe Eine SP-Schiefe 𝑆𝑓 wird hinsichtlich ihrer Zufälligkeit/Signifikanz untersucht. Voraussetzungen: Große SP (𝑛 > 100) Eingipflige Verteilung |𝑆𝑓| 𝑧̂ = √6⁄𝑛 Beurteilung eines SP-Exzesses Ein SP-Exzess 𝐸𝑥 wird hinsichtlich ihrer Zufälligkeit/Signifikanz untersucht. Voraussetzungen: Große SP (𝑛 > 1000) Eingipflige Verteilung 𝐸𝑥 𝑧̂ = 2√6⁄𝑛 Vergleich einer SP-Wahrscheinlichkeit mit einer BV Eine SP-Wahrscheinlichkeit 𝑝̂ wird mit dem zugehörigen Parameter 𝑝 einer BV verglichen. Voraussetzungen: Prozess, auf den die BV anwendbar ist Hinreichend große SP (𝑛 > 30, besser 𝑛 > 50) KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 16 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG 𝑧̂ = |𝑝̂ − 𝑝| √𝑝𝑞 ⁄𝑛 , 𝑞 = 1−𝑝 Vergleich zweier SP-Wahrscheinlichkeiten mit einer BV Zwei SP-Wahrscheinlichkeiten 𝑝̂1 und 𝑝̂2 werden mit den zugehörigen Parametern 𝑝1 und 𝑝2 einer BV verglichen. Voraussetzungen: Prozesse, auf die die BV anwendbar ist Hinreichend große SPs (𝑛 > 30, besser 𝑛 > 50) |𝑝̂1 − 𝑝̂2 | − |𝑝1 − 𝑝2 | 𝑧̂ = | |, 𝑞𝑖 = 1 − 𝑝𝑖 √𝑝1 𝑞1 ⁄𝑛1 + 𝑝2 𝑞2 ⁄𝑛2 Vergleich einer empirischen (SP) mit einer theoretischen (GG) Verteilung (𝜒 2 -Anpassungstest) Es soll die Anpassung einer GG auf eine SP auf Signifikanz getestet werden. Voraussetzungen: SP muss klassenorientiert vorliegen SP muss hinreichend groß sein (𝑛 > 30) Klassenbesetzung nicht zu klein (𝑛𝑗 (𝑘) ≥ 4, nach Sachs) Verteilungsfreier Test 𝐾 𝑃̂ = ∑ 𝑘=1 [𝐻𝑘 (𝑆𝑃) − 𝐻𝑘 (𝐺𝐺)]2 , 𝐻𝑘 (𝐺𝐺) Φ=𝐾−𝑍 Hier wird über 𝑘 = {1; 2; … ; 𝐾} Klassen summiert, 𝑍 ist die Anzahl der zu schätzenden Parameter (Anzahl der Parameter der Verteilung). Kolmogoroff-Smirnoff-Test Der 𝜒 2 -Anpassungstest hat Probleme in Bereichen geringer Häufigkeiten. Der KolmogoroffSmirnoff-Test ist hier die bessere Wahl. Voraussetzungen: SP muss klassenorientiert vorliegen SP muss hinreichend groß sein (𝑛 > 35, besser 𝑛 > 50) Kumulative Häufigkeiten 𝐾𝐻 müssen berechnet werden 𝑃̂ = |max(𝐾𝐻𝑘 (𝑆𝑃) − 𝐾𝐻𝑘 (𝐺𝐺))| 𝑛 Vergleich zweier beliebiger SP-Verteilungen (Wilcoxon-Test / Whitney U-Test (verteilungsfrei)) Zwei beliebige SP-Verteilungen sollen bzgl. zufälligem/signifikantem Unterschied getestet werden. Voraussetzungen: SPs müssen hinreichend groß sein (𝑛𝑎,𝑏 > 10) Daten in Rangordnung (gemeinsame, aufsteigende Reihenfolge) Auf die Zwischengrößen 𝑈1 und 𝑈2 wird später ein z-Test angewandt. 𝑛𝑎 (𝑛𝑎 + 1) 𝑛𝑏 (𝑛𝑏 + 1) 𝑈1 = 𝑛𝑎 ∙ 𝑛𝑏 + − 𝑅𝑎 , 𝑈2 = 𝑛𝑎 ∙ 𝑛𝑏 + − 𝑅𝑏 2 2 Dabei sind 𝑅𝑖 die Rangplatzsummen, d.h. alle Daten (beide SPs) müssen gemäß ihrer Werte „geranked“ werden (mit 1,2,3,…), 𝑅𝑖 ist dann einfach die Summe der „Plätze“, die zu 𝑆𝑃𝑎 oder 𝑆𝑃𝑏 gehören. 𝑛 − 𝑛𝑏 |𝑈 − 𝑎 | 2 𝑈 = min(𝑈1 , 𝑈2 ): 𝑧̂ = √𝑛𝑎 𝑛𝑏 (𝑛𝑎 + 𝑛𝑏 + 1) 12 KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 17 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Treten mehrere gleiche Datenwerte auf (Rangbindungen), so dürfen, wenn dies nicht zu oft geschieht (< 30 %), die Mittelwerte der Rangplätze gebildet werden. Rangbindungen Bei zu vielen Rangbindungen gilt (Anzahl 𝐵, 𝑏𝑖 Häufigkeit gleicher Datenwerte): |𝑈 − (𝑛2 ⁄2)| 𝑧̂ = 𝑛2 8𝑛2 − 2𝑛 𝐵 𝑏𝑖3 − 𝑏𝑖 √ ∑𝑖=1 12 12 2𝑛(2𝑛 − 1) Vergleich mehrerer SPs hinsichtlich gemeinsamer GG (H-Test, Kruskal-Wallis-Test (verteilungsfrei) Für mehrere (≥ 3) vorliegende SP-Verteilungen soll die Signifikanz einer GG getestet werden. Voraussetzung: Daten in Rangordnung (gemeinsame, aufsteigende Reihenfolge) 𝑘 ̂ = −3(𝑛 + 1) + 𝐻 12 𝑅𝑖2 ∑ 𝑛(𝑛 + 1) 𝑛𝑖 𝑖=1 Hier sind 𝑅𝑖 die Rangplatzsummen, 𝑘 die Anzahl der Verteilungen und 𝑛 = ∑𝑖 𝑛𝑖 die gesamte ̂ = 𝜒 2 | Φ = 𝑘 − 1. Werteanzahl. Für 𝑛𝑖 > 5 und 𝑘 > 4 gilt 𝐻 Rangbindungen Bei zu vielen (> 25 %) Rangbindungen (Anzahl 𝐵, 𝑏𝑖 Häufigkeit gleicher Datenwerte) gilt die Korrektur: ̂ 𝐻 ̂= 𝐻 𝐵 ∑ (𝑏 3 − 𝑏𝑖 ) 1 − 𝑖=1 3 𝑖 𝑛 −𝑛 Prüfung auf Datenunabhängigkeit Daten einer SP sollen auf Unabhängigkeit (𝐻0 ) geprüft werden. Voraussetzungen: Hinreichend große SP (𝑛 > 10, besser 𝑛 > 30) Iterationswechsel (Auflistung, ob Datenwerte zum jeweils vorderen auf-/absteigen) Für 𝐼 Iterationen gilt: ∀𝑛>30 2𝑛 − 7 ⏞ | −0,5 8 𝑧̂ = , ∀ 𝑛 > 30: Term " − 0,5" weggelassen √(16𝑛 − 29)⁄90 Sind die Daten Zeitreihen, so sollte die Autokorrelation verwendet werden. |𝐼 − 1 − Konfidenzintervalle Für Konfidenzintervalle/Vertrauensbereiche 𝑉𝐵 werden zwei Zielsetzungen verfolgt: Wertintervall, in welchem nach SP-Informationen ein GG-Parameter vermutet wird (ident mit Mutungsbereich) Abschätzung, ob aus SP errechneten Kenngrößen mit denen einer GG vereinbar sind Im zweiten Fall liegt eine Hypothesenüberprüfung vor. Mittelwert Die Formel für den Vertrauensbereich ist sehr ähnlich zu der des Mutungsbereichs: 𝑎 𝜎 𝜈−𝑛 √ 𝑉𝐵𝜇 = 𝑎̅ ∓ 𝑧𝑎 falls GG infinit, 𝑉𝐵𝜇 = 𝑎̅ ∓ 𝑧𝑎 falls GG finit √𝑛 √𝑛 𝜈 − 1 Für den Fall, dass die GG-Varianz 𝜎 2 aus der SP geschätzt werden soll (𝑠 2 ≈ 𝜎 2 ) und 𝑛 < 100 𝑠 gilt, so kann 𝑉𝐵𝜇 = 𝑎̅ ± 𝑡Φ,𝛼 mit Φ = 𝑛 − 1 verwendet werden. √𝑛 KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 18 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Median Bei signifikanter Abweichung von NV (bestätigt durch 𝜒 2 -Test) und 𝑛 < 200 ist es günstig den Median abzuschätzen (SP muss dafür in aufsteigender Reihenfolge vorliegen): 1 𝑉𝐵𝜇+ = 𝑎ℎ < 𝜇 < 𝑎𝑛−ℎ+1 , ℎ = (𝑛 − 𝑧𝛼 √𝑛 − 1) 2 Varianz Der Vertrauensbereich und (falls erforderlich) der Schätzwert der Varianz lässt sich bei annähernder NV und 𝑛 ≥ 30 ermitteln: 𝑠 2 (𝑛 − 1) 𝑠 2 (𝑛 − 1) 𝑠 2 (𝑛 − 1) 𝑉𝐵𝜎2 = ≤ 𝜎̂ 2 ≤ , 𝜎̂ = 2 2 𝜒Φ,𝛼 𝜒𝜎,1−𝛼 𝜒2 1 2 Φ, 2 2 Varianzanalyse Die Varianzanalyse ist im Prinzip ein F-Test, allerdings mit einer Aufteilung der SP in mehrere Teilkollektive und einem aufwändigen Rechenverfahren (abhängig vom SP-Umfang). Man prüft den Einfluss mehrerer Einflussgrößen oder Randbedingungen bei hinreichend großem SP-Umfang 𝑛 > 30 (besser 𝑛 > 50) und hinreichend großen Teilkollektivumfängen 𝑛𝑗 ≥ 10. Teilkollektive werden Gruppen 𝑗 = 1,2, … 𝐽 genannt mit Umfang 𝑛𝑗 und Mittelwert 𝑎̅𝑗 . Einfache Varianzanalyse Die Frage ist, ob SP-Teilkollektive hinsichtlich der SP homogen sind (𝐻0 ) und somit einer GG entstammen. Unter Betrachtung eines bestimmten Einflusses kann dieser auf signifikante Wirkung geprüft werden. Voraussetzungen: SP, GG und nach Möglichkeit für alle Teilkollektive gilt NV SP-Varianz 𝑠 2 und GG-Varianz 𝜎 2 nicht signifikant verschieden Somit ist das Prüfverfahren NV-gebunden (nicht verteilungsfrei). Nun folgt die Gesamtsumme 𝐺 = ∑𝑛𝑖=1(𝑎𝑖 − 𝑎̅)2 = (𝑛 − 1)𝑠 2 , die quadratische Zwischengruppen𝑛𝑗 2 summe 𝑍 = ∑𝐽𝑗=1 𝑛𝑗 (𝑎𝑗 − 𝑎̅) und die quadratische Innerhalbgruppensumme 𝐼 = ∑𝐽𝑗=1 ∑𝑖=1(𝑎𝑖 − 𝑎̅)2 mit Additiveigenschaft 𝐺 = 𝑍 + 𝐼. 𝑠 2 (𝑍) 𝐹̂ = 2 , Φ1 = 𝐽 − 1 ∧ Φ2 = 𝑛 − 𝐽 𝑠 (𝐼) Vereinfacht kann berechnet werden: 𝐽 𝑠 2 (𝑍) 𝑍 1 2 = = ∑ 𝑛𝑗 (𝑎𝑗 − 𝑎̅) 𝐽−1 𝐽−1 𝑗=1 Falls Gesamtvarianz 𝑠 2 bekannt: 𝑠 2 (𝐼) = (𝑛 − 1)𝑠 2 − 𝑠 2 (𝑍) ∙ (𝐽 − 1) 𝑛−𝐽 Doppelte Varianzanalyse Hier werden zwei Einflüsse/Randbedingungen gleichzeitig geprüft. Dazu werden die SP Daten 𝑎𝑖 in eine Matrix 𝑎𝑖 → 𝑎𝑗𝑘 bezüglich der Einflüsse geordnet. Der Einfluss 𝐴 variiert von Zeile zu Zeile, der Einfluss 𝐵 von Spalte zu Spalte. 1 1 Es folgen die Zeilenmittelwerte 𝑎̅𝑗 = ∑𝐾 ̅𝑘 = ∑𝐽𝑗=1 𝑎𝑗𝑘 und der Ge𝑘=1 𝑎𝑗𝑘 , Spaltenmittelwerte 𝑎 𝐾 1 1 𝑛 𝐽 𝐽 1 samtmittelwert 𝑎̅ = ∑𝑛𝑖=1 𝑎𝑖 = ∑𝐽𝑗=1 𝑎̅𝑗 + ∑𝐾 ̅𝑘 . Die quadratische Gesamtsumme ist nun 𝐺 = 𝑘=1 𝑎 𝐽 ∑𝐾 𝑘=1 ∑𝑗=1(𝑎𝑗𝑘 2 − 𝑎̅) = ∑𝑛𝑖=1(𝑎𝑖 𝐾 KFU Graz Laurenz Sproß 34 Seiten [email protected] 2 − 𝑎̅) , die quadratische Zeilensumme 𝑍 = 𝐾 ∑𝐽𝑗=1(𝑎̅𝑗 − 𝑎̅) und die 2 Seite 19 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG quadratische Spaltensumme 𝑆 = 𝐽 ∑𝐾 ̅𝑘 − 𝑎̅)2 mit Additiveigenschaft 𝐺 = 𝑍 + 𝑆 + 𝑅 , welche 𝑘=1(𝑎 2 𝐽 die quadratische Restsumme 𝑅 = 𝐺 − 𝑍 − 𝑆 = ∑𝐾 ̅𝑗 − 𝑎̅𝑘 − 𝑎̅) beinhaltet. 𝑘=1 ∑𝑗=1(𝑎𝑗𝑘 − 𝑎 Nun gilt: 𝑍 𝑆 𝑅 , 𝑠 2 (𝑆) = , 𝑠 2 (𝑅) = (𝐽 𝐽−1 𝐾−1 − 1)(𝐾 − 1) Der Testentscheid ist schlussendlich gegeben durch: 𝑠 2 (𝑍) 𝐹̂𝐴 = 2 , Φ1 = 𝐽 − 1 ∧ Φ2 = (𝐽 − 1)(𝐾 − 1) 𝑠 (𝑅) 𝑠 2 (𝑆) 𝐹̂𝐵 = 2 , Φ1 = 𝐾 − 1 ∧ Φ2 = (𝐽 − 1)(𝐾 − 1) 𝑠 (𝑅) 𝑠 2 (𝑍) = Barlett-Test Der Bartlett-Test kann also zur Homoginitätsüberprüfung einer in Klassen unterteilten SP hinsichtlich eines Einflusses anhand der Varianzunterschiede der Gruppen verwendet werden. Voraussetzung: NV für SP und GG 1 1 ∑( )− 2 ∑(Φ 𝑠 ) Φ Φ 1 𝑗 𝑗 𝑗 𝑔 𝜒̂ 2 = 2,3026 (Φ𝑔 log ( )) − ∑(Φ𝑗 log(𝑠𝑗2 )) , Φ= 𝐾−1∧𝑐 = +1 𝑐 Φ𝑔 3(𝐾 − 1) 𝐾: Klassenanzahl, Φ𝑔 : Anzahl d. Freiheitsgrade Φ𝑔 = 𝑛 − 𝐾, Φ𝑗 : Freiheitsgrade je Klasse 𝑠𝑗2 : Varianzen je Klasse, 𝑐: Parameter des Barlett-Tests (für Φ𝑗 ≥ 30: 𝑐 ≈ 1) Friedmann-Test Homogenitätsuntersuchung nach zwei Einflüssen/Randbedingungen (bei einem Einfluss wird zweiter zufällig gewählt) in Form einer Datenmatrix 𝑎𝑖 → 𝑎𝑗𝑘 unterteilten SP. Voraussetzungen: SP hinreichend groß (𝑛 ≥ 30) Daten in Rangfolge transformiert (verteilungsfrei) 𝐾 𝐽 𝑘=1 𝑗=1 2 12 𝜒̂ 2 = ∑ (∑ 𝑅𝑗 ) − 3𝐽(𝐾 + 1), 𝐽 ∙ 𝐾(𝐾 + 1) Φ=𝐾−1 𝑘 𝑅 bezeichnet hier die Rangplätze der Zeilenwerte. Gleiche Identitäten sind nicht erlaubt. Wilcoxon-Paardifferenzen-Rangtest Die Prüfung, ob zwei SP aus der gleichen GG kommen, kann auch als Homogenitätsüberprüfung stattfinden (ohne Klassenunterteilung). Voraussetzungen: Symmetrie um den Median SPs von gleichem Umfang Es käme auch zur Ablehnung von 𝐻0 , falls die GG signifikant unsymmetrisch um den Median verteilt wäre. Die Daten müssen zunächst paarweise geordnet werden. Aus den Differenzen 𝑎𝑖 (𝐴) − 𝑎𝑗 (𝐵) errechnet man nun 𝑁 (Anzahl unterschiedlicher Differenzen), 𝑅+ bzw. 𝑅− (Rangplatzsummen der Vorzeichen) und 𝑇 (𝑇 = min(𝑅+ , 𝑅− )). 𝑁(𝑁 + 1) |𝑅 − | 4 𝑧̂ = √𝑁(𝑁 + 1)(2𝑁 + 1) 24 KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 20 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Zeitreihenanalyse Zeitreihen sind zeitlich geordnete Folgen von Beobachtungen (Messungen) 𝑦𝑡 : 𝑡 ∈ 𝑇. Alle Daten sind als Funktion der Zeit gegeben (hier schlicht äquidistante Zeitreihen). Nicht-zyklische Variationsanteile Manchmal werden diese auch als transiente Variabilität bezeichnet. Keine relativen Maxima und Minima Monotone Zeitreihe Trend (linear und nicht-linear): Langfristige Entwicklung Zyklische Variationsanteile Weisen (in regelmäßigen Abständen) relative Maxima und Minima auf. Periodische Variationen: 𝑦𝑡 = 𝑦𝑡+𝑇 (nicht nur Perioden, auch Amplituden sind exakt konstant) Zyklische Variationen: 𝑦𝑡 ≈ 𝑦𝑡+𝑇̅ Stochastische Komponente Zufallsschwankungen (Restkomponente) durch einmalige und zufällige Einflüsse. Ursache, Zeitpunkt und Stärke sind schwer/nicht abschätzbar Zufallseigenschaft sollten durch Test auf NV geprüft werden Evtl. signifikant abweichende Extremwerte Aufgaben der Zeitreihenanalyse Aufdecken und Separation charakteristischer Variationskomponenten Analyse der bisherigen Entwicklung Kontrolle (Steuerung oder Regelung) der Prozesse Prognosen erstellen Schwierigkeiten sind, dass Zeitreihen sich nicht genau bzgl. eines Typs determinieren lassen, Überlagerung von Typen vorkommen (Superposition) und sie diskret, mit endlicher Länge vorliegen. Ein Zyklus bzw. eine Periode lässt sich nur dann erfassen, wenn mindestens drei Extremwerte in das Beobachtungsintervall fallen. Stochastische Prozesse Mathematische Beschreibung von (unendlich), zeitlich angeordneten, zufälligen Vorgängen. Ein Prozess {𝑌𝑡 }𝑡=0,1,,2… heißt auch datenerzeugender Prozess der Zeitreihe 𝑦0 , 𝑦1 , 𝑦2 ,… und wird vereinfachend bei 𝑡 = 0 begonnen. Fehlerterme 𝜖𝑡 werden oft als stochastische Prozesse dargestellt. Hier werden Auswirkungen unbeobachteter Variablen implementiert, sowie Messfehler und Zufallsprozesse. Häufig wird das weiße Rauschen als Fehlerterm verwendet. Weißes Rauschen Der einfachste stochastische Prozess: 𝜖~𝑊𝑁(0, 𝜎𝜖2 ) („White Noise“). KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 21 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Weißes Rauschen von normalverteilten Zufallszahlen (Gaußsches weißes Rauschen) Markow-Kette Spezieller stochastischer Prozess mit „kurzem Gedächtnis“ (Zustandswahrscheinlichkeit ist abhängig von vorherigem Zustand, aber nicht vom gesamten Prozess), was die Prognose nach kurzer Beobachtungszeit ebenso gut wie nach Beobachtung des gesamten Prozesses macht. Random-Walk Dies ist eine „Irrfahrt“ mit Drift, wenn mit Konstante 𝛿 und weißes Rauschen 𝜖𝑡 gilt: 𝑌𝑡 = 𝛿 + 𝑌𝑡−1 + 𝜖𝑡 Für 𝛿 = 0 ∧ 𝑌0 = 0 sind Erwartungswert und Varianz: 𝑌𝑡 = 𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ⇒ ⟨𝑌𝑡 ⟩ = ⟨𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ⟩ = ⟨𝜖𝑡 ⟩ + ⟨𝜖𝑡−1 ⟩ + ⋯ + ⟨𝜖1 ⟩ = 0 Var(𝑌𝑡 ) = Var(𝜖𝑡 + 𝜖𝑡−1 + ⋯ + 𝜖1 ) = Var(𝜖𝑡 ) + Var(𝜖𝑡−1 ) + ⋯ + Var(𝜖1 ) = 𝑡 Var(𝜖𝑡 ) = 𝑡𝜎𝜖2 Es existiert keine Drift! Für 𝛿 ≠ 0 hat 𝑌𝑡 einen Erwartungswert > 0 und damit einen Drift. Zeitreihen und stochastische Prozesse Prinzipiell sind stochastische Prozesse und Zeitreihen ein und dasselbe. Eine Zeitreihe ist eine Folge von 𝑛 Beochbactungen 𝑌𝑡 . Die Beobachtungen sind Realisationen der Zufallsvariablen 𝑌1 , 𝑌2 ,…, 𝑌𝑛 . Die Folge der Zufallsvariablen ist ein Ausschnitt des zu Grunde liegenden stochastischen Prozesses. Die GG wird mit dem stochastischen Prozess {𝑌𝑡 }𝑡=−∞,…,∞ beschrieben. Zufallsvariablen eines stochastischen Prozesses sind im Allgemeinen abhängig. Zu jedem Zeitpunkt liegt nur eine Beobachtung vor (Parameterschätzung kann verzerrt sein). Zur Parameterschätzung muss die Zeitreihe stationär sein (zeitunabhängig). Autokovarianz und Autokorrelation Wichtige Methoden sind die Autokovarianz 𝛾𝑡,𝑠 = Cov(𝑌𝑡 , 𝑌𝑠 ) = ⟨(𝑌𝑡 − 𝜇𝑡 )(𝑌𝑠 − 𝜇𝑠 )⟩ und die Autokorrelation 𝑅𝑡,𝑠 = Corr(𝑌𝑡 , 𝑌𝑠 ) = Cov(𝑌𝑡 ,𝑌𝑠 ) √Var(𝑌𝑡 )√Var(𝑌𝑠 ) ; dazu mehr in Autokorrelation, Seite 24. Stationarität stark stationärer Prozess: Verteilung hängt nicht von der Verschiebung 𝑘 ∈ 𝑇 ab. schwach stationärer Prozess (kovarianz-stationär): Erstes und zweites Moment hängen nicht von der Zeit ab. Bei (schwach) stationären Prozessen ist der Erwartungswert ∀𝑡 ∈ 𝑇 konstant, die Autokovarianz stabil gegenüber Verschiebungen und die Varianz konstant. Wenn Zeitreihen nicht stationär sind, erzeugen viele Testverfahren (F-Test, t-Test, …) verzerrte Schätzer. Es bestünde die Gefahr von Scheinregression. Im nachfolgenden Bild (CO2 -Konzentration) ist ⟨𝑌𝑡 ⟩ nicht konstant, die Zeitreihe ist nicht stationär. Auch ein linearer Trend scheint nicht der Fall zu sein (rote Linie). KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 22 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Typen von Instationaritäten Trend: nicht Mittelwert-stationär linear polynomial exponentiell … Heteroskedastizität: nicht Varianz-stationär Periodizitäten (auch sehr lange Perioden möglich) Trend und Heteroskedastizität: nicht Mittelwert- und nicht Varianz-stationär Zu den Problemen gehört die Datenunabhängigkeit einer SP (Autokorrelation!). Erkennen stationärer Zeitreihen Subjektiv durch Zeitreihenplot Autokorrelationsfunktion (auch partiell) Tests Fenstertechnik (Aufteilung des Datensatzes, berechnen der Merkmale und Vergleich) Der Zeitreihenplot sollte Ausgangspunkt jeder Zeitreihenanalyse sein. Sie sind wichtige Analyseinstrumente, die aber mit Vorsicht interpretiert werden sollten. Methoden zur Beschreibung von Zeitreihen Lagged Scatterplot Streudiagramm Lineare Abhängigkeit von der Vergangenheit direkt erkennbar. Für weißes Rauschen wäre die Verteilung eine um ein Zentrum kreisförmig verteilte Abbildung von Punkten. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 23 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Korrelation und Regression allgemein Für Zusammenhänge mehrerer Kollektive kann nicht nur die Antwort „ja“ und „nein“ gefunden werden, sondern auch eine quantitative Bewertung ausgeführt werden. Bei der Korrelationsrechnung wird die Güte des Zusammenhangs von SPs durch die Gütemaßzahl des Korrelationskoeffizienten ausgedrückt. Die Regressionsrechnung dient der Ermittlung des explizitien funktionalen Zusammenhangs, welcher in einer Beziehungsgleichung ausgedrückt wird. Die Regressionsgleichung 𝑎̂ = 𝑓(𝑏, 𝑐, 𝑑, … ) basiert auf die Methode der kleinsten Quadrate, die quadratischen Abweichungen 𝑎̂𝑖 sollen minimal sein. Die Eingangsgrößen 𝑏, 𝑐,… werden als fehlerfrei angesehen. Für zwei SPs mit gleichem Umfang 𝑛𝑎 = 𝑛𝑏 und vermuteter linearer Beziehung (Gerade), bedingt eine 2-dimensionale Korrelationsrechnung. Als Maßzahl der Güte gilt ein 2-dimensionaler Korrelationskoeffizient 𝑅, mit −1 ≤ 𝑅 ≤ 1. 𝑅 = 0 bedeutet dabei, dass kein Zusammenhang besteht, |𝑅| = 1 wäre ein vollkommener Zusammenhang. Bei der Interpretation der Korrelationsanalyse ist es häufig sinnvoll statt 𝑅 das Quadrat, das sogenannte Bestimmtheitsmaß 𝑅2 anzugeben (auch erklärte Varianz). Dieses gibt die gemeinsame Varianz der analysierten SPs an, wobei es meist prozentual angegeben wird (𝑅2 ∙ 100%). Das Residuum 1 − 𝑅2 ist die nicht erklärte Varianz. Für 𝑅 = 0,7 ⇒ 𝑅2 = 49 % folgt, dass er weniger als 50 % der erfassten Varianz erklärt. Wichtig sind folgende Punkte für den linearen Korrelationskoeffizienten: Er setzt (neben Linearität) die NV für SP und GG voraus. Er setzt Datenunabhängigkeit innerhalb der SPs voraus. Er kann durch andere Größen beeinflusst werden (⇒ 2-D-Rechnung unvollständig/falsch) Er gilt nur für die SPs und nicht sofort für die GG und damit für den Prozess allgemein Man sollte niemals Daten ohne deterministischem (z.B. physikalischen) Zusammenhang korrelieren! Autokorrelation Die Korrelation allgemein ist ein Begriff aus der Signalverarbeitung. Hierbei wird eine Faltung zweier Funktionen ausgeführt. Im Endeffekt kann man eine Abhängigkeit der beiden Signale zueinander ablesen. Die Autokorrelation beschreibt die Übereinstimmung eines Signals mit sich selbst bezüglich der Zeit. Sie beginnt typischerweise bei 𝑘 = 1 an der Stelle 𝑥 = 0 (für eine 𝑥-Achse auf der die „Lags“ (Verschiebungen) aufgetragen werden); an dieser Stelle wird das Rauschen abgebildet – Rauschen ist stets mit sich selbst ident, deshalb ist hier stets eine 1 gegeben, da alles Rauschen auf der Stelle 𝑡 = 0 abgebildet wird. Die unverschobene Folge ist sozusagen mit sich selbst ident. Ist eine Verschiebung in sich selbst zu erkennen, indem ein Maximum (Annäherung an 1 oder −1) auftritt, so ist das gleich einer Periodizität des Signals. Ist zum Beispiel ein Signal vorher mit der Zeit gemessen worden, also mit 𝑡 in Minuten, so ist für eine gute Übereinstimmung bei 𝑘 = 30 als Verschiebung eine Periodizität mit 30 min gefunden worden. Eine Autokorrelation sollte stets normiert sein und nimmt Werte von −1 bis 1 an. Die Anzahl der 𝑥-Werte entspricht der Anzahl der Eingangswerte. Wenn eine Zeitreihe verschoben wird (SP wird „kürzer“), gibt es neue Mittelwerte und Standardabweichungen. Empirische Richtwerte sind: Maximaler Lag: 𝑛⁄2 Vorsichtiger Lag: 𝑛⁄3 𝑛 ≥ 30, besser 𝑛 ≥ 100 Die Autokorrelation 𝜌𝑡,𝑠 mit 𝑠 = 𝑡 − 𝑘, 𝑘 ∈ {0, ±1, ±2, … } gibt die Abhängigkeit von 𝑌𝑡 zu 𝑌𝑡−𝑘 an (Verschiebung 𝑘); mit der Autokovarianz 𝛾𝑘 . Die Autokorrelation ist so einheitenlos normiert. stationär Cov(𝑌𝑡 , 𝑌𝑡−𝑘 ) 𝑅𝑡,𝑘 = ⏞ 𝑅𝑘 = Corr(𝑌𝑡 , 𝑌𝑡−𝑘 ) = √Var(𝑌𝑡 ) √Var(𝑌𝑡−𝑘 ) KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 24 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG stationär 𝛾𝑡,𝑘 = ⏞ 𝛾𝑘 = Cov(𝑌𝑡 , 𝑌𝑠 ) = ⟨(𝑌𝑡 − 𝜇𝑡 )(𝑌𝑡−𝑘 − 𝜇𝑡−𝑘 )⟩ Für stationäre Prozesse gilt: 1) Autokovarianz nur von 𝑘 abhängig (𝛾𝑡,𝑘 = 𝛾𝑘 = 𝛾−𝑘 ) 2) 𝜎 ist unabhängig von Zeitpunkt (Produkt der Standardabweichungen im Nenner ist Varianz der Zufallsvariablen) 3) 𝛾0 = Cov(𝑌𝑡 , 𝑌𝑡 ) = Var(𝑌𝑡 ) und 𝜌𝑘 = 𝛾𝑘 ⁄𝛾0 Daten müssen äquidistant vorliegen; Lücken sind ein Problem! Wenn die Zeitreihe nicht stationär ist, sind die Autokorrelationen stark positiv (zeitlich benachbarte Punkte liegen tendenziell auf derselben Seite des arithmetischen Mittels). Eine Interpretation ist unzulässig. Für eine Zufallszeitreihe (stationär) sind die theoretischen Autokorrelationen gleich 0, die Schätzungen aber ≠ 0. Für lange Zeitreihen gilt, dass die geschätzte Autokorrelation normalverteilt (Standardfehler 1⁄√𝑛) ist, sie liegt deshalb (𝑝 = 95%) innerhalb des Bandes ± 2⁄√𝑛. Empirische Autokorrelationen innerhalb des Bandes ± 2 √𝑛 werden als zufällig verschie- den, außerhalb als tatsächlich verschieden von Null betrachtet. Durbin-Watson-Test 𝑁0 bedeutet, es liegt keine Autokorrelation vor. Mit 𝜖𝑡 als Residuen der Regression in der 𝑡ten Periode gilt: ∑𝑇𝑡=2(𝜖𝑡 − 𝜖𝑡−1 )2 𝑑̂ = ∑𝑇𝑡=2 𝜖𝑡2 𝑑 → 0: positive Autokorrelation, 𝑑 → 2: keine Autokorrelation, 𝑑 → 4: negative Autokorrelation Kreuzkorrelation Für die Kreuzkorrelation werden zwei Signale gegeneinander korreliert. Hier sind natürlich auch die Erkenntnisse der Autokorrelation wichtig, aber einen entscheidenden Faktor kann man außerdem Ablesen: Die Hauptverschiebung. Meist (wenn es eine Verbindung der Signale gibt) ist ein Maximum in der Nähe von 0 zu finden. Die Abweichung von 0 ist nun die Verschiebung der beiden Signale, so kann zum Beispiel ein Signal dem anderen zeitlich nachlaufen. Zum Beispiel kann man für ein Radarsignal die zurückgeworfene Welle hiermit analysieren und über die Verschiebung auf die Entfernung eines z.B. Flugzeugs schließen. In der Astrophysik kann man mit der gleichen Arbeitsweise Dopplerverschiebungen von Spektren analysieren. Die Kreuzkorrelation 𝑅𝐶,𝑘 für 𝑘 ∈ {0, ±1, ±2, … } beinhaltet die Kreuzkovarianz. Cov(𝑌1,𝑡 , 𝑌2,𝑡−𝑘 ) 𝑅𝐶,𝑘 = √Var(𝑌1,𝑡 ) √Var(𝑌2,𝑡−𝑘 ) Cov(𝑌1,𝑡 , 𝑌2,𝑡−𝑘 ) = ⟨(𝑌1,𝑡 − 𝜇1,𝑡 )(𝑌2,𝑡−𝑘 − 𝜇2,𝑡−𝑘 )⟩ Kreuzkorrelationen werden auch oft nicht normiert angegeben, teils sogar logarithmisch. Grafische Korrelationsanalyse Hier ist links die normale Autokorrelation eines Signals gezeigt, rechts die Kreuzkorrelation: KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 25 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Mögliche Reduktion der Freiheitsgrade berücksichtigen Eventuell Modifikationen bei Problemen (z.B. keine NV, nicht-lineare Zusammenhänge) Methode der kleinsten Fehlerquadrate (Leastsquares) Zum Auffinden unbekannter Parameter einer Funktion aus gemessenen Daten kann die Leastsquares-Methode verwendet werden. Für eine Messung eine Größe 𝑥 mit Werten 𝑦𝑖 und Fehler 𝜖𝑖 gilt die Minimierungsfunktion. Der beste Schätzer 𝑥̃ und die Varianz 𝜎 2 sind je nach Voraussetzungen unterschiedlich. Messung gleicher Genauigkeit Die Messfehler sind normalverteilt mit 𝑦𝑖 = 𝑥 + 𝜖𝑖 ∧ ⟨𝜖𝑖 ⟩ = 0 ∧ ⟨𝜖𝑖2 ⟩ = 𝜎 2. 𝑀 = ∑(𝑦𝑖 − 𝑥)2 = ∑ 𝜖𝑖2 = min 𝑖 𝑖 1 𝑥̃ = 𝑦̅ = ∑ 𝑦𝑖 , 𝑛 𝜎 2 (𝑥̃) = 𝑖 𝜎2 𝑛 Messung unterschiedlicher Genauigkeit Die Messfehler sind normalverteilt mit 𝑦𝑖 = 𝑥 + 𝜖𝑖 ∧ ⟨𝜖𝑖 ⟩ = 0 ∧ ⟨𝜖𝑖2 ⟩ = 𝜎 2 ⁄𝑔𝑖 . (𝑦𝑖 − 𝑥)2 𝑀=∑ = ∑ 𝑔 ∙ (𝑦𝑖 − 𝑥)2 = ∑ 𝑔𝑖 𝜖𝑖2 = min 𝜎𝑖2 𝑖 𝑖 ∑𝑖 𝑔𝑖 𝑦𝑖 𝑥̃ = , ∑𝑖 𝑔𝑖 1 𝜎 2 (𝑥̃) = (∑ 2 ) 𝜎𝑖 𝑖 −1 𝑖 −1 = (∑ 𝑔𝑖 ) 𝑖 Indirekte Messungen Bei Betrachtung mehrerer Unbekannter 𝑥𝑖 gilt 𝑓𝑗 = 𝜂𝑗 + 𝑎𝑗,0 + 𝑎𝑗,1 𝑥1 + 𝑎𝑗,2 𝑥2 + ⋯ + 𝑎𝑗,𝑟 𝑥𝑟 . Man kann auch 𝑓𝑗 = 𝜂𝑗 + 𝑎𝑗,0 + 𝑎𝑗T 𝑥 oder 𝑓 + 𝜂 + 𝑎0 + 𝐴̂𝑥 = 0 schreiben. Mit einer diagonalen Kovarianzmatrix 𝐶̂𝑦 und Gewichtsmatrix 𝐺̂𝑦 gelten: 𝜂1 𝑎10 𝑎11 𝑎12 ⋯ 𝑥1 ̂ 𝜂 𝑎 𝑎 𝑓 + 𝜂 + 𝑎0 + 𝐴𝑥 = 0 = 𝑓 + ( 2 ) + ( 20 ) + ( 21 𝑎22 ⋯) (𝑥2 ) ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 𝜎12 0 ⋯ 𝑔 0 ⋯ 1 1 𝐶̂𝑦 = 𝐶̂𝜖 = ( 0 𝜎22 ⋯) mit 𝜎𝑗2 = , 𝐺̂𝑦 = 𝐺̂𝜖 = 𝐶𝜖−1 = ( 0 𝑔2 ⋯) 𝑔𝑗 ⋮ ⋮ ⋱ ⋮ ⋮ ⋱ Für die Vektordarstellung der Messung mit Fehler gilt 𝑦 = 𝜂 + 𝜖 und damit 𝑦 − 𝜖 + 𝑎0 + 𝐴̂𝑥 = 0. Es folgt die Minimierungsfunktion Min: 𝑛 Min = ∑ 𝑗=1 𝜖𝑗2 𝜎𝑗2 2 =∑ 𝑗 (𝑦𝑗 + 𝑎𝑗T 𝑥 + 𝑎𝑗0 ) 𝜎𝑗2 T T = (𝑦 + 𝑎0 + 𝐴̂𝑥 ) 𝐺̂𝑦 (𝑦 + 𝑎0 + 𝐴̂𝑥 ) = (𝑐 + 𝐴̂𝑥 ) 𝐺̂𝑦 (𝑐 + 𝐴̂𝑥 ) = 𝜖 T 𝐺𝑦 𝜖 Mit 𝑐 = 𝑦 + 𝑎0 und 𝜖 = 𝑦 + 𝑎0 + 𝐴̂𝑥 . Die positiv-definite, symmetrische Matrix 𝐺̂ kann aus 𝐺̂𝑦 = ̂T𝐻 ̂ zusammengesetzt werden. Es ist: 𝐻 1⁄𝜎1 0 ⋯ 2 ̂T 𝐻 ̂, ̂=( 0 ̂ 𝐴̂)𝑥 + 𝐻 ̂𝑐) 𝐺̂𝑦 = 𝐻 𝐻 ⇒ 𝑀𝑖𝑛 = ((𝐻 1⁄𝜎2 ⋯) , ⋮ ⋮ ⋱ KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 26 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Zur Bestimmung der geschätzten Fitparameter 𝑥̃ gilt: −1 𝑥̃ = −(𝐴̂T 𝐺̂𝑦 𝐴̂) 𝐴̂T 𝐺̂𝑦 𝑐 Die verbesserten Abweichungen, Messwerte und die Kovarianzmatrix des Schätzers sind: −1 ̂ T ̂ ̂ −1 𝜖̃ = 𝐴̂𝑥̃ + 𝑐 , 𝜂̃ = 𝑦 − 𝜖̃ = 𝐴̂(𝐴̂T 𝐺̂𝑦 𝐴̂) 𝐴̂T 𝐺̂𝑦 𝑐 − 𝑎0 , 𝐺̂ −1 ̃ = (𝐴 𝐺𝑦 𝐴) 𝑥 Bei 𝐺̂𝑥−1 ̂̃ können die Wurzeln der Diagonalelemente als Messfehler genommen werden. Anwendungshinweise Für typische Geraden- und Polynomfits ist folgende Vorgehensweise zielführend: 1 ↓ 𝑡 ↓ 𝑡2 ↓ 1 𝑡1 𝑡12 𝐴̂𝑥 = 𝑦, 𝐴̂: nach Modell definieren (minus beachten!) z.B.: 𝐴̂ = − ( 1 𝑡2 𝑡22 ) ⋮ ⋮ ⋮ Gewichtungen hinzufügen: 1⁄𝜎1 0 ⋯ ̂T𝐻 ̂, ̂=( 0 ̂ 𝐴̂, ̂𝑦 𝐺̂ = 𝐻 𝐻 𝐴̂′ = 𝐻 𝑦′ = 𝐻 1⁄𝜎2 ⋯) , ⋮ ⋮ ⋱ Ergebnisse berechnen: −1 −1 T T 𝐶̂ = (𝐴̂′T 𝐴̂′ ) , 𝑥̃ = 𝐶̂ ∙ 𝐴̂′ 𝑦 ′ = −(𝐴̂′T 𝐴̂′ ) 𝐴̂′ 𝑦 ′ Fehler berechnen: T Δ𝑥̃ = √(𝐶1,1 , 𝐶2,2 , 𝐶3,3 , … ) Verbesserte Messwerte könnte man mit 𝜂̃ = −𝐴̂𝑥̃ und deren Fehler mittels 𝐶𝜂⃗̃ = 𝐴̂𝐶̂ 𝐴̂T , wobei die Wurzel der Diagonalelemente die Fehler für 𝜂̃ angeben. Trends Wie bereits erwähnt können diese in verschiedenen Formen (linear, polynomial, exponentiell, logarithmisch, …) vorliegen. 𝑋𝑡 = 𝑓(𝑡, 𝑢𝑡 ), 𝑢𝑡 : Zufallsprozess/Störung Hier wird von unkorrelierten, unabhängigen 𝑢𝑡 -Störungen ausgegangen. Für die Abschätzung gibt es zwei Möglichkeiten: globale Anpassung: Alle Beobachtungen gehen in die Trendabschätzung ein. lokale Anpassung: Die nächste Nachbarschaft gehen in die Trendabschätzung ein. Gleitendes Mittel Voraussetzung: Messung ist zeitabhängig 𝑦 = 𝑦(𝑡) (äquidistant vorliegend) 𝑦 besteht aus zwei Termen 𝑦𝑖 = 𝜂𝑖 + 𝜖𝑖 𝑖+𝑘 1 𝑢𝑖 = ∑ 𝑦𝑗 2𝑘 + 1 𝑗=𝑖−𝑘 𝑢𝑖 : ungewichtete Mittel zu Zeiten 𝑡𝑖−𝑘 , … , 𝑡𝑖−1 , 𝑡𝑖 , 𝑡𝑖+1 , … , 𝑡𝑖+𝑘 Mittels Leastsquares-Methode lässt sich ein gleitendes Mittel „gewichten“ und auch mit anderen Funktionen, zum Beispiel mit einem Polynom beschreiben. Bei gleich genauen Messungen ist 𝐺̂ ein Vielfaches der Einheitsmatrix und man kann sich die Gewichtung sparen. Man benö−1 tigt nur die erste Zeile der Matrix −(𝐴̂T 𝐴̂) , welche als 𝑎 beschrieben wird: 𝑢𝑖 = 𝑎 𝑦𝑖 = 𝑎1 𝑦𝑖−𝑘 + 𝑎2 𝑦𝑖−𝑘+1 + ⋯ + 𝑎2𝑘+1 𝑦𝑖+𝑘 Gleitende Mittel können nur als Schätzung des Trends für jene Punkte benutzt werden, die links und rechts je 𝑘 benachbarte Messungen besitzen. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 27 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Fourier-Analyse Die Fourier-Analyse ist die Verteilung der Gesamtvarianz als Funktion der Frequenz. Die Datenfolge wird so in einzelne harmonische Komponenten zerlegt, dass sie bei zusammenfügen wieder die Zeitreihe ergeben würde. Es ist eine Darstellung in Sinus/Cosinus-Funktionen. 𝜋 Jede Funktion 𝑓: [−𝜋, 𝜋] → ℂ mit ∥ 𝑓 ∥2 = ∫−𝜋|𝑓(𝑡)|2 𝑑𝑡 < ∞, also (stückweise) stetige Funktion, lässt sich als Fourier-Reihe des Orthogonalsystems {𝑒𝑘 }∞ 𝑘=−∞ darstellen. 𝐾 Für Koeffizienten {𝑐𝑘 } mit ∥ 𝑓 − ∑𝑘=−𝐾 𝑐𝑘 𝑒𝑘 ∥→ 0 ∀ 𝐾 → ∞ kann die Orthogonalität verwendet werden, um diese zu berechnen: 1 1 𝜋 −𝑖𝑘𝑡 ⟨𝑒𝑘 , 𝑓⟩ = 𝑐𝑘 = ∫ 𝑒 𝑓(𝑡)𝑑𝑡 2𝜋 2𝜋 −𝜋 Für 𝑘 = 0 ist 𝑒0 (𝑡) = 1 und somit 𝑐0 = 1 2𝜋 ⟨𝑒0 , 𝑓⟩ = 1 𝜋 ∫ 𝑓(𝑡)𝑑𝑡, 2𝜋 −𝜋 also der Mittelwert von 𝑓. Frequenzfixierte Funktion ∞ ∞ Die Fourier-Reihe ist 𝑓(𝑡) = ∑∞ −∞ 𝑐𝑘 𝑒𝑘 (𝑡) = ∑−∞ 𝑐𝑘 (cos(𝑘𝑡) + 𝑖 sin(𝑘𝑡)) , damit 𝑓(𝑡) = 𝑐0 + ∑1 (𝑐𝑘 + 𝑐−𝑘 ) cos(𝑘𝑡) + 𝑖 ∑∞ 1 (𝑐𝑘 − 𝑐−𝑘 ) sin(𝑘𝑡). Fundamental sind: ∞ 𝑎0 ≔ 𝑐0 𝑎 𝑎𝑘 ≔ 𝑐𝑘 + 𝑐−𝑘 } ⇒ 𝑓(𝑡) = 0 + ∑[𝑎𝑘 cos(𝑘𝑡) + 𝑏𝑘 sin(𝑘𝑡)] 2 𝑏𝑘 ≔ 𝑖(𝑐𝑘 − 𝑐−𝑘 ) 𝑘=1 ∞ 1 𝑓(𝑡) = 𝑓(−𝑡) "gerade" ⇒ 𝑓(𝑡) = (𝑓(𝑡) + 𝑓(−𝑡)) = ∑ 𝑎𝑘 cos(𝑘𝑡) 2 𝑘=0 ∞ 1 𝑓(𝑡) = −𝑓(−𝑡) "ungerade" ⇒ 𝑓(𝑡) = (𝑓(𝑡) − 𝑓(−𝑡)) = ∑ 𝑏𝑘 sin(𝑘𝑡) 2 𝑘=1 Frequenzbedingte Funktion Für Periodendauer 𝑇 und 𝑡 = 𝑇𝜃 ⁄2𝜋 sind Fourier-Reihe und Koeffizienten wie folgt: ∞ 𝑎0 𝑓(𝑡) = + ∑[𝑎𝑘 cos(𝑘𝜔𝑡) + 𝑏𝑘 sin(𝑘𝜔𝑡)] , 2 𝜃 = 𝜔𝑡 𝑘=1 𝑇 2 +2 𝑎𝑘 ≔ ∫ 𝑓(𝑡) cos(𝑘𝜔𝑡) 𝑑𝑡 , 𝑇 −𝑇 2 𝑇 2 +2 𝑏𝑘 ≔ ∫ 𝑓(𝑡) sin(𝑘𝜔𝑡) 𝑑𝑡 𝑇 −𝑇 2 Voraussetzungen sind Dirichlet-Bedingungen: Es handelt sich um eine periodische Funktion mit Periodendauer 𝑇 Funktion hat eine endliche Anzahl an Unstetigkeitsstellen Funktion hat eine endliche Anzahl finiter Maxima und Minima 𝜋 Das Integral ∫−𝜋|𝑓(𝜃)|𝑑𝜃 ist endlich Ablauf der Fourier-Transformation: Klären, ob die Funktion gerade oder ungerade ist Zunutze machen der Symmetrieeigenschaften Berechnung der Fourier-Koeffizienten KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 28 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Exponentielle Form 1 1 Diese erhält man über die Eulergleichungen sin(𝑘𝜔𝑡) = (𝑒 𝑖𝑘𝜔𝑡 − 𝑒 −𝑖𝑘𝜔𝑡 ) ∧ cos(𝑘𝜔𝑡) = (𝑒 𝑖𝑘𝜔𝑡 + 2𝑖 2 𝑒 −𝑖𝑘𝜔𝑡 ). 𝑇 ∞ 𝑓(𝑡) = ∑ 𝑐𝑘 𝑒 𝑖𝑘𝜔𝑡 , 𝑘=−∞ 1 2 𝑐𝑘 = ∫ 𝑓(𝑡)𝑒 𝑖𝑘𝜔𝑡 𝑑𝑡 𝑇 −𝑇 2 Die Fourier-Reihe kann hier negative Werte von 𝑘 beinhalten. Diese haben keinerlei physikalische Relevanz, sondern sind schlicht eine Folge des Formalismus, der Sinus- und Kosinusfunktionen in Paare von Exponentialfunktionen überführt. Fourier-Integral ∞ 𝐹(𝜔) = ℱ(𝑓(𝑡)) = ∫ 𝑓(𝑡)𝑒 −𝑖𝜔𝑡 𝑑𝑡 , 𝑓(𝑡) = ℱ −1 (𝐹(𝜔)) = −∞ 1 ∞ ∫ 𝐹(𝜔)𝑒 𝑖𝜔𝑡 𝑑𝜔 2𝜋 −∞ 𝐹(𝜔) = ℱ(𝑓(𝑡)) ist die Fourier-Transformierte von 𝑓(𝑡), 𝑓(𝑡) = ℱ −1 (𝐹(𝜔)) wiederum ist die inverse Fourier-Transformation von 𝐹(𝜔). Die Fourier-Synthese bedeutet, dass ich durch die Inverse das komplette Ausgangssignal rekonstruieren kann. Bei Zeitverschiebung ändert sich die Phase Ψ𝑘 , die Amplitude 𝑅𝑘 bleibt gleich. Das Amplitudenspektrum ist die Auftragung von 𝑅𝑘 über 𝜔𝑘. Das Betragsquadrat 𝐹(𝜔)𝐹 ∗ (𝜔) = |𝐹(𝜔)|2 des Amplitudenspektrums wird als Leistungsdichtespektrum (Powerspektrum) bezeichnet. Dies beinhaltet keine Informationen über die Phase mehr. Das Powerspektrum ist symmetrisch; für nur positive Anteile ist darauf zu achten, dass man deshalb eventuell einen Faktor 2 zur Energieerhaltung einbringen muss. Abtasttheorem Es gelten folgende Bezeichnungen: Abtastintervall: Zeitschritt zwischen zwei Abtastpunkten Δ𝑡 Abtastfrequenz: 1⁄Δ𝑡 diskretes Signal: Abtastung verwandelt kontinuierliches in diskretes Signal Das Abtasttheorem (Shannon-Theorem) besagt, dass man das ursprüngliche Signal fehlerfrei aus den abgetasteten Werten rekonstruieren kann, solange die Abtastfrequenz mindestens doppelt so groß, wie die im Signal enthaltene Maximalfrequenz ist. Die minimale Abtastfrequenz wird auch Nyquist-Frequenz genannt. 𝑓𝑁 = 2 ∙ max(𝑓𝑆𝑖𝑔𝑛𝑎𝑙 ) Das Aliasing bezeichnet Fehler, die auf höhere Signalfrequenzen (als die Abtastfrequenz es zulässt) zurückzuführen sind. Zero-Padding Hier werden schlicht Nuller an das Signal angehängt. Die Fourier-Transformierte wird dadurch nicht qualitativ verändert, die Dichte im Powerplot wird allerdings erhöht. Man nutzt dies auch oft, damit man eine Anzahl von 𝑛 = 2𝑥 Datenpunkten bekommt, da dies die Fourier-Transformation bezüglich ihrer Performanz stark verbessert. Hauptkomponentenanalyse Diese gehört zu den multivariaten Analyseverfahren. Mehrere Variablen werden gleichzeitig untersucht Zusammenhänge/Abhängigkeiten der Variablen werden gesucht Erkennen/extrahieren einer Struktur der Daten Reduzierung der Zahl der Variablen möglichst ohne Informationsverlust KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 29 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Mathematisches Verfahren, bei dem kein statistisches Modell zur Erklärung der Fehlerstruktur verlangt wird Zusammenfassung: Die Hauptkomponentenanalyse ist eine orthogonale Transformation im p-dimensionalen Raum der Originalvariablen in eine neue Variablenmenge. Diese Methode liefert Information über die Struktur der Daten. Sie kann zu einer Reduktion der Anzahl der Variablen führen und oft ist es sinnvoll, nur die wichtigsten Hauptkomponenten in weiterführenden Analysen zu verwenden. Aufbau Die Datenmatrix 𝑋̂ mit 𝑛-Daten an 𝑝 Orten (zum Beispiel) wird in zwei Komponenten 𝐹̂ und 𝐴̂ zerlegt. 𝐹̂ enthält die Hauptkomponenten, 𝐴̂ erklärt das Muster. Danach reduziert man auf 𝑘 Variablen. ̂𝑛×𝑘 𝐴̂T𝑘×𝑝 + 𝐸⏟ ̂𝑛×𝑝 𝑋̂𝑛×𝑝 = 𝐹̂𝑛×𝑝 𝐴̂T𝑝×𝑝 ⇒ 𝑋̂𝑛×𝑝 = 𝐹 ⏟ Reduktion Fehler Die Hauptkomponentenanalyse transformiert einen Datensatz mit bestimmten “Variablen” (müssen nicht physikalisch sein) in eine neue Menge unkorrelierter Variablen. Nun wird eine Eigenwertzerlegung durchgeführt. Der Eigenvektor mit dem größten Eigenwert zeigt in die gleiche Richtung wie die erste Hauptkomponente, der Eigenvektor mit dem zweitgrößten Eigenwert zeigt in die gleiche Richtung wie die zweite Hauptkomponente und steht senkrecht auf den ersten. Spinnt man dies weiter, entsteht ein neuer Satz unkorrelierter künstlicher Variablen. Die erste Komponente erklärt am meisten Varianz der Daten, die zweite am meisten der Restvarianz, usw.! Die erste Hauptkomponente 𝑓1 = 𝑎1T 𝑥 besteht aus dem Eigenvektor 𝑎1 der Kovarianzmatrix Σ und dem Datenvektor 𝑥 . Die Varianz der ersten Hauptkomponente ist gleich dem Eigenwert 𝜆1 . Die zweite Hauptkomponente 𝑓2 = 𝑎2T 𝑥 besteht aus dem Eigenvektor 𝑎2 der Kovarianzmatrix Σ und dem Datenvektor 𝑥 . Die Varianz der zweiten Hauptkomponente ist gleich dem zweitgrößte Eigenwert 𝜆2 . Mit der Kovarianzmatrix Σ = ⟨(𝑥 − ⟨𝑥 ⟩)T ∙ (𝑥 − ⟨𝑥 ⟩)⟩ ( ⟨… ⟩ als Erwartungswert) wird gefordert, dass 𝑎T Σ 𝑎 maximal werden möge. Dieser Schritt geschieht über die Lagrange-Multiplikatoren. Vorgehen Λp×p sei die Kovarianzmatrix von 𝑓 (Σ ist jene von 𝑥), welche die Eigenwerte in der Hauptdiagonale hat. 𝜆1 0 ⋯ Λ = ( 0 𝜆2 ⋯) , Λ = 𝐴̂T Σ𝐴̂ ∧ Σ = 𝐴̂Λ𝐴̂T ⋮ ⋮ ⋱ p 𝑝 𝑝 ∑ Var(𝑓𝑖 ) = ∑ 𝜆𝑖 = Spur(𝛬) = Spur(Σ) = ∑ Var(𝑥𝑖 ) i=1 𝑖=1 𝑖=1 Die Summe der Varianzen der ursprünglichen Variablen ist ident mit der Summe der Varianzen der Hauptkomponenten. 𝑝 Die 𝑖-te Hauptkomponente erklärt (𝜆𝑖 ⁄∑𝑗=1 𝜆𝑗 )100% der Gesamtvarianz der ursprünglichen Variablen. 𝑝 Die ersten 𝑘(𝑘 ≤ 𝑝) Hauptkomponenten erklären (∑𝑘𝑗=1 𝜆𝑗 ⁄∑𝑗=1 𝜆𝑗 )100% der Gesamtvarianz. Verwendung der Korrelationsmatrix Oft wird anstelle von der Kovarianzmatrix auch die Korrelationsmatrix verwendet. Man bekommt andere Hauptkomponenten, wenn man die Korrelationsmatrix anstelle der Kovarianzmatrix verwendet. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 30 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Datenanalyse und -inversion FORMELSAMMLUNG Kovarianzmatrix Σ vs. Korrelationsmatrix 𝑃̂ : Die Eigenwerte und Eigenvektoren von Σ und 𝑃̂ sind nicht ident und können nicht durch eine einfache Formel ineinander übergeführt werden! Vorteil, wenn Variablen unterschiedliche Einheiten haben Vorteil, wenn die Zufallsvariablen stark streuen Nachteil der Verwendung der Korrelationsmatrix: oft schwieriger zu interpretieren Korrelationskoeffizient nicht berechnen: wenn die Beziehung zwischen zwei Variablen offensichtlich nicht-linear ist Verwenden Sie die Kovarianzmatrix, wenn alle Variablen die selbe Einheit haben Probleme Auch bei ändern der Einheit der Eingangswerte ändern sich die Hauptwerte: Die Hauptkomponenten hängen von der Skalierung ab. Nachteil der Hauptkomponentenanalyse: Die Ergebnisse der Hauptkomponenten sind abhängig von der Skalierung und daher nicht eindeutig Praktisches Vorgehen Betrachten Sie die Korrelationsmatrix und achten Sie darauf, ob es offensichtliche Gruppen in den Variablen mit hohen Korrelationen gibt. Wenn alle Korrelationen annähernd Null sind, dann ist eine Hauptkomponentenanalyse nicht angebracht. Berechnen Sie die Kovarianz- oder Korrelationsmatrix. Berechnen Sie die Eigenwerte und Eigenvektoren der Matrix. Betrachten Sie die Eigenwerte und entscheiden Sie, wie viele der Eigenwerte wirklich “groß” sind. Diese Zahl gibt Ihnen die effektive Dimension der Daten an. Schauen Sie, ob die Hauptkomponenten Ihnen Hinweise auf Gruppierungen der Variablen geben und versuchen Sie die Hauptkomponenten zu interpretieren. Benutzen Sie die Hauptkomponentenanalyse für weitere Analysen um damit die Dimension der Daten zu reduzieren. Mittelwertkorrektur Manchmal ist es zweckmäßig den Erwartungswert abzuziehen: 𝑓 = 𝐴̂T (𝑥 − 𝜇). Die Daten werden zuerst verschoben bevor die Transformation in die Hauptkomponenten durchgeführt wird. Wenn die Daten nur verschoben werden, dann ändert sich die Kovarianzmatrix nicht, d.h. Eigenwerte und Eigenvektoren ändern sich nicht. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 31 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Übung zur Datenanalyse und –inversion FORMELSAMMLUNG Übung zur Datenanalyse und –inversion In R und Python Grafischer Umgang mit Daten Zunächst können die Dichtefunktion und die empirische Verteilungsfunktion (kumulativ) geplottet werden. Für einen Datensatz „data“ mit der Spalte „Wert“ sieht der Code in r wie folgt aus: plot(density(data$Wert,na.rm=TRUE),col=’red’) plot(ecdf(data$Wert,na.rm=TRUE),col=’blue’) Mutungsbereich-Schätzung (Normalverteilung) Für diverse Wahrscheinlichkeiten gibt es unterschiedliche z-Werte (Tabelle). r-Code: mean <- mean(data$Wert,na.rm=TRUE) sd <- sd(data$Wert,na.rm=TRUE) n <- length(data$Wert) z <- 1.96 # z-Wert fuer p = 0.95 MuMeanz <- z*sd/sqrt(n) MuSDz <- z*sd/sqrt(2*n) Man kann auch mit dem t-Wert den Mutungsbereich schätzen; diese Version ist vorsichtiger. r-Code: mean <- mean(data$Wert,na.rm=TRUE) sd <- sd(data$Wert,na.rm=TRUE) n <- length(data$Wert) t <- 1.98 # t-Wert fuer p = 0.95 MuMeant <- t*sd/sqrt(n) MuSDt <- t*sd/sqrt(2*n) Soll der Mutungsbereich nicht ungenauer sein, als ein bestimmter Wert, so muss eine bestimmte Anzahl an Messungen vorliegen. r-Code: n95 <- z**2*sd**2/0.1**2 Das Ergebnis gibt die Anzahl der notwendigen Messungen. Zur Überprüfung kann noch zurückgerechnet werden, indem man die originale Anzahl mit dem Wert der notwendigen Anzahl berechnet. r-Code: nOrig <- z**2*sd**2/MuMeanz**2 n == round(nOrig) # wenn TRUE ist alles richtig KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 32 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Übung zur Datenanalyse und –inversion FORMELSAMMLUNG Hypothesenüberprüfung t-Test Hierbei ist im Speziellen der Einstichproben- bzw. Zweistichproben-t-Test auf einen Mittelwertunterschied gemeint. Einstichproben-t-Test Ein Stichprobenmittelwert wird gegen einen Sollwert verglichen. Es wird vorausgesetzt, dass die Daten einer normalverteilten Grundgesamtheit entstammen (bzw. der Umfang groß genug ist, so dass der zentrale Grenzwertsatz erfüllt ist). Zweistichproben-t-Test (Welch-Test) Prüft die Unterschiede zwischen den Mittelwerten der Grundgesamtheiten zweier Stichproben. Voraussetzung ist, dass die Daten einer Normalverteilung entstammen (bzw. der Umfang groß genug ist, so dass der zentrale Grenzwertsatz erfüllt ist). Der klassische t-Test setzt voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz entstammen. Der Welch-Test oder t-Test nach Satterthwaite ist eine Variante, die die Gleichheit der Varianzen nicht voraussetzt. r-Code: nA <- 30 nB <- 20 MeanA <- 5.7 MeanB <- 7.1 VarA <- 2.5 VarB <- 2.9 A <- rnorm(nA,MeanA,sd=sqrt(VarA)) B <- rnorm(nB,MeanB,sd=sqrt(VarB)) t <- t.test(A,B) Dabei sind die Freiheitsgrade 𝑑𝑓 = 𝑛𝐴 + 𝑛𝐵. Für gleiche Mittelwerte nähert sich der Wert 𝑝 = 1 an. Paarweisen-t-Test Für mehrere Verteilungen, die man mit dem Welch-Test vergleichen möchte, gibt es eine extra Funktion. r-Code: pairwise.t.test(Obs,Ort,pool.sd=TRUE) Shapiro-Test Hierbei wird schlicht geprüft, ob die Daten normalverteilt sind. r-Code: A <- rnorm(n=100,mean=10,sd=5) B <- rnorm(n=100,mean=10,sd=3) shapiro.test(A) shapiro.test(B) Je eher die Daten normalverteilt sind, desto eher nähert sich der Wert 𝑝 = 1. Aber je nach Umfang kann auch 0,1 noch ein gutes Ergebnis sein. Verteilungsanpassung F-Test Vergleich der Varianzen zweier Wertelisten. Für diesen Test müssen die Beiden getesteten Datensätze normalverteilt sein. KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 33 Private Mitschrift Masterstudium Physik 05.05.2017 20:15 Version 2.0 Übung zur Datenanalyse und –inversion FORMELSAMMLUNG A <- rnorm(n=100,mean=10,sd=2.1) B <- rnorm(n=100,mean=10,sd=2) var(test(A,B)) Kolmogorov-Smirnov-Test Hier kann entweder geprüft werden, ob eine Stichprobe einer vorher angenommenen Verteilung entspricht, oder aber ob zwei Stichproben derselben Grundgesamtheit entspringen. Im folgenden Beispiel wird ein Datenset auf die Übereinstimmung mit einer normalverteilten Grundgesamtheit geprüft. r-Code: GG <- rnorm(length(data$Wert),mean(data$Wert,na.rm=TRUE),sd(data$Wert,na.rm=TRUE)) ks.test(data$Wert,GG) Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung. Wilcoxon-Mann-Whitney-Test Prüfen der Signifikanz zweier Verteilungen, also ob beide Verteilungen zur selben Grundgesamtheit gehören. r-Code: wilcox.test(data$Wert1,data$Wert2) Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung. Kruskal-Wallis Test Dieser Test ist dem Wilcoxon-Mann-Whitney-Test sehr ähnlich, kann aber mehr als nur zwei Stichproben vergleichen. r-Code: kruskal.test(Temperature ~ Month,data=data) Je näher das Ergebnis 𝑝 = 1 kommt, desto eindeutiger ist die Übereinstimmung. Interessant ist, dass hier möglicherweise die Werte aus einer Beobachtungs-Grundgesamtheit stammen können, aber nicht zwangsläufig einer statistischen solchen entspringen müssen (z.B. für Temperatur: gleiche Station, aber nicht gleicher Messmonat). KFU Graz Laurenz Sproß 34 Seiten [email protected] Seite 34 Private Mitschrift Masterstudium Physik 05.05.2017 20:15