Statistische Metoden der Datenanalyse R. Frühwirth Statistische Methoden der Datenanalyse R. Frühwirth [email protected] VO 142.340 http://tinyurl.com/TU142340 Oktober 2010 R. Frühwirth Statistische Metodender Datenanalyse 1/587 Übersicht über die Vorlesung Statistische Metoden der Datenanalyse R. Frühwirth Teil 1: Deskriptive Statistik Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung R. Frühwirth Statistische Metodender Datenanalyse 2/587 Übersicht über die Vorlesung Statistische Metoden der Datenanalyse R. Frühwirth Teil 5: Testen von Hypothesen Teil 6: Regressionsanalyse Teil 7: Bayes-Statistik Teil 8: Simulation von Experimenten R. Frühwirth Statistische Metodender Datenanalyse 3/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Teil 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Deskriptive Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 4/587 Übersicht Teil 1 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Eindimensionale Merkmale 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 5/587 Abschnitt 1: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 6/587 Unterabschnitt: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 7/587 Grundbegriffe Statistische Metoden der Datenanalyse Definition von Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 1 Die Erhebung und Speicherung von Daten, z.B. durch statistische Ämter 2 Die mathematische Auswertung von Daten, z.B. die Berechnung von Maß- und Kennzahlen Deskriptive Statistik Beschreibung von vorhandenen Daten durch Maßzahlen, Tabellen, Graphiken Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 8/587 Grundbegriffe Statistische Metoden der Datenanalyse Induktive Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Untersuchung von Gesetzmäßigkeiten und Ursachen, die hinter den Daten stehen und die Daten (teilweise) erklären. Explorative Datenanalyse: Ziel ist, Hypothesen für die Theoriebildung zu gewinnen Konfirmative Datenanalyse: Ziel ist, vorhandene Theorien zu prüfen, z.B. durch Schätzen von Parametern oder Testen von Hypothesen Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 9/587 Unterabschnitt: Merkmal- und Skalentypen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 10/587 Merkmal- und Skalentypen Statistische Metoden der Datenanalyse Qualitative Merkmale R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale binär (ja/nein). Beispiel: EU-Bürgerschaft. kategorial (Klassifizierung). Beispiel: ledig/geschieden/verheiratet/verwitwet. ordinal (Rang). Beispiel: Noten 1–5. Quantitative Merkmale diskret (ganzzahlig). Beispiel: Zählvorgang. kontinuierlich (reellwertig). Beispiel: Messvorgang. Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 11/587 Merkmal- und Skalentypen Statistische Metoden der Datenanalyse Skalentypen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Nominalskala: Zahlenwerte sind nur Bezeichnung für sich ausschließende Kategorien. Ordinalskala: Ordnung der Zahlen ist wesentlich. Intervallskala: Ordnung und Differenzen zwischen den Werten sind sinnvoll interpretierbar, der Nullpunkt ist willkürlich festgelegt. Verhältnisskala: Ordnung, Differenzen und Größenverhältnisse sind sinnvoll interpretierbar, es gibt einen absoluten Nullpunkt. R. Frühwirth Statistische Metodender Datenanalyse 12/587 Merkmal- und Skalentypen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Beispiel 1 Der Familienstand einer Person wird durch Zahlen kodiert (1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet). Nominalskala. 2 Der Stand einer Mannschaft in der Meisterschaft wird durch den Rang in der Liga angegeben. Ordinalskala. 3 Die Jahreszahlen (2007, 2008, . . . ) bilden eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 4 Die Celsius-Skala der Temperatur ist eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 5 Die Kelvin-Skala der Temperatur ist eine Verhältnisskala, da der Nullpunkt physikalisch festgelegt ist. 6 Die Größe einer Person wird in cm angegeben. Es liegt eine Verhältnisskala vor, da ein natürlicher Nullpunkt existiert. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 13/587 Merkmal- und Skalentypen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Beispiel In der folgenden Datenmatrix D sind Merkmale von acht Personen zusammengestellt. Nummer 1 2 3 4 5 6 7 8 Geschlecht 1 2 2 1 1 1 2 2 Alter 34 54 46 27 38 31 48 51 Ausbildung 2 1 3 4 2 3 4 2 Geschlecht: 1=W, 2=M, Alter: in Jahren Ausbildung: 1=Pflichtschule, 2=Höhere Schule, 3=Bachelor, 4=Master R. Frühwirth Statistische Metodender Datenanalyse 14/587 Unterabschnitt: Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 15/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse Der Begriff der Aussage R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Eine Aussage ist eine Feststellung über Eigenschaften der Untersuchungsobjekte. Eine Aussage kann wahr oder falsch sein. Beispiel Die Aussage “Vier der Personen in Matrix D sind weiblich” ist wahr. Beispiel Die Aussage “Drei der Personen in Matrix D sind über 50 Jahre alt” ist falsch. R. Frühwirth Statistische Metodender Datenanalyse 16/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse Verknüpfung von Aussagen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Es seien A und B zwei Aussagen. Symbol A∪B A∩B A0 A⊆B Name Disjunktion Konjunktion Negation Implikation Bedeutung A oder B (oder beide) A und B (sowohl A als auch B) nicht A (das Gegenteil von A) aus A folgt B (A0 ∪ B) Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 17/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Beispiel Es seien A, B, C drei Aussagen. Wir können mittels Verknüpfungen die folgenden Aussagen formulieren: 1 Alle drei Aussagen treffen zu: A∩B∩C Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 2 A und C treffen zu, B nicht: A ∩0 ∩C 3 Qualitative Merkmale Quantitative Merkmale Korrelation Genau zwei der Aussagen treffen zu: (A ∩ B ∩ C 0 ) ∪ (A ∩ B 0 ∩ C) ∪ (A0 ∩ B ∩ C) 4 Höchstens eine der Aussagen trifft zu: (A ∩ B 0 ∩ C 0 ) ∪ (A0 ∩ B ∩ C 0 ) ∪ (A0 ∩ B 0 ∩ C) ∪ (A0 ∩ B 0 ∩ C 0 ) R. Frühwirth Statistische Metodender Datenanalyse 18/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Definition (Absolute Häufigkeit) Es sei A eine Aussage über eine Menge von Objekten. Die absolute Häufigkeit h(A) von A ist die Anzahl der Objekte, für die A zutrifft. Beispiel A ist die Aussage “Die Person in Matrix D hat zumindest Bakkalaureat”. Dann ist h(A) = 4. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 19/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Definition (Relative Häufigkeit) Es sei A eine Aussage über eine Menge von Objekten. Die relative Häufigkeit f (A) = h(A)/n von A ist die Anzahl der Objekte, für die A zutrifft, dividiert durch die Gesamtanzahl der Objekte. Beispiel A ist die Aussage “Die untersuchte Person ist älter als dreißig Jahre”. Dann ist f (A) = 7/8. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 20/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse Spezielle Aussagen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale A = ∅: A trifft niemals zu, h(A) = f (A) = 0. A = Ω: A trifft immer zu, h(A) = n, f (A) = 1. Rechengesetze für Häufigkeiten Additionsgesetz ( h(A ∪ B) = h(A) + h(B) A ∩ B = ∅ =⇒ f (A ∪ B) = f (A) + f (B) Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 21/587 Aussagen und Häufigkeiten Statistische Metoden der Datenanalyse R. Frühwirth Siebformel Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten h(A ∪ B) = h(A) + h(B) − h(A ∩ B) f (A ∪ B) = f (A) + f (B) − f (A ∩ B) Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Beispiel 33% der Kunden einer Bank haben einen Wohnungskredit, 24% haben einen Kredit zur Finanzierung von Konsumgütern, 11% haben beides. Wie groß ist der Anteil der Kunden, die weder Wohnungs- noch Konsumgüterkredit haben? R. Frühwirth Statistische Metodender Datenanalyse 22/587 Abschnitt 2: Eindimensionale Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 23/587 Unterabschnitt: Graphische Darstellung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 24/587 Graphische Darstellung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Ein Bild sagt mehr als tausend Worte! Graphische Darstellungen von Datensätzen sind daher äußerst beliebt und nützlich. Qualitative Variable: Häufigkeitstabelle, Tortendiagramm, Stabdiagramm Quantitative Variable: gruppierte Häufigkeitstabelle, Histogramm, Boxplot, empirische Verteilungsfunktion Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 25/587 Graphische Darstellung Statistische Metoden der Datenanalyse Datensatz 1 (500 normalverteilte Werte): R. Frühwirth Datensatz 1 45 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 15 10 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Histogramm R. Frühwirth Statistische Metodender Datenanalyse 26/587 Graphische Darstellung Statistische Metoden der Datenanalyse Datensatz 2 = Datensatz 1 + Kontamination (100 Werte): R. Frühwirth Datensatz 2 45 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 15 10 5 0 0 5 10 15 x Histogramm R. Frühwirth Statistische Metodender Datenanalyse 27/587 Graphische Darstellung Statistische Metoden der Datenanalyse Datensatz 3 (50 Püfungsnoten): R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Note k 1 2 3 4 5 Zweidimensionale Merkmale h(k) 5 8 22 5 10 50 f (k) 0.10 0.16 0.44 0.10 0.20 1.00 Häufigkeitstabelle Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: make dataset3 R. Frühwirth Statistische Metodender Datenanalyse 28/587 Graphische Darstellung Statistische Metoden der Datenanalyse Datensatz 3 (50 Püfungsnoten): R. Frühwirth 1 5 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 3 Qualitative Merkmale Quantitative Merkmale Korrelation Tortendiagramm Matlab: make dataset3 R. Frühwirth Statistische Metodender Datenanalyse 29/587 Graphische Darstellung Statistische Metoden der Datenanalyse Datensatz 3 (50 Püfungsnoten): R. Frühwirth 25 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Häufigkeit Eindimensionale Merkmale 20 15 10 5 0 1 2 3 x 4 5 Stabdiagramm Matlab: make dataset3 R. Frühwirth Statistische Metodender Datenanalyse 30/587 Graphische Darstellung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Boxplot ist die graphische Darstellung des five point summary. Datensatz 2 (500 Werte + Kontamination): Datensatz 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0 5 10 15 x Boxplot Matlab: make dataset2 R. Frühwirth Statistische Metodender Datenanalyse 31/587 Unterabschnitt: Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 32/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Ab Ordinalskala ist es sinnvoll, die Daten zu ordnen. Die Häufigkeitstabelle kann durch Summenhäufigkeiten ergänzt werden. Datensatz 3 (50 Prüfungsnoten): Note k 1 2 3 4 5 h(k) 5 8 22 5 10 H(k) 5 13 35 40 50 f (k) 0.10 0.16 0.44 0.10 0.20 F (k) 0.10 0.26 0.70 0.80 1.00 Häufigkeitstabelle mit Summenhäufigkeiten Matlab: make dataset3 R. Frühwirth Statistische Metodender Datenanalyse 33/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Die graphische Darstellung der Summenhäufigkeiten wird die empirische Verteilungsfunktion der Datenliste genannt. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Empirische Verteilungsfunktion) Die empirische Verteilungsfunktion Fn (x) der Datenliste ~x = (x1 , . . . , xn ) ist der Anteil der Daten, die kleiner oder gleich x sind: Fn (x) = f (~x ≤ x). Ist xi ≤ x < xi+1 , gilt Fn (x) = f (x1 ) + · · · + f (xi ). Fn ist eine Sprungfunktion. Die Sprungstellen sind die Datenpunkte, die Sprunghöhen sind die relativen Häufigkeiten der Datenpunkte. R. Frühwirth Statistische Metodender Datenanalyse 34/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse Datensatz 3: (50 Prüfungsnoten): R. Frühwirth Empirische Verteilungsfunktion 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 Eindimensionale Merkmale 0.6 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.7 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.8 0.5 0.4 0.3 0.2 0.1 0 1 2 3 x 4 5 Empirische Verteilungsfunktion Matlab: make dataset3 R. Frühwirth Statistische Metodender Datenanalyse 35/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse Datensatz 2 (500 Werte + Kontamination): R. Frühwirth Datensatz 2 1 Einleitung 0.9 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.8 0.7 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion Matlab: make dataset2 R. Frühwirth Statistische Metodender Datenanalyse 36/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 Eindimensionale Merkmale 0.8 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.7 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Datensatz 2 1 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion R. Frühwirth Statistische Metodender Datenanalyse 37/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 Eindimensionale Merkmale 0.8 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.7 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Datensatz 2 1 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion R. Frühwirth Statistische Metodender Datenanalyse 37/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 1 0.9 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.8 0.7 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion R. Frühwirth Statistische Metodender Datenanalyse 38/587 Empirische Verteilungsfunktion Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 1 0.9 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.8 0.7 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion R. Frühwirth Statistische Metodender Datenanalyse 38/587 Unterabschnitt: Kernschätzer Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 39/587 Kernschätzer Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Die Häufigkeitsverteilung (Histogramm) kann mit einem Kern- oder Dichteschätzer geglättet werden. Die Dichte des beobachteten Merkmals wird dabei durch eine Summe von Kernen K(·) approximiert: n 1 X fˆ(x) = K nh i=1 x − xi h h ist die Bandbreite des Kernschätzers. Der beliebteste Kern ist der Gaußkern: 2 1 x K(x) = √ exp − 2 2π R. Frühwirth Statistische Metodender Datenanalyse 40/587 Kernschätzer Statistische Metoden der Datenanalyse Datensatz 2: R. Frühwirth Datensatz 2 0.4 Relative Häufigkeit Kernschätzer Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.35 Eindimensionale Merkmale 0.25 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation f(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.3 0.2 0.15 0.1 0.05 0 0 5 10 15 x Glättung des Histogramms durch Kernschätzer Matlab: make dataset2 R. Frühwirth Statistische Metodender Datenanalyse 41/587 Unterabschnitt: Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 42/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Datenlisten sind oft so umfangreich, dass ihr Inhalt in einigen wenigen Maßzahlen zusammgefasst wird oder werden muss. Welche Maßzahlen dabei sinnvoll sind, hängt vom Skalentyp ab. Manche Maßzahlen gehen von der geordneten Datenliste x(1) , . . . , x(n) aus. Wir unterscheiden Lage-, Streuungs-, und Schiefemaße. Ein Lagemaß gibt an, um welchen Wert die Daten konzentriert sind. Ein Streuungsmaß gibt an, wie groß die Schwankungen der Daten um ihren zentralen Wert sind. Ein Schiefemaß gibt an, wie symmetrisch die Daten um ihren zentralen Wert liegen. R. Frühwirth Statistische Metodender Datenanalyse 43/587 Maßzahlen Statistische Metoden der Datenanalyse Lagemaße R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Lagemaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion `(x) heißt ein Lagemaß für x, wenn gilt: `(ax + b) = a`(x) + b für a > 0 min x ≤ `(x) ≤ max(x) Sinnvolle Lagemaße geben den “typischen” oder “zentralen” Wert der Datenliste an. Je nach Skala sind verschiedene Lagemaße sinnvoll. R. Frühwirth Statistische Metodender Datenanalyse 44/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Mittelwert n 1X xi x̄ = n i=1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Der Mittelwert minimiert die folgende Funktion: x̄ = argx min n X (xi − x)2 i=1 Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xbar=mean(x) R. Frühwirth Statistische Metodender Datenanalyse 45/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Median x̃ = x(n/2) Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Der Median teilt die geordnete Liste in zwei gleich große Teile. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Der Median minimiert die folgende Funktion: x̃ = argx min n X |xi − x| i=1 Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xmed=median(x) R. Frühwirth Statistische Metodender Datenanalyse 46/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Median ist ein Spezialfall eines allgemeineren Begriffs, des Quantils. α-Quantil Qα = x(αn) Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Das α-Quantil teilt die geordnete Liste im Verhältnis α : 1 − α. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: qa=quantile(x,alpha) Q0 ist der kleinste Wert, Q1 ist der größte Wert der Datenliste. Q0.5 ist der Median. Die fünf Quartile Q0 , Q0.25 , Q0.5 , Q0.75 , Q1 bilden das five point summary der Datenliste. R. Frühwirth Statistische Metodender Datenanalyse 47/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation LMS (Least Median of Squares) Der LMS-Wert ist der Mittelpunkt des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Der LMS-Wert ist extrem unempfindlich gegen fehlerhafte oder untypische Daten. Der LMS-Wert minimiert die folgende Funktion: x̃ = argx min medni=1 (xi − x)2 Ein verwandtes Lagemaß ist der “shorth”, der Mittelwert aller Daten im kürzesten Intervall, das h Datenpunkte enthält. Matlab: xlms=lms(x) Matlab: xshorth=shorth(x) R. Frühwirth Statistische Metodender Datenanalyse 48/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Modus Der Modus ist der häufigste Wert einer Datenliste Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sinnvoll vor allem für qualitative Merkmale. Für quantitative Merkmale kann der Modus aus dem Kernschätzer der Dichte bestimmt werden. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xmode=mode(x) HSM (Half-sample mode) 1 Bestimme das kürzeste Intervall, das h = bn/2c + 1 Datenpunkte enthält. 2 Wiederhole den Vorgang auf den Daten in diesem Intervall, bis zwei Datenpunkte übrig sind. 3 Der HSM-Wert ist das Mittel der beiden letzten Daten. R. Frühwirth Statistische Metodender Datenanalyse 49/587 Maßzahlen Statistische Metoden der Datenanalyse Streuungsmaße R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Streuungsmaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion σ(x) heißt ein Streuungsmaß für x, wenn gilt: σ(x) ≥ 0 σ(ax + b) = |a| σ(x) Sinnvolle Streuungsmaße messen die Abweichung der Daten von ihrem zentralen Wert. Streuungsmaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Streuungsmaße sinnvoll. R. Frühwirth Statistische Metodender Datenanalyse 50/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Standardabweichung v u n u1 X (xi − x̄)2 s=t n i=1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Die Standardabweichung hat die gleiche Dimension wie die Daten. Das Quadrat der Standardabweichung heißt Varianz. Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xstd=std(x,1) Matlab: xvar=var(x,1) R. Frühwirth Statistische Metodender Datenanalyse 51/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Interquartilsdistanz IQR = Q0.75 − Q0.25 Die Interquartilsdistanz ist die Länge des Intervalls, das die zentralen 50% der Daten enthält. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xiqr=iqr(x) R. Frühwirth Statistische Metodender Datenanalyse 52/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale LoS (Length of the Shorth) LoS ist die Länge des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xlos=LoS(x) R. Frühwirth Statistische Metodender Datenanalyse 53/587 Maßzahlen Statistische Metoden der Datenanalyse Schiefemaße R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Schiefemaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion s(x) heißt ein Schiefemaß für x, wenn gilt: s(ax + b) = sgn(a) s(x) s(x) = 0, wenn ∃b : x − b = b − x Sinnvolle Schiefemaße messen die Asymmetrie der Daten. Schiefemaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Schiefemaße sinnvoll. R. Frühwirth Statistische Metodender Datenanalyse 54/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Schiefe γ= 1 n Pn i=1 (xi s3 − x̄)3 Die Schiefe γ ist gleich 0 für symmetrische Daten. Ist γ < 0, heißen die Daten linksschief. Ist γ > 0, heißen die Daten rechtsschief. Sinnvoll für Intervall- und Verhältnisskala. Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xgamma=skewness(x,1) R. Frühwirth Statistische Metodender Datenanalyse 55/587 Maßzahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Schiefekoeffizient R−L R+L mit R = Q0.75 − Q0.5 , L = Q0.5 − Q0.25 . SK = SK liegt zwischen −1 (R = 0) und +1 (L = 0). Der Schiefekoeffizient ist gleich 0 für symmetrische Daten. Ist SK < 0, heißen die Daten linksschief. Ist SK > 0, heißen die Daten rechtsschief. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xsk=SK(x) R. Frühwirth Statistische Metodender Datenanalyse 56/587 Unterabschnitt: Beispiele Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 57/587 Beispiele Statistische Metoden der Datenanalyse Datensatz 1: Symmetrisch, 500 Werte R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: Schiefemaße: Schiefe: Schiefekoeffizient: 4.9532 4.9518 4.8080 4.8002 5.0830 0.0375 0.0258 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: R. Frühwirth 1.0255 1.4168 1.3520 Statistische Metodender Datenanalyse 58/587 Beispiele Statistische Metoden der Datenanalyse Datensatz 1 R. Frühwirth 45 Mean Median LMS Shorth HSM Einleitung 40 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 35 30 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Häufigkeit Eindimensionale Merkmale 25 20 15 10 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Datensatz 1: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistische Metodender Datenanalyse 59/587 Beispiele Statistische Metoden der Datenanalyse Datensatz 2: Datensatz 1 + Kontamination (100 Werte) R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 5.0740 4.9985 1.7696 0.1046 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: R. Frühwirth 1.8959 1.6152 1.5918 Statistische Metodender Datenanalyse 60/587 Beispiele Statistische Metoden der Datenanalyse Datensatz 2 R. Frühwirth 45 Mean Median LMS Shorth HSM Einleitung 40 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 35 30 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Häufigkeit Eindimensionale Merkmale 25 20 15 10 5 0 0 5 10 15 x Datensatz 2: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistische Metodender Datenanalyse 61/587 Beispiele Statistische Metoden der Datenanalyse Datensatz 3: 50 Prüfungsnoten R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Lagemaße: Mittelwert: Median: Modus: Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 1.7696 0.1046 Streuungsmaße: Standardabweichung: Interquartilsdistanz: 1.8959 1.6152 Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 62/587 Beispiele Statistische Metoden der Datenanalyse 25 Mean Median Mode R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Häufigkeit Eindimensionale Merkmale 20 15 10 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 1 2 3 x 4 5 Datensatz 3: Mittelwert, Median, Modus R. Frühwirth Statistische Metodender Datenanalyse 63/587 Abschnitt 3: Zweidimensionale Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 64/587 Zweidimensionale Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Oft werden zwei oder mehr Merkmale eines Objekts gleichzeitig beobachtet. Beispiele: Körpergröße und Gewicht einer Person Alter und Einkommen einer Person Schulbildung und Geschlecht einer Person Der Zusammenhang zwischen den beiden Merkmalen gibt zusätzliche Information. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 65/587 Unterabschnitt: Qualitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 66/587 Qualitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Wir betrachten zunächst zwei binäre Merkmale A und B. Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Beispiel: A=“Die Person ist weiblich“ B=“Die Person ist Raucher/in“ Vierfeldertafel für 1000 Personen: Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation A A0 R. Frühwirth B 228 136 364 B0 372 600 264 400 636 1000 Statistische Metodender Datenanalyse 67/587 Qualitative Merkmale Statistische Metoden der Datenanalyse Allgemeiner Aufbau einer Vierfeldertafel: R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale A A0 B B0 h(A ∩ B) h(A ∩ B 0 ) h(A) h(A0 ∩ B) h(A0 ∩ B 0 ) h(A0 ) h(B) h(B 0 ) n Zeilen- und Spaltensummen sind die Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 68/587 Qualitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Die Vierfeldertafel kann mittels Division durch n auf relative Häufigkeiten umgerechnet werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale A A0 B B0 f (A ∩ B) f (A ∩ B 0 ) f (A) f (A0 ∩ B) f (A0 ∩ B 0 ) f (A0 ) f (B) f (B 0 ) 1 Zeilen- und Spaltensummen sind die relativen Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 69/587 Qualitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Der Zusammenhang der beiden Merkmale kann durch die Vierfelderkorrelation gemessen werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Vierfelderkorrelation f (A ∩ B) − f (A)f (B) ρ(A, B) = p f (A)f (A0 )f (B)f (B 0 ) Es gilt stets: −1 ≤ ρ(A, B) ≤ 1 Ist ρ(A, B) > 0, heißen A und B positiv gekoppelt. Ist ρ(A, B) < 0, heißen A und B negativ gekoppelt. R. Frühwirth Statistische Metodender Datenanalyse 70/587 Qualitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Speziell gilt: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Die Koppelung kann auch durch eine gemeinsame Ursache für beide Merkmale entstehen. R. Frühwirth Statistische Metodender Datenanalyse 71/587 Unterabschnitt: Quantitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 72/587 Quantitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Bevorzugte Darstellung von zweidimensionalen Merkmalen: Streudiagramm (Scatter Plot) Jeder Punkt entspricht einem Objekt. Die beobachteten Merkmale bestimmen die Position des Punktes in der x-y-Ebene. Mehrdimensionale Merkmale können durch Histogramme und Streudiagramme dargestellt werden. Dabei geht natürlich ein Teil der Information verloren. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 73/587 Quantitative Merkmale Statistische Metoden der Datenanalyse Datensatz 4: Körpergröße und Gewicht von 100 Personen R. Frühwirth Datensatz 4 90 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 80 Gewicht (kg) Eindimensionale Merkmale 85 75 70 65 60 55 140 150 160 170 Körpergröße (cm) 180 190 Streudiagramm Matlab: make dataset4 R. Frühwirth Statistische Metodender Datenanalyse 74/587 Quantitative Merkmale Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Datensatz 5: Körpergröße, Gewicht und Alter von 100 Personen Merkmal x1 : Merkmal x2 : Merkmal x3 : Körpergröße (in cm) Gewicht (in kg) Alter (in Jahren) Matlab: make dataset5 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 75/587 Quantitative Merkmale Statistische Metoden der Datenanalyse 15 80 10 70 80 70 x3 x2 50 60 40 0 140 150 160 170 180 190 x1 50 140 150 160 170 180 190 x1 20 140 150 160 170 180 190 x1 20 80 30 190 x1 180 170 160 140 50 60 70 0 50 80 x2 Qualitative Merkmale Quantitative Merkmale Korrelation 60 10 50 40 5 150 Zweidimensionale Merkmale 70 15 x3 Eindimensionale Merkmale 30 60 70 20 50 80 60 x2 190 70 80 x2 80 15 x1 180 70 170 160 60 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 60 5 Häufigkeit Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x2 Einleitung Häufigkeit R. Frühwirth 10 5 150 140 20 30 40 50 60 70 80 x3 R. Frühwirth 50 20 30 40 50 60 70 80 x3 0 20 30 40 50 60 70 80 x3 Statistische Metodender Datenanalyse 76/587 Unterabschnitt: Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 77/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Eigenschaften des Streudiagramms 1 (x̄, ȳ) ist der Mittelpunkt der Punktwolke. 2 Die Projektion der Punktwolke auf die x-Achse ergibt das Punktediagramm der Datenliste x1 , . . . , xn . 3 Die Projektion der Punktwolke auf die y-Achse ergibt das Punktediagramm der Datenliste y1 , . . . , yn . Aus dem Streudiagramm von Datensatz 4 ist ersichtlich, dass tendenziell größere Körpergröße mit größerem Gewicht einhergeht. Zwischen den beiden Merkmalen x und y besteht offensichtlich ein Zusammenhang, der auch intuitiv völlig klar ist. R. Frühwirth Statistische Metodender Datenanalyse 78/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Wir brauchen eine Maßzahl für diesen Zusammenhang. Eine nützliche Maßzahl ist der empirische Korrelationskoeffizient. Sei (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe. Wir berechnen die Standardscores: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele zx,i = zy,i = yi − ȳ sy Wir erinnern uns, dass Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation xi − x̄ , sx n s2x = 1X (xi − x̄)2 n i=1 n und s2y = 1X (yi − ȳ)2 n i=1 Der empirische Korrelationskoeffizient ist der Mittelwert der Produkte der Standardscores. R. Frühwirth Statistische Metodender Datenanalyse 79/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Definition (Empirischer Korrelationskoeffizient) Der empirische Korrelationskoeffizient rxy ist definiert als n rxy = 1X 1 zx,i zy,i = (zx,1 zy,1 + · · · + zx,n zy,n ) n i=1 n Es gilt immer: Zweidimensionale Merkmale −1 ≤ rxy ≤ 1 Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 80/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale rxy ist positiv, wenn viele Produkte positiv sind, d.h. viele Paare von Standscores das gleiche Vorzeichen haben. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 1. oder 3. Quadranten liegen. x und y heißen dann positiv korreliert. rxy ist negativ, wenn viele Produkte negativ sind, d.h. viele Paare von Standscores verschiedenes Vorzeichen haben. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 2. oder 4. Quadranten liegen. x und y heißen dann negativ korreliert. Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 81/587 Korrelation Statistische Metoden der Datenanalyse Streudiagramm der Standardscores von Datensatz 4: R. Frühwirth Datensatz 4 Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 4 3 Standardscore des Gewichts Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 1 0 −1 −2 −3 −4 −4 −2 0 2 Standardscore der Körpergröße 4 Offensichtlich sind x und y positiv korreliert, da die meisten Punkte im 1. und 3. Quadranten liegen. rxy = 0.5562 R. Frühwirth Statistische Metodender Datenanalyse 82/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Eine positive Korrelation muss nicht unbedingt einen kausalen Zusammenhang bedeuten. Die positive Korrelation kann auch durch eine gemeinsame Ursache oder einen parallel laufenden Trend verursacht sein. Beispiel Zwischen der Kinderzahl und der Anzahl der Störche in Österreich in den letzten 30 Jahren besteht eine positive Korrelation. Warum? Beispiel Zwischen dem Butterpreis und dem Brotpreis der letzten 20 Jahre besteht eine positive Korrelation. Warum? R. Frühwirth Statistische Metodender Datenanalyse 83/587 Korrelation Statistische Metoden der Datenanalyse 4 Qualitative Merkmale Quantitative Merkmale Korrelation 0 zx 2 −2 0 zx 2 −4 −4 4 4 rxy=0.6 2 0 −2 0 zx 2 4 −2 0 zx 2 4 0 zx 2 4 rxy=0.9 2 0 −2 −2 0 −2 4 rxy=0.3 zy zy 0 −4 −4 4 2 −4 −4 zy zy 4 −2 rxy=0 2 −2 −4 −4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 0 −2 Eindimensionale Merkmale 4 rxy=−0.4 2 zy 2 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 4 rxy=−0.8 zy R. Frühwirth 0 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 Standardscores mit verschiedenen Korrelationskoeffizienten R. Frühwirth Statistische Metodender Datenanalyse 84/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Korrelationskoeffizient misst die Korrelation der Daten. Die Korrelation gibt die Bindung der Punktwolke an eine steigende oder fallende Gerade, die Hauptachse an. Die Korrelation gibt also das Ausmaß der linearen Koppelung an. Besteht zwischen x und y ein starker, aber nichtlinearer Zusammenhang, kann die Korrelation trotzdem sehr klein sein. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 85/587 Korrelation Statistische Metoden der Datenanalyse 4 R. Frühwirth 4 rxy=−0.00168 rxy=0.00987 Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 2 zy 2 zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0 −2 −4 −4 0 −2 −2 0 zx 2 4 −4 −4 −2 0 zx 2 4 Nichtlinearer Zusammenhang zwischen x und y Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistische Metodender Datenanalyse 86/587 Korrelation Statistische Metoden der Datenanalyse R. Frühwirth Der Korrelationskoeffizient kann auch direkt aus der Stichprobe berechnet werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten rxy = sxy sx sy Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Kovarianz der Daten) Die Größe n sxy = 1X (xi − x̄)(yi − ȳ) n i=1 heißt die Kovarianz der Daten. R. Frühwirth Statistische Metodender Datenanalyse 87/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Teil 2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeitsrechnung Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 88/587 Übersicht Teil 2 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 89/587 Abschnitt 4: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 90/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Der konkrete Ausgang eines Experiments kann im Allgemeinen nicht genau vorausgesagt werden. Die möglichen Ausgänge sind jedoch bekannt. Ziel der Wahrscheinlichkeitsrechnung ist es, den Ausgängen Wahrscheinlichkeiten zuzuweisen. Zwei Interpretationen der Wahrscheinlichkeit möglich. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 91/587 Einleitung Statistische Metoden der Datenanalyse Häufigkeitsinterpretation R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die Wahrscheinlichkeit eines Ausgangs ist die Häufigkeit des Ausgangs, wenn das Experiment sehr oft unter den gleichen Bedingungen wiederholt wird. Die darauf basierende Statistik wird frequentistisch“ ” genannt. Beispiel Die Wahrscheinlichkeit des Ausgangs 1“ beim Würfeln ist der ” Grenzwert der Häufigkeit für eine große Zahl von Würfen. R. Frühwirth Statistische Metodender Datenanalyse 92/587 Einleitung Statistische Metoden der Datenanalyse Subjektive Interpretation R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Die Wahrscheinlichkeit eines Ausgangs ist eine Aussage über den Glauben der Person, die die Wahrscheinlichkeit angibt. Die darauf basierende Statistik wird bayesianisch“ genannt. ” Beispiel Die Wahrscheinlichkeit, dass es morgen regnet, ist 40 Prozent“ ist ein ” Aussage über den Glauben der Person, die diese Aussage tätigt. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 93/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen In der Praxis ist der Übergang zwischen den beiden Ansätzen oft fließend. In vielen Fällen sind die Resultate identisch, nur die Interpretation ist verschieden. Der bayesianische Ansatz ist umfassender und flexibler. Der frequentistische Ansatz ist meist einfacher, aber beschränkter. Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 94/587 Abschnitt 5: Ereignisse Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 95/587 Unterabschnitt: Der Ereignisraum Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 96/587 Der Ereignisraum Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Grundlegend für die Statistik ist der Begriff des (zufälligen) Ereignisses. Für den Physiker der Ausgang eines Experiments, dessen Ergebnis nicht genau vorausgesagt werden kann. Mehrere Gründe: Die beobachteten Objekte sind eine zufällige Auswahl aus einer größeren Grundgesamtheit. Der beobachtete Prozess ist prinzipiell indeterministisch (Quantenmechanik). Messfehler geben dem Ergebnis einen stochastischen Charakter. Mangelnde Kenntnis des Anfangszustandes. R. Frühwirth Statistische Metodender Datenanalyse 97/587 Der Ereignisraum Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die Menge Ω aller möglichen Ausgänge heißt Ereignisraum oder Stichprobenraum. Der Ereignisraum Ω kann endlich, abzählbar unendlich oder überabzählbar unendlich sein. Beispiel Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beim Roulette gibt es 37 mögliche Ausgänge. Der Ereignisraum ist endlich. Wird eine radioaktive Quelle beobachtet, ist die Anzahl der Zerfälle pro Sekunde im Prinzip unbeschränkt. Der Ereignisraum ist abzählbar unendlich. Die Wartezeit zwischen zwei Zerfällen kann jeden beliebigen Wert annehmen. Der Ereignisraum ist überabzählbar unendlich. R. Frühwirth Statistische Metodender Datenanalyse 98/587 Unterabschnitt: Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 99/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Definition (Ereignis) Ein Ereignis E ist eine Teilmenge des Ereignisraums Ω. Ein Ereignis E tritt ein, wenn E den Ausgang ω ∈ Ω des Experiments enthält. Beispiel Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis G (gerade Zahl) ist die Teilmenge Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit G = {2, 4, 6} G tritt ein, wenn eine gerade Zahl geworfen wird. R. Frühwirth Statistische Metodender Datenanalyse 100/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Definition (Ereignisalgebra) Die Menge aller Ereignisse des Ereignisraums Ω heißt die Ereignisalgebra Σ(Ω). Im endlichen oder abzählbar unendlichen Fall kann jede Teilmenge als Ereignis betrachtet werden. Die Ereignisalgebra heißt diskret. Im überabzählbar unendlichen Fall müssen gewisse pathologische (nicht messbare) Teilmengen ausgeschlossen werden. Die Ereignisalgebra heißt kontinuierlich oder stetig. Zwei Ereignisse A ∈ Σ und B ∈ Σ können logisch verknüpft werden. R. Frühwirth Statistische Metodender Datenanalyse 101/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse Verknüpfung von Ereignissen R. Frühwirth Einleitung Disjunktion Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Symbol A∪B Name Disjunktion Bedeutung A oder B (oder beide) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Konjunktion Symbol A∩B Name Konjunktion Bedeutung A und B (sowohl A als auch B) Negation Symbol A0 Name Negation R. Frühwirth Bedeutung nicht A (das Gegenteil von A) Statistische Metodender Datenanalyse 102/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Implikation Symbol A⊆B Name Implikation Bedeutung aus A folgt B (A0 ∪ B) Mit diesen Verknüpfungen ist Σ ist eine Boole’sche Algebra: distributiver komplementärer Verbands mit Nullund Einselement. Das Nullelement 0 = ∅ ist das unmögliche Ereignis. Das Einselement 1 = Ω ist das sichere Ereignis. Ein Ereignis, das nur aus einem möglichen Ausgang besteht, heißt ein Elementarereignis. R. Frühwirth Statistische Metodender Datenanalyse 103/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Rechengesetze für Ereignisse Σ ist abgeschlossen: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Assoziativgesetze : Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Verschmelzungsgesetze: Distributivgesetze: Regeln von de Morgan: Verneinung: R. Frühwirth A, B ∈ Σ =⇒ A ∩ B ∈ Σ A, B ∈ Σ =⇒ A ∪ B ∈ Σ (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) A ∩ (A ∪ B) = A A ∪ (A ∩ B) = A A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ B)0 = A0 ∪ B 0 (A ∪ B)0 = A0 ∩ B 0 A ∩ A0 = 0, A ∪ A0 = 1 = Ω Statistische Metodender Datenanalyse 104/587 Die Ereignisalgebra Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Ist Ω (abzählbar oder überabzählbar) unendlich, verlangt man, dass auch abzählbar viele Vereinigungen und Durchschnitte gebildet werden können. Der Ereignisraum ist dann eine sogenannte σ-Algebra. Ist überabzählbaren Fall ist die Ereignisalgebra Σ ist die kleinste σ-Algebra, die alle Teilintervalle von Ω enthält. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 105/587 Unterabschnitt: Wiederholte Experimente Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 106/587 Wiederholte Experimente Statistische Metoden der Datenanalyse Der Wurf mit einem Würfel hat den Ereignisraum R. Frühwirth Ω = {1, 2, 3, 4, 5, 6} Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die Ereignisalgebra Σ(Ω) hat folglich sechs Elementarereignisse: e1 = {1}, e2 = {2}, e3 = {3}, e4 {4}, e5 = {5}, e6 = {6} und insgesamt 26 = 64 Ereignisse (Teilmengen von Ω). Der Ereignisraum des zweimaligen Würfelns ist das kartesische Produkt Ω × Ω: Ω × Ω = {(i, j)|i, j = 1, . . . , 6} Das geordnete Paar (i, j) bedeutet: i beim ersten Wurf, j beim zweiten Wurf. Die Ereignisalgebra Σ(Ω × Ω) hat folglich 36 Elementarereignisse eij : e11 = {(1, 1)}, . . . , e36 = {(6, 6)} R. Frühwirth Statistische Metodender Datenanalyse 107/587 Wiederholte Experimente Statistische Metoden der Datenanalyse R. Frühwirth Analog ist beim n-maligen Würfeln der Ereignisraum das n-fache kartesische Produkt Ω × Ω × . . . × Ω. Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Beispiel (Ereignisalgebra des Doppelwurfs) Beispiele für Elemente der Ereignisalgebra des Doppelwurfs sind: 6 beim ersten Wurf: 6 beim zweiten Wurf: Beide Würfe gleich: Summe der Würfe gleich 7: {(6, 1), (6, 2), . . . , (6, 6)} {(1, 6), (2, 6), . . . , (6, 6)} {(1, 1), (2, 2), . . . , (6, 6)} {(1, 6), (2, 5), . . . , (6, 1)} Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 108/587 Wiederholte Experimente Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Wiederholter Alternativversuch) Ein Experiment, das nur zwei mögliche Ergebnisse hat, heißt ein Alternativversuch. Es gibt zwei Ausgänge, 0 und 1. Wird ein Alternativversuch n-mal durchgeführt, ergibt sich eine Ereignisraum mit 2n Ausgängen, nämlich den Folgen der Form (i1 , . . . , in ) mit ij = 0 oder 1. In der Regel interessiert aber nur die Häufigkeit des Eintretens von 1 (oder 0). Dann gibt es nur mehr n + 1 Ausgänge: 1 tritt 0, 1, 2, . . . oder n-mal ein. Bezeichnet das Ereignis E1 das einmalige Eintreten von 1, so ist E1 die ∪-Verbindung mehrerer Elementarereignisse der ursprünglichen Ereignisalgebra: E1 = {(e1 , e0 , . . . , e0 ), (e0 , e1 , e0 , . . . , e0 ), . . . , (e0 , . . . , e0 , e1 )} Ein Beispiel ist das n-malige Werfen einer Münze. R. Frühwirth Statistische Metodender Datenanalyse 109/587 Abschnitt 6: Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 110/587 Unterabschnitt: Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 111/587 Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Definition (Wahrscheinlichkeitsmaß) Es sei Σ eine Ereignisalgebra, A und B Ereignisse in Σ, und W eine Abbildung von Σ in R. W heißt ein Wahrscheinlichkeitsmaß, wenn gilt: 1. Positivität: 2. Additivität: 3. Normierung: R. Frühwirth W (A) ≥ 0 ∀A ∈ Σ A ∩ B = 0 =⇒ W (A ∪ B) = W (A) + W (B) W (1) = 1 Statistische Metodender Datenanalyse 112/587 Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Definition (Wahrscheinlichkeitsraum) Ist Σ eine σ-Algebra, was für unendliche Ereignisräume vorausgesetzt werden muss, verlangt man für abzählbares J: 4. σ-Additivität: Ai ∈ Σ, i ∈ J; Ai ∩ Aj = 0, i 6= j =⇒ [ X W ( Ai ) = W (Ai ) Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit i∈J i∈J Σ heißt dann normiert, und (Σ, W ) ein Wahrscheinlichkeitsraum. W wird auch als Wahrscheinlichkeitsverteilung bezeichnet. R. Frühwirth Statistische Metodender Datenanalyse 113/587 Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Rechengesetze für Wahrscheinlichkeit Ist (Σ, W ) ein Wahrscheinlichkeitsraum, so gilt: 1 W (A0 ) = 1 − W (A), ∀A ∈ Σ 2 W (0) = 0 3 A ⊆ B =⇒ W (A) ≤ W (B), ∀A, B ∈ Σ 4 W (A) ≤ 1, ∀A ∈ Σ 5 W (A ∪ B) = W (A) + W (B) − W (A ∩ B), ∀A, B ∈ Σ 6 Hat Σ höchstens abzählbar viele Elementarereignisse P {ei | i ∈ I}, so ist i∈I W (ei ) = 1. Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 114/587 Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit In einer diskreten Ereignisalgebra ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der Elementarereignisse, deren ∪-Verbindung es ist. Daher ist ein Wahrscheinlichkeitsmaß durch die Werte, die es den Elementarereignissen zuordnet, eindeutig bestimmt. Andererseits kann jede positive Funktion, die auf der Menge der Elementarereignisse definiert ist und Punkt 6 erfüllt, eindeutig zu einem Wahrscheinlichkeitsmaß fortgesetzt werden. Man kann also auf einer diskreten Ereignisalgebra Σ unendlich viele Verteilungen definieren. R. Frühwirth Statistische Metodender Datenanalyse 115/587 Wahrscheinlichkeitsmaße Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit In einer kontinuierlichen Ereignisalgebra ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 0. Die Wahrscheinlichkeit eines Ereignisses kann daher nicht mehr durch Summation ermittlet werden. Statt dessen wird eine Dichtefunktion f (x) angegeben, die jedem Elementarereignis x einen nichtnegativen Wert f (x) zuordnet. Die Dichtefunktion muss normiert sein: Z f (x) dx = 1 R Die Wahrscheinlichkeit eines Ereignisses A wird durch Integration über die Dichte ermittelt: Z W (A) = f (x) dx A Die Dichte muss so beschaffen sein, dass das Integral für alle zugelassenen Ereignisse existiert. R. Frühwirth Statistische Metodender Datenanalyse 116/587 Unterabschnitt: Gesetz der großen Zahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 117/587 Gesetz der großen Zahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Betrachten einfaches Zufallsexperiment: Münzwurf Zwei mögliche Ergebnisse: Kopf (K), Zahl (Z) Annahme: Münze symmetrisch, K und Z gleichwahrscheinlich Experiment wird n-mal wiederholt n 10 100 500 1000 5000 hn (K) 6 51 252 488 2533 fn (K) 0.6 0.51 0.504 0.488 0.5066 |fn (K) − 0.5| 0.1 0.01 0.004 0.012 0.0066 Häufigkeitstabelle Matlab: make coin R. Frühwirth Statistische Metodender Datenanalyse 118/587 Gesetz der großen Zahlen Statistische Metoden der Datenanalyse 1 R. Frühwirth Einleitung 0.8 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit f(K) Ereignisse 0.6 0.4 0.2 0 0 100 200 300 400 500 n Entwicklung der relativen Häufigkeit von K R. Frühwirth Statistische Metodender Datenanalyse 119/587 Gesetz der großen Zahlen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Die relative Häufigkeit des Ereignisses K scheint gegen den Grenzwert 0.5 zu streben. Dieser Grenzwert wird als die Wahrscheinlichkeit W (K) bezeichnet. Empirisches Gesetz der großen Zahlen lim fn (K) = W (K) n→∞ Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das mathematische Problem dieser Definition liegt darin, dass die Existenz des Grenzwerts von vornherein nicht einzusehen ist und im klassisch analytischen Sinn tatsächlich nicht gegeben sein muss, sondern nur in einem weiteren, statistischen Sinn. R. Frühwirth Statistische Metodender Datenanalyse 120/587 Abschnitt 7: Bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 121/587 Unterabschnitt: Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 122/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wir betrachten jetzt zwei Ereignisse A und B, die bei einem Experiment eintreten können. Frage: Besteht ein Zusammenhang zwischen den Ereignissen? Ein solcher Zusammenhang wird Koppelung genannt. Positive Koppelung: Je öfter A eintritt, desto öfter tritt tendenziell auch B ein. Negative Koppelung: Je öfter A eintritt, desto seltener tritt tendenziell auch B ein. Quantifizierung von oft“ und selten“ erfolgt durch ” ” Häufigkeitstabelle. R. Frühwirth Statistische Metodender Datenanalyse 123/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Beispiel: A=“Eine untersuchte Person ist weiblich“ B=“Eine untersuchte Person hat Diabetes“ Vierfeldertafel für 1000 Personen: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A A0 R. Frühwirth B 19 26 45 B0 526 429 955 545 455 1000 Statistische Metodender Datenanalyse 124/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Gewöhnliche relative Häufigkeiten werden auf den Umfang n des gesamten Datensatzes bezogen: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit f (A ∩ B) = h(A ∩ B) n Bedingte relative Häufigkeiten werden auf das Eintreten des anderen Merkmals bezogen: f (A|B) = h(A ∩ B) f (A ∩ B) = h(B) f (B) f (A|B) heißt die bedingte relative Häufigkeit von A unter der Bedingung B. R. Frühwirth Statistische Metodender Datenanalyse 125/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Die Vierfeldertafel U gibt folgende bedingte relative Häufigkeiten: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit f (A|B) = 19 = 0.422, 45 f (A|B 0 ) = 526 = 0.551 955 Es ist somit zu vermuten, dass die beiden Merkmale gekoppelt sind. f (A|B) > f (A) deutet auf eine positive Koppelung, f (A|B) < f (A) auf eine negative Koppelung. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 126/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Stammen die Daten aus einem Zufallsexperiment, dann besitzen die Ereigniskombinationen auch Wahrscheinlichkeiten. Wahrscheinlichkeitstabelle: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A A0 B B0 W (A ∩ B) W (A ∩ B 0 ) W (A) W (A0 ∩ B) W (A0 ∩ B 0 ) W (A0 ) W (B) W (B 0 ) 1 Nach dem empirischen Gesetz der großen Zahl sind diese Wahrscheinlichkeiten die Grenzwerte der entsprechenden relativen Häufigkeiten. R. Frühwirth Statistische Metodender Datenanalyse 127/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Die bedingten relativen Häufigkeiten konvergieren für n → ∞ gegen einen Grenzwert: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit fn (A|B) = W (A ∩ B) fn (A ∩ B) → W (A|B) = fn (B) W (B) Definition (Bedingte Wahrscheinlichkeit) W (A|B) = W (A ∩ B) W (B) heißt die bedingte Wahrscheinlichkeit von A unter der Bedingung B, sofern W (B) 6= 0. R. Frühwirth Statistische Metodender Datenanalyse 128/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Beispiel (Der symmetrische Würfel) Ist der Würfel völlig symmetrisch, werden den Elementarereignissen ei = {i} gleiche Wahrscheinlichkeiten zugeordnet: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (ei ) = 1 , 1≤i≤6 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wir definieren die folgenden Ereignisse: U = {1, 3, 5}, G = {2, 4, 6} Dann gilt zum Beispiel W (e1 ∩ U ) W (e1 ) 1 = = W (U ) W (U ) 3 W (e1 ∩ G) W (0) W (e1 |G) = = =0 W (U ) W (U ) W (e1 |U ) = R. Frühwirth Statistische Metodender Datenanalyse 129/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Beispiel (Fortsetzung) Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen W (e1 ∩ U ) W (e1 ) = =1 W (e1 ) W (e1 ) W (e1 ∪ e3 ) W ((e1 ∪ e3 ) ∩ U ) 2 = = W (e1 ∪ e3 |U ) = W (U ) W (U ) 3 W ((e1 ∪ e2 ) ∩ U ) W (e1 ) 1 W (e1 ∪ e2 |U ) = = = W (U ) W (U ) 3 W (U |e1 ) = Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 130/587 Kopplung und bedingte Wahrscheinlichkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Aus der Definition der bedingten Wahrscheinlichkeit folgt sofort die Produktformel W (A ∩ B) = W (A|B)W (B) = W (B|A)W (A) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit und die Formel für die Inverse Wahrscheinlichkeit W (B|A) = W (A|B)W (B) W (A) Beide Formeln gelten auch für relative Häufigkeiten! R. Frühwirth Statistische Metodender Datenanalyse 131/587 Unterabschnitt: Satz von Bayes Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 132/587 Satz von Bayes Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Definition (Zerlegung) Die Ereignisse B1 , B2 , . . . , Bm bilden eine Zerlegung der Ergebnismenge Ω, wenn gilt: 1 Unvereinbarkeit: Bi ∩ Bj = ∅, i 6= j 2 Vollständigkeit: B1 ∪ B2 ∪ . . . ∪ Bm = Ω Satz Bilden die Ereignisse B1 , B2 , . . . , Bm eine Zerlegung der Ergebnismenge Ω, dann gilt: W (B1 ) + W (B2 ) + . . . + W (Bm ) = W (Ω) = 1 R. Frühwirth Statistische Metodender Datenanalyse 133/587 Satz von Bayes Statistische Metoden der Datenanalyse Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Totale Wahrscheinlichkeit W (A) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel Ein Betrieb erzeugt Glühbirnen mit 40W (35% der Produktion), mit 60W (45%) und mit 100W (20%). Nach einem Jahr sind noch 98% der 40W-Birnen funktionsfähig, 96% der 60W-Birnen, und 92% der 100W-Birnen. Welcher Anteil an allen Glühbirnen ist nach einem Jahr noch funktionsfähig? R. Frühwirth Statistische Metodender Datenanalyse 134/587 Satz von Bayes Statistische Metoden der Datenanalyse Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: R. Frühwirth Einleitung Satz von Bayes Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen W (A|Bi )W (Bi ) W (A) W (A|Bi )W (Bi ) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) W (Bi |A) = Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (Bi ) wird die a-priori Wahrscheinlichkeit von B genannt, W (Bi |A) die a-posteriori Wahrscheinlichkeit. R. Frühwirth Statistische Metodender Datenanalyse 135/587 Satz von Bayes Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Beispiel Ein Betrieb kauft Bauteile von zwei Anbietern, wobei der Anteil des ersten 65% beträgt. Erfahrungsgemäß ist der Ausschussanteil bei Anbieter 1 gleich 3% und bei Anbieter 2 gleich 4%. 1 Wie groß ist der totale Ausschussanteil? 2 Wie groß ist die Wahrscheinlichkeit, daß ein einwandfreier Bauteil von Anbieter 2 kommt? 3 Wie groß ist die Wahrscheinlichkeit, daß ein mangelhafter Bauteil von Anbieter 1 kommt? Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 136/587 Satz von Bayes Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Beispiel Ein Bauteil wird von vier Firmen geliefert, und zwar kommen 20% von Firma 1, 30% von Firma 2, 35% von Firma 3, und 15% von Firma 4. Die Wahrscheinlichkeit, dass der Bauteil im Testbetreib innerhalb von 24 Stunden ausfällt, ist 0.02 für Firma 1, 0.015 für Firma 2, 0.025 für Firma 3, und 0.02 für Firma 4. Ein Bauteil fällt im Testbetrieb nach 16 Stunden aus. Die Wahrscheinlichkeit, dass er von Firma i kommt, ist mittel des Satzes von Bayes zu berechnen. Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 137/587 Unterabschnitt: Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 138/587 Unabhängigkeit Statistische Metoden der Datenanalyse Zwei Ereignisse sind positiv gekoppelt, wenn R. Frühwirth Einleitung W (A|B) > W (A) oder W (A ∩ B) > W (A)W (B) Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Zwei Ereignisse sind negativ gekoppelt, wenn W (A|B) < W (A) oder W (A ∩ B) < W (A)W (B) Liegt weder positive noch negative Kopppelung vor, sind A und B unabhängig. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 139/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Definition (Unabhängigkeit) Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn W (A ∩ B) = W (A)W (B) Die Ereignisse A1 , A2 , . . . , An heißen unabhängig, wenn gilt: W (A1 ∩ . . . ∩ An ) = W (A1 ) · . . . · W (An ) Dazu genügt nicht, dass je zwei Ereignisse Ai und Aj paarweise unabhängig sind! R. Frühwirth Statistische Metodender Datenanalyse 140/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Beispiel Wir betrachten den zweimaligen Wurf einer Münze (Kopf/Zahl). Die möglichen Ausgänge sind Ω = {KK, KZ, ZK, ZZ}. Ferner definieren wir die Ereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente E1 = {KK, KZ} . . . Kopf beim ersten Wurf E2 = {KK, ZK} . . . Kopf beim zweiten Wurf Wahrscheinlichkeit E3 = {KK, ZZ} . . . Gerade Zahl von Köpfen Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Dann gilt für alle i 6= j Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (Ei ∩ Ej ) = 1 = W (Ei ) · W (Ej ) 4 aber W (E1 ∩ E2 ∩ E3 ) = R. Frühwirth 1 1 6= = W (E1 ) · W (E2 ) · W (E3 ) 4 8 Statistische Metodender Datenanalyse 141/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Sind A und B unabhängig, gilt W (A|B) = W (A) und W (B|A) = W (B). Die Vierfeldertafel für zwei unabhängige Ereignisse: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A A0 B B0 W (A)W (B) W (A)W (B 0 ) W (A) W (A0 )W (B) W (A0 )W (B 0 ) W (A0 ) W (B) W (B 0 ) 1 R. Frühwirth Statistische Metodender Datenanalyse 142/587 Unabhängigkeit Statistische Metoden der Datenanalyse Die Koppelung kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Vierfelderkorrelation W (A ∩ B) − W (A)W (B) ρ(A, B) = p W (A)W (A0 )W (B)W (B 0 ) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Eigenschaften der Vierfelderkorrelation 1 −1 ≤ ρ(A, B) ≤ 1 2 ρ(A, B) = 0 ⇐⇒ A und B unabhängig 3 ρ(A, B) > 0 ⇐⇒ A und B positiv gekoppelt 4 ρ(A, B) < 0 ⇐⇒ A und B negativ gekoppelt R. Frühwirth Statistische Metodender Datenanalyse 143/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Speziell gilt: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Die Koppelung kann auch durch eine gemeinsame Ursache für beide Ereignisse entstehen. R. Frühwirth Statistische Metodender Datenanalyse 144/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Zwei physikalische Ereignisse können als unabhängig postuliert werden, wenn zwischen ihnen keine wie immer geartete Verbindung besteht, da dann das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflussen kann. Zwei Elementarereignisse sind niemals unabhängig, da ihre ∩-Verbindung stets das unmögliche Ereignis ist. Zwei Elementarereignisse sind sogar höchst abhängig“, weil ” das Eintreten des einen das Eintreten des anderen mit Sicherheit ausschließt. Sind E1 und E2 zwei unaghängige Ereignisse eines Wahrscheinlichkeitsraumes (Σ, W ), so sind auch E1 und E20 , E10 und E2 , sowie E10 und E20 unabhängig. R. Frühwirth Statistische Metodender Datenanalyse 145/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Wurf mit zwei unterscheidbaren Würfeln) Es gibt 36 Elementarereignisse eij = {(i, j)}, 1 ≤ i, j ≤ 6. Das Ereignis Ei1 , beim ersten Wurf eine i zu würfeln, setzt sich so zusammen: Ei1 = ei1 ∪ ei2 ∪ . . . ∪ ei6 und analog Ej2 = e1j ∪ e2j ∪ . . . ∪ e6j Klarerweise gilt Ei1 ∩ Ej2 = eij . Kann man annehmen, dass alle Elementarereignisse gleichwahrscheinlich sind, so gilt: 1 1 , W (Ej2 ) = 6 6 1 1 2 W (Ei ∩ Ej ) = W (eij ) = = W (Ei1 ) · W (Ej2 ) 36 W (Ei1 ) = R. Frühwirth Statistische Metodender Datenanalyse 146/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Fortsetzung) In diesem Fall sind also auch die Elementarereignisse des einfachen Wurfes gleichwahrscheinlich und die beiden Teilwürfe sind unabhängig. Setzt man umgekehrt voraus, dass für beide Teilwürfe die Elementarereignisse gleichwahrscheinlich sind, und dass Ei1 und Ej2 für alle i und j unabhängig sind, so sind die eij gleichwahrscheinlich. Sind die Teilwürfe nicht unabhängig, so sind die eij trotz der Gleichwahrscheinlichkeit der ei und ej nicht mehr gleichwahrscheinlich. Ein Beispiel dafür ist der Wurf“ mit einem sehr ” großen Würfel, der jedesmal bloß um 90o gedreht werden kann. Das Elementarereignis e34 ist hier unmöglich und muss daher die Wahrscheinlichkeit 0 zugewiesen bekommen. R. Frühwirth Statistische Metodender Datenanalyse 147/587 Unabhängigkeit Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Beispiel (Wiederholung eines Alternativversuchs) Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form (i1 , . . . , in ), ij = 0 oder 1. Sind die Wiederholungen unabhängig, und bezeichnet p die Wahrscheinlichkeit des Eintretens von 1, ist die Wahrscheinlichkeit einer Folge W ({(i1 , . . . , in )}) = pn1 (1 − p)n0 wo n0 bzw. n1 die Anzahl des Eintretens von 0 bzw. 1 angibt. Klarerweise gilt n0 + n1 = n. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistische Metodender Datenanalyse 148/587 Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Teil 3 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 149/587 Übersicht Teil 3 Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 150/587 Abschnitt 8: Eindimensionale Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 151/587 Unterabschnitt: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 152/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Zufallsvariable) Eine Abbildung X: ω ∈ Ω 7→ x = X(ω) ∈ R die jedem Element ω des Ereignisraums Ω eine reelle Zahl zuordnet, heißt eine (eindimensionale) Zufallsvariable. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Ist Ω endlich oder abzählbar unendlich, ist jede beliebige Abbildung X zugelassen. Ist Ω überabzählbar unendlich, muss X eine messbare Abbildung sein. Da der Wert einer Zufallsvariablen vom Ausgang des Experiments abhängt, kann man den möglichen Werten Wahrscheinlichkeiten zuschreiben. R. Frühwirth Statistische Metodender Datenanalyse 153/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Nimmt die Zufallsvariable X nur endlich oder abzählbar unendlich viele Werte an, heißt sie diskret. Nimmt die Zufallsvariable X ein Kontinuum von Werte an, heißt sie kontinuierlich. Beispiel Die Abbildung, die beim Würfeln dem Elementarereignis ei die Augenzahl i zuordnet, ist eine diskrete Zufallsvariable. Natürlich wäre auch die Abbildung ei :−→ 7 − i eine diskrete Zufallsvariable. Beispiel Die Abbildung, die dem Zerfall eines Teilchens die Lebensdauer x zuordnet, ist eine kontinuierliche Zufallsvariable. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 154/587 Unterabschnitt: Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 155/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Diskrete Zufallsvariable sind oft das Resultat von Zählvorgängen. In der physikalischen Praxis kommen diskrete Zufallsvariable häufig vor: man denke an das Zählen von Ereignissen in einem festen Zeitintervall (Poissonverteilung), an das Abzählen von Alternativversuchen (Binomialverteilung), oder auch an die Besetzungshäufigkeit der diskreten Energieniveaus des Wasserstoffatoms. Im folgenden nehmen wir an, dass die Werte einer diskreten Zufallsvariablen nichtnegative ganze Zahlen sind. Dies ist keine Einschränkung, weil jede abzählbare Menge von reellen Zahlen bijektiv auf (eine Teilmenge von) N0 abgebildet werden kann. Die Ereignisalgebra ist die Potenzmenge (Menge aller Teilmengen) P von N0 . R. Frühwirth Statistische Metodender Datenanalyse 156/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Ist auf der Ereignisalgebra Σ(Ω) ein Wahrscheinlichkeitsmaß W definiert, so kann man mit Hilfe der Zufallsvariablen X auf der Potenzmenge P von N0 ebenfalls ein Wahrscheinlichkeitsmaß definieren. Definition (Verteilung einer diskreten Zufallsvariablen) Es sei Σ(Ω) eine diskrete Ereignisalgebra. Die diskrete Zufallsvariable X : Ω 7→ N0 induziert ein Wahrscheinlichkeitsmaß auf N0 mittels WX ({k}) = W (X −1 (k)) = W ({ω|X(ω) = k}) WX wird als die Verteilung von X bezeichnet, und zwar als diskrete oder Spektralverteilung. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 157/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel Wir ordnen den geraden Augenzahlen des Würfels die Zahl 0 zu, den ungeraden die Zahl 1: X : ω 7→ mod (ω, 2) Die Verteilung von X ist dann gegeben durch 1 2 1 WX (1) = W (X −1 (1)) = W ({1, 3, 5}) = 2 WX (0) = W (X −1 (0)) = W ({2, 4, 6}) = Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 158/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Beispiel Wir ordnen dem Ausgang eines Doppelwurfs die Summe der Augenzahlen zu: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe X : (i, j) 7→ i + j Die Werte von X sind die natürlichen Zahlen von 2 bis 12. Die Verteilung von X ist dann gegeben durch k−1 , k≤7 X −1 36 WX (k) = W (X (k)) = W ({(i, j)}) = i+j=k 13 − k , k ≥ 7 36 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 159/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Zahlen WX (k) können als Funktionswerte einer Spektralfunktion fX angesehen werden: ( WX (k), wenn x = k fX (x) = 0, sonst Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Diskrete Dichtefunktion) Die Funktion fX (k) wird als Wahrscheinlichkeitsdichtefunktion oder kurz Dichte der Zufallsvariablen X bezeichnet. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 160/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse Die Dichte der Zufallsvariablen X = i + j: R. Frühwirth Dichtefunktion Eindimensionale Zufallsvariable 0.18 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.16 0.14 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 0.1 f(x) Wichtige Verteilungen 0.12 0.08 0.06 0.04 0.02 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 2 3 R. Frühwirth 4 5 6 7 x 8 9 10 Statistische Metodender Datenanalyse 11 12 161/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Wahrscheinlichkeit WX (E) eines Ereignisses E lässt sich bequem mit Hilfe der Dichte von X berechnen: X WX (E) = fX (k) k∈E Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Diskrete Verteilungsfunktion) Ist X eine diskrete Zufallsvariable, so ist die Verteilungsfunktion FX von X definiert durch: FX (x) = W (X ≤ x) Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Es gilt offenbar: FX (x) = X k≤x R. Frühwirth fX (k) = X WX ({k}) k≤x Statistische Metodender Datenanalyse 162/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eigenschaften einer diskreten Verteilungsfunktion F 1 F hat eine Sprungstelle in allen Punkten des Wertebereichs 2 Die Sprunghöhe im Punkt k ist gleich fX (k) 3 0 ≤ F (x) ≤ 1 ∀x ∈ R 4 x ≤ y =⇒ F (x) ≤ F (y) ∀x, y ∈ R Grundbegriffe Randverteilungen und bedingte Verteilungen 5 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 Wichtige Verteilungen 6 Die Wahrscheinlichkeit, dass r in das Intervall (a, b] fällt, ist F (b) − F (a): Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen W (r ≤ a) + W (a < r ≤ b) = W (r ≤ b) =⇒ Momente Erwartung Varianz Schiefe W (a < r ≤ b) = F (b) − F (a) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 163/587 Diskrete Zufallsvariable Statistische Metoden der Datenanalyse Die Verteilungsfunktion der Zufallsvariablen X = i + j: R. Frühwirth Verteilungsfunktion Eindimensionale Zufallsvariable 1 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.9 0.8 Mehrdimensionale Zufallsvariable 0.7 Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.6 F(x) Wichtige Verteilungen 0.5 0.4 0.3 Momente Erwartung Varianz Schiefe 0.2 0.1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 2 3 4 R. Frühwirth 5 6 7 x 8 9 Statistische Metodender Datenanalyse 10 11 12 164/587 Unterabschnitt: Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 165/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Bisher wurden nur solche Zufallsvariable behandelt, die auf diskreten Ereignisalgebren definiert waren. Diese Beschränkung soll nun fallengelassen werden, d.h es werden jetzt überabzählbar viele Elementarereignisse zugelassen. Das ist notwendig, wenn nicht nur Zählvorgänge, sondern beliebige Messvorgänge zugelassen werden. Eine Funktion X, die auf einer solchen überabzählbaren Menge von Elementarereignissen definiert ist, kann beliebige reelle Werte annehmen. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 166/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Definition (Stetige Verteilungsfunktion) Es sei (Σ, W ) ein Wahrscheinlichkeitsraum über einer überabzählbaren Ergebnismenge Ω. X sei eine Zufallsvariable, also eine (messbare) Funktion von Ω in R. Die Funktion FX , definiert durch: FX (x) = W (X ≤ x) heißt die Verteilungsfunktion von X. Die Wahrscheinlichkeit, dass X in ein Intervall (x, x + ∆x] fällt, ist dann: W (x < X ≤ x + ∆x) = FX (x + ∆x) − FX (x) = ∆FX . Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 167/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eigenschaften einer stetigen Verteilungsfunktion 1 0 ≤ F (x) ≤ 1 ∀x ∈ R 2 x1 ≤ x2 =⇒ F (x1 ) ≤ F (x2 ) ∀x1 , x2 ∈ R 3 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Definition (Quantil) Es sei FX (x) eine stetige Verteilungsfunktion. Der Wert xα , für den FX (xα ) = α, 0 < α < 1 gilt, heißt das α-Quantil der Verteilung von X. Die Funktion −1 x = FX (α), 0<α<1 heißt die Quantilsfunktion der Verteilung von X. R. Frühwirth Statistische Metodender Datenanalyse 168/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Quartil) Die Quantile zu den Werten α = 0.25, 0.5, 0.75 heißen Quartile. Das Quantil zum Wert α = 0.5 heißt Median der Verteilung. Quantile können auch für diskrete Verteilungen definiert werden, jedoch sind sie dann nicht immer eindeutig. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 169/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Stetige Dichtefunktion) Ist FX differenzierbar, heißt X eine stetige Zufallsvariable. Für die Verteilung von X gilt nach dem Hauptsatz der Integralrechnung: Z x2 WX (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = fX (x) dx x1 0 wobei fX (x) = FX (x) ist. Die Ableitung der Verteilungsfunktion, die Funktion fX , wird als Wahrscheinlichkeitsdichtefunktion oder wieder kurz Dichte von X bezeichnet. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 170/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Das Wahrscheinlichkeitsmaß WX heißt die Verteilung von X. Es ist auf einer Ereignisalgebra Σ definiert, die aus Mengen reeller Zahlen besteht und zumindest alle Intervalle und deren Vereinigungen als Elemente enthält. Ähnlich wie bei diskreten Zufallsvariablen lässt sich die Wahrscheinlichkeit WX einer Menge M ∈ Σ leicht mit Hilfe der Dichte angeben: Z WX (M ) = fX (x) dx M Die Wahrscheinlichkeit eines einzelnen Punktes ist immer gleich 0: Z x WX ({x}) = fX (x) dx = 0 x R. Frühwirth Statistische Metodender Datenanalyse 171/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse Daher ist auch R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen WX ((x1 , x2 ]) = WX ((x1 , x2 )) = WX ([x1 , x2 ]). Ganz allgemein erhält man eine Aussage über stetige Zufallsvariable dadurch, dass man in einer Aussage über diskrete Zufallsvariable die Summation durch eine Integration ersetzt. Gilt zum Beispiel für eine diskrete Dichte f : X f (k) = 1 k∈N0 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze so gilt für eine stetige Dichte f : Z ∞ f (x) dx = 1 −∞ R. Frühwirth Statistische Metodender Datenanalyse 172/587 Stetige Zufallsvariable Statistische Metoden der Datenanalyse Dichtefunktion Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen f(x) Mehrdimensionale Zufallsvariable Verteilungsfunktion 0.2 1 0.18 0.9 0.16 0.8 0.14 0.7 0.12 0.6 F(x) R. Frühwirth 0.1 0.5 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.08 0.4 0.06 0.3 0.04 0.2 0.02 0.1 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 0 5 10 x R. Frühwirth 15 20 0 0 5 Statistische Metodender Datenanalyse 10 x 15 20 173/587 Abschnitt 9: Mehrdimensionale Zufallsvariable Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 174/587 Unterabschnitt: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 175/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Zufallsvariable) Eine Abbildung X: ω ∈ Ω 7→ x = X(ω) ∈ Rd die jedem Element ω des Ereignisraums Ω einen reellen Vektor x ∈ Rd zuordnet, heißt eine d-dimensionale Zufallsvariable. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariablen können diskret oder stetig sein. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 176/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Verteilungsfunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable, so ist die Verteilungsfunktion FX durch FX (x1 , . . . , xd ) = W (X1 ≤ x1 ∩ . . . ∩ Xd ≤ xd ) definiert. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Definition (Dichtefunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale diskrete Zufallsvariable, so ist die Dichtefunktion fX durch fX (x1 , . . . , xd ) = W (X1 = x1 ∩ . . . ∩ Xd = xd ) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze definiert. R. Frühwirth Statistische Metodender Datenanalyse 177/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel Die zweidimensionale Zufallsvariable X = (X1 , X2 ) ordnet dem Ergebnis des Wurfs mit zwei Würfeln die Augenzahlen (i, j) zu. Sind alle Ausgänge gleichwahrscheinlich, so ist WX gegeben durch: 1 WX {(i, j)} = 36 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Dichte fX lautet: ( fX (x1 , x2 ) = 1 , 36 0, x1 ∈ {1, . . . , 6} ∩ x2 ∈ {1, . . . , 6} sonst Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 178/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable 0.03 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 0.02 w(x1,x2) Mehrdimensionale Zufallsvariable 0.025 0.015 0.01 0.005 0 1 2 3 5 4 5 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 6 4 3 6 x2 R. Frühwirth 2 1 x1 Statistische Metodender Datenanalyse 179/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Fortsetzung) Die Verteilungsfunktion F ist daher: F (x1 , x2 ) = W (X1 ≤ x1 ∩ X2 ≤ x2 ) = X f (i, j) i≤x1 ∩j≤x2 Beispielsweise ist F (3, 4) = 1 i≤3∩j≤4 36 P = 12 36 = 13 . Wegen der Abzählbarkeit der Elementarereignisse können diese auch durch eine eindimensionale Zufallsvariable Y eindeutig in R abgebildet werden, z. B.: Y : (ei , ej ) −→ 6i + j − 6 Der Wertevorrat von Y sind die natürlichen Zahlen zwischen 1 und 36, und WY ist gegeben durch: 1 WY {k} = , 1 ≤ k ≤ 36 36 R. Frühwirth Statistische Metodender Datenanalyse 180/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Definition (Dichtefunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale stetige Zufallsvariable, so ist die Dichtefunktion fX durch fX (x1 , . . . , xd ) = Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen ∂ d FX ∂x1 . . . ∂xd definiert. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 181/587 Unterabschnitt: Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 182/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Sind X1 und X2 zwei (diskrete oder stetige) 1-dimensionale Zufallsvariable, so ist X = (X1 , X2 ) eine zweidimensionale Zufallsvariable. Die Verteilung (Verteilungsfunktion, Dichte) von X heißt auch die gemeinsame Verteilung (Verteilungsfunktion, Dichte) von X1 und X2 . Es stellt sich nun das folgende Problem: Kann man die Verteilung von X1 bzw. X2 aus der gemeinsamen Verteilung berechnen? Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 183/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Es sei F die Verteilungsfunktion und f die Dichte der stetigen Zufallsvariablen X = (X1 , X2 ). Dann ist die Verteilungsfunktion F1 von X1 gegeben durch: F1 (x1 ) = W (X1 ≤ x1 ) = W (X1 ≤ x1 ∩ −∞ < X2 < ∞) = Z x1 Z ∞ = f (x1 , x2 ) dx2 dx1 −∞ −∞ Daraus folgt: Z f (x1 , x2 ) dx2 −∞ Momente Erwartung Varianz Schiefe ∞ f1 (x1 ) = ist die Dichte von X1 . Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 184/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Randverteilung) Es sei X = (X1 , X2 ) eine zweidimensionale stetige Zufallsvariable mit der Verteilungsfunktion F und der Dichte f . Die Verteilung von X1 heißt die Randverteilung von X1 bezüglich X. Ihre Dichte f1 lautet: Z ∞ f1 (x1 ) = f (x1 , x2 ) dx2 . −∞ Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Ist X = (X1 , X2 ) diskret mit der Dichte f , so ist analog die Dichte f1 der Randverteilung von X1 bezüglich X gegeben durch: X f1 (k1 ) = f (k1 , k2 ) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze k2 R. Frühwirth Statistische Metodender Datenanalyse 185/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Verteilungen von X1 und X2 lassen sich also aus der gemeinsamen Verteilung von X1 und X2 berechnen. Der umgekehrte Vorgang ist im allgemeinen nicht möglich, da die gemeinsame Verteilung auch Information über mögliche Zusammenhänge (Kopplung) zwischen X1 und X2 enthält. Es seien X1 und X2 zwei diskrete Zufallsvariable mit der gemeinsamen Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) und f2 (k2 ). Dann ist die bedingte Wahrscheinlichkeit des Ereignisses X1 = k1 unter der Bedingung X2 = k2 gegeben durch: Momente Erwartung Varianz Schiefe W (X1 = k1 |X2 = k2 ) = Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth W (X1 = k1 ∩ X2 = k2 ) f (k1 , k2 ) = W (X2 = k2 ) f2 (k2 ) Statistische Metodender Datenanalyse 186/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Definition (Bedingte Dichte) Es sei X = (X1 , X2 ) eine 2-dimensionale diskrete Zufallsvariable mit der Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) bzw. f2 (k2 ). Die Funktion f (k1 |k2 ), definiert durch: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe f (k1 |k2 ) = f (k1 , k2 ) f2 (k2 ) heißt die durch X2 bedingte Dichte von X1 . Die bedingte Dichte ist für festes k2 die Dichte eine Verteilung, der durch X2 = k2 bedingten Verteilung von X1 . Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 187/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Ist X = (X1 , X2 ) stetig, so ist analog f (x1 |x2 ) definiert durch: f (x1 |x2 ) = f (x1 , x2 ) (f2 (x2 ) 6= 0) f2 (x2 ) f (x1 |x2 ) ist für festes x2 die Dichte einer Verteilung, der durch X2 = x2 bedingten Verteilung von X1 . Dass f (x1 |x2 ) tatsächlich eine Dichte ist, läßt sich leicht nachprüfen: Z ∞ Z ∞ f (x1 , x2 ) f2 (x2 ) f (x1 |x2 ) dx1 = dx1 = =1 f (x ) f2 (x2 ) 2 2 −∞ −∞ und analog für diskretes X. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 188/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse Es gilt: R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen f (x1 , x2 ) = f (x1 |x2 ) · f2 (x2 ) Z ∞ f1 (x1 ) = f (x1 |x2 ) · f2 (x2 ) dx2 −∞ und analog für diskrete Dichten. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Definition (Unabhängigkeit von Zufallsvariablen) Ist die (unbedingte) Dichte der Randverteilung von X1 gleich der durch X2 bedingten Dichte, so heißen X1 und X2 unabhängig. X1 und X2 unabhängig ⇐⇒ f (x1 |x2 ) = f1 (x1 ) R. Frühwirth Statistische Metodender Datenanalyse 189/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse Für unabhängige Zufallsvariablen X1 und X2 gilt: R. Frühwirth Eindimensionale Zufallsvariable f (x1 |x2 ) = f1 (x1 ) ⇐⇒ f (x2 |x1 ) = f2 (x1 ) ⇐⇒ f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente und analog für diskretes X. Für unabhängige Zufallsvariable X1 ,X2 ist also die Dichte der gemeinsamen Verteilung gleich dem Produkt der einzelnen Dichten. Ist X = (X1 , . . . , Xd ), d > 2, so müssen die Definitionen der Randverteilung, der bedingten Dichten und der Unabhängigkeit entsprechend verallgemeinert werden. Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 190/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Dichte der Randverteilung von Xi1 , . . . , Xim ist gegeben durch: fi1 ,...,im (xi1 , . . . , xim ) Z ∞ Z ∞ = ... f (x1 , . . . , xn ) dxim+1 . . . dxin −∞ −∞ Die durch Xj bedingte Dichte von Xi ist gegeben durch: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen f (xi |xj ) = Momente Erwartung Varianz Schiefe fi,j (xi , xj ) fj (xj ) wobei fi,j (xi , xj ) die Randverteilungsdichte von Xi , Xj ist. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 191/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Xi1 , . . . , Xik heißen unabhängig, wenn die Dichte der Randverteilung von Xi1 , . . . , Xik das Produkt der Dichten der Randverteilungen der einzelnen Xij ist. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 192/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Die Akzeptanz oder Nachweiswahrscheinlichkeit) X sei eine Zufallsvariable mit der Dichte f (x). Nimmt X den Wert x an, so gibt es eine Wahrscheinlichkeit a(x) dafür, dass x auch tatsächlich beobachtet wird. Man definiert nun eine Zufallsvariable I, die 1 ist, wenn x beobachtet wird, und 0 sonst. Dann ist I unter der Bedingung X = x alternativ nach Aa(x) verteilt: W (I = 1|X = x) = a(x) W (I = 0|X = x) = 1 − a(x) Die gemeinsame Dichte von X und I ist daher: f (x, 1) = a(x)f (x) f (x, 0) = [1 − a(x)]f (x) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 193/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Fortsetzung) Da der Experimentator nur mit beobachteten Größen arbeiten kann, schränkt er seine Grundgesamtheit auf die nachgewiesenen Ereignisse ein, d.h. er braucht die Dichte von X unter der Bedingung, dass X beobachtet wird: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze fA (x) = f (x|I = 1) = f (x, 1) a(x)f (x) = R f2 (1) a(x)f (x) dx Als konkretes Beispiel diene die Messung einer Lebensdauer. Die Messung möge bei tmin beginnen und bei tmax enden. Dann hat a(t) die folgende Gestalt: 0, für t ≤ tmin a(t) = 1, für tmin < t ≤ tmax 0, für t > tmax R. Frühwirth Statistische Metodender Datenanalyse 194/587 Randverteilungen und bedingte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Fortsetzung) Für die gemessene Wahrscheinlichkeitsdichte gilt: 0, t ≤ tmin 1 exp(−t/τ ) τ fA (t) = , tmin ≤ t < tmax exp(−t /τ ) − exp(−tmax /τ ) min 0, t > t max Der Faktor 1/[exp(−tmin /τ ) − exp(−tmax /τ )] korrigiert für jene Teilchen, die vor tmin oder nach tmax zerfallen. Die Nachweiswahrscheinlichkeit a(t) kann auch von der Geometrie des Detektors oder deren Ansprechwahrscheinlichkeit bestimmt werden und eine komplizierte Abhängigkeit von t haben. So kann es etwa von der Konfiguration der Zerfallsprodukte abhängen, ob ein Zerfall bei t beobachtet werden kann oder nicht. R. Frühwirth Statistische Metodender Datenanalyse 195/587 Abschnitt 10: Wichtige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 196/587 Unterabschnitt: Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 197/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die diskrete Gleichverteilung auf n Punkten, Gl(n) Die Verteilung einer Zufallsvariablen X, die die Werte 1, . . . , n mit gleicher Wahrscheinlichkeit annimmt.. Die Dichte fX lautet: ( fX = Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 1 n, 0, x ∈ {1, . . . , n} sonst Die Verteilungsfunktion FX ist eine Stufenfunktion mit Sprüngen der Größe n1 in den Punkten 1, . . . , n. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 198/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Alternativ- oder Bernoulliverteilung Al(p) Die Verteilung einer Zufallsvariablen, die den Ausgängen eines Alternativversuchs die Werte 1 (Erfolg) bzw. 0 (Misserfolg) zuordnet. Die Dichte fX lautet: Grundbegriffe Randverteilungen und bedingte Verteilungen fX (0) = 1 − p, fX (1) = p Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente oder fX (x) = px (1 − p)1−x , x ∈ {0, 1} Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 199/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Binomialverteilung Bi(n, p) Wird der Alternativversuch n mal unabhängig durchgeführt, so gibt es 2n Elementarereignisse, nämlich die Folgen der Form e = (ei1 , . . . , ein ), ij = 0 oder 1. Die diskrete Zufallsvariable X bildet die Folge e auf die Häufigkeit von e1 ab: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze r(e) = n X ij j=1 Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k (0 ≤ k ≤ n) werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . R. Frühwirth Statistische Metodender Datenanalyse 200/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Dichte f ist daher: ! n k fX (k) = p (1 − p)n−k , 0 ≤ k ≤ n k Die Verteilung von X wird als Binomialverteilung Bi(n, p) mit den Parametern n und p bezeichnet. Es gilt Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ! n X n k p (1 − p)n−k = 1 fX (k) = k k=0 k=0 n X Momente Erwartung Varianz Schiefe Das ist gerade der binomische Lehrsatz. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 201/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse Der Modus m (der wahrscheinlichste Wert) ist gleich R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe b(n + 1)pc, (n + 1)p und m= (n + 1)p − 1, 1, wenn p = 0 oder (n + 1)p ∈ /N wenn (n + 1)p ∈ {1, . . . , n} wenn p = 1 Die Verteilungsfunktion kann durch die unvollständige regularisierte Betafunktion β(x; a, b) ausgedrückt werden: FX (k; n, p) = W (X ≤ k) = β(1 − p; n − k, k + 1) Z 1−p n−k−1 t (1 − t)k = dt B(n − k, k + 1) 0 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 202/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse 0.4 R. Frühwirth 0.4 Bi(10,0.3) 0.2 0.1 Mehrdimensionale Zufallsvariable 0 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 0.2 0.1 0 1 2 3 4 5 k 6 7 8 9 0 10 0.4 0 1 2 3 4 5 k 6 7 8 9 10 2 3 4 5 k 6 7 8 9 10 0.4 Bi(10,0.7) Bi(10,0.9) 0.3 P(k) 0.3 P(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.3 P(k) P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Bi(10,0.5) 0.3 Eindimensionale Zufallsvariable 0.2 0.2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.1 0 0.1 0 1 2 3 4 5 k 6 7 R. Frühwirth 8 9 10 0 0 1 Statistische Metodender Datenanalyse 203/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse Die negative Binomialverteilung R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Ein Alternativversuch wird solange wiederholt, bis r Erfolge eingetreten sind. Die Verteilung der dazu benötigten Anzahl X von Misserfolgen wird als negative Binomialverteilung Nb(r, p) bezeichnet. Ihre Dichte lautet: ! r+k−1 r fX (k) = p (1 − p)k , k ≥ 0 k Der Modus m (der wahrscheinlichste Wert) ist gleich ( b(r − 1) 1−p p c, wenn r > 1 m= 0, wenn r = 0 Ist m ∈ N, so ist auch m − 1 ein Modus. R. Frühwirth Statistische Metodender Datenanalyse 204/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse 0.2 R. Frühwirth Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze P(k) P(k) 0.02 0 Wichtige Verteilungen Erwartung Varianz Schiefe 0.06 0.04 Grundbegriffe Randverteilungen und bedingte Verteilungen Momente 0.1 0.05 Mehrdimensionale Zufallsvariable 0 1 2 3 4 5 k 6 7 8 0 9 10 11 12 5 10 15 20 0.1 Nb(6,0.3) Nb(8,0.3) 0.08 0.06 0.06 P(k) 0.08 0.04 0.04 0.02 0.02 0 0 k 0.1 P(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Nb(4,0.3) 0.08 0.15 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.1 Nb(2,0.3) 0 10 20 30 0 0 10 k R. Frühwirth 20 30 40 k Statistische Metodender Datenanalyse 205/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse 0.3 0.5 R. Frühwirth Nb(2,0.6) Nb(4,0.6) 0.25 0.4 Eindimensionale Zufallsvariable 0.15 0.2 0.1 0.1 Mehrdimensionale Zufallsvariable 0.05 0 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 0 1 2 k 3 4 5 0 6 0.2 0 1 2 3 4 5 k 6 7 8 9 10 11 12 0.2 Nb(6,0.6) Nb(8,0.6) 0.15 P(k) 0.15 P(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.3 P(k) P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.2 0.1 0.1 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.05 0 0.05 0 5 10 15 0 0 5 k R. Frühwirth 10 15 20 k Statistische Metodender Datenanalyse 206/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Multinomialverteilung Mu(n, p1 , . . . , pd ) Der Alternativversuch kann dahingehend verallgemeinert werden, dass man nicht nur zwei, sondern d Elementarereignisse e1 , . . . , ed zulässt, denen die Wahrscheinlichkeiten p1 , . . . , pd zugeordnet werden, die nur Grundbegriffe Randverteilungen und bedingte Verteilungen d X Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe pi = 1 i=1 erfüllen müssen. Führt man den verallgemeinerten Alternativversuch n-mal durch, so sind die Elementarereignisse die Folgen der Form: Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze (ei1 , . . . , ein ), 1 ≤ ij ≤ d R. Frühwirth Statistische Metodender Datenanalyse 207/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse Sind die n Teilversuche unabhängig, gilt: R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze W (ei1 , . . . , ein ) = n Y W (eij ) = j=1 n Y pij = j=1 d Y pni i i=1 wobei ni die Anzahl des Eintretens von ei ist. Die Summe der ni ist daher n. Die d-dimensionale Zufallsvariable X = (X1 , . . . , Xd ) bildet die Folge (ei1 , . . . , ein ) auf den Vektor (n1 , . . . , nd ) ab. Dabei werden n!/(n1 !· · ·nd !) Folgen auf den gleichen Vektor abgebildet. Die Dichte von X lautet daher: f (n1 , . . . , nd ) = d d d Y X X n! pni i , ni = n, pi = 1 n1 ! . . . nd ! i=1 i=1 i=1 R. Frühwirth Statistische Metodender Datenanalyse 208/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Verteilung von X wird als Multinomialverteilung mit den Parametern n und p1 , . . . , pd bezeichnet: WX = Mu(n, p1 , . . . , pd ) Das klassische Beispiel einer multinomialverteilten Zufallsvariablen ist das Histogramm (gruppierte Häufigkeitsverteilung), das zur graphischen Darstellung der (absoluten) experimentellen Häufigkeit verwendet wird. Xi ist die Anzahl der Fälle, in denen die Zufallsvariable R, das experimentelle Ergebnis, in Gruppe i fällt. Die Wahrscheinlichkeit, dass R in Gruppe i fällt, sei gleich pi . Werden in das Histogramm n Ergebnisse eingefüllt, so sind die Gruppeninhalte (X1 , . . . , Xd ) multinomial nach Mu(n, p1 , . . . , pd ) verteilt. R. Frühwirth Statistische Metodender Datenanalyse 209/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse Ein Histogramm R. Frühwirth 25 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 20 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente ni Wichtige Verteilungen 15 10 5 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 0 1 2 R. Frühwirth 3 4 5 x 6 7 Statistische Metodender Datenanalyse 8 9 10 210/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Poissonverteilung Po(λ) Die Poissonverteilung entsteht aus der Binomialverteilung durch den Grenzübergang n → ∞ unter der Bedingung n · p = λ. Das klassische Beispiel einer Poissonverteilten Zufallsvariablen ist die Anzahl der Zerfälle pro Zeiteinheit in einer radioaktiven Quelle. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Allgemein gilt: Ist die Wartezeit zwischen zwei Ereignissen eines Zufallsprozesses exponentialverteilt, so ist die Anzahl der Ereignisse pro Zeiteinheit Poissonverteilt. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 211/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Dichte der Poissonverteilung folgt aus der Berechnung des Grenzwertes: Pλ (k) = lim Bn; λ (k) n→∞ = lim n→∞ Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen = n n! k!(n − k)! k n−k λ λ 1− = n n λk −λ ·e k! Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Der Modus m (der wahrscheinlichste Wert) ist gleich wenn λ ∈ /N bλc, m = λ und λ − 1, wenn λ ∈ N 0, wenn λ = 0 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 212/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse 0.4 R. Frühwirth w(k) 0.2 0.1 0 Grundbegriffe Randverteilungen und bedingte Verteilungen 0 1 2 3 4 5 6 7 8 9 0 10 0 1 2 3 4 k Wichtige Verteilungen 5 6 7 8 9 10 k 0.2 0.2 Po(5) Po(10) 0.15 w(k) 0.15 w(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.2 0.1 Mehrdimensionale Zufallsvariable Po(2) 0.3 w(k) 0.3 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.4 Po(1) 0.1 0.1 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.05 0 0.05 0 5 10 15 0 0 5 k R. Frühwirth 10 15 20 25 k Statistische Metodender Datenanalyse 213/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die hypergeometrische Verteilung Hy(N, M, n) Grundgesamtheit von N Objekten, davon haben M eine bestimmte Eigenschaft E. Es werden n Objekte gezogen, wobei jedes Objekt die gleiche Wahrscheinlickeit hat, gezogen zu werden. Einmal gezogene Objekte werden nicht zurückgelegt. Die Anzahl der gezogenen Objekte mit der Eigenschaft E ist eine Zufallsvariable X. Die Verteilung von X wird hypergeometrische Verteilung Hy(N, M, n) genannt. Ihre Dichte lautet: M N −M m n−m , 0 ≤ m ≤ min(n, M ) f (m) = N n R. Frühwirth Statistische Metodender Datenanalyse 214/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Der Modus m (der wahrscheinlichste Wert) ist gleich (n + 1)(M + 1) m= N +2 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 215/587 Diskrete Verteilungen Statistische Metoden der Datenanalyse 0.5 Mehrdimensionale Zufallsvariable Bi(10,0.6) 0.4 0.4 0.3 0.3 P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable P(k) Eindimensionale Zufallsvariable 0.5 Hy(20,12,10) R. Frühwirth 0.2 0.2 0.1 0.1 0 0 1 2 3 4 Grundbegriffe Randverteilungen und bedingte Verteilungen 5 k 6 7 8 9 0 10 0.4 Wichtige Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 2 3 4 5 k 6 7 8 9 10 2 3 4 5 k 6 7 8 9 10 Bi(10,0.4) 0.3 P(k) 0.3 0.2 0.1 0 1 0.4 Hy(100,40,10) P(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0 0.2 0.1 0 1 2 3 4 5 k 6 7 8 9 10 0 0 1 Zwei Hypergeometrische Verteilungen und die entsprechenden Binomialverteilungen R. Frühwirth Statistische Metodender Datenanalyse 216/587 Unterabschnitt: Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 217/587 Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Die stetige Gleichverteilung Un(a, b) Die stetige Gleichverteilung auf dem Intervall [a, b] hat die Dichte: 0, x < a 1 f (x|a, b) = I[a,b] = 1/(b − a), a ≤ x ≤ b b−a 0, b < x Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Dichtefunktion der Gleichverteilung Un(0,1) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1.2 1 1 0.8 0.8 F(x) f(x) Momente Erwartung Varianz Schiefe Verteilungsfunktion der Gleichverteilung Un(0,1) 1.2 0.6 0.4 0.4 0.2 0 −0.5 0.6 0.2 0 0.5 x R. Frühwirth 1 1.5 0 −0.5 0 Statistische Metodender Datenanalyse 0.5 x 1 1.5 218/587 Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Gauß- oder Normalverteilung No(µ, σ 2 ) Die Normalverteilung ist eine der wichtigsten Verteilungen in Wissenschaft und Technik. Ihre Dichte lautet: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen f (x|µ, σ 2 ) = √ (x−µ)2 1 e− 2σ2 2πσ Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Im Fall von µ = 0, σ = 1 heißt sie Standardnormalverteilung. Die Verteilungsfunktion Φ(x) ist nicht durch elementare Funktionen darstellbar. Der Modus m (das Maximum der Dichtefunktion) ist bei m = µ. R. Frühwirth Statistische Metodender Datenanalyse 219/587 Stetige Verteilungen Statistische Metoden der Datenanalyse Dichtefunktion der Standardnormalverteilung R. Frühwirth Eindimensionale Zufallsvariable 0.45 1 0.4 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.35 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 0.8 F(x) 0.3 f(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Verteilungsfunktion der Standardnormalverteilung 0.5 0.25 0.6 0.2 0.4 0.15 0.1 0.2 0.05 0 −5 0 x 5 0 −5 0 x 5 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 220/587 Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Exponentialverteilung Ex(τ ) Die Exponentialverteilung ist die Wartezeitverteilung des radioaktiven Zerfalls von Atomen und allgemein des Zerfalls von Elementarteilchen. Ihre Dichte lautet: f (x|τ ) = 1 −x/τ e · I[0,∞) (x) τ Ihre Verteilungsfunktion lautet: F (x|τ ) = 1 − e−x/τ · I[0,∞) (x) Der Modus m ist bei m = 0. R. Frühwirth Statistische Metodender Datenanalyse 221/587 Stetige Verteilungen Statistische Metoden der Datenanalyse Dichtefunktion der Exponentialverteilung Ex(2) R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Verteilungsfunktion der Exponentialverteilung Ex(2) 0.5 1 0.4 0.8 F(x) Grundbegriffe Randverteilungen und bedingte Verteilungen f(x) Mehrdimensionale Zufallsvariable 0.3 0.6 Wichtige Verteilungen 0.2 0.4 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.1 0.2 Momente Erwartung Varianz Schiefe 0 0 2 4 6 8 10 0 0 2 x 4 6 8 10 x Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 222/587 Stetige Verteilungen Statistische Metoden der Datenanalyse Der Poissonprozess R. Frühwirth Wir beobachten einen Prozess, bei dem gewisse Ereignisse zu zufälligen Zeitpunkten eintreten. Ist die Anzahl der Ereignisse pro Zeiteinheit unabhängig und Poisson-verteilt gemäß Po(λ), sprechen wir von einem Poissonprozess mit Intensität λ. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eigenschaften eines Poissonprozesses 1 Die Anzahl der Ereignisse in einem Zeitintervall der Länge T ist Poisson-verteilt gemäß Po(λT ). 2 Die Wartezeit zwischen zwei aufeinanderfolgenden Ereignissen ist exponentialverteilt gemäß Ex(1/λ). 3 Sind die Wartezeiten eines Prozesses unabhängig und exponentialverteilt gemäß Ex(τ ), so ist der Prozess ein Poissonprozess mit Intensität λ = 1/τ . R. Frühwirth Statistische Metodender Datenanalyse 223/587 Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Gammaverteilung Ga(a, b) Die Exponentialverteilung ist eine Spezialfall einer allgemeineren Familie von Verteilungen, der Gammaverteilung. Die Dichte der Gammaverteilung lautet: Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze f (x|a, b) = xa−1 e−x/b · I[0,∞) (x) ba Γ(a) Ihre Verteilungsfunktion ist die regularisierte unvollständige Gammafunktion: Z x a−1 −t/b t e γ(a, x/b) F (x|a, b) = dt = a b Γ(a) Γ(a) 0 Der Modus m ist bei m = (a − 1)b, wenn a ≥ 1. R. Frühwirth Statistische Metodender Datenanalyse 224/587 Stetige Verteilungen Statistische Metoden der Datenanalyse 0 0 f(x) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.5 1 0 0 1.5 1 x Wichtige Verteilungen Rechnen mit Verteilungen 0.5 1 Grundbegriffe Randverteilungen und bedingte Verteilungen Erwartung Varianz Schiefe 1 2 Mehrdimensionale Zufallsvariable Momente Dichtefunktion der Gammaverteilung Ga(a,b) 2 a=1 b=0.5 a=1 b=1 1.5 a=1 b=2 Dichtefunktion der Gammaverteilung Ga(a,b) 1 a=2 b=0.5 a=2 b=1 0.8 a=2 b=2 0.6 0.2 0.2 0.1 2 3 Dichtefunktion der Gammaverteilung Ga(a,b) 0.5 a=5 b=0.5 a=5 b=1 0.4 a=5 b=2 0.3 0.4 0 0 2 x f(x) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f(x) Eindimensionale Zufallsvariable Dichtefunktion der Gammaverteilung Ga(a,b) 5 a=0.5 b=0.5 a=0.5 b=1 4 a=0.5 b=2 3 f(x) R. Frühwirth 4 6 0 0 5 x R. Frühwirth 10 15 x Statistische Metodender Datenanalyse 225/587 Stetige Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Betaverteilung Beta(a, b) Die Gleichverteilung ist eine Spezialfall einer allgemeineren Familie von Verteilungen, der Betaverteilung. Die Dichte der Betaverteilung lautet: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen f (x|a, b) = xa−1 (1 − x)b−1 · I[0,1] (x), B(a, b) B(a, b) = Γ(a)Γ(b) Γ(a + b) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Ihre Verteilungsfunktion ist die regularisierte unvollständige Betafunktion: Z x 1 F (x|a, b) = ta−1 (1 − t)b−1 dt B(a, b) 0 Der Modus m ist bei m = (a − 1)/(a + b − 2), wenn a, b > 1. R. Frühwirth Statistische Metodender Datenanalyse 226/587 Stetige Verteilungen Statistische Metoden der Datenanalyse Dichtefunktion der Betaverteilung Beta(a,b) R. Frühwirth f(x) Grundbegriffe Randverteilungen und bedingte Verteilungen 3 2 1 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.2 0.4 0.6 0.8 0 0 1 0.2 0.4 x 1 5 a=2 b=0.5 a=2 b=1 a=2 b=2 a=2 b=3 3 3 2 2 1 1 0.2 0.4 0.6 a=3 b=0.5 a=3 b=1 a=3 b=2 a=3 b=3 4 f(x) 4 f(x) 0.8 Dichtefunktion der Betaverteilung Beta(a,b) 5 0 0 0.6 x Dichtefunktion der Betaverteilung Beta(a,b) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen 3 1 0 0 a=1 b=0.5 a=1 b=1 a=1 b=2 a=1 b=3 4 2 Wichtige Verteilungen Erwartung Varianz Schiefe a=0.5 b=0.5 a=0.5 b=1 a=0.5 b=2 a=0.5 b=3 4 Mehrdimensionale Zufallsvariable Momente 5 f(x) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Dichtefunktion der Betaverteilung Beta(a,b) 5 0.8 1 0 0 0.2 0.4 x R. Frühwirth 0.6 0.8 1 x Statistische Metodender Datenanalyse 227/587 Unterabschnitt: Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 228/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse Die eindimensionale Normalverteilung R. Frühwirth Eindimensionale Zufallsvariable Ihre Dichte ist die bekannte Glockenkurve: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f (x) = Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen (x−µ)2 1 √ e− 2σ2 σ 2π Das Maximum ist bei x = µ, die Wendepunkte bei x = µ ± σ. Die √ halbe Breite auf halber Höhe (HWHM) ist gleich σ 2 ln 2 ≈ 1, 177σ. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 229/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse 0.5 R. Frühwirth Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen fmax=0.39894 0.4 f((x−µ)/σ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.3 HWHM 0.2 0.1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 0 −4 −3 −2 −1 0 (x−µ)/σ 1 2 3 4 Eindimensionale Normalverteilung, gelber Bereich = 68.2% Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 230/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse Es gilt: R. Frühwirth W (|r − µ| ≥ σ) W (|r − µ| ≥ 2σ) W (|r − µ| ≥ 3σ) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eigenschaften der Normalverteilung 1 Die Faltung zweier Normalverteilungen ist wieder eine Normalverteilung. 2 Ist die Faltung von zwei Verteilungen eine Normalverteilung, so sind auch die beiden Summanden Normalverteilungen. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen = 31.8% = 4.6% = 0.2% Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 231/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die d-dimensionale Normalverteilung No(µ, V) Ihre Dichte lautet: 1 1 T −1 exp − (x − µ) V (x − µ) f (x) = dp 2 (2π) 2 |V| V und V−1 sind symmetrische positiv definite d × d-Matrizen. Ist X normalverteilt gemäß No(µ, V) und H eine m × d Matrix, so ist Y = HX normalverteilt gemäß No(Hµ, HVHT ). Jede Randverteilung einer Normalverteilung ist wieder eine Normalverteilung. Mittelwert und Matrix der Randverteilung entstehen durch Streichen der Spalten und Zeilen der restlichen Variablen. R. Frühwirth Statistische Metodender Datenanalyse 232/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Jede bedingte Verteilung einer Normalverteilung ist wieder eine Normalverteilung. Ist X normalverteilt gemäß No(µ, V), so kann V als positiv definite symmetrische Matrix mittels einer orthogonalen Transformation auf Diagonalform gebracht werden: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen UVUT = D2 Alle Digonalelemente von D2 sind positiv. Die Zufallsvariable Y = DU(X − µ) ist dann standardnormalverteilt. Die Drehung U heißt Hauptachsentransformation. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 233/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse Die zweidimensionale Normalverteilung R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Für d = 2 und µ = 0 kann die Dichte folgendermaßen angeschrieben werden: 2 h x1 1√ 1 f (x1 , x2 ) = exp − 2(1−ρ − 2 σρ 1xσ1 2x2 + 2) σ2 2 2πσ1 σ2 1−ρ 1 x22 σ22 i ρ = σ12 /(σ1 σ2 ) ist der Korrelationskoeffizient. Sind X1 und X2 unkorreliert, also ρ = 0, folgt: 1 x21 x22 1 f (x1 , x2 ) = exp − + 2 = f1 (x1 ) · f2 (x2 ) 2πσ1 σ2 2 σ12 σ2 Zwei unkorrelierte normalverteilte Zufallsvariable mit gemeinsamer Normalverteilung sind daher unabhängig. R. Frühwirth Statistische Metodender Datenanalyse 234/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse σ1=1, σ2=1, ρ=0.6 R. Frühwirth 3 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable 0.2 2 0.15 1 0.1 0 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.05 Wichtige Verteilungen 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen −1 −2 2 2 0 0 −2 −3 −3 −2 −1 0 1 2 3 −2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 235/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse Die bedingte Dichte f (x1 |x2 ) ist gegeben durch R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen f (x1 |x2 ) = f (x1 , x2 ) = f (x2 ) " 1 1 p exp − =√ 2 σ12 (1 − ρ2 ) 2πσ1 1 − ρ2 2 # ρ x2 σ1 x1 − σ2 X1 |X2 = x2 ist also eine normalverteilte Zufallsvariable mit der Erwartung E[X1 |X2 ] = ρx2 σ1 /σ2 Momente Erwartung Varianz Schiefe E[X1 |X2 ] heißt die bedingte Erwartung. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 236/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Je nach Vorzeichen von ρ fällt oder wächst die bedingte Erwartung von X1 , wenn X2 wächst. Ist ρ = 1, sind X1 und X2 proportional: X1 = X2 σ1 /σ2 . Die Höhenschichtlinien der Dichtefunktion sind Ellipsen. Die Hauptachsentransformation ist jene Drehung, die die Ellipsen in achsenparallele Lage bringt. Sie hängt im Fall d = 2 nur von ρ ab. Ist ρ = 0, sind X1 und X2 bereits unabhängig, und der Drehwinkel ist gleich 0. Ist ρ 6= 0, ist die Drehmatrix U gleich ! cos ϕ − sin ϕ 1 σ 2 − σ12 U= mit ϕ = − arccot 2 2 2ρσ1 σ2 sin ϕ cos ϕ Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 237/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die t-Verteilung t(n) Die Dichte der t-Verteilung mit n Freiheitsgraden lautet: −(n+1)/2 Γ( n+1 ) x2 f (x|n) = √ 2 n 1+ n nπ Γ( 2 ) Die χ2 -Verteilung χ2 (n) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Dichte der χ2 -Verteilung mit n Freiheitsgraden lautet: f (x|n) = 1 2n/2 Γ( n2 ) xn/2−1 e−x/2 · I[0,∞) (x) Sie ist die Gammaverteilung Ga(n/2, 2). Ist X standardnormalverteilt, so ist Y = X 2 χ2 -verteilt mit einem Freiheitsgrad. R. Frühwirth Statistische Metodender Datenanalyse 238/587 Die Normalverteilung und verwandte Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die F-Verteilung F(n, m) Die Dichte der F-Verteilung (Fisher-Snedecor-Verteilung) mit n bzw. m Freiheitsgraden lautet: f (x|n, m) = n/2 m/2 Γ( n+m m xn/2−1 2 )n · I[0,∞) (x) n m Γ( 2 )Γ( 2 ) (m + nx)(n+m)/2 Sind X und Y unabhängig und χ2 -verteilt mit n bzw. n Freiheitsgraden, so ist F = Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze X/n Y /m verteilt gemäß F(n, m). R. Frühwirth Statistische Metodender Datenanalyse 239/587 Abschnitt 11: Momente Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 240/587 Unterabschnitt: Erwartung Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 241/587 Erwartung Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Erwartung) Es sei X eine (diskrete oder stetige) Zufallsvariable mit der Dichte f (x). Ferner sei g eine beliebige stetige reelle oder komplexe Funktion. Man definiert EX [g] = E[g(X)] durch: Z ∞ X g(x)f (x) dx g(k)f (k) bzw. E[g(X)] = E[g(X)] = −∞ k∈N0 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente EX [g] = E[g(X)] heißt die Erwartung von g(X). Ist g ein k-dimensionaler Vektor von Funktionen, dann ist auch E[g(X)] ein k-dimensionaler Vektor. Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 242/587 Erwartung Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Definition (Erwartung einer Zufallsvariablen) Ist g(x) = x, so heißt E[g(X)] = E[X] die Erwartung oder der Mittelwert von X. Z ∞ X E[X] = xf (x) dx bzw. E[X] = k f (k) −∞ k∈N0 Ist X = (X1 , . . . , Xd ), wird die Erwartung entsprechend verallgemeinert: Z ∞ Z ∞ ... g(x1 , . . . , xd ) f (x1 , . . . , xd ) dx1 . . . dxd EX [g] = −∞ −∞ Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 243/587 Erwartung Statistische Metoden der Datenanalyse Die Erwartung ist ein Lageparameter. R. Frühwirth Die Erwartung braucht nicht zu existieren. Ein Beispiel ist die Cauchy-Verteilung (t-Verteilung mit einem Freiheitsgrad) mit der Dichte Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable f (x) = Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 , x∈R π(1 + x2 ) Eigenschaften der Erwartung 1 E[c] = c, c ∈ R 2 E[aX + b] = aE[X] + b 3 E[X1 + X2 ] = E[X1 ] + E[X2 ] 4 X1 und X2 unabhängig =⇒ E[X1 X2 ] = E[X1 ] · E[X2 ] R. Frühwirth Statistische Metodender Datenanalyse 244/587 Erwartung Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Erwartung von diskreten Zufallsvariablen Gleichverteilung Gl(n) Alternativverteilung Al(p) Binomialverteilung Bi(n, p) Negative Binomialverteilung Nb(r, p) Poissonverteilung Po(λ) Hypergeometrische Verteilung Hy(N, M, n) Multinomialverteilung Mu(n, p1 , . . . , pd ) E[X] = n+1 2 E[X] = p E[X] = np E[X] = r(1−p) p E[X] = λ E[X] = nM N E[Xi ] = npi Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 245/587 Erwartung Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Die Erwartung von stetigen Zufallsvariablen Stetige Gleichverteilung Un(a, b) Exponentialverteilung Ex(τ ) Normalverteilung No(µ, σ 2 ) Normalverteilung No(µ, V) Gammaverteilung Ga(a, b) Betaverteilung Beta(a, b) χ2 -Verteilung χ2 (n) t-Verteilung t(n) F-Verteilung F(n, m) E[X] = a+b 2 E[X] = τ E[X] = µ E[X] = µ E[X] = ab a E[X] = a+b E[X] = n E[X] = 0, n > 1 m E[X] = m−2 ,m > 2 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 246/587 Erwartung Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Definition (Momente) Sei X eine Zufallsvariable. Die Erwartung von g(x) = (x − a)k , sofern sie existiert, heißt k-tes Moment von X um a. Das k-te Moment um 0 wird mit µ0k bezeichnet. Das k-te Moment um den Erwartungswert E[X] wird als zentrales Moment µk bezeichnet. Die zentralen Momente µ1 , . . . , µk können aus den Momenten um 0 µ01 , . . . , µ0k berechnet werden, und umgekehrt. Selbst wenn alle Momente einer Verteilung existieren, ist sie dadurch nicht eindeutig bestimmt. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 247/587 Unterabschnitt: Varianz Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 248/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Definition (Varianz) Das zweite zentrale Moment µ2 heißt die Varianz von X, bezeichnet mit var[X]. Die Wurzel aus der Varianz heißt die Standardabweichung von X, bezeichnet mit σ[X]. Die Standardabweichung ist ein Skalenparameter, der die Breite der Verteilung beschreiben. Die Standardabweichung hat die gleiche Dimension wie die Zufallsvariable. Varianz und Standardabweichung sind (wie alle zentralen Momente) invariant gegen Translationen. Die Varianz braucht nicht zu existieren. Ein Beispiel ist die t-Verteilung mit zwei Freiheitsgraden mit der Dichte Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze f (x) = R. Frühwirth 1 , x∈R (2 + x2 )3/2 Statistische Metodender Datenanalyse 249/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Tschebyscheff’sche Ungleichung Es sei X eine Zufallsvariable mit der Erwartung E[X] = µ und der Varianz var[X] = σ 2 . Für g > 0 gilt: W (|X − µ| > gσ) ≤ 1 g2 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 250/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Definition (Kovarianz) Sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und E[Xi ] = µ0i . cov[Xi , Xj ] = E[(Xi − µ0i )(Xj − µ0j )] = Z = (xi − µ0i )(xj − µ0j ) f (x1 , . . . xn ) dx1 . . . dxn = n ZR∞ Z ∞ (xi − µ0i )(xj − µ0j ) fij (xi , xj ) dxi dxj = −∞ −∞ heißt die Kovarianz von Xi und Xj , auch σij geschrieben. Die Matrix V mit Vij = cov[Xi , Xj ] heißt die Kovarianzmatrix von X, bezeichnet mit Cov[X]. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 251/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Eigenschaften der Varianz bzw. der Kovarianz 1 var[X] = E[r2 ] − (E[X])2 2 cov[X1 , X2 ] = E[X1 X2 ] − E[X1 ] · E[X2 ] 3 var[aX + b] = a2 var[X] 4 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 5 var[a1 X1 + a2 X2 ] = a21 var[X1 ] + a22 var[X2 ] + 2a1 a2 cov[X1 , X2 ] " n # n X n X X var Xi = cov[Xi , Xj ] = i=1 n X Momente Erwartung Varianz Schiefe i=1 i=1 j=1 var[Xi ] + 2 n n X X cov[Xi , Xj ] i=1 j=i+1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 252/587 Varianz Statistische Metoden der Datenanalyse Für unabhängige Zufallsgrößen gilt: R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 1 X1 , X2 unabhängig =⇒ cov[X1 , X2 ] = 0 2 X1 , . . . , Xn unabhängig: " n # n X X var Xi = var[Xi ] i=1 i=1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 253/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Korrelationskoeffizient) σij heißt der Korrelationskoeffizient von Xi Die Größe ρij = σi σj und Xj . Eigenschaften des Korrelationskoeffizienten 1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 2 −1 ≤ ρij ≤ 1 Ist |ρij | = 1, so sind Xi und Xj linear abhängig. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 254/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Varianz von diskreten Zufallsvariablen 2 Gleichvt. Gl(n) Alternativvt. Al(p) Binomialvt. Bi(n, p) var[X] = n 12−1 var[X] = p(1 − p) var[X] = np(1 − p) Negative Binomialvt. Nb(r, p) Poissonvt. Po(λ) Hypergeom. Vt. Hy(N, M, n) var[X] = r(1−p) p var[X] = λ −n)(N −M ) var[X] = nM (N N 2 (N −1) Multinomialvt. Mu(n, p1 , . . . , pd ) cov[Xi , Xj ] = δij npi − npi pj 2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 255/587 Varianz Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Die Varianz von stetigen Zufallsvariablen 2 Gleichverteilung Un(a, b) Exponentialverteilung Ex(τ ) Normalverteilung No(µ, σ 2 ) Normalverteilung No(µ, V) Gammaverteilung Ga(a, b) Betaverteilung Beta(a, b) var[X] = (b−a) 12 var[X] = τ 2 var[X] = σ 2 Cov[X] = V var[X] = ab2 var[X] = (a+b)2ab (a+b+1) χ2 -Verteilung χ2 (n) t-Verteilung t(n) var[X] = 2 n n var[X] = n−2 ,n > 2 F-Verteilung F(n, m) var[X] = 2m2 (n+m−2) n(m−2)2 (m−4) , m >4 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 256/587 Unterabschnitt: Schiefe Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 257/587 Schiefe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Schiefe) Das reduzierte dritte zentrale Moment γ = µ3 /σ 3 heißt die Schiefe. Die Schiefe misst die Asymmetrie einer Verteilung. Ist die Schiefe positiv (negativ), heißt die Verteilung rechtsschief (linksschief). Für symmetrische Verteilungen ist sie 0. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Die Schiefe der Exponentialverteilung) µ3 = E[(X − E[X])3 ] = ∞ Z 0 (t − τ )3 −t/τ e dt = 2τ 3 τ Die Schiefe ist daher gleich γ = 2. R. Frühwirth Statistische Metodender Datenanalyse 258/587 Schiefe Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Beispiel (Die Schiefe der Gammaverteilung) ∞ (x − ab)3 a−1 −x/b x e dx = 2ab3 ba Γ(a) 0 √ Die Schiefe ist daher gleich γ = 2/ a und strebt für a → ∞ gegen 0. µ3 = E[(X − E[X])3 ] = Z Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 259/587 Abschnitt 12: Rechnen mit Verteilungen Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 260/587 Unterabschnitt: Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 261/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Definition (Faltung) Es seien X1 und X2 zwei unabhängige Zufallsvariablen. Die Summe X = X1 + X2 heißt die Faltung von X1 und X2 . Satz Sind X1 und X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Dichte f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ), so hat ihre Summe X = X1 + X2 die Dichte Z ∞ f1 (x − x2 ) · f2 (x2 ) dx2 = g(x) = −∞ Z ∞ = f1 (x1 ) · f2 (x − x1 ) dx1 −∞ R. Frühwirth Statistische Metodender Datenanalyse 262/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Die Dichte g wird als Faltungsprodukt von f1 und f2 bezeichnet: g = f1 ∗ f2 . Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Faltung von zwei Exponentialverteilungen) Es seien X1 und X2 exponentialverteilt gemäß Eτ . Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(t) = f1 (t − t2 )f2 (t2 ) dt2 = Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Z −∞ t = 0 = Erwartung Varianz Schiefe 1 (t2 −t)/τ −t2 /τ e e dt2 = τ2 1 −t/τ te τ2 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 263/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Faltung von zwei Gleichverteilungen) Es seien X1 und X2 gleichverteilt im Intervall [0, 1]. Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(x) = f1 (x − x2 )f2 (x2 ) dx2 −∞ Das Produkt der Dichten ist nur ungleich 0, wenn 0 ≤ x − x2 ≤ 1 und 0 ≤ x2 ≤ 1 gilt. Die effektiven Integrationsgrenzen sind daher xmin = max(0, x − 1) und xmax = min(x, 1). Ist 0 ≤ x ≤ 1, ist xmin = 0 und xmax = x; ist 1 ≤ x ≤ 2, ist xmin = x − 1 und xmax = 1. Die Dichte g(x) lautet daher: wenn 0 ≤ x ≤ 1 x, g(x) = 2 − x, wenn 1 ≤ x ≤ 2 0, sonst Die Summenverteilung heißt Dreiecksverteilung. R. Frühwirth Statistische Metodender Datenanalyse 264/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Beispiel (Der Messfehler) Es wird eine Zufallsgröße X beobachtet. Der Messfehler wird durch eine bedingte Dichte b(x0 |x) beschrieben, die die Wahrscheinlichkeit angibt, dass x0 bei der Messung registriert wird, wenn X den Wert x annimmt. Für die gemessene Verteilung gilt dann: Z ∞ Z ∞ f (x0 , x) dx b(x0 |x)f (x) dx = fM (x0 ) = −∞ −∞ Im günstigsten Fall hängt b nur von der Differenz x0 − x ab, oder eine weitere explizite Abhängigkeit von x ist vernachlässigbar. Dann wird aus dem Integral ein Faltungsintegral. Dies ist genau dann der Fall, wenn der Messfehler und die Messung unabhängig sind. Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 265/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Die Faltung von zwei Zufallsvariablen X1 und X2 kann auch mit Hilfe ihrer charakteristischen Funktionen berechnet werden. Definition (Charakteristische Funktion) Es sei X eine Zufallsvariable. Die charakteristische Funktion von X ist definiert durch: ϕX (t) = E[ exp(itX) ], t ∈ R Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Satz Ist X = X1 + X2 die Faltung von X1 und X2 , so gilt: ϕX (t) = ϕX1 (t) · ϕX2 (t) R. Frühwirth Statistische Metodender Datenanalyse 266/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Faltung von zwei Poissonverteilungen) Es seien X1 und X2 Poisson-verteilt gemäß Po(λ1 ) bzw. Po(λ2 ). Die charakteristische Funktion von Xi lautet: ϕXi (t) = ∞ X eikt λki e−λi = exp[λi (eit − 1)] k! k=0 Die charakteristische Funktion von X = X1 + X2 ist daher gleich Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ϕX (t) = exp[λ1 (eit − 1)] exp[λ2 (eit − 1)] = exp[(λ1 + λ2 )(eit − 1)] X ist also Poisson-verteilt gemäß Po(λ) mit λ = λ1 + λ2 . Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 267/587 Faltung und Messfehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Faltung von zwei χ2 -Verteilungen) Es seien X1 und X2 χ2 -verteilt mit n1 bzw. n2 Freiheitsgraden. Die charakteristische Funktion von Xi lautet: ϕXi (t) = Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die charakteristische Funktion von X = X1 + X2 ist daher gleich Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 1 (1 − 2it)ni /2 ϕX (t) = 1 1 = (1 − 2it)n1 /2 (1 − 2it)n2 /2 (1 − 2it)(n1 +n2 )/2 X ist also χ2 -verteilt mit n = n1 + n2 Freiheitsgraden. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 268/587 Unterabschnitt: Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 269/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse Im folgenden Abschnitt sollen Linearkombinationen von — nicht notwendig unabhängigen — Zufallsvariablen betrachtet werden. R. Frühwirth Eindimensionale Zufallsvariable Es sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und H eine m × n - Matrix. Dann ist Y = (Y1 , . . . Ym ) = HX — wie jede deterministische Funktion einer Zufallsvariablen — wieder eine Zufallsvariable. Wie ist Y verteilt? Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Es gilt exakt: Lineare Transformation von Erwartung und Varianz Momente Erwartung Varianz Schiefe 1 E[Y ] = H · E[X] 2 Cov[Y ] = H · Cov[X] · HT Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 270/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse Es soll nun statt der linearen Abbildung H eine allgemeine Funktion h = (h1 , . . . , hm ) betrachtet werden. R. Frühwirth Eindimensionale Zufallsvariable Es wird angenommen, dass h in jenem Bereich, in dem die Dichte von X signifikant von 0 verschieden ist, genügend gut durch eine lineare Funktion angenähert werden kann. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Entwickelt man h an der Stelle E[X], so gilt in 1. Näherung: Lineare Fehlerfortpflanzung 1 2 E[Y ] = h(E[X]) T ∂h ∂h Cov[Y ] = · Cov[X] · ∂x ∂x Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 271/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Ist h = (h1 , . . . , hn ) eine umkehrbar eindeutige Abbildung h : Rn → Rn , so läßt sich die Dichte von Y = (Y1 , . . . , Yn ) = h(X1 , . . . , Xn ) berechnen. Es sei X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable mit der Dichte fX (x1 , . . . , xd ), h eine umkehrbare Abbildung h : Rd → Rd , g die Umkehrfunktion von h, Y = h(X) und fY (y1 , . . . , yd ) die Dichte von Y . Dann gilt: Transformation der Dichte ∂g fY (y1 , . . . , yd ) = fX (g(y1 , . . . , yd )) · ∂y ∂g wobei der Betrag der Funktionaldeterminante ist. ∂y R. Frühwirth Statistische Metodender Datenanalyse 272/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse Beispiel (Transformation unter einer affinen Abbildung) R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Es sei X eine d-dimensionale Zufallsvariable mit Dichte fX (x) und Y = AX + b. Ist A regulär, ist die Dichte von Y gegeben durch: fY (y) = fX (A−1 (y − b)) · Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 1 |A| Beispiel (Transformation mit der Verteilungsfunktion) Es sei X eine stetige Zufallsvariable mit der Dichte f (x) und der Verteilungsfunktion F (x), und Y = F (X). Dann ist die Dichte von Y gegeben durch: dF −1 = f (x)/f (x) = 1 g(y) = f (x) · dy Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Y ist also gleichverteilt im Intervall [0, 1]. Y wird als p-Wert (probability transform) von X bezeichnet. R. Frühwirth Statistische Metodender Datenanalyse 273/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Transformation mit der inversen Verteilungsfunktion) Es sei U gleichverteilt im Intervall [0, 1], F (x) (f (x)) die Verteilungsfunktion (Dichtefunktion) einer stetigen Verteilung, und X = F −1 (U ). Dann ist die Dichte von X gegeben durch: dF = f (x) g(x) = 1 · dx X ist also verteilt mit der Verteilungsfunktion F und der Dichte f . Beispiel Es sei X gleichverteilt im Intervall [0, 1] und Y = − ln(X). Dann ist g(y) = exp(−y) und dg = e−y fY (y) = fX (exp(−y)) · dy Y ist daher exponentialverteilt mit τ = 1. R. Frühwirth Statistische Metodender Datenanalyse 274/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Beispiel (Transformation auf Polarkoordinaten) Es seien (X, Y ) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Polarkoordinaten (R, Φ), definiert durch: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen X = R cos(Φ), Y = R sin(Φ) Die Funktionaldeterminante lautet: ∂(x, y) ∂(r, ϕ) = r Die Dichte ist daher f (r, ϕ) = Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 2 1 re−r /2 2π R und Φ sind unabhängig mit den Randdichten f1 (r) = re−r R. Frühwirth 2 /2 , f2 (ϕ) = 1 2π Statistische Metodender Datenanalyse 275/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Transformation auf Kugelkoordinaten) Es seien (X, Y, Z) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Kugelkoordinaten (R, Θ, Φ), definiert durch: X = R sin(Θ) cos(Φ), Y = R sin(Θ) sin(Φ), z = R cos(Θ) Die Funktionaldeterminante lautet: ∂(x, y, z) 2 ∂(r, θ, ϕ) = r sin(θ) Die Dichte ist daher f (r, θ, ϕ) = 1 (2π) 3/2 e−r 2 /2 2 r sin(θ) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 276/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Fortsetzung) R, θ und ϕ sind unabhängig mit den Randdichten √ 2 2 1 1 f1 (r) = √ r2 e−r /2 , f2 (θ) = sin(θ), f3 (ϕ) = 2 2π π Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Geschwindigkeitsverteilung im idealen Gas) Im idealen Gas sind die Komponenten (Vx , Vy , Vz ) der Molekülgeschwindigkeit in guter Näherung normalverteilt, mit Mittelwert 0 und Varianz σ 2 = kT /m, wobei m die Molekülmasse, k die Boltzmannkonstante und T die Temperatur ist. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 277/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Fortsetzung) Der Betrag V der Geschwindigkeit hat dann die Dichte √ 3/2 2 2m f (v) = √ v 2 e−mv /2kT π(kT )3/2 Die Verteilung wird Maxwell-Verteilung genannt. Mittelwert und Standardabweichung sind r r 8 kT 3 kT , σ[V ] = E[V ] = πm m Die häufigste Geschwindigkeit (das Maximum der Dichte) ist bei r 2 kT Vmax = m Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 278/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse 0.7 R. Frühwirth Eindimensionale Zufallsvariable Maxwell−Verteilung mit kT=m E[v] Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.5 Mehrdimensionale Zufallsvariable 0.4 f(v) Grundbegriffe Randverteilungen und bedingte Verteilungen vmax 0.6 0.3 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.2 0.1 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 0 0.5 1 1.5 2 2.5 v 3 3.5 4 4.5 5 Maxwell-Verteilung, kT = m R. Frühwirth Statistische Metodender Datenanalyse 279/587 Fehlerfortpflanzung, Transformation von Dichten Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Beispiel (Der Kehrwert einer gammaverteilten Zufallsvariablen) Es sei X Gammaverteilt gemäß Ga(a, b). Wir suchen die Verteilung von Y = 1/X. Es gilt: fY (y) = fX (1/y) · (1/y)a+1 e−b/x 1 = 2 y ba Γ(a) Die Verteilung von Y wird als inverse Gammaverteilung IG(a, b) bezeichnet. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 280/587 Unterabschnitt: Systematische Fehler Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 281/587 Systematische Fehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Kann der Messfehler durch eine Zufallsvariable mit Mittel 0 beschrieben werden, hat die Messung nur einen statistischen Fehler. Die Messung kann jedoch durch eine falsche Kalibration (z.B. Skalenfehler oder Nullpunktfehler) des Messgeräts verfälscht sein. Solche Fehler werden systematische Fehler genannt. Systematische Fehler werden durch Vergrößerung der Stichprobe nicht kleiner! Die Korrektur von systematischen Fehlern erfordert solgfältige Kalibaration der Messaparatur, Überprüfung von theoretischen Annahmen, etc. Das Gesetz der Fehlerfortpflanzung gilt nicht für systematische Fehler! R. Frühwirth Statistische Metodender Datenanalyse 282/587 Systematische Fehler Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel Wir messen zwei Spannungen U1 , U2 mit dem gleichen Messgerät. Durch fehlerhafte Kalibration misst das Gerät statt der wahren Spannung U die Spannung Um = aU + b + ε, mit a = 0.99, b = 0.05, σ[ε] = 0.03 V. Der Mittelwert Ū der beiden Spannungen hat dann einen statistischen Fehler von 0.02 V. Der systematische Fehler des Mittelwerts wird beschrieben durch Ūm = aŪ + b, ist also der der Einzelmessung. Der systematische Fehler der Differenz ∆U wird beschrieben durch ∆Um = a∆U . Der Nullpunktfehler ist verschwunden. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 283/587 Unterabschnitt: Grenzverteilungssätze Statistische Metoden der Datenanalyse R. Frühwirth 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 284/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Zentraler Grenzwertsatz für identisch verteilte Folgen von Zufallsvariablen Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen, die die gleiche Verteilung besitzen, mit endlicher Erwartung µ und endlicher Varianz σ 2 . Definiert man Sn und Un durch: Sn = n X Xi , Un = i=1 Sn − E[Sn ] Sn − nµ = √ σ[Sn ] n·σ so ist U = limn→∞ Un standardnormalverteilt. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 285/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Zentraler Grenzwertsatz für beliebig verteilte Folgen von Zufallsvariablen Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen mit beliebigen Verteilungen. µi = E[Xi ] und σi2 = var[Xi ] seien endlich für alle i ∈ N. Definiert man für jedes n ∈ N Ui und Yn durch: n X Xi − µi , Yn = Ui Ui = √ nσi i=1 so ist Y = limn→∞ Yn standardnormalverteilt. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Der zentrale Grenzwertsatz erklärt, warum die Normalverteilung in der Natur eine so bedeutende Rolle spielt, etwa bei der Verteilung der Impulskomponenten von Gasmolekülen, die das Ergebnis von zahlreichen Stößen ist. R. Frühwirth Statistische Metodender Datenanalyse 286/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse R. Frühwirth Auch bei relativ kleinem n ist die Normalverteilung of eine gute Näherung für die Summe von Zufallsvariablen. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel (Binomialverteilung für großes n) Da eine gemäß Bi(n, p) verteilte Zufallsvariable als Summe von n alternativverteilten Zufallsvariablen dargestellt werden kann, muss die Binomialverteilung für n → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Binomialverteilung Bi(n, p) mit n = 200 und p = 0.1, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = np = 20 und σ 2 = np(1 − p) = 18. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 287/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse 1 R. Frühwirth 0.8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.7 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.6 F(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Bi(200,0.1) No(20,18) 0.9 Eindimensionale Zufallsvariable 0.5 0.4 0.3 0.2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.1 0 0 5 10 R. Frühwirth 15 20 x 25 Statistische Metodender Datenanalyse 30 35 40 288/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Poissonverteilung für großes n) Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P (1)-verteilten Zufallsvariablen dargestellt werden kann, muss die Poissonverteilung für λ → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Poissonverteilung Po(λ) mit λ = 25, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = 25. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistische Metodender Datenanalyse 289/587 Grenzverteilungssätze Statistische Metoden der Datenanalyse 1 R. Frühwirth 0.8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.7 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.6 F(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Po(25) N(25,25) 0.9 Eindimensionale Zufallsvariable 0.5 0.4 0.3 0.2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.1 0 0 5 10 15 R. Frühwirth 20 25 x 30 35 Statistische Metodender Datenanalyse 40 45 50 290/587 Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Teil 4 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Parameterschätzung Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 291/587 Übersicht Teil 4 Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 292/587 Abschnitt 13: Stichprobenfunktionen Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 293/587 Unterabschnitt: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 294/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian X1 , . . . , Xn seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. Sie bilden dann eine zufällige Stichprobe der Verteilung F . Eine Zufallsvariable Y = h(X1 , . . . , Xn ) Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer heißt eine Stichprobenfunktion. In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 295/587 Unterabschnitt: Stichprobenmittel Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 296/587 Stichprobenmittel Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (Stichprobenmittel) Das Stichprobenmittel X der Stichprobe X1 , . . . , Xn ist definiert durch n 1X X= Xi n i=1 Momente des Stichprobenmittels Hat F das Mittel µ und die Varianz σ 2 , gilt: 1 E[X] = µ 2 var[X] = 3 σ2 n Ist F eine Normalverteilung, so ist X normalverteilt. R. Frühwirth Statistische Metodender Datenanalyse 297/587 Stichprobenmittel Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Zentraler Grenzwertsatz 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F das Mittel µ und die Varianz σ 2 , so konvergiert die Verteilung von X −µ √ U= σ/ n gegen die Standardnormalverteilung. 2 Ist F eine Normalverteilung, ist U für alle n standardnormalverteilt. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 298/587 Unterabschnitt: Stichprobenvarianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 299/587 Stichprobenvarianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Definition (Stichprobenvarianz) Die Stichprobenvarianz S 2 der Stichprobe X1 , . . . , Xn ist definiert durch n 1 X (Xi − X)2 S2 = n − 1 i=1 Erwartung der Stichprobenvarianz Hat F die Varianz σ 2 , gilt: Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung E[S 2 ] = σ 2 R. Frühwirth Statistische Metodender Datenanalyse 300/587 Stichprobenvarianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Satz Ist F eine Normalverteilung mit Mittel µ und Varianz σ 2 , so gilt: 1 (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. 2 X und S 2 sind unabhängig. 3 Die Varianz von S 2 ist gegeben durch var[S 2 ] = 4 2σ 4 n−1 Die Größe T = X −µ √ S/ n ist t-verteilt mit n − 1 Freiheitsgraden. R. Frühwirth Statistische Metodender Datenanalyse 301/587 Unterabschnitt: Stichprobenmedian Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 302/587 Stichprobenmedian Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (Stichprobenmedian) Der Stichprobenmedian X̃ der Stichprobe X1 , . . . , Xn ist definiert durch X((n+1)/2) , n ungerade X̃ = 1 X (n/2) + X(n/2+1) , n gerade 2 Momente des Stichprobenmedians Hat F den Median m und die Dichte f , gilt: 1 lim E[X̃] = m n→∞ 2 lim var[X̃] = n→∞ 3 1 , 4 nf 2 (m) wenn f (m) > 0 X̃ ist asymptotisch normalverteilt. R. Frühwirth Statistische Metodender Datenanalyse 303/587 Abschnitt 14: Punktschätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 304/587 Unterabschnitt: Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 305/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Ein Punktschätzer ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung T = g(X1 , . . . , Xn ) Die Funktion g(x1 , . . . , xn ) wird die Schätzfunktion genannt. Die Konstruktion von sinnvollen Punktschätzern für einen Parameter ϑ ist Aufgabe der Schätztheorie. Für einen Parameter ϑ sind viele Punktschätzer möglich. Ein guter“ Punktschätzer sollte jedoch gewisse Anforderungen ” erfüllen. R. Frühwirth Statistische Metodender Datenanalyse 306/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Definition (Erwartungstreue) Ein Punktschätzer T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: Eϑ [T ] = ϑ Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer T heißt asymptotisch erwartungstreu, wenn gilt: lim Eϑ [T ] = ϑ n→∞ Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des Punktschätzers gleich ϑ. Ein erwartungstreuer Punktschätzer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. R. Frühwirth Statistische Metodender Datenanalyse 307/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (MSE) Die mittlere quadratische Abweichung (mean squared error, MSE) eines Punktschätzers T für den Parameter ϑ ist definiert durch: MSE[T ] = Eϑ [(T − ϑ)2 ] Definition (MSE-Konsistenz) Ein Punktschätzer T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: lim MSE[T ] = 0 n→∞ R. Frühwirth Statistische Metodender Datenanalyse 308/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Definition (MSE-Effizienz) Ein Punktschätzer T1 heißt MSE-effizienter als der Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: MSE[T1 ] ≤ MSE[T2 ] Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (Effizienz) Ein erwartungstreuer Punktschätzer T1 heißt effizienter als der erwartungstreue Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: var[T1 ] ≤ var[T2 ] Ein erwartungstreuer Punktschätzer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. R. Frühwirth Statistische Metodender Datenanalyse 309/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (Fisher-Information) Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Erwartung 2 ∂ ln g(X1 , . . . , Xn |ϑ) Iϑ = E − ∂ϑ2 heißt die Fisher-Information der Stichprobe. Satz von Rao und Cramèr Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Varianz eines erwartungstreuen Schätzers T für den Parameter ϑ ist nach unten beschränkt durch: var[T ] ≥ 1/Iϑ R. Frühwirth Statistische Metodender Datenanalyse 310/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte ist dann gleich ! n X 1 g(x1 , . . . , xn |τ ) = n exp − xi /τ τ i=1 Daraus folgt: ln g(x1 , . . . , xn |τ ) = − n ln τ − Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung ∂2 ln g(x1 , . . . , xn |τ ) = ∂τ 2 2 ∂ E ln g(X , . . . , X |τ ) = 1 n ∂τ 2 R. Frühwirth n X xi /τ i=1 P 2 n i=1 τ3 xi n − τ2 n 2 nτ n − 3 −=− 2 τ2 τ τ Statistische Metodender Datenanalyse 311/587 Eigenschaften von Punktschätzern Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Die Information ist also gleich Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Iτ = n τ2 Für jeden erwartungstreuen Schätzer T von τ gilt folglich: var[T ] ≥ τ2 n Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 312/587 Unterabschnitt: Schätzung des Mittelwerts Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 313/587 Schätzung des Mittelwerts Statistische Metoden der Datenanalyse R. Frühwirth Satz 1 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2 Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das Stichprobenmittel X ein erwartungstreuer Punktschätzer von µ. Hat F die endliche Varianz σ 2 , so ist X MSE-konsistent. Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich Iµ = n/σ 2 ist, ist X effizient für µ. Beispiel Ist F die Exponentialverteilung Ex(τ ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich Iτ = n/τ 2 ist, ist X effizient für τ . R. Frühwirth Statistische Metodender Datenanalyse 314/587 Schätzung des Mittelwerts Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Ist F die Poissonverteilung Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich Iλ = n/λ ist, ist X effizient für λ. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p(1 − p)/n. Da die Fisher-Information für p gleich Ip = n/[p(1 − p)] ist, ist X effizient für p. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 315/587 Unterabschnitt: Schätzung der Varianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 316/587 Schätzung der Varianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Satz 1 Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2 . Dann ist die Stichprobenvarianz S 2 ein erwartungstreuer Punktschätzer von σ 2 . 2 Hat F das endliche vierte zentrale Moment µ4 , so ist Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer var(S 2 ) = Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 3 µ4 (n − 3)µ22 − n n(n − 1) In diesem Fall ist S 2 MSE-konsistent. R. Frühwirth Statistische Metodender Datenanalyse 317/587 Schätzung der Varianz Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Die Varianz von S 2 ist dann gleich var(S 2 ) = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2σ 4 n−1 Die Fisher-Information für σ 2 ist gleich Iσ2 = n 2σ 4 S 2 ist also ein asymptotisch effizienter Punktschätzer für σ 2 . R. Frühwirth Statistische Metodender Datenanalyse 318/587 Unterabschnitt: Schätzung des Medians Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 319/587 Schätzung des Medians Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Satz 1 Es sei X1 , . . . , Xn eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f . Dann ist der Stichprobenmedian X̃ ein asymptotisch erwartungstreuer Punktschätzer von m. 2 Für symmetrisches F ist X̃ erwartungstreu. 3 Der Stichprobenmedian X̃ hat asymptotisch die Varianz Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer var(X̃) ≈ Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 4 1 4nf (m)2 Der Stichprobenmedian ist MSE-konsistent, sofern f (m) > 0. R. Frühwirth Statistische Metodender Datenanalyse 320/587 Schätzung des Medians Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die Varianz von X ist gleich var(X) = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer σ2 n Die Varianz von X̃ ist für großes n gleich var(X̃) = 2 πσ 2 σ2 ≈ 1.57 4n n Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Sie ist also um mehr als 50 Prozent größer als die Varianz von X. R. Frühwirth Statistische Metodender Datenanalyse 321/587 Schätzung des Medians Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus der t-Verteilung t(3). Die Varianz von X ist gleich 3 var(X) = n Die Varianz von X̃ ist für großes n gleich var(X̃) = 1 1.8506 3 = ≈ 0.62 4 nf (0)2 n n Sie ist also fast um 40 Prozent kleiner als die Varianz von X. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 322/587 Unterabschnitt: Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 323/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Definition (ML-Schätzer) 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian L(ϑ|X1 , . . . , Xn ) = g(X1 , . . . , Xn |ϑ) Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Funktion 2 heißt die Likelihoodfunktion der Stichprobe. Der plausible oder Maximum-Likelihood-Schätzer ϑ̂ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion `(ϑ) = ln L(ϑ) maximiert. R. Frühwirth Statistische Metodender Datenanalyse 324/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel (ML-Schätzung eines Bernoulli-Parameters) Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |p) = n Y pxi (1 − p)1−xi = p P xi P (1 − p)n− xi i=1 Die Log-Likelihoodfunktion ist daher: `(p) = n X Xi ln p + i=1 n− n X ! Xi ln(1 − p) i=1 Ableiten nach p ergibt: n ∂`(p) 1X 1 = Xi − ∂p p i=1 1−p R. Frühwirth n− n X ! Xi i=1 Statistische Metodender Datenanalyse 325/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Nullsetzen der Ableitung und Auflösen nach p ergibt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian p̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n 1X Xi = X n i=1 Der ML-Schätzer ist unverzerrt und effizient. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 326/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (ML-Schätzung eines Poisson-Parameters) Es sei X1 , . . . , Xn eine Stichprobe aus der Poissonverteilung Po(λ). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |λ) = Die Log-Likelihoodfunktion ist daher: `(λ) = Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung n Y λxi e−λ xi ! i=1 n X [Xi ln λ − λ − ln(xi !)] i=1 Ableiten nach λ ergibt: n ∂`(λ) 1X = Xi − n ∂λ λ i=1 R. Frühwirth Statistische Metodender Datenanalyse 327/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Nullsetzen der Ableitung und Auflösen nach λ ergibt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian λ̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n 1X Xi = X n i=1 Der ML-Schätzer ist unverzerrt und effizient. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 328/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (ML-Schätzung einer mittleren Lebensdauer) Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |τ ) = Die Log-Likelihoodfunktion ist daher: `(τ ) = Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung n Y e−xi /τ τ i=1 n n X 1X [− ln τ − Xi ] τ i=1 i=1 Ableiten nach τ ergibt: n ∂`(τ ) n 1 X =− + 2 Xi ∂τ τ τ i=1 R. Frühwirth Statistische Metodender Datenanalyse 329/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Nullsetzen der Ableitung und Auflösen nach τ ergibt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian τ̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n 1X Xi = X n i=1 Der ML-Schätzer ist unverzerrt und effizient. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 330/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel (ML-Schätzung der Parameter einer Normalverteilung) Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die gemeinsame Dichte lautet: 2 g(x1 , . . . , xn |µ, σ ) = n Y i=1 (xi − µ)2 1 √ exp − 2 σ2 2πσ Die Log-Likelihoodfunktion ist daher: n X √ (xi − µ)2 1 `(µ, σ 2 ) = − ln 2π − ln σ 2 − 2 2 σ2 i=1 Ableiten nach µ und σ 2 ergibt: n X xi − µ ∂`(µ, σ 2 ) = , ∂µ σ2 i=1 R. Frühwirth n X ∂`(µ, σ 2 ) (xi − µ)2 1 = − + ∂σ 2 2 σ2 2 σ4 i=1 Statistische Metodender Datenanalyse 331/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (Fortsetzung) Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: µ̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer σ̂ 2 = n 1X Xi = X n i=1 n 1X n−1 2 (Xi − X)2 = S n i=1 n Der ML-Schätzer von µ ist unverzerrt und effizient. Der ML-Schätzer von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 332/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Die normierte Likelihoodfunktion kann als a-posteriori Verteilung des geschätzten Parameters interpretiert werden. Für großes n kann man die Varianz der Likelihoodschätzung ϑ̂ daher aus dem zweiten zentralen Moment der normierten Likelihoodfunktion ablesen. Ist des geschätzte Parameter ϑ das Mittel einer Normalverteilung, so ist diese Vorgangsweise für beliebiges n exakt: 1 1X n 2 2 L(ϑ) = (xi − ϑ̂) √ n exp − 2 (ϑ̂ − ϑ) + 2σ n σn 2 π Wird L(ϑ) normiert, so entsteht die Dichte“ einer ” 2 Normalverteilung mit Mittel ϑ̂ und Varianz σn , also gerade P die Varianz der Schätzung ϑ̂ = n1 xi . R. Frühwirth Statistische Metodender Datenanalyse 333/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (Schätzung des Parameters a einer Gammaverteilung) Die Stichprobe X1 , . . . , Xn besteht aus n = 200 Werten, die unabhängig aus einer Γa,1 -Verteilung gezogen werden: f (xi |a) = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung xa−1 e−xi i , Γ(a) i = 1, . . . , n Der (unbekannte) wahre Wert von a ist aw = 2. Die Log-Likelihoodfunktion lautet ln L(a|x) = n X ln f (xi |a) = (a − 1) i=1 R. Frühwirth n X i=1 ln xi − n X xi − n ln Γ(a) i=1 Statistische Metodender Datenanalyse 334/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (Fortsetzung) Numerische Maximierung von ln L(a) gibt die Maximum Likelihood-Schätzung â. Das Experiment wird N -mal wiederholt und die Schätzungen der einzelnen Experimente (â(k) , k = 1, . . . , N ) werden histogrammiert. Der Vergleich der individuellen (normierten) Likelihoodfunktion mit dem Histogramm (N = 500) zeigt gute Übereinstimmung der Standardabweichungen. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 335/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 1 0.9 Histogram: σ=0.08599 0.8 LF: σ=0.08635 0.7 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.6 0.5 0.4 0.3 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.2 0.1 0 1.5 1.6 1.7 1.8 R. Frühwirth 1.9 2 2.1 2.2 Statistische Metodender Datenanalyse 2.3 2.4 2.5 336/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse Der ML-Schätzer hat die folgende wichtige Eigenschaft: R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Satz Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information Ig (ϑ) für alle ϑ und ist E [(ln L)0 ] = 0, so ist die Likelihoodschätzung ϑ̂ asymptotisch normalverteilt mit Mittel ϑ und Varianz 1/Ig (ϑ). ϑ̂ ist daher asymptotisch erwartungstreu und asymptotisch effizient. Daraus folgt sofort die nächste Eigenschaft: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Satz Der Likelihoodschätzer ϑ̂ ist (unter den selben Voraussetzungen) konsistent. R. Frühwirth Statistische Metodender Datenanalyse 337/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (ML-Schätzung des Lageparameters einer Cauchyverteilung) Es sei X1 , . . . , Xn eine Stichprobe aus der Cauchyverteilung t(1) mit Lageparameter µ. Die gemeinsame Dichte lautet: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung g(x1 , . . . , xn |µ) = n Y i=1 1 π[1 + (xi − µ)2 ] Die Log-Likelihoodfunktion ist daher: `(µ) = −n ln π − n X ln[1 + (xi − µ)2 ] i=1 Das Maximum µ̂ von `(µ) muss numerisch gefunden werden. Matlab: make ML cauchy R. Frühwirth Statistische Metodender Datenanalyse 338/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Man kann zeigen, dass die Fisherinformation der Stichprobe gleich Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Iµ = n 2 ist. Für große Stichproben muss daher die Varianz des ML-Schätzers µ̂ ungefähr gleich 2/n sein. Der Stichprobenmedian x̃ ist ebenfalls ein konsistenter Schätzer für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) ≈ 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-Schätzers. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 339/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse Simulation von 10000 Stichproben der Größe n = 100: R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 1400 1500 1200 µ=0.9998 µ=1.001 σ=0.1588 σ=0.1435 1000 1000 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 800 600 500 400 200 0 0 0.5 1 1.5 Stichprobenmedian 2 0 0 0.5 1 1.5 ML−Schätzer 2 Die Korrelation zwischen x̃ und µ̂ ist etwa 90%. R. Frühwirth Statistische Metodender Datenanalyse 340/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Die Standardabweichung des ML-Schätzers kann wieder näherungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Log−Likelihoodfunktion Normierte Likelihoodfunktion 0 3.5 −5 3 −10 2.5 −15 2 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung L(µ) Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer log L(µ) Punktschätzer −20 1.5 −25 1 −30 0.5 −35 0 0.5 1 µ R. Frühwirth 1.5 2 0 0 σ=0.1314 0.5 Statistische Metodender Datenanalyse 1 µ 1.5 2 341/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel (ML-Schätzung des Obergrenze einer Gleichverteilung) Es sei X1 , . . . , Xn eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: g(x1 , . . . , xn |b) = 1 , 0 ≤ x1 , . . . , xn ≤ b bn Der größte Wert der Likelihoodfunktion ist daher bei b̂ = max Xi i Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. R. Frühwirth Statistische Metodender Datenanalyse 342/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Beispiel (Fortsetzung) Die Dichte von b̂ = max Xi lautet: i Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian f (x) = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung nxn−1 bn Daraus können Erwartung und Varianz berechnet werden: E[b̂] = n , n+1 var[b̂] = b2 n (n + 2)(n + 1)2 Der Schätzer ist asymptotisch erwartungstreu, die Varianz geht aber wie 1/n2 gegen Null! Der Schätzer ist auch nicht asymptotisch normalverteilt. Matlab: make ML uniform R. Frühwirth Statistische Metodender Datenanalyse 343/587 Maximum-Likelihood-Schätzer Statistische Metoden der Datenanalyse R. Frühwirth Simulation von 10000 Stichproben (b = 1) der Größe n = 25 bzw. n = 100: Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n=25 n=100 2500 7000 µ=0.9617 σ=0.03632 2000 5000 1500 4000 3000 1000 2000 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung µ=0.9902 σ=0.009755 6000 500 1000 0 0.8 1 ML−Schätzer R. Frühwirth 1.2 0 0.8 1 ML−Schätzer Statistische Metodender Datenanalyse 1.2 344/587 Abschnitt 15: Intervallschätzer Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 345/587 Unterabschnitt: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 346/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. Definition (Konfidenzintervall) Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G1 = g1 (X1 , . . . , Xn ) und G2 = g2 (X1 , . . . , Xn ) heißt ein Konfidenzintervall mit Sicherheit 1 − α, wenn gilt: W (G1 ≤ G2) = 1 W (G1 ≤ ϑ ≤ G2) ≥ 1 − α Ein solches Intervall wird kurz als (1 − α)-Konfidenzintervall bezeichnet. R. Frühwirth Statistische Metodender Datenanalyse 347/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Zu jedem Wert der Sicherheit 1 − α gibt es viele verschiedene Konfidenzintervalle. Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit 1 − α. Ist F diskret, ist die Sicherheit in der Regel größer als 1 − α. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: W (ϑ ≤ G1 ) = W (ϑ ≥ G2 ) Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung W (ϑ ≤ G2 ) ≥ 1 − α R. Frühwirth oder W (G1 ≤ ϑ) ≥ 1 − α Statistische Metodender Datenanalyse 348/587 Unterabschnitt: Allgemeine Konstruktion nach Neyman Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 349/587 Allgemeine Konstruktion nach Neyman Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Es sei Y = h(X1 , . . . , Xn ) eine Stichprobenfunktion. Die Verteilung G von Y hängt dann ebenfalls vom unbekannten Parameter ϑ ab. Für jeden Wert von ϑ bestimmen wir ein Prognoseintervall [y1 (ϑ), y2 (ϑ)] vom Niveau 1 − α: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer W (y1 (ϑ) ≤ Y ≤ y2 (ϑ)) ≥ 1 − α Ist die Beobachtung gleich Y = y0 , so ist das Konfidenzintervall [G1 (Y ), G2 (Y )] gegeben durch: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 = min{ϑ|y1 (ϑ) ≤ y0 ≤ y2 (ϑ)} ϑ G2 = max{ϑ|y1 (ϑ) ≤ y0 ≤ y2 (ϑ)} ϑ R. Frühwirth Statistische Metodender Datenanalyse 350/587 Allgemeine Konstruktion nach Neyman Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus No(0, σ 2 ) mit unbekannter Varianz σ. Dann ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Für Varianz σ 2 und Y = S 2 ist daher ! σ 2 χ2α/2,n−1 σ 2 χ21−α/2,n−1 W =1−α ≤ S2 ≤ n−1 n−1 Der Ausdruck in der Klammer kann umgeformt werden zu: (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ 2 2 χ1−α/2,n−1 χα/2,n−1 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Daraus folgt G1 = (n − 1)S 2 , χ21−α/2,n−1 R. Frühwirth G2 = (n − 1)S 2 χ2α/2,n−1 Statistische Metodender Datenanalyse 351/587 Allgemeine Konstruktion nach Neyman Statistische Metoden der Datenanalyse 10 R. Frühwirth 9 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 8 7 Punktschätzer 6 σ2 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 5 4 3 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2 1 0 0 2 4 6 8 10 S2 Blau: Prognoseintervall für σ 2 = 3; rot: Konfidenzintervall für S 2 = 5 R. Frühwirth Statistische Metodender Datenanalyse 352/587 Unterabschnitt: Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 353/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei k eine Beobachtung aus der Binomialverteilung Bi(n, p). Wir suchen ein Konfidenzintervall für p. Je nach Konstruktion des Prognoseintervalls y1 (p), y2 (p) ergeben sich verschiedene Konfidenzintervalle. Intervall nach Clopper und Pearson y1 (p), y2 (p) sind die Quantile der Binomialverteilung Bi(n, p): y1 (p) = max k y2 (p) = min k R. Frühwirth k X i=0 n X W (k; n, p) ≤ α/2 W (k; n, p) ≤ α/2 i=k Statistische Metodender Datenanalyse 354/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Betaverteilung benützt werden: Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian G1 (k) = max(Bα/2,k,n−k+1 , 0) G2 (k) = min(B1−α/2,k+1,n−k , 1) Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als 1 − α ist. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 355/587 Binomialverteilung Statistische Metoden der Datenanalyse Approximation durch Normalverteilung R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Für genügend großes n ist p̂ = k/n annähernd normalverteilt gemäß No(p, p(1 − p)/n). Das Standardscore Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Z= ist dann annähernd standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung p̂ − p σ[p̂] folgt W (p̂ − z1−α/2 σ[p̂] ≤ p ≤ p̂ + z1−α/2 σ[p̂]) = 1 − α R. Frühwirth Statistische Metodender Datenanalyse 356/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Da p nicht bekannt ist, muss σ[p̂] näherungsweise bestimmt werden. Bootstrap-Verfahren: p wird durch p̂ angenähert. Robustes Verfahren: p wird so gewählt, dass σ[p̂] maximal ist, also p = 0.5. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Korrektur gemäß Agresti-Coull Das Intervall nach dem Bootstrap-Verfahren kann eine kleinere Sicherheit als 1 − α haben. Eine Verbesserung wird durch die Definition p̂ = k+2 n+4 erzielt. R. Frühwirth Statistische Metodender Datenanalyse 357/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 157 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervalle für den Bekanntheitsgrad p. Clopper-Pearson: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 (k) = B0.025,157,244 = 0.3443 G2 (k) = B0.975,158,243 = 0.4423 Approximation durch Normalverteilung: Es gilt p̂ = 0.3925 und z0.975 = 1.96. Mit dem Bootstrap-Verfahren ergibt sich σ[p̂] = 0.0244. Die Grenzen des Konfidenzintervalls sind daher G1 =0.3925 − 1.96 · 0.0244 = 0.3446 G2 =0.3925 + 1.96 · 0.0244 = 0.4404 R. Frühwirth Statistische Metodender Datenanalyse 358/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel (Fortsetzung) Mit dem robusten Verfahren ergibt sich σ[p̂] = 0.025 und die Grenzen G1 =0.3925 − 1.96 · 0.025 = 0.3435 G2 =0.3925 + 1.96 · 0.025 = 0.4415 Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Mit der Korrektur von Agresti-Coull ergibt sich p̂ = 0.3936. Die Grenzen des Konfidenzintervalls sind dann G1 =0.3936 − 1.96 · 0.0244 = 0.3457 G2 =0.3936 + 1.96 · 0.0244 = 0.4414 Matlab: make KI binomial R. Frühwirth Statistische Metodender Datenanalyse 359/587 Binomialverteilung Statistische Metoden der Datenanalyse Sicherheit der Konfidenzintervalle R. Frühwirth 1 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.95 0.9 Punktschätzer 0.85 1−α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.8 0.75 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.7 Clopper−Pearson Bootstrap Robust Agresti−Coull 0.65 0.6 0 0.1 0.2 R. Frühwirth 0.3 0.4 0.5 p 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 360/587 Unterabschnitt: Poissonverteilung Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 361/587 Poissonverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei k eine Beobachtung aus der Poissonverteilung Po(λ). Wir suchen ein Konfidenzintervall für λ. Je nach Konstruktion des Prognoseintervalls [y1 (λ), y2 (λ)] ergeben sich verschiedene Konfidenzintervalle. Symmetrisches Intervall y1 (λ), y2 (λ) sind die Quantile der Poissonverteilung Po(λ): y1 (p) = max k y2 (p) = min k R. Frühwirth k X i=0 ∞ X W (k; λ) ≤ α/2 W (k; λ) ≤ α/2 i=k Statistische Metodender Datenanalyse 362/587 Poissonverteilung Statistische Metoden der Datenanalyse R. Frühwirth Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Gammaverteilung benützt werden: Stichprobenfunktionen G1 (k) = Γα/2,k,1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian G2 (k) = Γ1−α/2,k+1,1 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als 1 − α ist. P Liegen n Beobachtungen k1 , . . . , kn vor, so ist k = ki Poissonverteilt mit Mittel nλ. Das symmetrische Konfidenzintervall für λ ist daher: G1 (k) = Γα/2,k,1/n G2 (k) = Γ1−α/2,k+1,1/n R. Frühwirth Statistische Metodender Datenanalyse 363/587 Poissonverteilung Statistische Metoden der Datenanalyse Sicherheit des symmetrischen Konfidenzintervalls R. Frühwirth 1 Stichprobenfunktionen 0.99 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.98 0.97 Punktschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.96 1−α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.95 0.94 0.93 0.92 n=1 n=5 n=25 0.91 0.9 0 10 20 R. Frühwirth 30 40 50 λ 60 70 Statistische Metodender Datenanalyse 80 90 100 364/587 Poissonverteilung Statistische Metoden der Datenanalyse Linksseitiges Intervall R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Eine Beobachtung k: y1 (λ) = 0, y2 (λ) = min k ∞ X W (k; λ) ≤ α i=k Praktische Berechnung: G1 (k) = 0, G2 (k) = Γ1−α,k+1,1 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung n Beobachtungen k1 , . . . , kn : G1 (k) = 0, R. Frühwirth G2 (k) = Γ1−α,k+1,1/n Statistische Metodender Datenanalyse 365/587 Poissonverteilung Statistische Metoden der Datenanalyse Sicherheit des linksseitigen Konfidenzintervalls R. Frühwirth 1 Stichprobenfunktionen 0.99 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.98 0.97 Punktschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.96 1−α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.95 0.94 0.93 0.92 n=1 n=5 n=25 0.91 0.9 0 10 20 R. Frühwirth 30 40 50 λ 60 70 Statistische Metodender Datenanalyse 80 90 100 366/587 Unterabschnitt: Exponentialverteilung Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 367/587 Exponentialverteilung Statistische Metoden der Datenanalyse Symmetrisches Intervall für den Mittelwert R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Pn Das Stichprobenmittel X = n1 i=1 Xi hat die folgende Dichte: xn−1 x f (x) = exp − (τ /n)n Γ(n) τ /n X ist also Gamma-verteilt gemäß Ga(n, τ /n). Für jedes τ gilt: W γα/2,n,τ /n ≤ X ≤ γ1−α/2,n,τ /n = 1 − α R. Frühwirth Statistische Metodender Datenanalyse 368/587 Exponentialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Daraus folgt X ≤ γ1−α/2,n,1/n = 1 − α W γα/2,n,1/n ≤ τ und W X γ1−α/2,n,1/n ≤τ ≤ X γα/2,n,1/n =1−α Damit gilt: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 (X) = G2 (X) = R. Frühwirth X γ1−α/2,n,1/n X γα/2,n,1/n Statistische Metodender Datenanalyse 369/587 Exponentialverteilung Statistische Metoden der Datenanalyse Linksseitiges Intervall für den Mittelwert R. Frühwirth Stichprobenfunktionen Für jedes τ gilt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung W γα,n,τ /n ≤ X = 1 − α Daraus folgt W γα,n,1/n ≤ X τ =1−α und W 0≤τ ≤ X γα,n,1/n =1−α Rechtsseitiges Intervall für den Mittelwert X W ≤τ =1−α γ1−α,n,1/n R. Frühwirth Statistische Metodender Datenanalyse 370/587 Unterabschnitt: Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 371/587 Normalverteilung Statistische Metoden der Datenanalyse Konfidenzintervall für den Mittelwert R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Z= X −µ √ σ/ n standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α folgt √ √ W (X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) = 1 − α R. Frühwirth Statistische Metodender Datenanalyse 372/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Ist σ 2 unbekannt, wird σ 2 durch die Stichprobenvarianz geschätzt, und das Standardscore Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung T = X −µ √ S/ n ist t-verteilt mit n − 1 Freiheitsgraden. Aus n−1 W (−tn−1 1−α/2 ≤ T ≤ t1−α/2 ) = 1 − α folgt √ √ n−1 W (X − tn−1 1−α/2 S/ n ≤ µ ≤ X + t1−α/2 S/ n) = 1 − α R. Frühwirth Statistische Metodender Datenanalyse 373/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das Stichprobenmittel X = 0.0540 und die Stichprobenvarianz S 2 = 1.0987. Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 1.96/ 50 = −0.2232 √ G2 =0.0540 + 1.96/ 50 = 0.3312 Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 2.01 · 1.0482/ 50 = −0.2439 √ G2 =0.0540 + 2.01 · 1.0482/ 50 = 0.3519 Matlab: make KI normal R. Frühwirth Statistische Metodender Datenanalyse 374/587 Normalverteilung Statistische Metoden der Datenanalyse Konfidenzintervall für die Varianz R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. Aus W χ2α/2,n−1 (n − 1)S 2 ≤ χ21−α/2,n−1 ≤ σ2 =1−α folgt W (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ 2 2 χ1−α/2,n−1 χα/2,n−1 R. Frühwirth Statistische Metodender Datenanalyse ! =1−α 375/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel Eine Stichprobe vom Umfang n = 50 aus der Normalverteilung No(0, 4) hat die Stichprobenvarianz S 2 = 4.3949. Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: G1 =49 · 4.3949/70.2224 = 3.0667 G2 =49 · 4.3949/31.5549 = 6.8246 Werden die Quantile der χ2 -Verteilung χ2 (n − 1) durch die Quantile der Normalverteilung No(n − 1, 2(n − 1)) ersetzt, laute das Konfidenzintervall: G1 =49 · 4.3949/68.4027 = 3.1483 G2 =49 · 4.3949/29.5973 = 7.2760 Matlab: make KI normal varianz.m R. Frühwirth Statistische Metodender Datenanalyse 376/587 Normalverteilung Statistische Metoden der Datenanalyse Konfidenzintervall für die Differenz von zwei Mittelwerten R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Es seien X1 , . . . , Xn und Y1 , . . . , Ym zwei unabhängige Stichproben aus den Normalverteilungen No(µx , σx2 ) bzw. No(µy , σy2 ). Wir suchen ein Konfidenzintervall für µx − µy . Die Differenz D = X − Y ist normalverteilt gemäß No(µx − µy , σ 2 ), mit 2 σD = σx2 /n + σy2 /m. Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Aus W D − (µx − µy ) −z1−α/2 ≤ ≤ z1−α/2 = 1 − α σD folgt R. Frühwirth Statistische Metodender Datenanalyse 377/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung W D − z1−α/2 σD ≤ µx − µy ≤ D + z1−α/2 σD = 1 − α Sind die Varianzen unbekannt und gleich, ist S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 χ2 -verteilt mit m + n − 2 Freiheitsgraden. Das Standardscore T = D − (µx − µy ) SD p mit SD = S 1/n + 1/m ist daher t-verteilt mit n + m − 2 Freiheitsgraden. R. Frühwirth Statistische Metodender Datenanalyse 378/587 Normalverteilung Statistische Metoden der Datenanalyse Aus R. Frühwirth W −t1−α/2,n+m−2 ≤ T ≤ t1−α/2,n+m−2 = 1 − α Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung folgt W D − t1−α/2,n+m−2 SD ≤ µx − µy ≤ D + t1−α/2,n+m−2 SD = 1−α Beispiel Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat Stichprobenmittel X = 2.1080 und Stichprobenvarianz Sx2 = 4.3949; eine zweite Stichprobe aus No(1, 4) vom Umfang m = 25 hat Stichprobenmittel X = 1.6692 und Stichprobenvarianz Sx2 = 5.2220. Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µx − µy : G1 =0.4388 − 1.96 · 0.4899 = −0.5213 G2 =0.4388 + 1.96 · 0.4899 = 1.3990 R. Frühwirth Statistische Metodender Datenanalyse 379/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (Fortsetzung) Werden die Varianzen als unbekannt angenommen, ist S 2 = 4.6668 und SD = 0.5292. Das 95%=Konfidenzintervall für µx − µy lautet dann: G1 =0.4388 − 1.993 · 0.5292 = −0.6158 G2 =0.4388 + 1.993 · 0.5292 = 1.4935 Matlab: make KI normal difference.m Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 380/587 Unterabschnitt: Mittelwert einer beliebigen Verteilung Statistische Metoden der Datenanalyse R. Frühwirth 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 381/587 Mittelwert einer beliebigen Verteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2 . Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des Stichprobenmittels: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Z= X −µ √ σ/ n für große Stichproben annähernd normalverteilt. Es gilt also näherungsweise: √ √ W (X − z1−α/2 S/ n ≤ µ ≤ X + z1−α/2 S/ n) ≈ 1 − α R. Frühwirth Statistische Metodender Datenanalyse 382/587 Mittelwert einer beliebigen Verteilung Statistische Metoden der Datenanalyse R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervalls in Näherung durch Normalverteilung, geschätzt aus N = 20000 Stichproben: n 1−α 25 50 100 200 400 0.9112 0.9289 0.9408 0.9473 0.9476 Matlab: make KI exponential Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistische Metodender Datenanalyse 383/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Teil 5 Testen von Hypothesen Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 384/587 Übersicht Teil 5 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 16 Einleitung 17 Parametrische Tests 18 Anpassungstests R. Frühwirth Statistische Metodender Datenanalyse 385/587 Abschnitt 16: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 16 Einleitung 17 Parametrische Tests 18 Anpassungstests R. Frühwirth Statistische Metodender Datenanalyse 386/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F . Ein Test soll feststellen, ob die Beobachtungen mit einer gewissen Annahme über F verträglich sind. Die Annahme wird als Nullhypothese H0 bezeichnet. Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! R. Frühwirth Statistische Metodender Datenanalyse 387/587 Einleitung Statistische Metoden der Datenanalyse Allgemeine Vorgangsweise R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Der Wertebereich von T wird, in Abhängigkeit von H0 , in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C 0 unterteilt. Der Annahmebereich ist meist ein Prognoseintervall für T . Fällt der Wert von T in den Ablehnungsbereich, wird H0 verworfen. Andernfalls wird H0 vorläufig beibehalten. Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. R. Frühwirth Statistische Metodender Datenanalyse 388/587 Einleitung Statistische Metoden der Datenanalyse Einseitige und zweiseitige Tests R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Ist der Annahmebereich das symmetrische Prognoseintervall für T , wird der Test zweiseitig genannt. Der kritische Bereich zerfällt dann in zwei Teilintervalle. Ist der Annahmebereich ein Intervall der Form T ≤ c oder T ≥ c, wird der Test einseitig genannt. Der kritische Bereich ist dann ein Intervall der Form T > c bzw. T < c. Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 389/587 Einleitung Statistische Metoden der Datenanalyse Der p-Wert R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Test kann alternativ auch unter Benütung des p-Werts P (T ) durchgeführt werden. Der p-Wert gibt an, wie wahrscheinlich es ist, unter Annahme der Nullhypothese mindestens den Wert T bzw. höchstens den Wert T zu beobachten. Zweiseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich P (T ) = 2 min(F0 (T ), 1 − F0 (T )) Einseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich P (T ) = F0 (T ) bzw. p = 1 − F0 (T ) Die Nullhypothese wird verworfen, wenn P (T ) < α. R. Frühwirth Statistische Metodender Datenanalyse 390/587 Einleitung Statistische Metoden der Datenanalyse Signifikanz und Güte R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H0 wird beibehalten, obwohl sie nicht zutrifft. Die Verteilung von T unter Annahme von H0 wird bestimmt. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich einem Wert α ist. α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. R. Frühwirth Statistische Metodender Datenanalyse 391/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines Fehlers 2. Art berechnet werden. 1 − β(H1 ) heißt die Güte des Tests für H1 . Die Güte sollte nie kleiner als α sein. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maximaler Güte (UMPU) zu konstruieren. R. Frühwirth Statistische Metodender Datenanalyse 392/587 Abschnitt 17: Parametrische Tests Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 393/587 Unterabschnitt: Grundlagen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 394/587 Grundlagen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F , die bis auf einen oder mehrere Parameter spezifiziert ist. Tests von Hypothesen über F heißen parametrisch. Eine Nullhypothese H0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. R. Frühwirth Statistische Metodender Datenanalyse 395/587 Grundlagen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Dann wird der kritische Bereich C so festgelegt, dass Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test W (T ∈ C|ϑ ∈ H0 ) ≤ α Zu einer Nullhypothese H0 kann eine Gegenhypothese H1 formuliert werden. H1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1 die Güte berechnet werden: 1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 ) 1 − β(ϑ) heißt die Gütefunktion des Tests. R. Frühwirth Statistische Metodender Datenanalyse 396/587 Grundlagen Statistische Metoden der Datenanalyse Beispiel mit Exponentialverteilung R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus Ex(τ ). Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H0 hat T die folgende Dichte: tn−1 t f (t) = exp − (τ0 /n)n Γ(n) τ0 /n T ist also verteilt gemäß Ga(n, τ0 /n). Das symmetrische Prognoseintervall [y1 (τ0 ), y2 (τ0 )] für T zum Niveau 1 − α erhält man mit: y1 (τ0 ) = γα/2,n,τ0 /n , R. Frühwirth y2 (τ0 ) = γ1−α/2,n,τ0 /n Statistische Metodender Datenanalyse 397/587 Grundlagen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Verwerfungsbereich mit Signifikanzniveau α ist daher die Menge C = [0, y1 (τ0 )] ∪ [y2 (τ0 ), ∞[ H0 wird also abgelehnt, wenn T “weit entfernt” vom hypothetischen Wert τ0 ist. Die Gütefunktion für einen Wert τ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(y1 (τ0 )) + 1 − G(y2 (τ0 )) wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist. Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25 1 − β(0.986) = 0.0495 < α Matlab: make test exponential mean.m R. Frühwirth Statistische Metodender Datenanalyse 398/587 Grundlagen Statistische Metoden der Datenanalyse Dichte des Stichprobenmittels (τ0=1) und kritische Bereiche R. Frühwirth 4.5 n=25 n=100 Einleitung 4 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 3 2.5 f(T) Anpassungstests 3.5 2 1.5 1 0.5 0 0 0.2 0.4 0.6 R. Frühwirth 0.8 1 T 1.2 1.4 Statistische Metodender Datenanalyse 1.6 1.8 2 399/587 Grundlagen Statistische Metoden der Datenanalyse Gütefunktion (τ0=1) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.6 1−β(τ) Anpassungstests 0.8 0.5 0.4 0.3 0.2 0.1 0 0.5 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 1 τ 1.1 1.2 Statistische Metodender Datenanalyse 1.3 1.4 1.5 400/587 Unterabschnitt: Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 401/587 Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse Zweiseitiger Test für den Parameter p R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test k ist eine Beobachtung aus der Binomialverteilung Bi(n, p). Die Hypothese H0 : p = p0 soll anhand der Beobachtung gegen die Alternativhypothese H1 : p 6= p0 getestet werden. H0 wird abgelehnt, wenn k unter Annahme von H0 nicht im symmetrischen Prognoseintervall [y1 (p0 ), y2 (p0 )] liegt, also zu klein“ oder zu groß“ ist. ” ” Das ist der Fall, wenn entweder k X n i p0 (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α/2 i i=0 oder n X n i p (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α/2 i 0 i=k gilt. R. Frühwirth Statistische Metodender Datenanalyse 402/587 Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse Einseitiger Test für den Parameter p R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 : p ≤ p0 soll anhand der Beobachtung k gegen die Alternativhypothese H1 : p > p0 getestet werden. H0 wird abgelehnt, wenn k zu groß“ ist und damit der ” p-Wert zu klein: P (k) = n X n i i=k pi0 (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α Die Hypothese H0 : p ≥ p0 wird abgelehnt, wenn k zu ” klein“ ist und damit auch der p-Wert zu klein: P (k) = k X n i=0 i pi0 (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α R. Frühwirth Statistische Metodender Datenanalyse 403/587 Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Beispiel Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Es gilt: ! 300 X 300 P (k) = 0.02i 0.98300−i = 0.1507 i i=9 Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. Matlab: make test binomial.m R. Frühwirth Statistische Metodender Datenanalyse 404/587 Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse Näherung durch Normalverteilung R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Ist n genügend groß, kann die Verteilung von k durch eine Normalverteilung No(np, np(1 − p)) angenähert werden. H0 wird abgelehnt, wenn das Standardscore k − np0 Z=p np(1 − p0 ) Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. Zweiseitiger Test: H0 wird abgelehnt wenn Z < zα/2 oder Z > z1−α/2 Einseitiger Test: H0 wird abgelehnt wenn Z < zα bzw. Z > z1−α R. Frühwirth Statistische Metodender Datenanalyse 405/587 Tests für binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Beispiel Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 1.2372 < z0.95 = 1.6449 Die Hypothese kann also nicht abgelehnt werden. Matlab: make test binomial.m Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 406/587 Unterabschnitt: Tests für Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 407/587 Tests für Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse Zweiseitiger Test auf den Erwartungswert R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H0 : λ = λ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : λ 6= λ0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: T = Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test n X Xi i=1 T ist Poissonverteilt gemäß Po(nλ). H0 wird abgelehnt, wenn T zu klein“ oder zu groß“ ist, ” ” also wenn T X (nλ0 )k e−nλ0 k=0 k! R. Frühwirth < α/2 oder ∞ X (nλ0 )k e−nλ0 < α/2 k! k=T Statistische Metodender Datenanalyse 408/587 Tests für Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse Einseitiger Test auf den Erwartungswert R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 : λ ≤ λ0 wird abgelehnt, wenn T zu ” groß“ ist und damit der p-Wert zu klein: ∞ X (nλ0 )k e−nλ0 P (T ) = <α k! k=T Die Hypothese H0 : λ ≥ λ0 wird abgelehnt, wenn T zu ” klein“ ist und damit auch der p-Wert zu klein: P (T ) = T X (nλ0 )k e−nλ0 k=0 R. Frühwirth k! <α Statistische Metodender Datenanalyse 409/587 Tests für Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Beispiel Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Es gilt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test T = 154, P (T ) = ∞ X (125)k e−125 = 0.0067 k! k=T Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Matlab: make test poisson mean.m R. Frühwirth Statistische Metodender Datenanalyse 410/587 Tests für Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse Näherung durch Normalverteilung R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ) angenähert werden. H0 wird abgelehnt, wenn das Standardscore T − nλ0 Z= √ nλ0 nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. Beispiel Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 2.5938 > z0.99 = 2.3263 Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. R. Frühwirth Statistische Metodender Datenanalyse 411/587 Unterabschnitt: Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 412/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Erwartungswert bei bekannter Varianz R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2 . Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: √ n(X − µ0 ) T = σ Unter Annahme von H0 ist T verteilt gemäß No(0, 1). H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. R. Frühwirth Statistische Metodender Datenanalyse 413/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Zweiseitiger Test R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 wird abgelehnt, wenn √ n X − µ0 |T | = > z1−α/2 σ Die Gütefunktion für einen Wert µ ergibt sich durch: 1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Der Test ist unverzerrt. Matlab: make test normal mean.m R. Frühwirth Statistische Metodender Datenanalyse 414/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gütefunktion des zweiseitigen Tests (µ0=1) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.6 1−β(µ) Anpassungstests 0.8 0.5 0.4 0.3 0.2 0.1 0 0.5 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 1 µ 1.1 1.2 Statistische Metodender Datenanalyse 1.3 1.4 1.5 415/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Einseitiger Test R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 : µ ≤ µ0 soll mit der Teststatistik T gegen die Alternativhypothese H1 : µ > µ0 getestet werden. H0 wird abgelehnt, wenn T zu groß“ ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z1−α , ∞[ Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 > z1−α T = σ R. Frühwirth Statistische Metodender Datenanalyse 416/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch: R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Analog verläuft der Test mit H0 : µ ≥ µ0 und H1 : µ < µ0 . Matlab: make test normal mean.m R. Frühwirth Statistische Metodender Datenanalyse 417/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gütefunktion des einseitigen Tests (µ0=1) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.6 1−β(µ) Anpassungstests 0.8 0.5 0.4 0.3 0.2 0.1 0 1 n=25 n=100 1.1 1.2 1.3 R. Frühwirth 1.4 1.5 µ 1.6 1.7 Statistische Metodender Datenanalyse 1.8 1.9 2 418/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Erwartungswert bei unbekannter Varianz: t-Test R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2 . Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S2: √ n(X − µ0 ) T = S Unter Annahme von H0 ist T verteilt gemäß t(n − 1). R. Frühwirth Statistische Metodender Datenanalyse 419/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der t-Verteilung mit n − 1 Freiheitsgraden liegt. Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge n−1 C =] − ∞, tn−1 α/2 ] ∪ [t1−α/2 , ∞[ wo tn−1 das Quantil der t-Verteilung mit n − 1 p Freiheitsgraden zum Niveau p ist. Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > tn−1 1−α/2 S R. Frühwirth Statistische Metodender Datenanalyse 420/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Die Gütefunktion für einen Wert µ ergibt sich durch: R. Frühwirth 1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen wo G die Verteilungsfunktion der nichtzentralen t(n − 1, δ)-Verteilung mit √ δ = n(µ − µ0 )/σ Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test ist. Der Test ist unverzerrt. Matlab: make test normal mean.m R. Frühwirth Statistische Metodender Datenanalyse 421/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gütefunktion des zweiseitigen t−Tests (µ0=1) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.6 1−β(µ) Anpassungstests 0.8 0.5 0.4 0.3 0.2 0.1 0 0.5 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 1 µ 1.1 1.2 Statistische Metodender Datenanalyse 1.3 1.4 1.5 422/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gleichheit von zwei Erwartungswerten R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : µx = µy soll anhand der Stichproben gegen die Alternativhypothese H1 : µx 6= µy getestet werden. Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: T =X −Y Unter Annahme von H0 ist T verteilt gemäß No(0, σx2 /n + σy2 /m). R. Frühwirth Statistische Metodender Datenanalyse 423/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Das Standardscore R. Frühwirth Z=q Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen σx2 /n + σy2 /m ist dann standardnormalverteilt. Die Hypothese H0 wird also abgelehnt, wenn Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test T |Z| > z1−α/2 oder |X − Y | q R. Frühwirth σx2 /n + σy2 /m > z1−α/2 Statistische Metodender Datenanalyse 424/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten“) Stichprobe ” geschätzt werden: Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 Unter Annahme von H0 ist Anpassungstests T =p Der Chiquadrat-Test Der KolmogorovSmirnov-Test X −Y S 2 (1/n + 1/m) t-verteilt mit n + m − 2 Freiheitsgraden. Die Hypothese H0 wird also abgelehnt, wenn |T | > tn+m−2 1−α/2 wo tn+m−2 1−α/2 das Quantil der t-Verteilung mit n + m − 2 Freiheitsgraden ist. R. Frühwirth Statistische Metodender Datenanalyse 425/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse t-Test für gepaarte Stichproben R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. Die Wirkung der Intervention wird durch die Differenzen Wi = Yi − Xi , i = 1, . . . , n beschrieben. Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel 2 µw und unbekannter Varianz σw ist. Die Hypothese H0 : µw = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H1 : µw 6= 0 getestet werden. Dies erfolgt mit dem t-Test für einzelne Stichproben. R. Frühwirth Statistische Metodender Datenanalyse 426/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Test der Varianz R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ2 . Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet werden. Als Teststatistik T wählen wir: T = (n − 1)S 2 σ02 Unter Annahme von H0 ist T χ2 -verteilt mit n − 1 Freiheitsgraden. R. Frühwirth Statistische Metodender Datenanalyse 427/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Die Hypothese H0 wird also abgelehnt, wenn R. Frühwirth Einleitung T < χ2α/2,n−1 oder T > χ21−α/2,n−1 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test wo χ2p,k das Quantil der χ2 -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: 1 − β(σ 2 ) = G(σ02 /σ 2 · χ2α/2 ) + 1 − G(σ02 /σ 2 · χ2(1−α)/2 ) wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist. Der Test ist nicht unverzerrt. Matlab: make test normal variance.m R. Frühwirth Statistische Metodender Datenanalyse 428/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gütefunktion des zweiseitigen Tests (σ20=1) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.8 0.7 0.6 1−β(σ2) Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.5 0.4 0.3 0.2 0.1 0 0.5 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 1 σ2 1.1 1.2 Statistische Metodender Datenanalyse 1.3 1.4 1.5 429/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gleichheit von zwei Varianzen R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben gegen die Alternativhypothese H1 : σx2 6= σy2 getestet werden. Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: T = Sx2 Sy2 Unter Annahme von H0 ist T F-verteilt gemäß F(n − 1, m − 1). R. Frühwirth Statistische Metodender Datenanalyse 430/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Die Hypothese H0 wird also abgelehnt, wenn R. Frühwirth Einleitung T < Fα/2 oder T > F1−α/2 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1 Freiheitsgraden zum Niveau p ist. Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k ergibt durch: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 ) wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist. Der Test ist unverzerrt. Matlab: make test normal variance.m R. Frühwirth Statistische Metodender Datenanalyse 431/587 Tests für normalverteilte Beobachtungen Statistische Metoden der Datenanalyse Gütefunktion des zweiseitigen Tests (σ2x =σ2y ) R. Frühwirth 1 Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.6 1−β(k) Anpassungstests 0.8 0.5 0.4 0.3 0.2 0.1 0 n=25 n=100 −0.6 −0.4 R. Frühwirth −0.2 0 ln k=ln(σ2y /σ2x ) 0.2 Statistische Metodender Datenanalyse 0.4 0.6 432/587 Abschnitt 18: Anpassungstests Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 433/587 Anpassungstests Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 434/587 Unterabschnitt: Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 435/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse Der Chiquadrat-Test für diskrete Beobachtungen R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Stichprobe X1 , . . . , Xn entstammt einer diskreten Verteilung mit Wertebereich {1, . . . , k}. Wir testen die Hypothese H0 , dass die Dichte f die Werte f (j) = pj , j = 1, . . . , k hat: H0 : W (Xi = j) = pj , j = 1, . . . , k Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test gegen H1 : W (Xi = j) 6= pj , für ein j Es sei Yj die Zahl der Beobachtungen, die gleich j sind. Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj . R. Frühwirth Statistische Metodender Datenanalyse 436/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Die Testgröße vergleicht die beobachteten Häufigkeiten Yj mit ihren Erwartungswerten: Einleitung k X (Yj − npj )2 T = npj j=1 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Nullhypothese wird verworfen, wenn T groß ist. Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Satz Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1 Freiheitsgraden. R. Frühwirth Statistische Metodender Datenanalyse 437/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1 wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden zum Niveau 1 − α ist. Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Yj : Anpassungstests k X Der Chiquadrat-Test Der KolmogorovSmirnov-Test Yj = n j=1 Als Faustregel gilt: n sollte so groß sein, dass npj > 5, j = 1, . . . , k. Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. R. Frühwirth Statistische Metodender Datenanalyse 438/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Beispiel Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: W (X = 1) = . . . = W (X = 6) = 1 6 Eine Simulation von N = 100000 Stichproben ergibt: T = 5.000, ST2 = 9.789 Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist χ20.95,5 = 11.07, und W (T ≥ 11.07) = 0.048 Matlab: make chi2test wuerfel.m R. Frühwirth Statistische Metodender Datenanalyse 439/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse Der Chiquadrat-Test für stetige Beobachtungen R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Stichprobe X1 , . . . , Xn entstammt einer stetigen Verteilung F . Wir testen die Hypothese H0 : F (x) = F0 (x). Dazu wird der Wertebereich von X in k Gruppen G1 , . . . , Gk eingeteilt. Es sei Yj die Zahl der Beobachtungen in Gruppe Gj . Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit pj = W (X ∈ Gj |H0 ) Der Test verläuft weiter wie im diskreten Fall. R. Frühwirth Statistische Metodender Datenanalyse 440/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse Unbekannte Parameter R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die pj noch von unbekannten Parametern ϑ abhängen: W (X ∈ Gj ) = pj (ϑ) Die Statistik T ist nun eine Funktion der unbekannten Parameter: k X (Yj − npj (ϑ))2 T (ϑ) = npj (ϑ) j=1 Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : ϑ̃ = arg min T (ϑ) ϑ R. Frühwirth Statistische Metodender Datenanalyse 441/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Satz Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃) asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden. Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1−m wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m Freiheitsgraden zum Niveau 1 − α ist. R. Frühwirth Statistische Metodender Datenanalyse 442/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Beispiel Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} Es soll die Hypothese überprüft werden, dass die Beobachtungen Poisson-verteilt gemäß Po(λ) sind. Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt: Gruppe 1 2 3 4 5 X 0 1 2–3 4–5 >5 Die Häufigkeiten der Gruppen sind: Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5 R. Frühwirth Statistische Metodender Datenanalyse 443/587 Der Chiquadrat-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Beispiel (Fortsetzung) Der Schätzwert für λ ist das Stichprobenmittel: Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test λ̃ = 3.1667 Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind: j 1 2 3 4 5 E[Y1 ] 1.2643 4.0037 13.0304 8.6522 3.0493 Die Testgröße T ist gleich T = 21.99 Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen Poisson-verteilt sind, ist also abzulehnen. Matlab: make chi2test poisson.m R. Frühwirth Statistische Metodender Datenanalyse 444/587 Unterabschnitt: Der Kolmogorov-Smirnov-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Statistische Metodender Datenanalyse 445/587 Der Kolmogorov-Smirnov-Test Statistische Metoden der Datenanalyse Eine Stichprobe R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung mit Verteilungsfunktion F . Wir testen die Hypothese H0 : F (x) = F0 (x). Die Testgröße Dn ist die maximale absolute Abweichung der empirischen Verteilungsfunktion Fn (x) der Stichprobe von der hypothetischen Verteilungsfunktion F0 (x): Dn = max |Fn (x) − F0 (x)| x Für Stichproben aus F0 ist die Verteilung von Dn unabhängig von F0 ! Für √ Stichproben aus F0 strebt die Verteilungsfunktion von nD für n → ∞ gegen: K(x) = 1 − 2 ∞ X (−1)k−1 e−2k 2 x2 k=1 R. Frühwirth Statistische Metodender Datenanalyse 446/587 Der Kolmogorov-Smirnov-Test Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Aus der asymptotischen Verteilungsfunktion können Quantile K1−α berechnet werden. Die Nullhypothese wird abgelehnt, wenn √ nDn > K1−α Werden vor dem Test Parameter von F0 geschätzt, sind die Quantile nicht mehr gültig. In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Matlab: Funktion kstest R. Frühwirth Statistische Metodender Datenanalyse 447/587 Der Kolmogorov-Smirnov-Test Statistische Metoden der Datenanalyse Zwei Stichproben R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Die Testgröße ist die maximale absolute Differenz der empirischen Verteilungsfunktionen: 2 Dn,m = max |Fn1 (x) − Fm (x)| x Die Nullhypothese wird abgelehnt, wenn r nm Dn,m > K1−α n+m Matlab: Funktion kstest2 R. Frühwirth Statistische Metodender Datenanalyse 448/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Teil 6 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Regressionsanalyse R. Frühwirth Statistische Metodender Datenanalyse 449/587 Übersicht Teil 6 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 450/587 Abschnitt 19: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 451/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Regressionsanalyse untersucht die Abhängigkeit der Beobachtungen von diversen Variablen. Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ). Ergebnisvariable (abhängige Variable) Y . Regressionsmodell: Y = f (β, x) + ε Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression mit Regressionskoeffizienten β und Fehlerterm ε. Ziel ist die Schätzung von β anhand von Beobachtungen Y1 , . . . , Yn . Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. R. Frühwirth Statistische Metodender Datenanalyse 452/587 Abschnitt 20: Einfache Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 453/587 Unterabschnitt: Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 454/587 Lineare Regression Statistische Metoden der Datenanalyse Das einfachste Regressionsmodell ist eine Gerade: R. Frühwirth Einleitung Y = α + βx + ε, E[ε] = 0, var[ε] = σ 2 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: SS = n X (Yi − α − βxi )2 i=1 Gradient von SS: n n X X ∂SS ∂SS = −2 (Yi − α − βxi ), = −2 xi (Yi − α − βxi ) ∂α ∂β i=1 i=1 R. Frühwirth Statistische Metodender Datenanalyse 455/587 Lineare Regression Statistische Metoden der Datenanalyse Nullsetzen des Gradienten gibt die Normalgleichungen: R. Frühwirth Einleitung n X Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Yi = nα + β i=1 n X n X xi i=1 xi Yi = α i=1 n X i=1 xi + β n X x2i i=1 Die geschätzten Regressionskoeffizienten lauten: Pn Pn xi Yi − x̄ i=1 Yi i=1 Pn β̂ = 2 2 i=1 xi − nx̄ α̂ = Y − β̂ x̄ Es gilt E[α̂] = α und E[β̂] = β. R. Frühwirth Statistische Metodender Datenanalyse 456/587 Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n 1 X 2 r σ̂ 2 = n − 2 i=1 i mit ri = Yi − Ŷi , Ŷi = α̂ + β̂xi Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: P 2 P x xi P 2 i P − n ( x − nx̄2 ) n ( x2i − nx̄2 ) i 2 Cov[α̂, β̂] = σ P xi 1 P − P 2 n ( xi − nx̄2 ) x2i − nx̄2 R. Frühwirth Statistische Metodender Datenanalyse 457/587 Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Beispiel Datensatz 4: x̄ = 167.60 ȳ = 76.16 sx = 8.348 sy = 4.727 rxy = 0.5562 â = 0.3150 b̂ = 23.37 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Matlab: make dataset4 R. Frühwirth Statistische Metodender Datenanalyse 458/587 Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Beispiel (Fortsetzung) Datensatz 4: Einfache Regression Datensatz 4 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 90 85 Mehrfache Regression 80 Gewicht (kg) Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 75 70 65 60 55 140 150 R. Frühwirth 160 170 Körpergröße (cm) 180 Statistische Metodender Datenanalyse 190 459/587 Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Streuung der Werte Yi hat im Regressionsmodell unterschiedliche Ursachen. Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von x. Dazu kommt noch die zufällige Streuung der Daten. Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Erklärbare Streuung SS ∗ = n X 2 (Ŷi − Y )2 = rxy ns2Y i=1 n X 2 (Yi − Ŷi )2 = (1 − rxy )ns2Y Reststreuung SSR = Totale Streuung n X SST = (yi − Y )2 = ns2Y i=1 i=1 R. Frühwirth Statistische Metodender Datenanalyse 460/587 Lineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Streuungszerlegung SST = SS ∗ + SSR Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Bestimmheitsmaß der Regression B= SS ∗ 2 = rxy SST Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von x und Y erklärt werden kann. R. Frühwirth Statistische Metodender Datenanalyse 461/587 Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 462/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0 beruht auf dem folgenden Satz. Satz Ist ε normalverteilt, so sind Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression α̂ − α , σ̂α̂ β̂ − β σ̂β̂ t-verteilt mit n − 2 Freiheitsgraden, wobei P σ̂ 2 x2i σ̂ 2 2 2 P P 2 σ̂α̂ = , σ̂ = β̂ n ( xi − nx̄2 ) x2i − nx̄2 R. Frühwirth Statistische Metodender Datenanalyse 463/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die Testgröße β̂ T = σ̂β̂ relativ klein oder relativ groß ist, also wenn |β̂| > tn−2 1−α/2 σ̂β̂ Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. Ein analoger Test kann für die Nullhypothese H0 : α = 0 durchgeführt werden. R. Frühwirth Statistische Metodender Datenanalyse 464/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: n−2 α̂ ± σ̂α̂ · tn−2 β̂ ± σ̂β̂ · t1−α/2 1−α/2 , Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Für n > 30 können die Quantile der t-Verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 der Einflussvariablen x prognostiziert werden. Der Erwartungswert von Y0 ist E[Y0 ] = α̂ + β̂x0 Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: (x̄ − x0 )2 2 1 var[E[Y0 ]] = σ +P 2 n xi − nx̄2 R. Frühwirth Statistische Metodender Datenanalyse 465/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: (x̄ − x0 )2 2 n+1 +P 2 var[Y0 ] = σ n xi − nx̄2 Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: s n+1 (x̄ − x0 )2 n−2 +P 2 α̂ + β̂x0 ± t1−α/2 σ̂ n xi − nx̄2 R. Frühwirth Statistische Metodender Datenanalyse 466/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Das Residuum rk hat die Varianz 1 (xk − x̄)2 var[rk ] = σ 2 1 − − P 2 n xi − nx̄2 Das studentisierte Residuum ist dann rk rk0 = σ̂ q 1− 1 n − (xk −x̄)2 P x2i −nx̄2 Es hat Erwartung 0 und Varianz 1. R. Frühwirth Statistische Metodender Datenanalyse 467/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse 2.5 R. Frühwirth 40 2 Einleitung 35 1.5 Einfache Regression 30 1 25 r’ 0.5 y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 0 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 15 −0.5 10 −1 5 0 −1.5 0 5 10 x 15 20 −2 0 5 10 x 15 20 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistische Metodender Datenanalyse 468/587 Tests, Konfidenz- und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth 40 3 35 2.5 Einleitung 30 Einfache Regression 2 25 1.5 20 r’ 1 y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 15 0.5 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 10 0 5 −0.5 0 −1 −5 0 5 10 x 15 20 −1.5 0 5 10 x 15 20 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistische Metodender Datenanalyse 469/587 Unterabschnitt: Robuste Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 470/587 Robuste Regression Statistische Metoden der Datenanalyse Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. R. Frühwirth Einleitung 150 Einfache Regression Data Outlier LS w/o outlier LS with outlier 170 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 140 160 150 130 140 y Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression y 120 Mehrfache Regression 110 130 120 100 110 100 90 90 80 40 45 50 x 55 60 40 50 60 70 80 90 100 110 x Lineare Regression mit Ausreißern R. Frühwirth Statistische Metodender Datenanalyse 471/587 Robuste Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. “Exact fit property”: Die LMS-Gerade geht durch zwei Datenpunkte. Berechnung kombinatorisch. LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h ≤ n von Fehlerquadraten minimiert. Berechnung iterativ (FAST-LTS). Beide Methoden gehen auf P. Rousseeuw zurück. R. Frühwirth Statistische Metodender Datenanalyse 472/587 Robuste Regression Statistische Metoden der Datenanalyse 150 R. Frühwirth Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 160 150 130 140 y 120 y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) 170 140 Einleitung 130 110 120 100 110 100 90 90 80 40 45 50 x 55 60 40 50 60 70 80 90 100 110 x Robuste Regression mit Ausreißern R. Frühwirth Statistische Metodender Datenanalyse 473/587 Unterabschnitt: Polynomiale Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 474/587 Polynomiale Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Ist der Zusammenhang zwischen x und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. In Matrix-Vektor-Schreibweise: Y = Xβ + ε mit 1 1 X= .. . 1 R. Frühwirth x1 x2 .. . xn x21 x22 .. . x2n ··· ··· .. . ··· xr1 xr2 .. . xrn Statistische Metodender Datenanalyse 475/587 Polynomiale Regression Statistische Metoden der Datenanalyse Die folgende Zielfunktion wird minimiert: R. Frühwirth Einleitung SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ Die Lösung lautet: β̂ = XT X R. Frühwirth −1 XT Y Statistische Metodender Datenanalyse 476/587 Polynomiale Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i mit r = Y − Ŷ , Ŷ = Xβ̂ Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT R. Frühwirth Statistische Metodender Datenanalyse 477/587 Polynomiale Regression Statistische Metoden der Datenanalyse R. Frühwirth 45 2 40 1.5 Einleitung 35 1 Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 30 0.5 25 0 20 r’ y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression −0.5 15 −1 10 −1.5 5 0 −2 −5 −2.5 0 5 10 x 15 20 0 5 10 x 15 20 Regressionsparabel und studentisierte Residuen R. Frühwirth Statistische Metodender Datenanalyse 478/587 Abschnitt 21: Mehrfache Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 479/587 Unterabschnitt: Das lineare Modell Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 480/587 Das lineare Modell Statistische Metoden der Datenanalyse R. Frühwirth Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ). In Matrix-Vektor-Schreibweise: Y = Xβ + ε mit 1 1 X= .. . 1 R. Frühwirth x1,1 x2,1 .. . xn,1 x1,2 x2,2 .. . xn,2 ··· ··· .. . ··· x1,r x2,r .. . xn,r Statistische Metodender Datenanalyse 481/587 Unterabschnitt: Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 482/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse Die folgende Zielfunktion wird minimiert: R. Frühwirth Einleitung SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ Die Lösung lautet: β̂ = XT X R. Frühwirth −1 XT Y Statistische Metodender Datenanalyse 483/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i mit r = Y − Ŷ , Ŷ = Xβ̂ Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT R. Frühwirth Statistische Metodender Datenanalyse 484/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse Ist βk = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen xk ab. Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0 beruht auf dem folgenden Satz. R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Satz Ist ε normalverteilt, so ist Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression β̂k − βk σ̂β̂k t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te k Diagonalelement der geschätzten Kovarianzmatrix σ̂ 2 XT X −1 ist. R. Frühwirth Statistische Metodender Datenanalyse 485/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die Testgröße β̂k T = σ̂β̂k relativ klein oder relativ groß ist, also wenn |β̂k | > tn−r−1 1−α/2 σ̂β̂k Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. Das symmetrische Konfidenzintervall für βk mit 95% Sicherheit lautet: β̂k ± σ̂β̂k · tn−r−1 1−α/2 R. Frühwirth Statistische Metodender Datenanalyse 486/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen prognostiziert werden. Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ). Der Erwartungswert von Y0 ist dann E[Y0 ] = x+ · β̂ Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T R. Frühwirth Statistische Metodender Datenanalyse 487/587 Schätzung, Tests und Prognoseintervalle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: q x+ · β̂ ± tn−k−1 σ̂ 1 + x+ (XT X) −1 x+ T 1−α/2 R. Frühwirth Statistische Metodender Datenanalyse 488/587 Unterabschnitt: Gewichtete Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 489/587 Gewichtete Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatrix haben: Y = Xβ + ε, Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: SS = (Y − Xβ)T G(Y − Xβ), G = V−1 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT G(Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT GY = XT GXβ Die Lösung lautet: β̂ = XT GX −1 XT GY R. Frühwirth Statistische Metodender Datenanalyse 490/587 Gewichtete Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT GX −1 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT GX −1 XT Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Tests und Prognoseintervalle können entsprechend modifizert werden. R. Frühwirth Statistische Metodender Datenanalyse 491/587 Unterabschnitt: Nichtlineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistische Metodender Datenanalyse 492/587 Nichtlineare Regression Statistische Metoden der Datenanalyse R. Frühwirth In der Praxis ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = h(β) + ε, Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: SS = [Y − h(β)]T G[Y − h(β)], G = V−1 SS kann mit dem Gauß-Newton-Verfahren minimiert werden. Dazu wird h an einer Stelle β0 linearisiert: h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ, R. Frühwirth Statistische Metodender Datenanalyse H= ∂h ∂β β0 493/587 Nichtlineare Regression Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Die Schätzung von β lautet: β̂ = HT GH −1 HT G(Y − c) Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression h wird neuerlich an der Stelle β1 = β̂ linearisiert. Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. Viele andere Methoden zur Minimierung von SS verfügbar. R. Frühwirth Statistische Metodender Datenanalyse 494/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Teil 7 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Bayes-Statistik R. Frühwirth Statistische Metodender Datenanalyse 495/587 Übersicht Teil 7 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 496/587 Abschnitt 22: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 497/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe In der Bayes-Statistik werden Wahrscheinlichkeiten als rationale Einschätzungen von Sachverhalten interpretiert. Neben den Beobachtungen werden auch unbekannte Parameter von Verteilungen als Zufallsvariable betrachtet. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Die Vorinformation über die Parameter werden in einer a-priori-Verteilung zusammengefasst. Die Information in den Beobachtungen führt durch Anwendung des Bayes-Theorems zu einer verbesserten Information über die Parameter, die durch die a-posteriori-Verteilung ausgedrückt wird. Die a-posteriori Verteilung kann zum Schätzen von Parametern, zur Berechnung von Vertrauensintervallen, zum Testen, zur Prognose, zur Modellwahl etc. verwendet werden. R. Frühwirth Statistische Metodender Datenanalyse 498/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Durch die Wahl der a-priori-Verteilung wird eine subjektive Komponente in die Datenanalyse eingeführt. Dies kann besonders bei sehr kleiner Anzahl der Beobachtungen einen merkbaren Einfluss auf das Resultat haben. Es gibt jedoch Verfahren zur Konstruktion von a-priori-Dichten, die diesen Einfluss minimieren. Liegen viele Beobachtungen vor, wird der Einfluss der a-priori-Verteilung vernachlässigbar. In diesem Fall liefert die Bayes-Analyse annähernd die gleichen Resultate wie klassische “frequentistische” Verfahren. In der a-posteriori-Verteilung ist jedoch mehr Information enthalten als in klassischen Punkt- oder Intervallschätzern. R. Frühwirth Statistische Metodender Datenanalyse 499/587 Abschnitt 23: Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 500/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Der Stichprobenraum Y ist die Menge aller möglichen Stichproben y. Der Parameterraum Θ ist die Menge aller möglichen Werte des Parameters ϑ. Die a-priori-Verteilung p(ϑ) beschreibt unsere Einschätzung, ob ein bestimmter Wert ϑ die wahre Verteilung der Beobachtungen beschreibt. Die Likelihoodfunktion p(y|ϑ) beschreibt unsere Einschätzung, dass die Stichprobe y beobachtet wird, wenn ϑ wahr ist. Wird y beobachtet, kann unsere Einschätzung von ϑ aktualisiert werden, indem die a-posteriori-Verteilung berechnet wird: p(y|ϑ)p(ϑ) p(y|θ)p(θ) dθ Θ p(ϑ|y) = R R. Frühwirth Statistische Metodender Datenanalyse 501/587 Grundbegriffe Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Die a-posteriori-Verteilung beschreibt unsere Einschätzung von ϑ im Lichte der Beobachtungen y. Kommen neue Beobachtungen dazu, kann die a-posteriori-Verteilung als die neue a-priori-Verteilung benützt werden. Kann das Integral im Nenner nicht analytisch gelöst werden, muss man zu Monte-Carlo-Methoden greifen. Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 502/587 Abschnitt 24: Diskrete Modelle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 503/587 Unterabschnitt: Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 504/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Wir betrachten einen n mal wiederholten Alternativversuch mit Erfolgswahrscheinlichkeit ϑ. Die Anzahl Y der Erfolge ist dann binomialverteilt gemäß Bi(n, ϑ). Wir wollen aus einer Beobachtung y eine Einschätzung der Erfolgswahrscheinlichkeit ϑ gewinnen. Dazu brauchen wir eine a-priori-Verteilung von ϑ. In Abwesenheit jeglicher Vorinformation über den tatsächlichen Wert von ϑ können wir die Gleichverteilung Un(0, 1) als a-priori-Verteilung wählen: p(ϑ) = I[0,1] (ϑ) Die Likelihoodfunktion ist gleich ! n p(y|ϑ) = ϑy (1 − ϑ)n−y y R. Frühwirth Statistische Metodender Datenanalyse 505/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse Der Satz von Bayes liefert die a-posteriori-Dichte: R. Frühwirth Einleitung p(ϑ|y) ∝ ϑy (1 − ϑ)n−y I[0,1] (ϑ) Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Da die a-posteriori-Dichte proportional zur Dichte der Betaverteilung Beta(y + 1, n − y + 1) ist, muss sie mit dieser identisch sein. Der Erwartungswert der a-posteriori-Verteilung ist gleich E[ϑ|y] = y+1 n+2 Der Modus der a-posteriori-Verteilung ist gleich ϑ̂ = y n und damit der Maximum-Likelihood-Schätzer von ϑ. R. Frühwirth Statistische Metodender Datenanalyse 506/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse A−priori und a−posteriori−Dichte von ϑ mit n=20 R. Frühwirth 25 y=0 y=1 y=2 y=5 y=10 Einleitung Grundbegriffe 20 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 15 Normalverteilte Beobachtungen p(ϑ|y) Stetige Modelle 10 5 0 0 0.1 0.2 0.3 R. Frühwirth 0.4 0.5 ϑ 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 507/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Liegt Vorinformation über ϑ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. Die mathematisch einfachste Behandlung ergibt sich, wenn auch die a-priori-Verteilung eine Betaverteilung ist. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Sei also p(ϑ) = Normalverteilte Beobachtungen ϑa−1 (1 − ϑ)b−1 B(a, b) Dann ist die a-posteriori-Dichte gleich p(ϑ|y) ∝ϑy (1 − ϑ)n−y ϑa−1 (1 − ϑ)b−1 =ϑy+a−1 (1 − ϑ)n−y+b−1 Die a-posteriori-Verteilung ist wieder eine Betaverteilung, nämlich Beta(y + a, n − y + b). R. Frühwirth Statistische Metodender Datenanalyse 508/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Offenbar gibt eine a-priori Betaverteilung mit einer Binomial-Likelihoodfunktion wieder eine a-posteriori Betaverteilung. Die Betaverteilung wird daher als konjugiert zur Binomialverteilung bezeichnet. Der Erwartungswert der a-posteriori-Verteilung ist gleich Stetige Modelle Normalverteilte Beobachtungen E[ϑ|y] = a+y a+b+n Der Modus der a-posteriori-Verteilung ist gleich ϑ̂ = R. Frühwirth a+y−1 a+b+n−2 Statistische Metodender Datenanalyse 509/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Der Erwartungswert der a-posteriori-Verteilung kann als gewichtetes Mittel aus a-priori-Information und Daten angeschrieben werden: Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen a+b a n y a+y = + a+b+n a+b+na+b a+b+nn a+b = × a-priori-Erwartung a+b+n n + × Mittel der Daten a+b+n E[ϑ|y] = a und b können als “a-priori-Daten” interpetiert werden: a b a+b R. Frühwirth Anzahl der Erfolge a-priori Anzahl der Misserfolge a-priori Anzahl der Versuche a-priori Statistische Metodender Datenanalyse 510/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse A−priori und a−posteriori−Dichte von ϑ mit n=10, y=3 R. Frühwirth 3.5 a=1, b=1 a=1, b=2 a=1, b=3 a=2, b=1 a=2, b=2 a=2, b=3 Einleitung 3 Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 2.5 Stetige Modelle 2 p(ϑ|y) Normalverteilte Beobachtungen 1.5 1 0.5 0 0 0.1 0.2 R. Frühwirth 0.3 0.4 0.5 ϑ 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 511/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse A−priori und a−posteriori−Dichte von ϑ mit n=100, y=30 R. Frühwirth 9 a=1, b=1 a=1, b=2 a=1, b=3 a=2, b=1 a=2, b=2 a=2, b=3 Einleitung 8 Grundbegriffe Diskrete Modelle 7 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 6 Normalverteilte Beobachtungen p(ϑ|y) Stetige Modelle 5 4 3 2 1 0 0 0.1 0.2 0.3 R. Frühwirth 0.4 0.5 ϑ 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 512/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Wir wollen nun Teilbereiche des Parameterraums Θ konstruieren, die den wahren Wert von ϑ mit großer Sicherheit 1 − α enthalten. Ein solcher Bereich wird ein Vertrauensbereich genannt. Er ist meistens ein Intervall (Vertrauensintervall). Die einfachste Konstruktion eines Vertrauensintervalls [ϑ1 (y), ϑ2 (y)] benützt die Quantile der a-posteriori-Verteilung. Das symmetrische Vertrauensintervall lautet: ϑ1 (y) = qα/2 , ϑ1 (y) = q1−α/2 wo qp das p-Quantil der a-posteriori-Verteilung p(ϑ|y) ist. R. Frühwirth Statistische Metodender Datenanalyse 513/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Beispiel Es sei y = 4 die Anzahl der Erfolge in n = 20 unabhängigen Alternativversuchen mit Erfolgswahrscheinlichkeit ϑ. Mit der Gleichverteilung als a-priori-Verteilung ist die a-posteriori-Verteilung von ϑ eine Beta(5, 17)-Verteilung. Das symmetrische Vertrauensintervall mit 1 − α = 0.95 hat dann die Grenzen ϑ1 (y) = B0.025 (5, 17) = 0.08218, ϑ2 (y) = B0.975 (5, 17) = 0.4191 Der Erwartungswert der a-posteriori-Verteilung ist gleich E[ϑ|y] = 5 = 0.2273 22 Der Modus der a-posteriori-Verteilung ist gleich ϑ̂ = R. Frühwirth 4 = 0.2 20 Statistische Metodender Datenanalyse 514/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von ϑ mit n=20, y=4 R. Frühwirth 5 Einleitung A−posteriori−Dichte Vertrauensintervall 4.5 Grundbegriffe 4 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 3.5 3 Normalverteilte Beobachtungen p(ϑ|y) Stetige Modelle 2.5 2 1.5 1 0.5 0 0 0.1 0.2 R. Frühwirth 0.3 0.4 0.5 ϑ 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 515/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Das symmetrische Vertrauensintervall enthält Werte von ϑ, die geringere a-posteriori-Wahrscheinlichkeit haben als manche Punkte außerhalb des Intervalls. Ein Bereich, in dem alle Werte von ϑ höhere a-posteriori-Wahrscheinlichkeit haben als alle Werte außerhalb des Bereichs, heißt ein HighPosteriorDensity-Bereich, kurz HPD-Bereich. Ist die a-posteriori-Dichte unimodal, ist der HPD-Bereich ein HPD-Intervall. In diesem Fall erhält man die Grenzen ϑ1 , ϑ2 des HPD-Intervalls als Lösung des Gleichungssystems: p(ϑ2 |y) − p(ϑ1 |y) = 0 F (ϑ2 |y) − F (ϑ1 |y) = 1 − α Hier ist F (ϑ|y) die a-posteriori-Verteilungsfunktion. R. Frühwirth Statistische Metodender Datenanalyse 516/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Das Gleichungssystem muss in der Regel numerisch gelöst werden. Einleitung Grundbegriffe Beispiel (Fortsetzung) Diskrete Modelle Das HPD-Intervall mit 1 − α = 0.95 hat die Grenzen Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen ϑ1 (y) = 0.06921, ϑ1 (y) = 0.3995 Stetige Modelle Normalverteilte Beobachtungen Es ist mit einer Länge von 0.3303 kürzer als das symmetrische Vertrauensintervall, das eine Länge von 0.3369 hat. Matlab: make posterior binomial R. Frühwirth Statistische Metodender Datenanalyse 517/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von ϑ mit n=20, y=4 R. Frühwirth 5 Einleitung A−posteriori−Dichte Vertrauensintervall HPD−Intervall 4.5 Grundbegriffe 4 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 3.5 3 Normalverteilte Beobachtungen p(ϑ|y) Stetige Modelle 2.5 2 1.5 1 0.5 0 0 0.1 0.2 R. Frühwirth 0.3 0.4 0.5 ϑ 0.6 0.7 Statistische Metodender Datenanalyse 0.8 0.9 1 518/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Beispiel Ein Alternativversuch wird n = 20 mal wiederholt und ergibt keinen einzigen Erfolg (k = 0). Was kann man über die Erfolgswahrscheinlichkeit ϑ aussagen? Mit der a-priori-Dichte p(ϑ) = 1 ist die a-posteriori-Verteilung Beta(1, 21). Der Modus ist gleich 0, der Erwartungswert ist gleich 0.0455. Das HPD-Intervall mit 1 − α = 0.95 ist gleich [0, 0.1329]. Ist bekannt, dass ϑ eher klein ist, kann z.B. Beta(1, 5) als a-priori-Verteilung gewählt werden. Die a-posteriori-Verteilung ist dann Beta(1, 25). Der Modus ist gleich 0, der Erwartungswert gleich 0.0385, und das HPD-Intervall gleich [0, 0.1129]. R. Frühwirth Statistische Metodender Datenanalyse 519/587 Binomialverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Beispiel (Fortsetzung) Einleitung Der Likelihoodschätzer von ϑ ist gleich 0. Grundbegriffe Das einseitige Konfidenzintervall nach Clopper-Pearson ist gleich [0, 0.1391]. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Die Näherung durch Normalverteilung ist nur sinnvoll mit der Korrektur gemäß Agresti-Coull, das sonst das Konfidenzintervall auf den Nullpunkt schrumpft. Die Schätzung ist ϑ̂ = 0.0833, das symmetrische Konfidenzintervall ist [−0.0378, 0.2045], das linksseitige Konfidenzintervall ist [−∞, 0.1850]. R. Frühwirth Statistische Metodender Datenanalyse 520/587 Unterabschnitt: Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 521/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Die Beobachtung eines Poissonprozesses ergibt die Werte y = y1 , . . . , yn . Wir wollen aus den Beobachtungen eine Einschätzung der Intensität λ des Prozesses gewinnen. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Die Likelihoodfunktion lautet: p(y|λ) = Normalverteilte Beobachtungen n Y λyi e−λ i=1 yi ! P ∝λ yi −nλ e Sie hängt von den Beobachtungen nur über s = P yi ab. Ist keine Vorinformation über λ verfügbar, setzen wir p(λ) = 1. Die a-priori-“Dichte” kann nicht normiert werden und wird uneigentlich (improper) genannt. R. Frühwirth Statistische Metodender Datenanalyse 522/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Die a-posteriori-Dichte ist dann proportional zur Likelihoodfunktion: p(λ|s) ∝ λs e−nλ Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Da die a-posteriori-Dichte proportional zur Dichte der Gammaverteilung Ga(s + 1, 1/n) ist, muss sie mit dieser identisch sein: λs e−nλ p(λ|s) = −(s+1) n Γ(s + 1) Der Erwartungswert der a-posteriori-Verteilung ist gleich s+1 E[λ|s] = n Der Modus der a-posteriori-Verteilung ist gleich s λ̂ = n und damit der Maximum-Likelihood-Schätzer von λ. R. Frühwirth Statistische Metodender Datenanalyse 523/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von λ mit n=1 R. Frühwirth 1 Einleitung y=0 y=1 y=2 y=5 y=10 0.9 Grundbegriffe 0.8 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.7 0.6 Normalverteilte Beobachtungen p(λ|y) Stetige Modelle 0.5 0.4 0.3 0.2 0.1 0 0 5 R. Frühwirth 10 λ 15 Statistische Metodender Datenanalyse 20 25 524/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Liegt Vorinformation über λ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. Die mathematisch einfachste Behandlung ergibt sich, wenn die a-priori-Verteilung eine Gammaverteilung ist. Sei also p(λ) = Stetige Modelle Normalverteilte Beobachtungen ba λa−1 e−bλ Γ(a) Dies ist die Dichte der Gammaverteilung Ga(a, 1/b). Dann ist die a-posteriori-Dichte gleich p(λ|s) ∝ λs e−nλ λa−1 e−bλ = λs+a−1 e−(b+n)λ Die a-posteriori-Verteilung ist die Gammaverteilung Ga(a + s, 1/(b + n)). Die Gammaverteilung ist also konjugiert zur Poissonverteilung. R. Frühwirth Statistische Metodender Datenanalyse 525/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse A−priori und a−posteriori−Dichte von λ mit n=10, s=30 R. Frühwirth 1 Einleitung a=1, b=1 a=2, b=1 a=3, b=1 a=4, b=1 a=5, b=1 0.9 Grundbegriffe 0.8 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.7 0.6 Normalverteilte Beobachtungen p(λ|s) Stetige Modelle 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 R. Frühwirth 1.5 2 2.5 λ 3 3.5 Statistische Metodender Datenanalyse 4 4.5 5 526/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Der Erwartungswert der a-posteriori-Verteilung ist gleich a+s E[λ|s] = b+n Der Modus der a-posteriori-Verteilung ist gleich a+s−1 b+n Der Erwartungswert der a-posteriori-Verteilung kann als gewichtetes Mittel aus a-priori-Information und Daten angeschrieben werden: λ̂ = a+s b a n s = + b+n b+n b b+nn b × a-priori-Erwartung = b+n n + × Mittel der Daten b+n E[λ|s] = R. Frühwirth Statistische Metodender Datenanalyse 527/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Die a-priori-Parameter a und b können folgendermaßen interpetiert werden: a b Summe der Beobachtungen a-priori Anzahl der Beobachtungen a-priori Ist n b, dominieren die Beobachtungen: E[λ|s] ≈ Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth s n Statistische Metodender Datenanalyse 528/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse A−priori und a−posteriori−Dichte von λ mit n=100, s=300 R. Frühwirth 2.5 a=1, b=2 a=2, b=2 a=3, b=2 a=4, b=2 a=5, b=2 Einleitung Grundbegriffe 2 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 1.5 Normalverteilte Beobachtungen p(λ|s) Stetige Modelle 1 0.5 0 0 0.5 1 R. Frühwirth 1.5 2 2.5 λ 3 3.5 Statistische Metodender Datenanalyse 4 4.5 5 529/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Vertrauensintervalle [λ1 (s), λ2 (s)] können leicht mittels der Quantile der a-posteriori-Gammaverteilung konstruiert werden. Das symmetrische Vertrauensintervall ist gleich Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen [Γα/2,a+s,1/(b+n) , Γ1−α/2,a+s,1/(b+n) ] Die einseitigen Vertrauensintervalle sind [0, Γα,a+s,1/(b+n) ] bzw. [Γα,a+s,1/(b+n) , ∞] HPD-Bereiche können mit numerischen Methoden bestimmt werden. R. Frühwirth Statistische Metodender Datenanalyse 530/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Beispiel Sie messen die Hintergrundstrahlung in einem Labor über eine Periode von 20 Sekunden. Die Zählwerte sind 6, 2, 6, 1, 6, 8, 5, 3, 8, 4, 2, 5, 7, 8, 5, 4, 7, 9, 4, 4 Ihre Summe ist gleich s = 104. Mit der uneigentlichen a-priori-Verteilung p(λ) = 1 ist die a-posteriori-Verteilung die Gammaverteilung Ga(105, 0.05). Ihre Erwartung ist 5.25, ihr Modus ist 5.20. Das symmetrische Vertrauensintervall mit 1 − α = 0.95 ist [4.2940, 6.3007], das HPD-Intervall ist [4.2629, 6.2653]. Da die Verteilung fast symmetrisch ist, sind die beiden Intervalle praktisch gleich lang. Matlab: make posterior poisson R. Frühwirth Statistische Metodender Datenanalyse 531/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von λ mit n=20, s=104 R. Frühwirth 0.8 A−posteriori−Dichte Vertrauensintervall HPD−Intervall Einleitung 0.7 Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.6 0.5 Normalverteilte Beobachtungen p(λ|y) Stetige Modelle 0.4 0.3 0.2 0.1 0 2 3 R. Frühwirth 4 5 λ 6 Statistische Metodender Datenanalyse 7 8 532/587 Poissonverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Beispiel Eine Beboachtung aus einer Poissonverteilung hat den Wert k = 0. Was kann über den Mittelwert λ ausgesagt werden? Mit der uneigentlichen a-priori-Dichte p(λ) = 1 ist die a-posteriori-Verteilung Ga(1, 1). Der Modus ist gleich 0, der Erwartungswert ist gleich 1. Das HPD-Intervall mit 1 − α = 0.95 ist gleich [0, 2.9957]. Ist bekannt, dass λ deutlich kleiner als 1 ist, kann z.B. Ga(0.5, 0.5) als a-priori-Verteilung gewählt werden. Die a-posteriori-Verteilung ist dann Ga(0.5, 0.6667). Der Modus ist gleich 0, der Erwartungswert gleich 0.3333, und das HPD-Intervall gleich [0, 1.2805]. Der Likelihoodschätzer von λ ist gleich 0. Das linksseitige Konfidenzintervall ist gleich [0, 2.9957], ist also identisch mit dem HPD-Intervall mit uneigentlicher a-priori-Dichte. R. Frühwirth Statistische Metodender Datenanalyse 533/587 Abschnitt 25: Stetige Modelle Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Normalverteilte Beobachtungen Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 534/587 Unterabschnitt: Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Normalverteilte Beobachtungen Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 535/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Wir betrachten eine normalverteilte Stichprobe y = y1 , . . . , yn . Wir wollen eine Einschätzung von Mittelwert und Varianz der Verteilung gewinnen, aus der die Beobachtungen stammen. Wir nehmen zunächst an, dass die Varianz σ 2 bekannt ist. Dann lautet die Likelihoodfunktion: Normalverteilte Beobachtungen n Y 1 (yi − µ)2 √ p(y|µ, σ ) = exp − 2 σ2 2πσ i=1 2 In Abwesenheit jeglicher Vorinformation über den tatsächlichen Wert von µ wählen wir die uneigentliche a-priori-Dichte p(µ) = 1. R. Frühwirth Statistische Metodender Datenanalyse 536/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Dann ist die a-posteriori-Dichte gleich n Y (yi − µ)2 1 √ exp − p(µ|y, σ 2 ) ∝ 2 σ2 2πσ i=1 n(µ − ȳ)2 ∝ exp − 2 σ2 Stetige Modelle Normalverteilte Beobachtungen Da die a-posteriori-Dichte proportional zur Dichte der Normalverteilung No(ȳ, σ 2 /n) ist, muss sie mit dieser identisch sein. Der Erwartungswert der a-posteriori-Verteilung ist gleich E[µ|y] = ȳ und damit der Maximum-Likelihood-Schätzer von µ. Der Modus ist ebenfalls gleich ȳ. R. Frühwirth Statistische Metodender Datenanalyse 537/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Liegt Vorinformation über µ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. Die mathematisch einfachste Behandlung ergibt sich, wenn die a-priori-Verteilung ebenfalls eine Normalverteilung ist. Sei also 1 (µ − µ0 )2 2 p(µ|σ ) = √ exp − 2 τ02 2πτ0 Dann ist die a-posteriori-Dichte gleich n(µ − ȳ)2 (µ − µ0 )2 p(µ|y, σ 2 ) ∝ exp − exp − 2 σ2 2 τ02 a(µ − b/a)2 ∝ exp − 2 mit R. Frühwirth Statistische Metodender Datenanalyse 538/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe a= 1 n + 2 τ02 σ und b = nȳ µ0 + 2 τ02 σ Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Die a-posteriori-Verteilung ist daher die Normalverteilung No(µn , τn2 ) mit b µn = = a µ0 τ02 1 τ02 + + nȳ σ2 n σ2 , τn2 = 1 = a 1 τ02 1 + n σ2 Der Mittelwert µn ist das gewichtete Mittel aus der Vorinformation µ0 und dem Mittelwert der Daten ȳ, wobei die Gewichte durch die Präzision, d.h. die inverse Varianz gegeben sind. R. Frühwirth Statistische Metodender Datenanalyse 539/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Die Präzision 1/τn2 ist die Summe der Präzision der Vorinformation µ0 und der Präzision des Mittelwerts der Daten ȳ. Je kleiner die Präzision der Vorinformation ist, d.h. je größer τ02 ist, desto kleiner ist der Einfluss der Vorinformation auf die a-posteriori-Verteilung. Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 540/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Ist die Präzision σ 2 unbekannt, brauchen wir eine gemeinsame a-priori-Dichte für µ und σ 2 . Die Rechnung ist einfacher, wenn wir statt der Varianz σ 2 die Präzision z = 1/σ 2 verwenden. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Eine mögliche Wahl ist die uneigentliche a-priori-Dichte p(µ, z) = Stetige Modelle Normalverteilte Beobachtungen 1 z Dann gilt: " # n n 1 Y√ zX 2 p(µ, z|y) ∝ z exp − (yi − µ) z i=1 2 i=1 " # n zX n/2−1 2 ∝z exp − (yi − µ) 2 i=1 R. Frühwirth Statistische Metodender Datenanalyse 541/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Integration über µ gibt die a-posteriori-Dichte von z: # " Z n zX 2 n/2−1 (yi − µ) dµ p(z|y) ∝ z exp − 2 i=1 " # n zX (n−3)/2 2 ∝z exp − (yi − ȳ) 2 i=1 z ist daher a-posteriori P Gammaverteilt gemäß Ga((n − 1)/2, 2/ (yi − ȳ)2 ). Wegen X X (yi − ȳ)2 = yi2 − nȳ 2 P P 2 hängt die Verteilung nur von s1 = yi und s2 = yi bzw. nur vom Stichprobenmittel ȳ und der Stichprobenvarianz S 2 ab. R. Frühwirth Statistische Metodender Datenanalyse 542/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Die a-posteriori-Dichte von σ 2 erhält man durch die Transformation σ 2 = 1/z: Einleitung Grundbegriffe g(σ 2 ) = Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen p(1/σ 2 |y) σ2 Die Verteilung von σ 2 ist eine inverse Gammaverteilung. Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistische Metodender Datenanalyse 543/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Die Inverse Gammaverteilung IG(a, b) Die Dichte der inversen Gammaverteilung lautet: Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen f (x|a, b) = (1/x)a+1 e−x/b · I[0,∞) (x) ba Γ(a) Ihre Verteilungsfunktion lautet: F (x|a, b) = 1 − γ(a, 1/(xb)) Γ(a) Der Mittelwert ist 1/(b(a − 1)), wenn a > 1; der Modus ist m = 1/(b(a + 1)). R. Frühwirth Statistische Metodender Datenanalyse 544/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Die durch z bedingte a-posteriori-Verteilung von µ erhalten wir aus p(µ, z|y) p(z|y) n z hX io X 1/2 ∝ z exp − (yi − µ)2 − (yi − ȳ)2 2 h nz i 1/2 ∝ z exp − (µ − ȳ)2 2 h n i 1 = exp − 2 (µ − ȳ)2 σ 2σ p(µ|z, y) = Das ist die Normalverteilung No(ȳ, σ 2 /n). R. Frühwirth Statistische Metodender Datenanalyse 545/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Schließlich erhalten wir die a-posteriori-Verteilung von µ durch Integration über z: # " Z n zX n/2−1 2 p(µ|y) ∝ z exp − (yi − µ) dz 2 i=1 1 ∝ P n/2 [ (µ − yi )2 ] Daraus folgt durch Umformung, dass das Standardscore t= µ − ȳ √ S/ n a-posteriori t-verteilt mit n − 1 Freiheitsgraden ist. R. Frühwirth Statistische Metodender Datenanalyse 546/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Will man eine eigentliche a-priori-Dichte für z, bietet sich die Gammaverteilung an, da diese die konjugierte Verteilung ist. Die a-posteriori-Verteilung p(z|y) ist dann wieder eine Gammaverteilung. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Beispiel Von einem √ normalverteilten Datensatz des Umfangs n = 100 aus No(10, 2) sind ȳ = 9.906 und S = 1.34981 gegeben. Die √ a-posteriori-Dichte von µ ist eine mit S/ n skalierte und um ȳ verschobene t(n − 1)-Verteilung. Das HPD-Intervalls mit 1 − α = 0.95 ist gleich [9.6382, 10.1739]. Matlab: make posterior normal R. Frühwirth Statistische Metodender Datenanalyse 547/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von µ R. Frühwirth 3.5 A−posteriori−Dichte HPD−Intervall Einleitung 3 Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 2.5 Stetige Modelle 2 p(µ|y) Normalverteilte Beobachtungen 1.5 1 0.5 0 9.2 9.4 9.6 R. Frühwirth 9.8 10 µ 10.2 10.4 Statistische Metodender Datenanalyse 10.6 10.8 548/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Beispiel (Fortsetzung) Die a-posteriori-Dichte p(σ 2 |y) der Varianz z ist die inverse Gammaverteilung IG((n − 1)/2, 2/(S 2 (n − 1))) = IG(49.5, 0.0110879) Das HPD-Intervall mit 1 − α = 0.95 ist gleich [1.3645, 2.4002]. Stetige Modelle Normalverteilte Beobachtungen Matlab: make posterior normal R. Frühwirth Statistische Metodender Datenanalyse 549/587 Normalverteilte Beobachtungen Statistische Metoden der Datenanalyse A−posteriori−Dichte von 1/σ2 R. Frühwirth 2 Einleitung A−posteriori−Dichte HPD−Intervall 1.8 Grundbegriffe 1.6 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 1.4 1.2 Normalverteilte Beobachtungen p(σ2|y) Stetige Modelle 1 0.8 0.6 0.4 0.2 0 0 0.5 1 R. Frühwirth 1.5 2 σ2 2.5 Statistische Metodender Datenanalyse 3 3.5 4 550/587 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Teil 8 Simulation von Experimenten Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 551/587 Übersicht Teil 8 Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistische Metodender Datenanalyse 552/587 Abschnitt 26: Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistische Metodender Datenanalyse 553/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Um das Ergebnis eines Experiments korrekt interpretieren zu können, muss der Einfluss des experimentellen Aufbaues auf die zu messenden Verteilungen berücksichtigt werden. Dabei bedient sich die experimentelle Mathematik einer statistischen Methode, der nach dem Roulette benannten Monte Carlo-Methode. Es wird ein Modell des Experiments erstellt, das sowohl die deterministischen Abläufe als auch die stochastischen Einflüsse (quantenmechanische Prozesse, Messfehler) modelliert. R. Frühwirth Statistische Metodender Datenanalyse 554/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Dabei können Teile des Systems (Experiments) nur global in ihrer Auswirkung oder in realistisch detaillierter Form behandelt werden. Zum Beispiel kann der Messfehler durch eine detaillierte Simulation der Messapparatur oder durch eine einfache Normalverteilung erzeugt werden. Wesentlich ist, dass bei Eingabe von Daten eines korrekten Datenmodells die nach der Simulation des Ablaufes entstehende Datenreihe statistisch gesehen die gleichen Eigenschaften aufweist wie die Messdaten. R. Frühwirth Statistische Metodender Datenanalyse 555/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Schon in der Planungsphase eines Experiments empfiehlt es sich, eine möglichst realistische Simulation. Die Kernfrage ist natürlich, ob und in welcher Messzeit das geplante Experiment eine genügend genaue Antwort auf die Problemstellung gibt. Durch wiederholte Simulation kann die Streuung und eine eventuelle Verzerrung der Schätzung der gesuchten Parameter studiert werden. Dabei kann auch der wahre Wert der Paramer variiert werden, um eine gewisse Kenntnis der systematischen Fehler der gewählten Auswertemethode erlangt werden. Ferner wird die Auswertemethode auf ihre Korrektheit überprüft. R. Frühwirth Statistische Metodender Datenanalyse 556/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Erscheint nun die Durchführung des Experiments als sinnvoll (Messdauer, Beherrschung des Untergrundes etc.), so wird die aus dem simulierten Experiment gewonnene Erfahrung sicherlich eine gewisse Rückwirkung auf das geplante Experiment haben, etwa auf die angestrebte Genauigkeit, die Anzahl, die Positionierung und das erforderliche Ansprechvermögen der Detektoren; auf das Unterdrücken oder auf das Erkennen des Untergrundes; auf die Optimierung der Auswertemethoden und der dazu erforderlichen Rechenzeit. R. Frühwirth Statistische Metodender Datenanalyse 557/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Natürlich wird eine gewisse Unsicherheit bei der Simulation des Experiments verbleiben; denn erstens können nicht alle kleinsten Details in einem Simulationsprogramm berücksichtigt werden, und zweitens sind die Detektoren häufig noch im Entwicklungsstadium, sodass ihr endgültiges Verhalten noch nicht gemessen und daher auch nicht in die Simulation eingegeben werden kann. Auf jeden Fall sollte der Simulation des Experiments größte Aufmerksamkeit geschenkt werden, und spätestens bei der Auswertung der echten Messergebnisse wird das Simulationsprogramm neuerlich wichtige Informationen liefern, nachdem es an Hand der realen experimentellen Gegebenheiten laufend angepasst wurde. R. Frühwirth Statistische Metodender Datenanalyse 558/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Die Simulation von stochastischen Prozessen benötigt Zufallszahlen mit vorgegebener Verteilung. Diese werden aus Zufallszahlen berechnet, die aus der Gleichverteilung Un(0, 1) gezogen werden. Auf jedem Rechner steht heute ein (Pseudo-) Zufallszahlengenerator zur Verfügung. Tatsächlich handelt es sich dabei um diskrete Werte. Wegen der großen Wortlänge moderner Maschinen kann dieser Wertevorrat für die meisten Anwendungen als quasi-kontinuierlich betrachtet werden. R. Frühwirth Statistische Metodender Datenanalyse 559/587 Einleitung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Die erzeugten Werte werden mit einer deterministischen Funktion generiert und sind daher Pseudozufallszahlen. Darunter versteht man eine Zahlenreihe, die statistisch gesehen ein ähnliches Verhalten zeigt wie eine Zahlenreihe echter Zufallszahlen, in Wahrheit jedoch deterministisch und wiederholbar ist. Der Zufallszahlengenerator hat periodisches Verhalten. Die Periode sollte möglichst lang sein. Ein Simulationsvorgang kann, wenn gewünscht, reproduziert werden, wenn der Zufallszahlengenerator mit dem gleichen Startwert aufgerufen wird. Die Qualität der erzeugten Zahlenreihe muss mit statistischen Tests überprüft werden. R. Frühwirth Statistische Metodender Datenanalyse 560/587 Abschnitt 27: Simulation von diskreten Zufallsvariablen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 561/587 Unterabschnitt: Allgemeine Methoden Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 562/587 Allgemeine Methoden Statistische Metoden der Datenanalyse Die Verteilungsfunktion einer diskreten Verteilung lautet X F (x) = f (k) R. Frühwirth Einleitung k≤x Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung F (x) ist eine monotone Stufenfunktion, die jeweils an den Werten k um f (k) springt. Die Wahrscheinlichkeit, dass eine Zufallszahl aus der Gleichverteilung in das Intervall [F (k − 1), F (k)) fällt, ist gerade gleich f (k). Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Satz Wird k so bestimmt, dass eine im Intervall [0, 1] gleichverteilte Zufallszahl im Intervall [F (k − 1), F (k)) liegt, so gehorcht k der Verteilung mit der Verteilungsfunktion F (x). R. Frühwirth Statistische Metodender Datenanalyse 563/587 Allgemeine Methoden Statistische Metoden der Datenanalyse In Matlab: R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen % Z u f a l l s z a h l e n aus einer d i s k r e t e n V e r t e i l u n g function x = s i m u l a t e _ d i s c r e t e (p ,m , n ) % p ... V e r t e i l u n g % x ... Matrix der Größe m mal n u = rand (m , n ); x = ones (m , n ); p = cumsum ( p ); for i =1: length ( p ) -1 x (u > p ( i ))= i +1; end Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 564/587 Unterabschnitt: Alternativverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 565/587 Alternativverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Vergleiche gleichverteilte Zufallszahl mit der Erfolgswahrscheinlichkeit p. In Matlab: % Z u f a l l s z a h l e n aus einer A l t e r n a t i v v e r t e i l u n g function x = s i m u l a t e _ a l t e r n a t i v e (p ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % x ... Matrix der Größe m mal n u = rand (m , n ); x =u < p ; Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 566/587 Unterabschnitt: Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 567/587 Binomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Wiederholter Alternativversuch. In Matlab: Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung % Z u f a l l s z a h l e n aus einer B i n o m i a l v e r t e i l u n g function x = s i m u l a t e _ b i n o m i a l (p ,N ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % N ... Anzahl der A l t e r n a t i v v e r s u c h e % x ... Matrix der Größe m mal n u = rand (m ,n , N ); x = sum (u <p ,3); Standard: Funktion binornd R. Frühwirth Statistische Metodender Datenanalyse 568/587 Unterabschnitt: Poissonverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 569/587 Poissonverteilung Statistische Metoden der Datenanalyse Eine Möglichkeit beruht auf dem folgenden Satz. R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Satz Es sei u1 , u2 , . . . eine Folge von gleichverteilten Zufallszahlen und λ > 0. Ist k die kleinste Zahl, sodass k Y Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung ui ≤ e−λ i=1 dann ist k − 1 Poisson-verteilt gemäß Po(λ). R. Frühwirth Statistische Metodender Datenanalyse 570/587 Poissonverteilung Statistische Metoden der Datenanalyse In Matlab: R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ p o i s s o n ( lam ,m , n ) % lam ... I n t e n s i t ä t % x ... Matrix der Größe m mal n z = exp ( - lam ); u = ones (m , n ); x = - ones (m , n ); k =0; while any ( x (:) <0) k = k +1; u = u .* rand ( size ( u )); x (u <= z & x <0)= k -1; end Standard: Funktion poissrnd R. Frühwirth Statistische Metodender Datenanalyse 571/587 Unterabschnitt: Multinomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 572/587 Multinomialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Wiederholter verallgemeinerter Alternativversuch In Matlab: Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ m u l t i n o m i a l (p ,N , n ) % p ... r K l a s s e n w a h r s c h e i n l i c h k e i t e n % N ... Anzahl der V e r s u c h e % x ... Feld der Größe r mal n u = rand (n , N ); p =[0 cumsum ( p )]; for i =1: length ( p ) -1 x (i ,:)= sum ( p ( i ) < u & u <= p ( i +1) ,2); end Standard: Funktion mnrnd R. Frühwirth Statistische Metodender Datenanalyse 573/587 Abschnitt 28: Simulation von stetigen Zufallsvariablen Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 574/587 Unterabschnitt: Allgemeine Methoden Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 575/587 Allgemeine Methoden Statistische Metoden der Datenanalyse Die Verteilungsfunktion einer stetigen Verteilung lautet Z x F (x) = f (x) dx R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen −∞ Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung F (x) ist eine monotone und stetige Funktion. F (x) ist daher umkehrbar. Satz Ist u eine im Intervall [0, 1] gleichverteilte Zufallszahl, so ist x = F −1 (u) verteilt mit der Verteilungsfunktion F (x). R. Frühwirth Statistische Metodender Datenanalyse 576/587 Allgemeine Methoden Statistische Metoden der Datenanalyse In Matlab: R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung % Z u f a l l s z a h l e n aus einer s t e t i g e n V e r t e i l u n g function r = s i m u l a t e _ c o n t i n u o u s (x ,F ,m , n ) % x ... x - Werte der V e r t e i l u n g s f u n k t i o n % F ... y - Werte der V e r t e i l u n g s f u n k t i o n % r ... Matrix der Größe m mal n u = rand (m , n ); r = interp1 (F ,x , u ); Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 577/587 Unterabschnitt: Exponentialverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 578/587 Exponentialverteilung Statistische Metoden der Datenanalyse Die Verteilungsfunktion der Exponentialverteilung Ex(τ ) ist R. Frühwirth F (x) = 1 − e−x/τ Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ist u gleichverteilt im Intervall [0, 1], so ist x = −τ ln u verteilt gemäß Ex(τ ). In Matlab: % Z u f a l l s z a h l e n aus einer E x p o n e n t i a l v e r t e i l u n g function r = s i m u l a t e _ e x p o n e n t i a l ( tau ,m , n ) % tau ... M i t t e l w e r t % r ... Matrix der Größe m mal n r = - tau * log ( rand (m , n )); Standard: Funktion exprnd R. Frühwirth Statistische Metodender Datenanalyse 579/587 Unterabschnitt: Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 580/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Verfahren von Box und Muller Sind u1 und u2 zwei unabhängige, gleichverteilte Zufallsgrößen, so sind p x1 = −2 ln u1 cos(2πu2 ) p x2 = −2 ln u1 sin(2πu2 ) standardnormalverteilt und unabhängig. In Matlab: % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ b o x m u l l e r ( n ) % r ... Matrix der Größe 2 mal n u = rand (2 , n ); z = sqrt ( -2* log ( u (1 ,:))); r (1 ,:)= z .* cos (2* pi * u (2 ,:)); r (2 ,:)= z .* sin (2* pi * u (2 ,:)); R. Frühwirth Statistische Metodender Datenanalyse 581/587 Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Erzeugung mit dem zentralen Grenzwertsatz Sind u1 , . . . , u12 unabhängig und gleichverteilt in [−1/2, 1/2], so ist Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung x= 12 X ui i=1 in guter Näherung standardnormalverteilt. In Matlab: % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ n o r m a l _ z g w s (m , n ) % r ... Matrix der Größe m mal n r = sum ( rand (m ,n ,12) -0.5 ,3); Standard: Funktion normrnd R. Frühwirth Statistische Metodender Datenanalyse 582/587 Normalverteilung Statistische Metoden der Datenanalyse 0.4 R. Frühwirth Faltungsdichte Exakte Dichte Einleitung 0.35 Simulation von diskreten Zufallsvariablen 0.3 Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung f(x) Simulation von stetigen Zufallsvariablen 0.25 0.2 0.15 0.1 0.05 0 −4 −3 R. Frühwirth −2 −1 0 x 1 2 Statistische Metodender Datenanalyse 3 4 583/587 Unterabschnitt: Multivariate Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 584/587 Multivariate Normalverteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Satz Es sei V eine (positiv definite) Kovarianzmatrix der Dimension n × n, µ ein Vektor der Dimension n × 1 und Q eine Matrix mit QQT = V. Ist U ein standardnormalverteilter Vektor der Dimension n × 1, so ist X = QU + µ Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung normalverteilt mit Mittel µ und Kovarianzmatrix V. Q kann mittels Choleskyzerlegung oder Hauptachsentransformation berechnent werden. In Matlab: Funktion mvnrnd R. Frühwirth Statistische Metodender Datenanalyse 585/587 Unterabschnitt: Gamma-,χ2 -, t- und F-Verteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 586/587 Gamma-,χ2 -, t- und F-Verteilung Statistische Metoden der Datenanalyse R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Funktion gamrnd Funktion chi2rnd Funktion trnd Funktion frnd Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistische Metodender Datenanalyse 587/587