Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 1: Deskriptive Statistik Statistische Methoden der Datenanalyse Teil 2: Wahrscheinlichkeitsrechnung R. Frühwirth Teil 3: Zufallsvariable und Verteilungen [email protected] VO 142.340 http://tinyurl.com/TU142340VO Teil 4: Schätzen von Parametern Oktober 2011 R. Frühwirth Statistik 1/584 R. Frühwirth Statistik 2/584 Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 5: Testen von Hypothesen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Teil 6: Regression und lineare Modelle Teil 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Teil 7: Einführung in die Bayes-Statistik Deskriptive Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Teil 8: Simulation von Experimenten R. Frühwirth Statistik 3/584 R. Frühwirth Statistik 4/584 Abschnitt 1: Einleitung Übersicht Teil 1 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 3 Zweidimensionale Merkmale R. Frühwirth Statistik Statistik R. Frühwirth Einleitung Einleitung 1 Eindimensionale Merkmale 2 3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Zweidimensionale Merkmale Zweidimensionale Merkmale R. Frühwirth Statistik Statistik 6/584 Grundbegriffe R. Frühwirth Qualitative Merkmale Quantitative Merkmale Korrelation Eindimensionale Merkmale 5/584 Unterabschnitt: Grundbegriffe Zweidimensionale Merkmale 2 Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Zweidimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Definition von Statistik 1 Die Erhebung und Speicherung von Daten, z.B. durch statistische Ämter 2 Die mathematische Auswertung von Daten, z.B. die Berechnung von Maß- und Kennzahlen Deskriptive Statistik Beschreibung von vorhandenen Daten durch Maßzahlen, Tabellen, Graphiken Qualitative Merkmale Quantitative Merkmale Korrelation 7/584 R. Frühwirth Statistik 8/584 Grundbegriffe Unterabschnitt: Merkmal- und Skalentypen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Induktive Statistik R. Frühwirth Untersuchung von Gesetzmäßigkeiten und Ursachen, die hinter den Daten stehen und die Daten (teilweise) erklären. Explorative Datenanalyse: Ziel ist, Hypothesen für die Theoriebildung zu gewinnen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik 10/584 Merkmal- und Skalentypen Statistik Einleitung 2 9/584 Merkmal- und Skalentypen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Konfirmative Datenanalyse: Ziel ist, vorhandene Theorien zu prüfen, z.B. durch Schätzen von Parametern oder Testen von Hypothesen R. Frühwirth 1 Statistik Qualitative Merkmale R. Frühwirth Einleitung binär (ja/nein). Beispiel: EU-Bürgerschaft. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten kategorial (Klassifizierung). Beispiel: ledig/geschieden/verheiratet/verwitwet. Eindimensionale Merkmale ordinal (Rang). Beispiel: Noten 1–5. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Quantitative Merkmale diskret (ganzzahlig). Beispiel: Zählvorgang. Zweidimensionale Merkmale kontinuierlich (reellwertig). Beispiel: Messvorgang. R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Korrelation 11/584 Skalentypen Nominalskala: Zahlenwerte sind nur Bezeichnung für sich ausschließende Kategorien. Ordinalskala: Ordnung der Zahlen ist wesentlich. Intervallskala: Ordnung und Differenzen zwischen den Werten sind sinnvoll interpretierbar, der Nullpunkt ist willkürlich festgelegt. Verhältnisskala: Ordnung, Differenzen und Größenverhältnisse sind sinnvoll interpretierbar, es gibt einen absoluten Nullpunkt. R. Frühwirth Statistik 12/584 Merkmal- und Skalentypen Merkmal- und Skalentypen Statistik R. Frühwirth Statistik Beispiel Einleitung 1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Der Familienstand einer Person wird durch Zahlen kodiert (1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet). Nominalskala. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Der Stand einer Mannschaft in der Meisterschaft wird durch den Rang in der Liga angegeben. Ordinalskala. 3 Die Jahreszahlen (2007, 2008, . . . ) bilden eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 4 Die Celsius-Skala der Temperatur ist eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Die Kelvin-Skala der Temperatur ist eine Verhältnisskala, da der Nullpunkt physikalisch festgelegt ist. 6 Die Größe einer Person wird in cm angegeben. Es liegt eine Verhältnisskala vor, da ein natürlicher Nullpunkt existiert. Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Quantitative Merkmale Korrelation 13/584 R. Frühwirth Statistik R. Frühwirth Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik Alter 34 54 46 27 38 31 48 51 Ausbildung 2 1 3 4 2 3 4 2 Statistik 14/584 Aussagen und Häufigkeiten Statistik Eindimensionale Merkmale Geschlecht 1 2 2 1 1 1 2 2 Geschlecht: 1=W, 2=M, Alter: in Jahren Ausbildung: 1=Pflichtschule, 2=Höhere Schule, 3=Bachelor, 4=Master R. Frühwirth 1 Nummer 1 2 3 4 5 6 7 8 Eindimensionale Merkmale Unterabschnitt: Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten In der folgenden Datenmatrix D sind Merkmale von acht Personen zusammengestellt. Zweidimensionale Merkmale 5 R. Frühwirth Beispiel Der Begriff der Aussage Eine Aussage ist eine Feststellung über Eigenschaften der Untersuchungsobjekte. Eine Aussage kann wahr oder falsch sein. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 15/584 Beispiel Die Aussage “Vier der Personen in Matrix D sind weiblich” ist wahr. Beispiel Die Aussage “Drei der Personen in Matrix D sind über 50 Jahre alt” ist falsch. R. Frühwirth Statistik 16/584 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Statistik Verknüpfung von Aussagen R. Frühwirth Es seien A und B zwei Aussagen. Symbol A∪B A∩B A0 A⊆B Name Disjunktion Konjunktion Negation Implikation Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Bedeutung A oder B (oder beide) A und B (sowohl A als auch B) nicht A (das Gegenteil von A) aus A folgt B (A0 ∪ B) Beispiel Es seien A, B, C drei Aussagen. Wir können mittels Verknüpfungen die folgenden Aussagen formulieren: 1 Alle drei Aussagen treffen zu: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation A∩B∩C 2 A und C treffen zu, B nicht: A ∩0 ∩C 3 Genau zwei der Aussagen treffen zu: (A ∩ B ∩ C 0 ) ∪ (A ∩ B 0 ∩ C) ∪ (A0 ∩ B ∩ C) 4 Höchstens eine der Aussagen trifft zu: (A ∩ B 0 ∩ C 0 ) ∪ (A0 ∩ B ∩ C 0 ) ∪ (A0 ∩ B 0 ∩ C) ∪ (A0 ∩ B 0 ∩ C 0 ) R. Frühwirth Statistik R. Frühwirth 17/584 Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 18/584 Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Statistik Definition (Absolute Häufigkeit) R. Frühwirth Es sei A eine Aussage über eine Menge von Objekten. Die absolute Häufigkeit h(A) von A ist die Anzahl der Objekte, für die A zutrifft. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Relative Häufigkeit) Es sei A eine Aussage über eine Menge von Objekten. Die relative Häufigkeit f (A) = h(A)/n von A ist die Anzahl der Objekte, für die A zutrifft, dividiert durch die Gesamtanzahl der Objekte. Eindimensionale Merkmale Beispiel Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A ist die Aussage “Die Person in Matrix D hat zumindest Bakkalaureat”. Dann ist h(A) = 4. Zweidimensionale Merkmale Beispiel A ist die Aussage “Die untersuchte Person ist älter als dreißig Jahre”. Dann ist f (A) = 7/8. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 19/584 R. Frühwirth Statistik 20/584 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Spezielle Aussagen Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten A = Ω: A trifft immer zu, h(A) = n, f (A) = 1. Rechengesetze für Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele ( h(A ∪ B) = h(A) + h(B) A ∩ B = ∅ =⇒ f (A ∪ B) = f (A) + f (B) Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik Statistik R. Frühwirth Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 1 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 33% der Kunden einer Bank haben einen Wohnungskredit, 24% haben einen Kredit zur Finanzierung von Konsumgütern, 11% haben beides. Wie groß ist der Anteil der Kunden, die weder Wohnungs- noch Konsumgüterkredit haben? Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Statistik 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik 22/584 Unterabschnitt: Graphische Darstellung Statistik Eindimensionale Merkmale Beispiel R. Frühwirth R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten f (A ∪ B) = f (A) + f (B) − f (A ∩ B) 21/584 Abschnitt 2: Eindimensionale Merkmale Einleitung h(A ∪ B) = h(A) + h(B) − h(A ∩ B) Eindimensionale Merkmale Additionsgesetz Zweidimensionale Merkmale Siebformel Einleitung A = ∅: A trifft niemals zu, h(A) = f (A) = 0. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale R. Frühwirth 23/584 R. Frühwirth Statistik 24/584 Graphische Darstellung Graphische Darstellung Statistik Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Ein Bild sagt mehr als tausend Worte! R. Frühwirth Graphische Darstellungen von Datensätzen sind daher äußerst beliebt und nützlich. Datensatz 1 (500 normalverteilte Werte): Datensatz 1 Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Variable: Häufigkeitstabelle, Tortendiagramm, Stabdiagramm 40 35 Eindimensionale Merkmale Quantitative Variable: gruppierte Häufigkeitstabelle, Histogramm, Boxplot, empirische Verteilungsfunktion Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation 30 Häufigkeit R. Frühwirth 25 20 15 10 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Histogramm R. Frühwirth Statistik 25/584 R. Frühwirth Graphische Darstellung Statistik Datensatz 2 = Datensatz 1 + Kontamination (100 Werte): Datensatz 2 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 26/584 Graphische Darstellung Statistik R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Datensatz 3 (50 Püfungsnoten): Note k 1 2 3 4 5 Zweidimensionale Merkmale 15 f (k) 0.10 0.16 0.44 0.10 0.20 1.00 Häufigkeitstabelle Qualitative Merkmale Quantitative Merkmale Korrelation 10 h(k) 5 8 22 5 10 50 5 0 0 5 10 15 Matlab: make dataset3 x Histogramm R. Frühwirth Statistik 27/584 R. Frühwirth Statistik 28/584 Graphische Darstellung Graphische Darstellung Statistik R. Frühwirth Statistik Datensatz 3 (50 Püfungsnoten): Datensatz 3 (50 Püfungsnoten): R. Frühwirth 25 1 Einleitung 5 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 20 Häufigkeit Einleitung Eindimensionale Merkmale 4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 15 10 5 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation 3 Tortendiagramm 0 1 2 3 x 4 5 Stabdiagramm Matlab: make dataset3 R. Frühwirth Matlab: make dataset3 Statistik 29/584 R. Frühwirth Graphische Darstellung Statistik Der Boxplot ist die graphische Darstellung des five point summary. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Datensatz 2 (500 Werte + Kontamination): Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 30/584 Unterabschnitt: Empirische Verteilungsfunktion Statistik R. Frühwirth Statistik Zweidimensionale Merkmale 0 5 10 Qualitative Merkmale Quantitative Merkmale Korrelation 15 x Boxplot Matlab: make dataset2 R. Frühwirth Statistik 31/584 R. Frühwirth Statistik 32/584 Empirische Verteilungsfunktion Empirische Verteilungsfunktion Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Ab Ordinalskala ist es sinnvoll, die Daten zu ordnen. R. Frühwirth Die Häufigkeitstabelle kann durch Summenhäufigkeiten ergänzt werden. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 3 (50 Prüfungsnoten): Note k 1 2 3 4 5 h(k) 5 8 22 5 10 H(k) 5 13 35 40 50 f (k) 0.10 0.16 0.44 0.10 0.20 F (k) 0.10 0.26 0.70 0.80 1.00 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Häufigkeitstabelle mit Summenhäufigkeiten Statistik Die empirische Verteilungsfunktion Fn (x) der Datenliste ~x = (x1 , . . . , xn ) ist der Anteil der Daten, die kleiner oder gleich x sind: Fn (x) = f (~x ≤ x). Ist xi ≤ x < xi+1 , gilt Fn (x) = f (x1 ) + · · · + f (xi ). 33/584 R. Frühwirth Empirische Verteilungsfunktion R. Frühwirth Datensatz 2 (500 Werte + Kontamination): Datensatz 2 1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Merkmale Quantitative Merkmale Korrelation Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 0.8 0.7 Eindimensionale Merkmale F(x) 0.9 0.8 0.7 Eindimensionale Merkmale 0.6 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 0.2 Zweidimensionale Merkmale 0.1 0 1 1 Einleitung 2 3 x 4 Qualitative Merkmale Quantitative Merkmale Korrelation 5 Empirische Verteilungsfunktion 0.6 F(x) Einleitung Zweidimensionale Merkmale 34/584 Statistik Datensatz 3: (50 Prüfungsnoten): Empirische Verteilungsfunktion Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Empirische Verteilungsfunktion Statistik R. Frühwirth Definition (Empirische Verteilungsfunktion) Fn ist eine Sprungfunktion. Die Sprungstellen sind die Datenpunkte, die Sprunghöhen sind die relativen Häufigkeiten der Datenpunkte. Matlab: make dataset3 R. Frühwirth Die graphische Darstellung der Summenhäufigkeiten wird die empirische Verteilungsfunktion der Datenliste genannt. 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion Matlab: make dataset3 R. Frühwirth Statistik Matlab: make dataset2 35/584 R. Frühwirth Statistik 36/584 Empirische Verteilungsfunktion Empirische Verteilungsfunktion Statistik Statistik Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 1 Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Datensatz 2 1 0.9 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.7 F(x) 0.6 Zweidimensionale Merkmale 0.5 Zweidimensionale Merkmale 0.4 Qualitative Merkmale Quantitative Merkmale Korrelation 0.9 Eindimensionale Merkmale 0.8 Qualitative Merkmale Quantitative Merkmale Korrelation 0.3 0.2 0.8 0.7 0.6 F(x) Eindimensionale Merkmale 0.5 0.4 0.3 0.2 0.1 0.1 0 0 5 10 0 0 15 x Statistik R. Frühwirth Statistik Statistik R. Frühwirth Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 3 38/584 Die Häufigkeitsverteilung (Histogramm) kann mit einem Kern- oder Dichteschätzer geglättet werden. Einleitung 1 Eindimensionale Merkmale Statistik Kernschätzer R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 15 Empirische Verteilungsfunktion 37/584 Unterabschnitt: Kernschätzer Einleitung 10 x Empirische Verteilungsfunktion R. Frühwirth 5 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik 39/584 Die Dichte des beobachteten Merkmals wird dabei durch eine Summe von Kernen K(·) approximiert: n 1 X fˆ(x) = K nh i=1 x − xi h h ist die Bandbreite des Kernschätzers. Der beliebteste Kern ist der Gaußkern: 2 1 x K(x) = √ exp − 2 2π R. Frühwirth Statistik 40/584 Kernschätzer Unterabschnitt: Maßzahlen Statistik R. Frühwirth Statistik Datensatz 2: R. Frühwirth Datensatz 2 0.4 Einleitung 0.3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.25 Eindimensionale Merkmale 0.35 f(x) Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Relative Häufigkeit Kernschätzer Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.1 Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.2 0.15 Zweidimensionale Merkmale 1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.05 0 0 5 10 15 x Glättung des Histogramms durch Kernschätzer Matlab: make dataset2 R. Frühwirth Statistik R. Frühwirth 41/584 Maßzahlen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 42/584 Maßzahlen Statistik R. Frühwirth Statistik Statistik Datenlisten sind oft so umfangreich, dass ihr Inhalt in einigen wenigen Maßzahlen zusammgefasst wird oder werden muss. Welche Maßzahlen dabei sinnvoll sind, hängt vom Skalentyp ab. Manche Maßzahlen gehen von der geordneten Datenliste x(1) , . . . , x(n) aus. Ein Lagemaß gibt an, um welchen Wert die Daten konzentriert sind. Ein Streuungsmaß gibt an, wie groß die Schwankungen der Daten um ihren zentralen Wert sind. Ein Schiefemaß gibt an, wie symmetrisch die Daten um ihren zentralen Wert liegen. Statistik 43/584 Lagemaße Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Wir unterscheiden Lage-, Streuungs-, und Schiefemaße. R. Frühwirth R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Lagemaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion `(x) heißt ein Lagemaß für x, wenn gilt: `(ax + b) = a`(x) + b min x ≤ `(x) ≤ max(x) Sinnvolle Lagemaße geben den “typischen” oder “zentralen” Wert der Datenliste an. Je nach Skala sind verschiedene Lagemaße sinnvoll. R. Frühwirth Statistik 44/584 Maßzahlen Maßzahlen Statistik R. Frühwirth Statistik Mittelwert R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x̄ = 1 n n X Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten xi i=1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Mittelwert minimiert die folgende Funktion: Zweidimensionale Merkmale x̄ = argx min Qualitative Merkmale Quantitative Merkmale Korrelation n X (xi − x)2 Statistik n X |xi − x| i=1 R. Frühwirth Statistik 46/584 Statistik Der Median ist ein Spezialfall eines allgemeineren Begriffs, des Quantils. R. Frühwirth Einleitung α-Quantil Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qα = x(αn) Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation x̃ = argx min Maßzahlen Einleitung Zweidimensionale Merkmale Der Median minimiert die folgende Funktion: 45/584 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xmed=median(x) Maßzahlen Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Median teilt die geordnete Liste in zwei gleich große Teile. Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xbar=mean(x) R. Frühwirth x̃ = x(n/2) Zweidimensionale Merkmale i=1 R. Frühwirth Median Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Das α-Quantil teilt die geordnete Liste im Verhältnis α : 1 − α. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Matlab: qa=quantile(x,alpha) Q0 ist der kleinste Wert, Q1 ist der größte Wert der Datenliste. Q0.5 ist der Median. Die fünf Quartile Q0 , Q0.25 , Q0.5 , Q0.75 , Q1 bilden das five point summary der Datenliste. Qualitative Merkmale Quantitative Merkmale Korrelation LMS (Least Median of Squares) Der LMS-Wert ist der Mittelpunkt des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Der LMS-Wert ist extrem unempfindlich gegen fehlerhafte oder untypische Daten. Der LMS-Wert minimiert die folgende Funktion: x̃ = argx min medni=1 (xi − x)2 Ein verwandtes Lagemaß ist der “shorth”, der Mittelwert aller Daten im kürzesten Intervall, das h Datenpunkte enthält. Matlab: xlms=lms(x) Matlab: xshorth=shorth(x) R. Frühwirth Statistik Matlab: fps=quantile(x,[0 0.25 0.5 0.75 1]) 47/584 R. Frühwirth Statistik 48/584 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Statistik Modus Der Modus ist der häufigste Wert einer Datenliste Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Matlab: xmode=mode(x) HSM (Half-sample mode) 1 Qualitative Merkmale Quantitative Merkmale Korrelation 2 3 Bestimme das kürzeste Intervall, das h = bn/2c + 1 Datenpunkte enthält. Wiederhole den Vorgang auf den Daten in diesem Intervall, bis zwei Datenpunkte übrig sind. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Sinnvolle Streuungsmaße messen die Abweichung der Daten von ihrem zentralen Wert. Streuungsmaße sind invariant unter Verschiebung der Daten. R. Frühwirth Statistik 50/584 Maßzahlen Statistik Standardabweichung R. Frühwirth Einleitung v u n u1 X s=t (xi − x̄)2 n i=1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele σ(ax + b) = |a| σ(x) 49/584 Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion σ(x) heißt ein Streuungsmaß für x, wenn gilt: σ(x) ≥ 0 Je nach Skala sind verschiedene Streuungsmaße sinnvoll. Maßzahlen Einleitung Definition (Streuungsmaß) Der HSM-Wert ist das Mittel der beiden letzten Daten. R. Frühwirth Statistik Matlab: xhsm=hsm(x) R. Frühwirth Streuungsmaße Einleitung Sinnvoll vor allem für qualitative Merkmale. Für quantitative Merkmale kann der Modus aus dem Kernschätzer der Dichte bestimmt werden. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Eindimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Die Standardabweichung hat die gleiche Dimension wie die Daten. Das Quadrat der Standardabweichung heißt Varianz. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Interquartilsdistanz IQR = Q0.75 − Q0.25 Die Interquartilsdistanz ist die Länge des Intervalls, das die zentralen 50% der Daten enthält. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xiqr=iqr(x) Matlab: xstd=std(x,1) Matlab: xvar=var(x,1) R. Frühwirth Statistik 51/584 R. Frühwirth Statistik 52/584 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Statistik LoS (Length of the Shorth) R. Frühwirth Einleitung LoS ist die Länge des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xlos=LoS(x) R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale s(ax + b) = sgn(a) s(x) s(x) = 0, wenn ∃b : x − b = b − x Sinnvolle Schiefemaße messen die Asymmetrie der Daten. Schiefemaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Schiefemaße sinnvoll. R. Frühwirth Statistik 54/584 Statistik Schiefe R. Frühwirth Einleitung Eindimensionale Merkmale Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion s(x) heißt ein Schiefemaß für x, wenn gilt: Maßzahlen Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Schiefemaß) 53/584 Maßzahlen R. Frühwirth Schiefemaße γ= 1 n Pn i=1 (xi s3 3 Einleitung − x̄) Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Schiefekoeffizient R−L R+L mit R = Q0.75 − Q0.5 , L = Q0.5 − Q0.25 . SK = Eindimensionale Merkmale Die Schiefe γ ist gleich 0 für symmetrische Daten. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Ist γ < 0, heißen die Daten linksschief. Ist γ > 0, heißen die Daten rechtsschief. Sinnvoll für Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation SK liegt zwischen −1 (R = 0) und +1 (L = 0). Der Schiefekoeffizient ist gleich 0 für symmetrische Daten. Ist SK < 0, heißen die Daten linksschief. Ist SK > 0, heißen die Daten rechtsschief. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xgamma=skewness(x,1) Matlab: xsk=SK(x) R. Frühwirth Statistik 55/584 R. Frühwirth Statistik 56/584 Unterabschnitt: Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 1 Eindimensionale Merkmale 3 Datensatz 1: Symmetrisch, 500 Werte Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: 4.9532 4.9518 4.8080 4.8002 5.0830 0.0375 0.0258 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 57/584 R. Frühwirth Beispiele Schiefemaße: Schiefe: Schiefekoeffizient: 1.0255 1.4168 1.3520 Statistik 58/584 Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 1 Datensatz 2: Datensatz 1 + Kontamination (100 Werte) 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 15 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 5.0740 4.9985 1.7696 0.1046 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 1.8959 1.6152 1.5918 Datensatz 1: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 59/584 R. Frühwirth Statistik 60/584 Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 2 Datensatz 3: 50 Prüfungsnoten 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 Eindimensionale Merkmale 30 35 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Lagemaße: Mittelwert: Median: Modus: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Standardabweichung: Interquartilsdistanz: Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Korrelation 5.4343 5.0777 5.1100 1.7696 0.1046 Streuungsmaße: 15 Zweidimensionale Merkmale Schiefemaße: Schiefe: Schiefekoeffizient: 1.8959 1.6152 Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 0 5 10 15 x Datensatz 2: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 61/584 R. Frühwirth Beispiele Statistik 25 R. Frühwirth Mean Median Mode Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 20 Häufigkeit Eindimensionale Merkmale Eindimensionale Merkmale 15 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 10 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 62/584 Abschnitt 3: Zweidimensionale Merkmale Statistik R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 1 2 3 x 4 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 5 Datensatz 3: Mittelwert, Median, Modus R. Frühwirth Statistik 63/584 R. Frühwirth Statistik 64/584 Zweidimensionale Merkmale Unterabschnitt: Qualitative Merkmale Statistik R. Frühwirth Statistik Oft werden zwei oder mehr Merkmale eines Objekts gleichzeitig beobachtet. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Beispiele: Körpergröße und Gewicht einer Person Alter und Einkommen einer Person Schulbildung und Geschlecht einer Person Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Zusammenhang zwischen den beiden Merkmalen gibt zusätzliche Information. Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 65/584 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 66/584 Statistik Wir betrachten zunächst zwei binäre Merkmale A und B. R. Frühwirth Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Beispiel: Eindimensionale Merkmale A=“Die Person ist weiblich“ B=“Die Person ist Raucher/in“ Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Vierfeldertafel für 1000 Personen: Qualitative Merkmale Quantitative Merkmale Korrelation A A0 R. Frühwirth B 228 136 364 Statistik B0 372 264 636 Allgemeiner Aufbau einer Vierfeldertafel: Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 Qualitative Merkmale Statistik Einleitung Einleitung R. Frühwirth Qualitative Merkmale R. Frühwirth 1 Zweidimensionale Merkmale A A0 B B0 h(A ∩ B) h(A ∩ B 0 ) h(A) h(A0 ∩ B) h(A0 ∩ B 0 ) h(A0 ) h(B) h(B 0 ) n Zeilen- und Spaltensummen sind die Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Qualitative Merkmale Quantitative Merkmale Korrelation 600 400 1000 67/584 R. Frühwirth Statistik 68/584 Qualitative Merkmale Qualitative Merkmale Statistik R. Frühwirth Statistik Die Vierfeldertafel kann mittels Division durch n auf relative Häufigkeiten umgerechnet werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung A A0 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten B B0 f (A ∩ B) f (A ∩ B 0 ) f (A) f (A0 ∩ B) f (A0 ∩ B 0 ) f (A0 ) f (B) f (B 0 ) 1 Statistik Ist ρ(A, B) < 0, heißen A und B negativ gekoppelt. R. Frühwirth Statistik 70/584 Statistik Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. R. Frühwirth Einleitung Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Speziell gilt: Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Ist ρ(A, B) > 0, heißen A und B positiv gekoppelt. Qualitative Merkmale Quantitative Merkmale Korrelation Unterabschnitt: Quantitative Merkmale Einleitung Zweidimensionale Merkmale Es gilt stets: −1 ≤ ρ(A, B) ≤ 1 Zweidimensionale Merkmale 69/584 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele f (A ∩ B) − f (A)f (B) ρ(A, B) = p f (A)f (A0 )f (B)f (B 0 ) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Vierfelderkorrelation Eindimensionale Merkmale Zeilen- und Spaltensummen sind die relativen Häufigkeiten der Ausprägungen A, A0 und B, B 0 . R. Frühwirth R. Frühwirth Der Zusammenhang der beiden Merkmale kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Zweidimensionale Merkmale Die Koppelung kann auch durch eine gemeinsame Ursache für beide Merkmale entstehen. R. Frühwirth Statistik 71/584 Qualitative Merkmale Quantitative Merkmale Korrelation 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 72/584 Quantitative Merkmale Quantitative Merkmale Statistik Statistik Bevorzugte Darstellung von zweidimensionalen Merkmalen: Streudiagramm (Scatter Plot) Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Datensatz 4: Körpergröße und Gewicht von 100 Personen Datensatz 4 90 Einleitung Jeder Punkt entspricht einem Objekt. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die beobachteten Merkmale bestimmen die Position des Punktes in der x-y-Ebene. 85 80 Eindimensionale Merkmale Höherdimensionale Merkmale können durch Histogramme und Streudiagramme dargestellt werden. Dabei geht natürlich ein Teil der Information verloren. Gewicht (kg) R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 75 70 65 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 60 Qualitative Merkmale Quantitative Merkmale Korrelation 55 140 150 160 170 Körpergröße (cm) 180 190 Streudiagramm Matlab: make dataset4 R. Frühwirth Statistik 73/584 R. Frühwirth Quantitative Merkmale Statistik R. Frühwirth Zweidimensionale Merkmale x3 60 0 140 150 160 170 180 190 x1 50 140 150 160 170 180 190 x1 20 140 150 160 170 180 190 x1 20 80 40 180 170 160 60 10 60 70 0 50 80 30 60 x2 Qualitative Merkmale Quantitative Merkmale Korrelation 50 40 5 150 140 50 70 15 x3 190 Zweidimensionale Merkmale 70 20 50 80 x2 190 60 70 80 x2 80 15 180 x1 Qualitative Merkmale Quantitative Merkmale Korrelation 50 5 70 170 160 60 Häufigkeit Matlab: make dataset5 60 30 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 70 80 x2 Häufigkeit Körpergröße (in cm) Gewicht (in kg) Alter (in Jahren) 10 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Merkmal x1 : Merkmal x2 : Merkmal x3 : Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 80 70 x1 Eindimensionale Merkmale Einleitung 15 x2 Datensatz 5: Körpergröße, Gewicht und Alter von 100 Personen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 74/584 Quantitative Merkmale Statistik R. Frühwirth Statistik 10 5 150 140 20 30 40 50 60 70 80 x3 R. Frühwirth Statistik 75/584 R. Frühwirth 50 20 30 40 50 60 70 80 x3 Statistik 0 20 30 40 50 60 70 80 x3 76/584 Unterabschnitt: Korrelation Korrelation Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation (x̄, ȳ) ist der Mittelpunkt der Punktwolke. 2 Die Projektion der Punktwolke auf die x-Achse ergibt das Punktediagramm der Datenliste x1 , . . . , xn . 3 Die Projektion der Punktwolke auf die y-Achse ergibt das Punktediagramm der Datenliste y1 , . . . , yn . Aus dem Streudiagramm von Datensatz 4 ist ersichtlich, dass tendenziell größere Körpergröße mit größerem Gewicht einhergeht. Zwischen den beiden Merkmalen x und y besteht offensichtlich ein Zusammenhang, der auch intuitiv völlig klar ist. R. Frühwirth Statistik 78/584 Korrelation Statistik Einleitung 1 77/584 Korrelation R. Frühwirth Eigenschaften des Streudiagramms Statistik Wir brauchen eine Maßzahl für diesen Zusammenhang. R. Frühwirth Eine nützliche Maßzahl ist der empirische Korrelationskoeffizient. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sei (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe. Wir berechnen die Standardscores: zx,i = xi − x̄ , sx zy,i = Eindimensionale Merkmale yi − ȳ sy Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Wir erinnern uns, dass n 1X s2x = (xi − x̄)2 n i=1 Definition (Empirischer Korrelationskoeffizient) Der empirische Korrelationskoeffizient rxy ist definiert als n rxy 1X 1 = zx,i zy,i = (zx,1 zy,1 + · · · + zx,n zy,n ) n i=1 n Es gilt immer: Zweidimensionale Merkmale n 1X und s2y = (yi − ȳ)2 n i=1 −1 ≤ rxy ≤ 1 Qualitative Merkmale Quantitative Merkmale Korrelation Der empirische Korrelationskoeffizient ist der Mittelwert der Produkte der Standardscores. R. Frühwirth Statistik 79/584 R. Frühwirth Statistik 80/584 Korrelation Korrelation Statistik Statistik rxy ist positiv, wenn viele Produkte positiv sind, d.h. viele Paare von Standscores das gleiche Vorzeichen haben. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Streudiagramm der Standardscores von Datensatz 4: R. Frühwirth Einleitung Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 1. oder 3. Quadranten liegen. Datensatz 4 4 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x und y heißen dann positiv korreliert. rxy ist negativ, wenn viele Produkte negativ sind, d.h. viele Paare von Standscores verschiedenes Vorzeichen haben. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 2. oder 4. Quadranten liegen. 3 Standardscore des Gewichts R. Frühwirth Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale x und y heißen dann negativ korreliert. Qualitative Merkmale Quantitative Merkmale Korrelation 2 1 0 −1 −2 −3 Qualitative Merkmale Quantitative Merkmale Korrelation −4 −4 −2 0 2 Standardscore der Körpergröße 4 Offensichtlich sind x und y positiv korreliert, da die meisten Punkte im 1. und 3. Quadranten liegen. rxy = 0.5562 R. Frühwirth Statistik 81/584 R. Frühwirth Korrelation Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zwischen der Kinderzahl und der Anzahl der Störche in Österreich in den letzten 30 Jahren besteht eine positive Korrelation. Warum? 4 Qualitative Merkmale Quantitative Merkmale Korrelation Zwischen dem Butterpreis und dem Brotpreis der letzten 20 Jahre besteht eine positive Korrelation. Warum? 0 zx 2 0 4 rxy=0.3 −2 0 zx 2 −4 −4 4 4 rxy=0.6 2 0 −2 0 zx 2 4 −2 0 zx 2 4 0 zx 2 4 rxy=0.9 2 0 −2 −2 0 −2 −4 −4 4 2 −4 −4 zy y −2 rxy=0 2 −2 −4 −4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Beispiel 0 −2 Eindimensionale Merkmale Beispiel 2 z zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 4 rxy=−0.4 y Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Die positive Korrelation kann auch durch eine gemeinsame Ursache oder einen parallel laufenden Trend verursacht sein. 4 rxy=−0.8 2 zy Eindimensionale Merkmale 4 Einleitung z R. Frühwirth zy Eine positive Korrelation muss nicht unbedingt einen kausalen Zusammenhang bedeuten. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 82/584 Korrelation Statistik R. Frühwirth Statistik 0 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 Standardscores mit verschiedenen Korrelationskoeffizienten R. Frühwirth Statistik 83/584 R. Frühwirth Statistik 84/584 Korrelation Korrelation Statistik Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt also das Ausmaß der linearen Koppelung an. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 4 rxy=−0.00168 2 rxy=0.00987 2 0 0 Eindimensionale Merkmale Besteht zwischen x und y ein starker, aber nichtlinearer Zusammenhang, kann die Korrelation trotzdem sehr klein sein. R. Frühwirth 4 Einleitung zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt die Bindung der Punktwolke an eine steigende oder fallende Gerade, die Hauptachse an. R. Frühwirth y Einleitung Statistik Der Korrelationskoeffizient misst die Korrelation der Daten. z R. Frühwirth 85/584 −2 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 0 zx 2 4 Nichtlinearer Zusammenhang zwischen x und y R. Frühwirth Statistik 86/584 Korrelation Statistik R. Frühwirth Statistik Der Korrelationskoeffizient kann auch direkt aus der Stichprobe berechnet werden: R. Frühwirth Einleitung Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten rxy = sxy sx sy Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Teil 2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Definition (Kovarianz der Daten) Wahrscheinlichkeitsrechnung Bedingte Wahrscheinlichkeit Die Größe n sxy = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1X (xi − x̄)(yi − ȳ) n i=1 heißt die Kovarianz der Daten. R. Frühwirth Statistik 87/584 R. Frühwirth Statistik 88/584 Abschnitt 4: Einleitung Übersicht Teil 2 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung 4 Einleitung 5 Ereignisse 6 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 90/584 Statistik Der konkrete Ausgang eines Experiments kann im Allgemeinen nicht genau vorausgesagt werden. R. Frühwirth Einleitung Wahrscheinlichkeit Ereignisse Einleitung Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 89/584 Einleitung Ereignisse Einleitung Bedingte Wahrscheinlichkeit R. Frühwirth R. Frühwirth 4 Einleitung Die möglichen Ausgänge sind jedoch bekannt. Ereignisse Ziel der Wahrscheinlichkeitsrechnung ist es, den Ausgängen Wahrscheinlichkeiten zuzuweisen. Zwei Interpretationen der Wahrscheinlichkeit möglich. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 91/584 Häufigkeitsinterpretation Die Wahrscheinlichkeit eines Ausgangs ist die Häufigkeit des Ausgangs, wenn das Experiment sehr oft unter den gleichen Bedingungen wiederholt wird. Die darauf basierende Statistik wird frequentistisch“ ” genannt. Beispiel Die Wahrscheinlichkeit des Ausgangs 1“ beim Würfeln ist der ” Grenzwert der Häufigkeit für eine große Zahl von Würfen. R. Frühwirth Statistik 92/584 Einleitung Einleitung Statistik R. Frühwirth Statistik Subjektive Interpretation Einleitung Die Wahrscheinlichkeit eines Ausgangs ist eine Aussage über den Glauben der Person, die die Wahrscheinlichkeit angibt. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die darauf basierende Statistik wird bayesianisch“ genannt. ” Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die Wahrscheinlichkeit, dass es morgen regnet, ist 40 Prozent“ ist ein ” Aussage über den Glauben der Person, die diese Aussage tätigt. Der frequentistische Ansatz ist meist einfacher, aber beschränkter. Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth 93/584 Statistik Statistik R. Frühwirth 4 Ereignisse 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik 94/584 Unterabschnitt: Der Ereignisraum R. Frühwirth Einleitung Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der bayesianische Ansatz ist umfassender und flexibler. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Beispiel Abschnitt 5: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente In vielen Fällen sind die Resultate identisch, nur die Interpretation ist verschieden. Ereignisse Wahrscheinlichkeit R. Frühwirth Einleitung In der Praxis ist der Übergang zwischen den beiden Ansätzen oft fließend. R. Frühwirth Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 95/584 R. Frühwirth Statistik 96/584 Der Ereignisraum Der Ereignisraum Statistik Statistik Grundlegend für die Statistik ist der Begriff des (zufälligen) Ereignisses. R. Frühwirth Einleitung R. Frühwirth Einleitung Für den Physiker der Ausgang eines Experiments, dessen Ergebnis nicht genau vorausgesagt werden kann. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Mehrere Gründe: Die beobachteten Objekte sind eine zufällige Auswahl aus einer größeren Grundgesamtheit. Der beobachtete Prozess ist prinzipiell indeterministisch (Quantenmechanik). Messfehler geben dem Ergebnis einen stochastischen Charakter. Mangelnde Kenntnis des Anfangszustandes. Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 98/584 Definition (Ereignis) Ein Ereignis E ist eine Teilmenge des Ereignisraums Ω. Ein Ereignis E tritt ein, wenn E den Ausgang ω ∈ Ω des Experiments enthält. Beispiel Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis G (gerade Zahl) ist die Teilmenge Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Statistik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wird eine radioaktive Quelle beobachtet, ist die Anzahl der Zerfälle pro Sekunde im Prinzip unbeschränkt. Der Ereignisraum ist abzählbar unendlich. Die Ereignisalgebra R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Beim Roulette gibt es 37 mögliche Ausgänge. Der Ereignisraum ist endlich. R. Frühwirth Statistik 4 Beispiel 97/584 R. Frühwirth Ereignisse Der Ereignisraum Ω kann endlich, abzählbar unendlich oder überabzählbar unendlich sein. Die Wartezeit zwischen zwei Zerfällen kann jeden beliebigen Wert annehmen. Der Ereignisraum ist überabzählbar unendlich. Unterabschnitt: Die Ereignisalgebra Einleitung Die Menge Ω aller möglichen Ausgänge heißt Ereignisraum oder Stichprobenraum. G = {2, 4, 6} G tritt ein, wenn eine gerade Zahl geworfen wird. 99/584 R. Frühwirth Statistik 100/584 Die Ereignisalgebra Die Ereignisalgebra Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Ereignisalgebra) R. Frühwirth Einleitung Die Menge aller Ereignisse des Ereignisraums Ω heißt die Ereignisalgebra Σ(Ω). Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Im endlichen oder abzählbar unendlichen Fall kann jede Teilmenge als Ereignis betrachtet werden. Die Ereignisalgebra heißt diskret. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Zwei Ereignisse A ∈ Σ und B ∈ Σ können logisch verknüpft werden. Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Name Disjunktion Bedeutung A oder B (oder beide) Konjunktion Symbol A∩B Symbol A0 Name Konjunktion Name Negation Bedeutung A und B (sowohl A als auch B) Bedeutung nicht A (das Gegenteil von A) R. Frühwirth 101/584 Statistik 102/584 Die Ereignisalgebra Statistik Einleitung Symbol A∪B Negation Die Ereignisalgebra R. Frühwirth Disjunktion Wahrscheinlichkeit Im überabzählbar unendlichen Fall müssen gewisse pathologische (nicht messbare) Teilmengen ausgeschlossen werden. Die Ereignisalgebra heißt kontinuierlich oder stetig. R. Frühwirth Verknüpfung von Ereignissen Statistik Implikation Symbol A⊆B R. Frühwirth Name Implikation Einleitung Bedeutung aus A folgt B (A0 ∪ B) Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Mit diesen Verknüpfungen ist Σ ist eine Boole’sche Algebra: distributiver komplementärer Verbands mit Nullund Einselement. Das Nullelement 0 = ∅ ist das unmögliche Ereignis. Ein Ereignis, das nur aus einem möglichen Ausgang besteht, heißt ein Elementarereignis. Σ ist abgeschlossen: Assoziativgesetze : Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Verschmelzungsgesetze: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das Einselement 1 = Ω ist das sichere Ereignis. Rechengesetze für Ereignisse Distributivgesetze: Regeln von de Morgan: Verneinung: R. Frühwirth Statistik 103/584 R. Frühwirth A, B ∈ Σ =⇒ A ∩ B ∈ Σ A, B ∈ Σ =⇒ A ∪ B ∈ Σ (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) A ∩ (A ∪ B) = A A ∪ (A ∩ B) = A A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ B)0 = A0 ∪ B 0 (A ∪ B)0 = A0 ∩ B 0 A ∩ A0 = 0, A ∪ A0 = 1 = Ω Statistik 104/584 Die Ereignisalgebra Unterabschnitt: Wiederholte Experimente Statistik R. Frühwirth Einleitung Statistik Ist Ω (abzählbar oder überabzählbar) unendlich, verlangt man, dass auch abzählbar viele Vereinigungen und Durchschnitte gebildet werden können. R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Der Ereignisraum ist dann eine sogenannte σ-Algebra. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ist überabzählbaren Fall ist die Ereignisalgebra Σ ist die kleinste σ-Algebra, die alle Teilintervalle von Ω enthält. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 105/584 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Bedingte Wahrscheinlichkeit Statistik 106/584 Statistik Der Wurf mit einem Würfel hat den Ereignisraum R. Frühwirth Ω = {1, 2, 3, 4, 5, 6} Einleitung Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wiederholte Experimente Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 R. Frühwirth Wiederholte Experimente Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Ereignisse Einleitung Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth 4 Ereignisse Analog ist beim n-maligen Würfeln der Ereignisraum das n-fache kartesische Produkt Ω × Ω × . . . × Ω. Einleitung Ereignisse Die Ereignisalgebra Σ(Ω) hat folglich sechs Elementarereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente e1 = {1}, e2 = {2}, e3 = {3}, e4 {4}, e5 = {5}, e6 = {6} Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 und insgesamt 2 = 64 Ereignisse (Teilmengen von Ω). Der Ereignisraum des zweimaligen Würfelns ist das kartesische Produkt Ω × Ω: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ω × Ω = {(i, j)|i, j = 1, . . . , 6} Beispiel (Ereignisalgebra des Doppelwurfs) Beispiele für Elemente der Ereignisalgebra des Doppelwurfs sind: 6 beim ersten Wurf: 6 beim zweiten Wurf: Beide Würfe gleich: Summe der Würfe gleich 7: {(6, 1), (6, 2), . . . , (6, 6)} {(1, 6), (2, 6), . . . , (6, 6)} {(1, 1), (2, 2), . . . , (6, 6)} {(1, 6), (2, 5), . . . , (6, 1)} Das geordnete Paar (i, j) bedeutet: i beim ersten Wurf, j beim zweiten Wurf. Die Ereignisalgebra Σ(Ω × Ω) hat folglich 36 Elementarereignisse eij : e11 = {(1, 1)}, . . . , e36 = {(6, 6)} R. Frühwirth Statistik 107/584 R. Frühwirth Statistik 108/584 Wiederholte Experimente Abschnitt 6: Wahrscheinlichkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Beispiel (Wiederholter Alternativversuch) R. Frühwirth Ein Experiment, das nur zwei mögliche Ergebnisse hat, heißt ein Alternativversuch. Es gibt zwei Ausgänge, 0 und 1. Wird ein Alternativversuch n-mal durchgeführt, ergibt sich eine Ereignisraum mit 2n Ausgängen, nämlich den Folgen der Form (i1 , . . . , in ) mit ij = 0 oder 1. In der Regel interessiert aber nur die Häufigkeit des Eintretens von 1 (oder 0). Dann gibt es nur mehr n + 1 Ausgänge: 1 tritt 0, 1, 2, . . . oder n-mal ein. Bezeichnet das Ereignis E1 das einmalige Eintreten von 1, so ist E1 die ∪-Verbindung mehrerer Elementarereignisse der ursprünglichen Ereignisalgebra: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 7 Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit E1 = {(e1 , e0 , . . . , e0 ), (e0 , e1 , e0 , . . . , e0 ), . . . , (e0 , . . . , e0 , e1 )} Ein Beispiel ist das n-malige Werfen einer Münze. R. Frühwirth Statistik R. Frühwirth 109/584 Unterabschnitt: Wahrscheinlichkeitsmaße Statistik Statistik R. Frühwirth Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 4 5 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit 6 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik Definition (Wahrscheinlichkeitsmaß) Es sei Σ eine Ereignisalgebra, A und B Ereignisse in Σ, und W eine Abbildung von Σ in R. W heißt ein Wahrscheinlichkeitsmaß, wenn gilt: 1. Positivität: 2. Additivität: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth 110/584 Wahrscheinlichkeitsmaße R. Frühwirth Ereignisse Statistik 111/584 3. Normierung: R. Frühwirth W (A) ≥ 0 ∀A ∈ Σ A ∩ B = 0 =⇒ W (A ∪ B) = W (A) + W (B) W (1) = 1 Statistik 112/584 Wahrscheinlichkeitsmaße Wahrscheinlichkeitsmaße Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Wahrscheinlichkeitsraum) R. Frühwirth Einleitung Ist Σ eine σ-Algebra, was für unendliche Ereignisräume vorausgesetzt werden muss, verlangt man für abzählbares J: 4. σ-Additivität: i∈J Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Σ heißt dann normiert, und (Σ, W ) ein Wahrscheinlichkeitsraum. W wird auch als Wahrscheinlichkeitsverteilung bezeichnet. R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 2 W (0) = 0 3 A ⊆ B =⇒ W (A) ≤ W (B), ∀A, B ∈ Σ 4 W (A) ≤ 1, ∀A ∈ Σ 5 W (A ∪ B) = W (A) + W (B) − W (A ∩ B), ∀A, B ∈ Σ 6 Hat Σ höchstens abzählbar viele Elementarereignisse P {ei | i ∈ I}, so ist i∈I W (ei ) = 1. Statistik 114/584 Statistik In einer diskreten Ereignisalgebra ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der Elementarereignisse, deren ∪-Verbindung es ist. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A0 ) = 1 − W (A), ∀A ∈ Σ Wahrscheinlichkeitsmaße Statistik Einleitung 1 R. Frühwirth 113/584 Wahrscheinlichkeitsmaße R. Frühwirth Ist (Σ, W ) ein Wahrscheinlichkeitsraum, so gilt: Ereignisse Ai ∈ Σ, i ∈ J; Ai ∩ Aj = 0, i 6= j =⇒ [ X W ( Ai ) = W (Ai ) i∈J Rechengesetze für Wahrscheinlichkeit R. Frühwirth Einleitung Ereignisse Daher ist ein Wahrscheinlichkeitsmaß durch die Werte, die es den Elementarereignissen zuordnet, eindeutig bestimmt. Andererseits kann jede positive Funktion, die auf der Menge der Elementarereignisse definiert ist und Punkt 6 erfüllt, eindeutig zu einem Wahrscheinlichkeitsmaß fortgesetzt werden. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Man kann also auf einer diskreten Ereignisalgebra Σ unendlich viele Verteilungen definieren. In einer kontinuierlichen Ereignisalgebra ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 0. Die Wahrscheinlichkeit eines Ereignisses kann daher nicht mehr durch Summation ermittlet werden. Statt dessen wird eine Dichtefunktion f (x) angegeben, die jedem Elementarereignis x einen nichtnegativen Wert f (x) zuordnet. Die Dichtefunktion muss normiert sein: Z f (x) dx = 1 R Die Wahrscheinlichkeit eines Ereignisses A wird durch Integration über die Dichte ermittelt: Z W (A) = f (x) dx A Die Dichte muss so beschaffen sein, dass das Integral für alle zugelassenen Ereignisse existiert. R. Frühwirth Statistik 115/584 R. Frühwirth Statistik 116/584 Unterabschnitt: Gesetz der großen Zahlen Gesetz der großen Zahlen Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 4 5 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit 6 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Betrachten einfaches Zufallsexperiment: Münzwurf Zwei mögliche Ergebnisse: Kopf (K), Zahl (Z) Annahme: Münze symmetrisch, K und Z gleichwahrscheinlich Experiment wird n-mal wiederholt n 10 100 500 1000 5000 hn (K) 6 51 252 488 2533 fn (K) 0.6 0.51 0.504 0.488 0.5066 |fn (K) − 0.5| 0.1 0.01 0.004 0.012 0.0066 Häufigkeitstabelle Matlab: make coin R. Frühwirth Statistik 117/584 R. Frühwirth Gesetz der großen Zahlen Statistik Statistik R. Frühwirth 1 Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die relative Häufigkeit des Ereignisses K scheint gegen den Grenzwert 0.5 zu streben. Einleitung 0.8 f(K) Ereignisse Wahrscheinlichkeit 118/584 Gesetz der großen Zahlen R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 0.6 Dieser Grenzwert wird als die Wahrscheinlichkeit W (K) bezeichnet. Empirisches Gesetz der großen Zahlen Wahrscheinlichkeit 0.4 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 0.2 0 lim fn (K) = W (K) n→∞ Bedingte Wahrscheinlichkeit 0 100 200 300 400 500 n Entwicklung der relativen Häufigkeit von K R. Frühwirth Statistik 119/584 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das mathematische Problem dieser Definition liegt darin, dass die Existenz des Grenzwerts von vornherein nicht einzusehen ist und im klassisch analytischen Sinn tatsächlich nicht gegeben sein muss, sondern nur in einem weiteren, statistischen Sinn. R. Frühwirth Statistik 120/584 Unterabschnitt: Kopplung und bedingte Wahrscheinlichkeit Abschnitt 7: Bedingte Wahrscheinlichkeit Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Einleitung Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 122/584 Statistik Wir betrachten jetzt zwei Ereignisse A und B, die bei einem Experiment eintreten können. Einleitung Wahrscheinlichkeit Ereignisse Kopplung und bedingte Wahrscheinlichkeit Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 121/584 Kopplung und bedingte Wahrscheinlichkeit Ereignisse Einleitung Wahrscheinlichkeit R. Frühwirth R. Frühwirth 4 Ereignisse R. Frühwirth Einleitung Frage: Besteht ein Zusammenhang zwischen den Ereignissen? Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ein solcher Zusammenhang wird Koppelung genannt. Positive Koppelung: Je öfter A eintritt, desto öfter tritt tendenziell auch B ein. Wahrscheinlichkeit Negative Koppelung: Je öfter A eintritt, desto seltener tritt tendenziell auch B ein. Bedingte Wahrscheinlichkeit Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Quantifizierung von oft“ und selten“ erfolgt durch ” ” Häufigkeitstabelle. R. Frühwirth Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. 123/584 Beispiel: A=“Eine untersuchte Person ist weiblich“ B=“Eine untersuchte Person hat Diabetes“ Vierfeldertafel für 1000 Personen: A A0 R. Frühwirth B 19 26 45 Statistik B0 526 429 955 545 455 1000 124/584 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Statistik Gewöhnliche relative Häufigkeiten werden auf den Umfang n des gesamten Datensatzes bezogen: R. Frühwirth Einleitung Einleitung h(A ∩ B) f (A ∩ B) = n Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte relative Häufigkeiten werden auf das Eintreten des anderen Merkmals bezogen: h(A ∩ B) f (A ∩ B) = f (A|B) = h(B) f (B) Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit f (A|B) heißt die bedingte relative Häufigkeit von A unter der Bedingung B. R. Frühwirth 125/584 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 526 = 0.551 955 Es ist somit zu vermuten, dass die beiden Merkmale gekoppelt sind. f (A|B) > f (A) deutet auf eine positive Koppelung, f (A|B) < f (A) auf eine negative Koppelung. R. Frühwirth R. Frühwirth Statistik 126/584 Die bedingten relativen Häufigkeiten konvergieren für n → ∞ gegen einen Grenzwert: Einleitung Ereignisse Wahrscheinlichkeitstabelle: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen f (A|B 0 ) = Statistik Stammen die Daten aus einem Zufallsexperiment, dann besitzen die Ereigniskombinationen auch Wahrscheinlichkeiten. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 19 = 0.422, 45 Kopplung und bedingte Wahrscheinlichkeit Statistik Einleitung f (A|B) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth Die Vierfeldertafel U gibt folgende bedingte relative Häufigkeiten: A A0 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Nach dem empirischen Gesetz der großen Zahl sind diese Wahrscheinlichkeiten die Grenzwerte der entsprechenden relativen Häufigkeiten. Statistik fn (A ∩ B) W (A ∩ B) → W (A|B) = fn (B) W (B) Wahrscheinlichkeit B B0 W (A ∩ B) W (A ∩ B 0 ) W (A) W (A0 ∩ B) W (A0 ∩ B 0 ) W (A0 ) W (B) W (B 0 ) 1 R. Frühwirth fn (A|B) = 127/584 Definition (Bedingte Wahrscheinlichkeit) W (A|B) = W (A ∩ B) W (B) heißt die bedingte Wahrscheinlichkeit von A unter der Bedingung B, sofern W (B) 6= 0. R. Frühwirth Statistik 128/584 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Beispiel (Der symmetrische Würfel) W (ei ) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (e1 ∩ U ) W (e1 ) = =1 W (e1 ) W (e1 ) W (e1 ∪ e3 ) W ((e1 ∪ e3 ) ∩ U ) 2 = = W (e1 ∪ e3 |U ) = W (U ) W (U ) 3 W ((e1 ∪ e2 ) ∩ U ) W (e1 ) 1 W (e1 ∪ e2 |U ) = = = W (U ) W (U ) 3 Ereignisse W (U |e1 ) = Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 1 , 1≤i≤6 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wir definieren die folgenden Ereignisse: U = {1, 3, 5}, G = {2, 4, 6} Bedingte Wahrscheinlichkeit Beispiel (Fortsetzung) Einleitung Ist der Würfel völlig symmetrisch, werden den Elementarereignissen ei = {i} gleiche Wahrscheinlichkeiten zugeordnet: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Dann gilt zum Beispiel W (e1 ∩ U ) W (e1 ) 1 = = W (U ) W (U ) 3 W (e1 ∩ G) W (0) W (e1 |G) = = =0 W (U ) W (U ) W (e1 |U ) = R. Frühwirth Statistik 129/584 R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Statistik Aus der Definition der bedingten Wahrscheinlichkeit folgt sofort die R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Produktformel Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) = W (A|B)W (B) = W (B|A)W (A) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 130/584 Unterabschnitt: Satz von Bayes Statistik R. Frühwirth Statistik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen und die Formel für die Bedingte Wahrscheinlichkeit Inverse Wahrscheinlichkeit W (B|A) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (A|B)W (B) W (A) Beide Formeln gelten auch für relative Häufigkeiten! R. Frühwirth Statistik 131/584 R. Frühwirth Statistik 132/584 Satz von Bayes Satz von Bayes Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Zerlegung) Einleitung Die Ereignisse B1 , B2 , . . . , Bm bilden eine Zerlegung des Ereignisraums Ω, wenn gilt: 1 Unvereinbarkeit: Bi ∩ Bj = ∅, i 6= j 2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (B1 ) + W (B2 ) + . . . + W (Bm ) = W (Ω) = 1 R. Frühwirth Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth Satz von Bayes Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A|Bi )W (Bi ) W (Bi |A) = W (A) W (A|Bi )W (Bi ) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) 134/584 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit W (Bi ) wird die a-priori Wahrscheinlichkeit von B genannt, W (Bi |A) die a-posteriori Wahrscheinlichkeit. R. Frühwirth Statistik Beispiel Ein Betrieb kauft Bauteile von zwei Anbietern, wobei der Anteil des ersten 65% beträgt. Erfahrungsgemäß ist der Ausschussanteil bei Anbieter 1 gleich 3% und bei Anbieter 2 gleich 4%. 1 Wie groß ist der totale Ausschussanteil? 2 Wie groß ist die Wahrscheinlichkeit, daß ein einwandfreier Bauteil von Anbieter 2 kommt? 3 Wie groß ist die Wahrscheinlichkeit, daß ein mangelhafter Bauteil von Anbieter 1 kommt? Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Statistik Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ein Betrieb erzeugt Glühbirnen mit 40W (35% der Produktion), mit 60W (45%) und mit 100W (20%). Nach einem Jahr sind noch 98% der 40W-Birnen funktionsfähig, 96% der 60W-Birnen, und 92% der 100W-Birnen. Welcher Anteil an allen Glühbirnen ist nach einem Jahr noch funktionsfähig? Satz von Bayes Statistik Einleitung Beispiel 133/584 Satz von Bayes R. Frühwirth W (A) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Satz Bilden die Ereignisse B1 , B2 , . . . , Bm eine Zerlegung des Ereignisraums Ω, dann gilt: Statistik Totale Wahrscheinlichkeit Ereignisse Vollständigkeit: B1 ∪ B2 ∪ . . . ∪ Bm = Ω R. Frühwirth Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: R. Frühwirth 135/584 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 136/584 Satz von Bayes Unterabschnitt: Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik Beispiel R. Frühwirth Ein Bauteil wird von vier Firmen geliefert, und zwar kommen 20% von Firma 1, 30% von Firma 2, 35% von Firma 3, und 15% von Firma 4. Die Wahrscheinlichkeit, dass der Bauteil im Testbetreib innerhalb von 24 Stunden ausfällt, ist 0.02 für Firma 1, 0.015 für Firma 2, 0.025 für Firma 3, und 0.02 für Firma 4. Ein Bauteil fällt im Testbetrieb nach 16 Stunden aus. Die Wahrscheinlichkeit, dass er von Firma i kommt, ist mittel des Satzes von Bayes zu berechnen. Bedingte Wahrscheinlichkeit Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 137/584 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 138/584 Statistik Zwei Ereignisse sind positiv gekoppelt, wenn R. Frühwirth W (A|B) > W (A) oder W (A ∩ B) > W (A)W (B) Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Unabhängigkeit Statistik Einleitung 5 R. Frühwirth Unabhängigkeit R. Frühwirth Einleitung Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 4 Ereignisse Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Zwei Ereignisse sind negativ gekoppelt, wenn W (A|B) < W (A) oder W (A ∩ B) < W (A)W (B) Wahrscheinlichkeit Liegt weder positive noch negative Kopppelung vor, sind A und B unabhängig. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 139/584 Definition (Unabhängigkeit) Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn W (A ∩ B) = W (A)W (B) Die Ereignisse A1 , A2 , . . . , An heißen unabhängig, wenn gilt: W (A1 ∩ . . . ∩ An ) = W (A1 ) · . . . · W (An ) Dazu genügt nicht, dass je zwei Ereignisse Ai und Aj paarweise unabhängig sind! R. Frühwirth Statistik 140/584 Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Beispiel Statistik Wir betrachten den zweimaligen Wurf einer Münze (Kopf/Zahl). Die möglichen Ausgänge sind Ω = {KK, KZ, ZK, ZZ}. Ferner definieren wir die Ereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente E2 = {KK, ZK} . . . Kopf beim zweiten Wurf Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung Ereignisse Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Dann gilt für alle i 6= j Bedingte Wahrscheinlichkeit W (Ei ∩ Ej ) = Sind A und B unabhängig, gilt W (A|B) = W (A) und W (B|A) = W (B). Die Vierfeldertafel für zwei unabhängige Ereignisse: Wahrscheinlichkeit E3 = {KK, ZZ} . . . Gerade Zahl von Köpfen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente E1 = {KK, KZ} . . . Kopf beim ersten Wurf Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1 = W (Ei ) · W (Ej ) 4 A A0 B B0 W (A)W (B) W (A)W (B 0 ) W (A) W (A0 )W (B) W (A0 )W (B 0 ) W (A0 ) W (B) W (B 0 ) 1 aber W (E1 ∩ E2 ∩ E3 ) = R. Frühwirth 1 1 6= = W (E1 ) · W (E2 ) · W (E3 ) 4 8 Statistik R. Frühwirth 141/584 Unabhängigkeit Statistik Die Koppelung kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Vierfelderkorrelation Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) − W (A)W (B) ρ(A, B) = p W (A)W (A0 )W (B)W (B 0 ) Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Einleitung Wahrscheinlichkeit Bedingte Wahrscheinlichkeit 142/584 Unabhängigkeit Statistik R. Frühwirth Ereignisse Statistik −1 ≤ ρ(A, B) ≤ 1 2 ρ(A, B) = 0 ⇐⇒ A und B unabhängig 3 ρ(A, B) > 0 ⇐⇒ A und B positiv gekoppelt 4 ρ(A, B) < 0 ⇐⇒ A und B negativ gekoppelt R. Frühwirth Statistik Speziell gilt: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Eigenschaften der Vierfelderkorrelation 1 Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Die Koppelung kann auch durch eine gemeinsame Ursache für beide Ereignisse entstehen. 143/584 R. Frühwirth Statistik 144/584 Unabhängigkeit Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Zwei physikalische Ereignisse können als unabhängig postuliert werden, wenn zwischen ihnen keine wie immer geartete Verbindung besteht, da dann das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflussen kann. Zwei Elementarereignisse sind niemals unabhängig, da ihre ∩-Verbindung stets das unmögliche Ereignis ist. Zwei Elementarereignisse sind sogar höchst abhängig“, weil ” das Eintreten des einen das Eintreten des anderen mit Sicherheit ausschließt. Sind E1 und E2 zwei unaghängige Ereignisse eines Wahrscheinlichkeitsraumes (Σ, W ), so sind auch E1 und E20 , E10 und E2 , sowie E10 und E20 unabhängig. R. Frühwirth Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ei1 = ei1 ∪ ei2 ∪ . . . ∪ ei6 und analog Ej2 = e1j ∪ e2j ∪ . . . ∪ e6j Klarerweise gilt Ei1 ∩ Ej2 = eij . Kann man annehmen, dass alle Elementarereignisse gleichwahrscheinlich sind, so gilt: 1 1 , W (Ej2 ) = 6 6 1 1 2 W (Ei ∩ Ej ) = W (eij ) = = W (Ei1 ) · W (Ej2 ) 36 145/584 R. Frühwirth Statistik 146/584 Unabhängigkeit Statistik Einleitung Es gibt 36 Elementarereignisse eij = {(i, j)}, 1 ≤ i, j ≤ 6. Das Ereignis Ei1 , beim ersten Wurf eine i zu würfeln, setzt sich so zusammen: W (Ei1 ) = Unabhängigkeit R. Frühwirth Beispiel (Wurf mit zwei unterscheidbaren Würfeln) Statistik Beispiel (Fortsetzung) R. Frühwirth In diesem Fall sind also auch die Elementarereignisse des einfachen Wurfes gleichwahrscheinlich und die beiden Teilwürfe sind unabhängig. Setzt man umgekehrt voraus, dass für beide Teilwürfe die Elementarereignisse gleichwahrscheinlich sind, und dass Ei1 und Ej2 für alle i und j unabhängig sind, so sind die eij gleichwahrscheinlich. Sind die Teilwürfe nicht unabhängig, so sind die eij trotz der Gleichwahrscheinlichkeit der ei und ej nicht mehr gleichwahrscheinlich. Ein Beispiel dafür ist der Wurf“ mit einem sehr ” großen Würfel, der jedesmal bloß um 90o gedreht werden kann. Das Elementarereignis e34 ist hier unmöglich und muss daher die Wahrscheinlichkeit 0 zugewiesen bekommen. R. Frühwirth Statistik 147/584 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Wiederholung eines Alternativversuchs) Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form (i1 , . . . , in ), ij = 0 oder 1. Sind die Wiederholungen unabhängig, und bezeichnet p die Wahrscheinlichkeit des Eintretens von 1, ist die Wahrscheinlichkeit einer Folge W ({(i1 , . . . , in )}) = pn1 (1 − p)n0 wo n0 bzw. n1 die Anzahl des Eintretens von 0 bzw. 1 angibt. Klarerweise gilt n0 + n1 = n. R. Frühwirth Statistik 148/584 Übersicht Teil 3 Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Teil 3 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Zufallsvariable und Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Statistik R. Frühwirth Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 9 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente 11 Momente 12 Rechnen mit Verteilungen Statistik 150/584 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Wichtige Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 10 Unterabschnitt: Grundbegriffe Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable R. Frühwirth R. Frühwirth 8 9 149/584 Abschnitt 8: Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth 8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 12 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 151/584 R. Frühwirth Statistik 152/584 Grundbegriffe Grundbegriffe Statistik R. Frühwirth Eindimensionale Zufallsvariable Statistik Definition (Zufallsvariable) Grundbegriffe Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable Eine Abbildung X: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable ω ∈ Ω 7→ x = X(ω) ∈ R Mehrdimensionale Zufallsvariable die jedem Element ω des Ereignisraums Ω eine reelle Zahl zuordnet, heißt eine (eindimensionale) Zufallsvariable. Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ist Ω endlich oder abzählbar unendlich, ist jede beliebige Abbildung X zugelassen. Ist Ω überabzählbar unendlich, muss X eine messbare Abbildung sein. Momente Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Erwartung Varianz Schiefe Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen 9 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Wichtige Verteilungen 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Die Abbildung, die dem Zerfall eines Teilchens die Lebensdauer x zuordnet, ist eine kontinuierliche Zufallsvariable. Statistik 154/584 Diskrete Zufallsvariable R. Frühwirth Mehrdimensionale Zufallsvariable Beispiel R. Frühwirth 153/584 Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Abbildung, die beim Würfeln dem Elementarereignis ei die Augenzahl i zuordnet, ist eine diskrete Zufallsvariable. Natürlich wäre auch die Abbildung ei :−→ 7 − i eine diskrete Zufallsvariable. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 8 Beispiel Rechnen mit Verteilungen Unterabschnitt: Diskrete Zufallsvariable Eindimensionale Zufallsvariable Nimmt die Zufallsvariable X ein Kontinuum von Werte an, heißt sie kontinuierlich. Momente Da der Wert einer Zufallsvariablen vom Ausgang des Experiments abhängt, kann man den möglichen Werten Wahrscheinlichkeiten zuschreiben. Rechnen mit Verteilungen Nimmt die Zufallsvariable X nur endlich oder abzählbar unendlich viele Werte an, heißt sie diskret. 155/584 Diskrete Zufallsvariable sind oft das Resultat von Zählvorgängen. In der physikalischen Praxis kommen diskrete Zufallsvariable häufig vor: man denke an das Zählen von Ereignissen in einem festen Zeitintervall (Poissonverteilung), an das Abzählen von Alternativversuchen (Binomialverteilung), oder auch an die Besetzungshäufigkeit der diskreten Energieniveaus des Wasserstoffatoms. Im folgenden nehmen wir an, dass die Werte einer diskreten Zufallsvariablen nichtnegative ganze Zahlen sind. Dies ist keine Einschränkung, weil jede abzählbare Menge von reellen Zahlen bijektiv auf (eine Teilmenge von) N0 abgebildet werden kann. Die Ereignisalgebra ist die Potenzmenge (Menge aller Teilmengen) P von N0 . R. Frühwirth Statistik 156/584 Diskrete Zufallsvariable Diskrete Zufallsvariable Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Ist auf der Ereignisalgebra Σ(Ω) ein Wahrscheinlichkeitsmaß W definiert, so kann man mit Hilfe der Zufallsvariablen X auf der Potenzmenge P von N0 ebenfalls ein Wahrscheinlichkeitsmaß definieren. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Definition (Verteilung einer diskreten Zufallsvariablen) Es sei Σ(Ω) eine diskrete Ereignisalgebra. Die diskrete Zufallsvariable X : Ω 7→ N0 induziert ein Wahrscheinlichkeitsmaß auf N0 mittels WX ({k}) = W (X −1 (k)) = W ({ω|X(ω) = k}) Momente Erwartung Varianz Schiefe R. Frühwirth Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 157/584 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Statistik 158/584 Statistik Beispiel R. Frühwirth Wir ordnen dem Ausgang eines Doppelwurfs die Summe der Augenzahlen zu: Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable X : (i, j) 7→ i + j Mehrdimensionale Zufallsvariable Wichtige Verteilungen 1 2 1 −1 WX (1) = W (X (1)) = W ({1, 3, 5}) = 2 WX (0) = W (X −1 (0)) = W ({2, 4, 6}) = Diskrete Zufallsvariable Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen Die Verteilung von X ist dann gegeben durch R. Frühwirth Diskrete Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable X : ω 7→ mod (ω, 2) Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Wir ordnen den geraden Augenzahlen des Würfels die Zahl 0 zu, den ungeraden die Zahl 1: Momente WX wird als die Verteilung von X bezeichnet, und zwar als diskrete oder Spektralverteilung. Rechnen mit Verteilungen R. Frühwirth Beispiel Mehrdimensionale Zufallsvariable Die Werte von X sind die natürlichen Zahlen von 2 bis 12. Die Verteilung von X ist dann gegeben durch k−1 , k≤7 X −1 36 WX (k) = W (X (k)) = W ({(i, j)}) = i+j=k 13 − k , k ≥ 7 36 Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 159/584 Die Funktion fX (k) wird als Wahrscheinlichkeitsdichtefunktion oder kurz Dichte der Zufallsvariablen X bezeichnet. Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Definition (Diskrete Dichtefunktion) Wichtige Verteilungen Rechnen mit Verteilungen R. Frühwirth Die Zahlen WX (k) können als Funktionswerte einer Spektralfunktion fX angesehen werden: ( WX (k), wenn x = k fX (x) = 0, sonst R. Frühwirth Statistik 160/584 Diskrete Zufallsvariable Diskrete Zufallsvariable Statistik Statistik Die Dichte der Zufallsvariablen X = i + j: R. Frühwirth Eindimensionale Zufallsvariable R. Frühwirth Eindimensionale Zufallsvariable Dichtefunktion 0.18 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.16 Mehrdimensionale Zufallsvariable 0.12 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 0.1 Wichtige Verteilungen f(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.08 0.06 Momente Erwartung Varianz Schiefe 0.04 0.02 Rechnen mit Verteilungen 0 2 3 4 R. Frühwirth 5 6 7 x 8 9 10 11 12 Statistik Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe FX (x) = X fX (k) = k≤x R. Frühwirth X WX ({k}) k≤x Statistik 162/584 Diskrete Zufallsvariable Statistik Eigenschaften einer diskreten Verteilungsfunktion F 1 R. Frühwirth F hat eine Sprungstelle in allen Punkten des Wertebereichs 2 Die Sprunghöhe im Punkt k ist gleich fX (k) 3 0 ≤ F (x) ≤ 1 ∀x ∈ R Die Verteilungsfunktion der Zufallsvariablen X = i + j: Eindimensionale Zufallsvariable Verteilungsfunktion 1 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.9 0.8 Mehrdimensionale Zufallsvariable 4 x ≤ y =⇒ F (x) ≤ F (y) ∀x, y ∈ R 5 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 6 Die Wahrscheinlichkeit, dass r in das Intervall (a, b] fällt, ist F (b) − F (a): Grundbegriffe Randverteilungen und bedingte Verteilungen W (r ≤ a) + W (a < r ≤ b) = W (r ≤ b) =⇒ 0.6 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe W (a < r ≤ b) = F (b) − F (a) 0.7 F(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Es gilt offenbar: 161/584 Statistik Mehrdimensionale Zufallsvariable FX (x) = W (X ≤ x) Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Diskrete Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Ist X eine diskrete Zufallsvariable, so ist die Verteilungsfunktion FX von X definiert durch: Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Definition (Diskrete Verteilungsfunktion) Momente Erwartung Varianz Schiefe R. Frühwirth k∈E Mehrdimensionale Zufallsvariable 0.14 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Wahrscheinlichkeit WX (E) eines Ereignisses E lässt sich bequem mit Hilfe der Dichte von X berechnen: X WX (E) = fX (k) 0.5 0.4 0.3 0.2 0.1 Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 163/584 0 2 3 4 R. Frühwirth 5 6 Statistik 7 x 8 9 10 11 12 164/584 Unterabschnitt: Stetige Zufallsvariable Stetige Zufallsvariable Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable 8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 9 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen 11 Momente 12 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 165/584 R. Frühwirth Stetige Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Erwartung Varianz Schiefe 166/584 Statistik Definition (Stetige Verteilungsfunktion) R. Frühwirth Es sei (Σ, W ) ein Wahrscheinlichkeitsraum über einem überabzählbaren Ereignisraum Ω. X sei eine Zufallsvariable, also eine (messbare) Funktion von Ω in R. Die Funktion FX , definiert durch: Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen FX (x) = W (X ≤ x) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Stetige Zufallsvariable Statistik R. Frühwirth Eine Funktion X, die auf einer solchen überabzählbaren Menge von Elementarereignissen definiert ist, kann beliebige reelle Werte annehmen. Wichtige Verteilungen 10 Erwartung Varianz Schiefe Rechnen mit Verteilungen Diese Beschränkung soll nun fallengelassen werden, d.h es werden jetzt überabzählbar viele Elementarereignisse zugelassen. Das ist notwendig, wenn nicht nur Zählvorgänge, sondern beliebige Messvorgänge zugelassen werden. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Bisher wurden nur solche Zufallsvariable behandelt, die auf diskreten Ereignisalgebren definiert waren. Wichtige Verteilungen heißt die Verteilungsfunktion von X. Die Wahrscheinlichkeit, dass X in ein Intervall (x, x + ∆x] fällt, ist dann: Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente W (x < X ≤ x + ∆x) = FX (x + ∆x) − FX (x) = ∆FX . Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 167/584 Eigenschaften einer stetigen Verteilungsfunktion 1 0 ≤ F (x) ≤ 1 ∀x ∈ R 2 x1 ≤ x2 =⇒ F (x1 ) ≤ F (x2 ) ∀x1 , x2 ∈ R 3 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 Definition (Quantil) Es sei FX (x) eine stetige Verteilungsfunktion. Der Wert xα , für den FX (xα ) = α, 0 < α < 1 gilt, heißt das α-Quantil der Verteilung von X. Die Funktion −1 x = FX (α), 0<α<1 heißt die Quantilsfunktion der Verteilung von X. R. Frühwirth Statistik 168/584 Stetige Zufallsvariable Stetige Zufallsvariable Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Definition (Quartil) R. Frühwirth Die Quantile zu den Werten α = 0.25, 0.5, 0.75 heißen Quartile. Das Quantil zum Wert α = 0.5 heißt Median der Verteilung. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Quantile können auch für diskrete Verteilungen definiert werden, jedoch sind sie dann nicht immer eindeutig. Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 169/584 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 170/584 Stetige Zufallsvariable Statistik Mehrdimensionale Zufallsvariable 0 wobei fX (x) = FX (x) ist. Die Ableitung der Verteilungsfunktion, die Funktion fX , wird als Wahrscheinlichkeitsdichtefunktion oder wieder kurz Dichte von X bezeichnet. R. Frühwirth Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable x1 Erwartung Varianz Schiefe Rechnen mit Verteilungen Eindimensionale Zufallsvariable Ist FX differenzierbar, heißt X eine stetige Zufallsvariable. Für die Verteilung von X gilt nach dem Hauptsatz der Integralrechnung: Z x2 WX (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = fX (x) dx Momente Erwartung Varianz Schiefe R. Frühwirth Definition (Stetige Dichtefunktion) Statistik Das Wahrscheinlichkeitsmaß WX heißt die Verteilung von X. Es ist auf einer Ereignisalgebra Σ definiert, die aus Mengen reeller Zahlen besteht und zumindest alle Intervalle und deren Vereinigungen als Elemente enthält. Ähnlich wie bei diskreten Zufallsvariablen lässt sich die Wahrscheinlichkeit WX einer Menge M ∈ Σ leicht mit Hilfe der Dichte angeben: Z WX (M ) = fX (x) dx M Die Wahrscheinlichkeit eines einzelnen Punktes ist immer gleich 0: Z x WX ({x}) = fX (x) dx = 0 Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Daher ist auch WX ((x1 , x2 ]) = WX ((x1 , x2 )) = WX ([x1 , x2 ]). Ganz allgemein erhält man eine Aussage über stetige Zufallsvariable dadurch, dass man in einer Aussage über diskrete Zufallsvariable die Summation durch eine Integration ersetzt. Gilt zum Beispiel für eine diskrete Dichte f : X f (k) = 1 k∈N0 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze x R. Frühwirth R. Frühwirth 171/584 so gilt für eine stetige Dichte f : Z ∞ f (x) dx = 1 −∞ R. Frühwirth Statistik 172/584 Stetige Zufallsvariable Abschnitt 9: Mehrdimensionale Zufallsvariable Statistik Statistik R. Frühwirth R. Frühwirth Dichtefunktion Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable f(x) Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 1 0.18 0.9 0.16 0.8 0.14 0.7 0.12 0.6 0.1 0.06 0.3 0.04 0.2 0.02 0.1 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 10 x 15 R. Frühwirth 20 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe 5 Statistik 10 x 15 20 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik 174/584 Definition (Zufallsvariable) Eine Abbildung X: ω ∈ Ω 7→ x = X(ω) ∈ Rd die jedem Element ω des Ereignisraums Ω einen reellen Vektor x ∈ Rd zuordnet, heißt eine d-dimensionale Zufallsvariable. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Momente Grundbegriffe Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 11 173/584 Eindimensionale Zufallsvariable 10 Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Mehrdimensionale Zufallsvariable 10 Rechnen mit Verteilungen R. Frühwirth 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth 8 Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Unterabschnitt: Grundbegriffe Eindimensionale Zufallsvariable 8 Wichtige Verteilungen 0.4 5 Eindimensionale Zufallsvariable 0.5 0.08 0 0 Rechnen mit Verteilungen Verteilungsfunktion 0.2 F(x) Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariablen können diskret oder stetig sein. Momente 12 Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 175/584 R. Frühwirth Statistik 176/584 Grundbegriffe Grundbegriffe Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Definition (Verteilungsfunktion) R. Frühwirth Ist X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable, so ist die Verteilungsfunktion FX durch FX (x1 , . . . , xd ) = W (X1 ≤ x1 ∩ . . . ∩ Xd ≤ xd ) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen definiert. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Definition (Dichtefunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale diskrete Zufallsvariable, so ist die Dichtefunktion fX durch Statistik Statistik Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable 0.03 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.025 1 2 w(x ,x ) 0.02 Statistik 178/584 Beispiel (Fortsetzung) Die Verteilungsfunktion F ist daher: F (x1 , x2 ) = W (X1 ≤ x1 ∩ X2 ≤ x2 ) = 0.015 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.01 Wichtige Verteilungen 0.005 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0 1 Momente 2 3 4 5 4 5 Rechnen mit Verteilungen Rechnen mit Verteilungen 3 6 2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 x2 R. Frühwirth Erwartung Varianz Schiefe 6 x1 Statistik 179/584 X f (i, j) i≤x1 ∩j≤x2 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze x1 ∈ {1, . . . , 6} ∩ x2 ∈ {1, . . . , 6} sonst Grundbegriffe R. Frühwirth Erwartung Varianz Schiefe 0, R. Frühwirth 177/584 Statistik Momente 1 , 36 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze definiert. R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen fX (x1 , x2 ) = Rechnen mit Verteilungen Grundbegriffe Grundbegriffe Randverteilungen und bedingte Verteilungen Die Dichte fX lautet: ( Erwartung Varianz Schiefe fX (x1 , . . . , xd ) = W (X1 = x1 ∩ . . . ∩ Xd = xd ) R. Frühwirth Mehrdimensionale Zufallsvariable 1 WX {(i, j)} = 36 Momente Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die zweidimensionale Zufallsvariable X = (X1 , X2 ) ordnet dem Ergebnis des Wurfs mit zwei Würfeln die Augenzahlen (i, j) zu. Sind alle Ausgänge gleichwahrscheinlich, so ist WX gegeben durch: Mehrdimensionale Zufallsvariable Wichtige Verteilungen Momente Beispiel Beispielsweise ist F (3, 4) = 1 i≤3∩j≤4 36 P = 12 36 = 13 . Wegen der Abzählbarkeit der Elementarereignisse können diese auch durch eine eindimensionale Zufallsvariable Y eindeutig in R abgebildet werden, z. B.: Y : (ei , ej ) −→ 6i + j − 6 Der Wertevorrat von Y sind die natürlichen Zahlen zwischen 1 und 36, und WY ist gegeben durch: 1 WY {k} = , 1 ≤ k ≤ 36 36 R. Frühwirth Statistik 180/584 Unterabschnitt: Randverteilungen und bedingte Verteilungen Grundbegriffe Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik Definition (Dichtefunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale stetige Zufallsvariable, so ist die Dichtefunktion fX durch ∂ d FX fX (x1 , . . . , xd ) = ∂x1 . . . ∂xd Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable definiert. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 181/584 11 Momente 12 Rechnen mit Verteilungen Statistik 182/584 Randverteilungen und bedingte Verteilungen Statistik Wichtige Verteilungen Wichtige Verteilungen R. Frühwirth Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Momente Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Erwartung Varianz Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth 8 Statistik Sind X1 und X2 zwei (diskrete oder stetige) 1-dimensionale Zufallsvariable, so ist X = (X1 , X2 ) eine zweidimensionale Zufallsvariable. Die Verteilung (Verteilungsfunktion, Dichte) von X heißt auch die gemeinsame Verteilung (Verteilungsfunktion, Dichte) von X1 und X2 . Es stellt sich nun das folgende Problem: Kann man die Verteilung von X1 bzw. X2 aus der gemeinsamen Verteilung berechnen? Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Es sei F die Verteilungsfunktion und f die Dichte der stetigen Zufallsvariablen X = (X1 , X2 ). Dann ist die Verteilungsfunktion F1 von X1 gegeben durch: F1 (x1 ) = W (X1 ≤ x1 ) = W (X1 ≤ x1 ∩ −∞ < X2 < ∞) = Z x1 Z ∞ = f (x1 , x2 ) dx2 dx1 −∞ −∞ Daraus folgt: Z Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 183/584 f (x1 , x2 ) dx2 −∞ Momente Erwartung Varianz Schiefe ∞ f1 (x1 ) = ist die Dichte von X1 . R. Frühwirth Statistik 184/584 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Statistik Definition (Randverteilung) R. Frühwirth Es sei X = (X1 , X2 ) eine zweidimensionale stetige Zufallsvariable mit der Verteilungsfunktion F und der Dichte f . Die Verteilung von X1 heißt die Randverteilung von X1 bezüglich X. Ihre Dichte f1 lautet: Z ∞ f1 (x1 ) = f (x1 , x2 ) dx2 . −∞ Statistik Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 185/584 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Erwartung Varianz Schiefe W (X1 = k1 ∩ X2 = k2 ) f (k1 , k2 ) = W (X2 = k2 ) f2 (k2 ) Statistik 186/584 Statistik Definition (Bedingte Dichte) R. Frühwirth Es sei X = (X1 , X2 ) eine 2-dimensionale diskrete Zufallsvariable mit der Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) bzw. f2 (k2 ). Die Funktion f (k1 |k2 ), definiert durch: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen heißt die durch X2 bedingte Dichte von X1 . Die bedingte Dichte ist für festes k2 die Dichte eine Verteilung, der durch X2 = k2 bedingten Verteilung von X1 . Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 187/584 Ist X = (X1 , X2 ) stetig, so ist analog f (x1 |x2 ) definiert durch: Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable f (k1 , k2 ) f (k1 |k2 ) = f2 (k2 ) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen W (X1 = k1 |X2 = k2 ) = Randverteilungen und bedingte Verteilungen Statistik Eindimensionale Zufallsvariable Es seien X1 und X2 zwei diskrete Zufallsvariable mit der gemeinsamen Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) und f2 (k2 ). Dann ist die bedingte Wahrscheinlichkeit des Ereignisses X1 = k1 unter der Bedingung X2 = k2 gegeben durch: R. Frühwirth Randverteilungen und bedingte Verteilungen R. Frühwirth Der umgekehrte Vorgang ist im allgemeinen nicht möglich, da die gemeinsame Verteilung auch Information über mögliche Zusammenhänge (Kopplung) zwischen X1 und X2 enthält. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze k2 R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ist X = (X1 , X2 ) diskret mit der Dichte f , so ist analog die Dichte f1 der Randverteilung von X1 bezüglich X gegeben durch: X f1 (k1 ) = f (k1 , k2 ) Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Die Verteilungen von X1 und X2 lassen sich also aus der gemeinsamen Verteilung von X1 und X2 berechnen. f (x1 |x2 ) = f (x1 , x2 ) (f2 (x2 ) 6= 0) f2 (x2 ) f (x1 |x2 ) ist für festes x2 die Dichte einer Verteilung, der durch X2 = x2 bedingten Verteilung von X1 . Dass f (x1 |x2 ) tatsächlich eine Dichte ist, läßt sich leicht nachprüfen: Z ∞ Z ∞ f (x1 , x2 ) f2 (x2 ) f (x1 |x2 ) dx1 = dx1 = =1 f2 (x2 ) −∞ −∞ f2 (x2 ) und analog für diskretes X. R. Frühwirth Statistik 188/584 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Statistik Es gilt: R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable −∞ Grundbegriffe Randverteilungen und bedingte Verteilungen und analog für diskrete Dichten. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Unabhängigkeit von Zufallsvariablen) Ist die (unbedingte) Dichte der Randverteilung von X1 gleich der durch X2 bedingten Dichte, so heißen X1 und X2 unabhängig. X1 und X2 unabhängig ⇐⇒ f (x1 |x2 ) = f1 (x1 ) Statistik Momente Erwartung Varianz Schiefe 189/584 Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth Statistik 190/584 Statistik Die Dichte der Randverteilung von Xi1 , . . . , Xim ist gegeben durch: R. Frühwirth Eindimensionale Zufallsvariable fi1 ,...,im (xi1 , . . . , xim ) Z ∞ Z ∞ = ... f (x1 , . . . , xn ) dxim+1 . . . dxin −∞ Mehrdimensionale Zufallsvariable −∞ Grundbegriffe Randverteilungen und bedingte Verteilungen Die durch Xj bedingte Dichte von Xi ist gegeben durch: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen f (xi |xj ) = Momente fi,j (xi , xj ) fj (xj ) Momente wobei fi,j (xi , xj ) die Randverteilungsdichte von Xi , Xj ist. Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Xi1 , . . . , Xik heißen unabhängig, wenn die Dichte der Randverteilung von Xi1 , . . . , Xik das Produkt der Dichten der Randverteilungen der einzelnen Xij ist. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Erwartung Varianz Schiefe Ist X = (X1 , . . . , Xd ), d > 2, so müssen die Definitionen der Randverteilung, der bedingten Dichten und der Unabhängigkeit entsprechend verallgemeinert werden. Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable und analog für diskretes X. Für unabhängige Zufallsvariable X1 ,X2 ist also die Dichte der gemeinsamen Verteilung gleich dem Produkt der einzelnen Dichten. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable ⇐⇒ f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ) Rechnen mit Verteilungen Randverteilungen und bedingte Verteilungen R. Frühwirth f (x1 |x2 ) = f1 (x1 ) ⇐⇒ f (x2 |x1 ) = f2 (x1 ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f (x1 , x2 ) = f (x1 |x2 ) · f2 (x2 ) Z ∞ f1 (x1 ) = f (x1 |x2 ) · f2 (x2 ) dx2 R. Frühwirth Für unabhängige Zufallsvariablen X1 und X2 gilt: 191/584 R. Frühwirth Statistik 192/584 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Beispiel (Die Akzeptanz oder Nachweiswahrscheinlichkeit) R. Frühwirth X sei eine Zufallsvariable mit der Dichte f (x). Nimmt X den Wert x an, so gibt es eine Wahrscheinlichkeit a(x) dafür, dass x auch tatsächlich beobachtet wird. Man definiert nun eine Zufallsvariable I, die 1 ist, wenn x beobachtet wird, und 0 sonst. Dann ist I unter der Bedingung X = x alternativ nach Aa(x) verteilt: W (I = 1|X = x) = a(x) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die gemeinsame Dichte von X und I ist daher: Momente f (x, 1) = a(x)f (x) Erwartung Varianz Schiefe f (x, 0) = [1 − a(x)]f (x) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik R. Frühwirth Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Statistik 194/584 Abschnitt 10: Wichtige Verteilungen Statistik Mehrdimensionale Zufallsvariable f (x, 1) a(x)f (x) = R f2 (1) a(x)f (x) dx Als konkretes Beispiel diene die Messung einer Lebensdauer. Die Messung möge bei tmin beginnen und bei tmax enden. Dann hat a(t) die folgende Gestalt: 0, für t ≤ tmin a(t) = 1, für tmin < t ≤ tmax 0, für t > tmax 193/584 Randverteilungen und bedingte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable fA (x) = f (x|I = 1) = Wichtige Verteilungen W (I = 0|X = x) = 1 − a(x) Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Da der Experimentator nur mit beobachteten Größen arbeiten kann, schränkt er seine Grundgesamtheit auf die nachgewiesenen Ereignisse ein, d.h. er braucht die Dichte von X unter der Bedingung, dass X beobachtet wird: Grundbegriffe Randverteilungen und bedingte Verteilungen Rechnen mit Verteilungen R. Frühwirth Beispiel (Fortsetzung) Statistik Beispiel (Fortsetzung) R. Frühwirth Eindimensionale Zufallsvariable Für die gemessene Wahrscheinlichkeitsdichte gilt: 0, t ≤ tmin 1 exp(−t/τ ) τ fA (t) = , tmin ≤ t < tmax exp(−t min /τ ) − exp(−tmax /τ ) 0, t > t max Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Der Faktor 1/[exp(−tmin /τ ) − exp(−tmax /τ )] korrigiert für jene Teilchen, die vor tmin oder nach tmax zerfallen. Die Nachweiswahrscheinlichkeit a(t) kann auch von der Geometrie des Detektors oder deren Ansprechwahrscheinlichkeit bestimmt werden und eine komplizierte Abhängigkeit von t haben. So kann es etwa von der Konfiguration der Zerfallsprodukte abhängen, ob ein Zerfall bei t beobachtet werden kann oder nicht. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 195/584 R. Frühwirth Statistik 196/584 Unterabschnitt: Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 11 Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Rechnen mit Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik 197/584 Momente 1 n, 0, x ∈ {1, . . . , n} sonst Die Verteilungsfunktion FX ist eine Stufenfunktion mit Sprüngen der Größe n1 in den Punkten 1, . . . , n. R. Frühwirth Statistik 198/584 Diskrete Verteilungen Statistik Die Alternativ- oder Bernoulliverteilung Al(p) R. Frühwirth Eindimensionale Zufallsvariable Die Verteilung einer Zufallsvariablen, die den Ausgängen eines Alternativversuchs die Werte 1 (Erfolg) bzw. 0 (Misserfolg) zuordnet. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Dichte fX lautet: Grundbegriffe Randverteilungen und bedingte Verteilungen fX (0) = 1 − p, fX (1) = p Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen fX = Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Mehrdimensionale Zufallsvariable ( Rechnen mit Verteilungen Diskrete Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Dichte fX lautet: Erwartung Varianz Schiefe R. Frühwirth Eindimensionale Zufallsvariable Die Verteilung einer Zufallsvariablen X, die die Werte 1, . . . , n mit gleicher Wahrscheinlichkeit annimmt.. Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Die diskrete Gleichverteilung auf n Punkten, Gl(n) Die Binomialverteilung Bi(n, p) Wird der Alternativversuch n mal unabhängig durchgeführt, so gibt es 2n Elementarereignisse, nämlich die Folgen der Form e = (ei1 , . . . , ein ), ij = 0 oder 1. Die diskrete Zufallsvariable X bildet die Folge e auf die Häufigkeit von e1 ab: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen oder fX (x) = px (1 − p)1−x , x ∈ {0, 1} Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 199/584 X(e) = n X ij j=1 Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k (0 ≤ k ≤ n) werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . R. Frühwirth Statistik 200/584 Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik Die Dichte fX ist daher: ! n k fX (k) = p (1 − p)n−k , 0 ≤ k ≤ n k R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Verteilung von X wird als Binomialverteilung Bi(n, p) mit den Parametern n und p bezeichnet. Grundbegriffe Randverteilungen und bedingte Verteilungen Es gilt Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen n X Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ! fX (k) = k=0 Momente Erwartung Varianz Schiefe Mehrdimensionale Zufallsvariable n X n k p (1 − p)n−k = 1 k k=0 Momente Erwartung Varianz Schiefe Das ist gerade der binomische Lehrsatz. Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 201/584 Statistik Statistik R. Frühwirth 0.4 0.4 Bi(10,0.3) P(k) P(k) 0.2 0 Eindimensionale Zufallsvariable 0.3 0.1 Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.2 0.1 0 1 2 3 4 5 k 6 7 8 9 0 10 Mehrdimensionale Zufallsvariable 0 1 2 3 4 5 k 6 7 8 9 Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.4 Bi(10,0.7) 0.3 0.3 0.2 0.1 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Bi(10,0.9) P(k) Momente Wichtige Verteilungen 0.4 P(k) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.2 Momente Erwartung Varianz Schiefe 0.1 0 1 wenn (n + 1)p ∈ {1, . . . , n} wenn p = 1 Die Verteilungsfunktion kann durch die unvollständige regularisierte Betafunktion β(x; a, b) ausgedrückt werden: FX (k; n, p) = W (X ≤ k) = β(1 − p; n − k, k + 1) Z 1−p n−k−1 t (1 − t)k = dt B(n − k, k + 1) 0 Statistik 202/584 Die negative Binomialverteilung Bi(10,0.5) 0.3 Mehrdimensionale Zufallsvariable wenn p = 0 oder (n + 1)p ∈ /N Diskrete Verteilungen R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable b(n + 1)pc, (n + 1)p und m= (n + 1)p − 1, 1, R. Frühwirth Diskrete Verteilungen Eindimensionale Zufallsvariable Der Modus m (der wahrscheinlichste Wert) ist gleich 2 3 4 5 k 6 7 R. Frühwirth 8 9 10 Statistik 0 0 1 2 3 4 5 k 6 7 8 9 Rechnen mit Verteilungen 10 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 203/584 Ein Alternativversuch wird solange wiederholt, bis r Erfolge eingetreten sind. Die Verteilung der dazu benötigten Anzahl X von Misserfolgen wird als negative Binomialverteilung Nb(r, p) bezeichnet. Ihre Dichte lautet: ! r+k−1 r fX (k) = p (1 − p)k , k ≥ 0 k Der Modus m (der wahrscheinlichste Wert) ist gleich ( b(r − 1) 1−p p c, wenn r > 1 m= 0, wenn r = 0 Ist m ∈ N, so ist auch m − 1 ein Modus. R. Frühwirth Statistik 204/584 Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik 0.2 R. Frühwirth 0.1 Eindimensionale Zufallsvariable P(k) 0.15 P(k) Nb(2,0.6) 0.1 Eindimensionale Zufallsvariable 0.06 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.04 0.05 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 0 0 1 2 3 4 5 k 6 7 8 0 9 10 11 12 0 5 10 15 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.08 0.06 0.06 P(k) 0.08 0.04 Momente 0.04 0.02 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Nb(8,0.3) Erwartung Varianz Schiefe 0.02 0 10 20 0 30 0 10 k 20 30 Rechnen mit Verteilungen 40 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze k Statistik 205/584 Mehrdimensionale Zufallsvariable Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Der Alternativversuch kann dahingehend verallgemeinert werden, dass man nicht nur zwei, sondern d Elementarereignisse e1 , . . . , ed zulässt, denen die Wahrscheinlichkeiten p1 , . . . , pd zugeordnet werden, die nur d X Wichtige Verteilungen Momente 0 1 2 k 3 4 5 0 6 0 1 2 3 4 5 k 6 7 8 9 10 11 12 0.2 0.2 Nb(6,0.6) Nb(8,0.6) 0.15 0.15 0.1 0.05 0 0.1 0.05 0 5 10 0 15 0 5 k 10 15 20 k Statistik 206/584 Statistik Die Multinomialverteilung Mu(n, p1 , . . . , pd ) Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0 Diskrete Verteilungen Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.05 R. Frühwirth Diskrete Verteilungen Eindimensionale Zufallsvariable 0.1 0.1 P(k) 0.1 Nb(6,0.3) R. Frühwirth R. Frühwirth 0.15 Wichtige Verteilungen 0.1 P(k) Momente 0.3 0.2 Grundbegriffe Randverteilungen und bedingte Verteilungen 20 k Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.2 Mehrdimensionale Zufallsvariable 0.02 Nb(4,0.6) 0.25 0.4 P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.3 0.5 Nb(4,0.3) 0.08 P(k) Nb(2,0.3) P(k) R. Frühwirth pi = 1 Mehrdimensionale Zufallsvariable Wichtige Verteilungen erfüllen müssen. Führt man den verallgemeinerten Alternativversuch n-mal durch, so sind die Elementarereignisse die Folgen der Form: Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 207/584 W (ei1 , . . . , ein ) = n Y W (eij ) = j=1 n Y j=1 pij = d Y pni i i=1 wobei ni die Anzahl des Eintretens von ei ist. Die Summe der ni ist daher n. Die d-dimensionale Zufallsvariable X = (X1 , . . . , Xd ) bildet die Folge (ei1 , . . . , ein ) auf den Vektor (n1 , . . . , nd ) ab. Dabei werden n!/(n1 !· · ·nd !) Folgen auf den gleichen Vektor abgebildet. Momente Erwartung Varianz Schiefe Die Dichte von X lautet daher: Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze (ei1 , . . . , ein ), 1 ≤ ij ≤ d Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen i=1 R. Frühwirth Eindimensionale Zufallsvariable Sind die n Teilversuche unabhängig, gilt: fX (n1 , . . . , nd ) = R. Frühwirth d d d Y X X n! pni i , ni = n, pi = 1 n1 ! . . . nd ! i=1 i=1 i=1 Statistik 208/584 Diskrete Verteilungen Diskrete Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Die Verteilung von X wird als Multinomialverteilung mit den Parametern n und p1 , . . . , pd bezeichnet: WX = Mu(n, p1 , . . . , pd ) Das klassische Beispiel einer multinomialverteilten Zufallsvariablen ist das Histogramm (gruppierte Häufigkeitsverteilung), das zur graphischen Darstellung der (absoluten) experimentellen Häufigkeit verwendet wird. Xi ist die Anzahl der Fälle, in denen die Zufallsvariable R, das experimentelle Ergebnis, in Gruppe i fällt. Die Wahrscheinlichkeit, dass R in Gruppe i fällt, sei gleich pi . Werden in das Histogramm n Ergebnisse eingefüllt, so sind die Gruppeninhalte (X1 , . . . , Xd ) multinomial nach Mu(n, p1 , . . . , pd ) verteilt. R. Frühwirth Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 15 10 5 0 0 1 2 3 R. Frühwirth 4 5 x 6 7 8 9 Statistik 10 210/584 Diskrete Verteilungen Statistik Die Poissonverteilung Po(λ) R. Frühwirth Die Poissonverteilung entsteht aus der Binomialverteilung durch den Grenzübergang n → ∞ unter der Bedingung n · p = λ. Das klassische Beispiel einer Poissonverteilten Zufallsvariablen ist die Anzahl der Zerfälle pro Zeiteinheit in einer radioaktiven Quelle. Allgemein gilt: Ist die Wartezeit zwischen zwei Ereignissen eines Zufallsprozesses exponentialverteilt, so ist die Anzahl der Ereignisse pro Zeiteinheit Poissonverteilt. Erwartung Varianz Schiefe Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 20 Mehrdimensionale Zufallsvariable 209/584 Statistik Eindimensionale Zufallsvariable 25 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Diskrete Verteilungen R. Frühwirth Ein Histogramm ni Statistik R. Frühwirth Statistik 211/584 Die Dichte der Poissonverteilung folgt aus der Berechnung des Grenzwertes: Pλ (k) = lim Bn; λ (k) n→∞ = lim n→∞ = n n! k!(n − k)! k n−k λ λ 1− = n n λk −λ ·e k! Der Modus m (der wahrscheinlichste Wert) ist gleich wenn λ ∈ /N bλc, m = λ und λ − 1, wenn λ ∈ N 0, wenn λ = 0 R. Frühwirth Statistik 212/584 Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik 0.4 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 Mehrdimensionale Zufallsvariable 0 1 2 3 4 k 5 6 7 8 9 10 k Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Po(5) 0.15 w(k) 0.15 0.1 0.05 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Po(10) 0.1 Momente Erwartung Varianz Schiefe 0.05 0 5 10 15 k R. Frühwirth 0 0 5 10 15 20 25 Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze k 213/584 R. Frühwirth Diskrete Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik 214/584 Diskrete Verteilungen Statistik Der Modus m (der wahrscheinlichste Wert) ist gleich (n + 1)(M + 1) m= N +2 0.5 R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 0.5 Hy(20,12,10) P(k) Rechnen mit Verteilungen 0.2 Bi(10,0.6) 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 1 2 3 4 5 k 6 7 8 9 0 10 0.4 0 1 2 3 4 5 k 6 7 8 9 10 2 3 4 5 k 6 7 8 9 10 0.4 Hy(100,40,10) Bi(10,0.4) 0.3 P(k) Erwartung Varianz Schiefe Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 0.2 w(k) Momente Grundgesamtheit von N Objekten, davon haben M eine bestimmte Eigenschaft E. Es werden n Objekte gezogen, wobei jedes Objekt die gleiche Wahrscheinlickeit hat, gezogen zu werden. Einmal gezogene Objekte werden nicht zurückgelegt. Die Anzahl der gezogenen Objekte mit der Eigenschaft E ist eine Zufallsvariable X. Die Verteilung von X wird hypergeometrische Verteilung Hy(N, M, n) genannt. Ihre Dichte lautet: M N −M m n−m f (m) = , 0 ≤ m ≤ min(n, M ) N n Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die hypergeometrische Verteilung Hy(N, M, n) Eindimensionale Zufallsvariable 0.2 0.1 0 Po(2) 0.3 w(k) 0.3 w(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Po(1) P(k) Eindimensionale Zufallsvariable R. Frühwirth 0.4 0.3 P(k) R. Frühwirth 0.2 0.2 Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 215/584 0.1 0 0.1 0 1 2 3 4 5 k 6 7 8 9 10 0 0 1 Zwei Hypergeometrische Verteilungen und die entsprechenden Binomialverteilungen R. Frühwirth Statistik 216/584 Stetige Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 11 Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Dichtefunktion der Gleichverteilung Un(0,1) Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Statistik 1.2 1 1 0.8 0.8 0.6 0.4 0 −0.5 217/584 0.2 0 0.5 x R. Frühwirth Stetige Verteilungen 0.6 0.4 0.2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Verteilungsfunktion der Gleichverteilung Un(0,1) 1.2 Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 0 −0.5 1.5 0 0.5 x Statistik 1 1.5 218/584 Stetige Verteilungen Statistik R. Frühwirth Die stetige Gleichverteilung auf dem Intervall [a, b] hat die Dichte: 0, x < a 1 f (x|a, b) = I[a,b] = 1/(b − a), a ≤ x ≤ b b−a 0, b < x Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die stetige Gleichverteilung Un(a, b) f(x) Eindimensionale Zufallsvariable 8 F(x) Unterabschnitt: Stetige Verteilungen Statistik Die Gauß- oder Normalverteilung No(µ, σ 2 ) R. Frühwirth Dichtefunktion der Standardnormalverteilung Verteilungsfunktion der Standardnormalverteilung 0.5 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Normalverteilung ist eine der wichtigsten Verteilungen in Wissenschaft und Technik. Ihre Dichte lautet: Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze f (x|µ, σ 2 ) = √ (x−µ)2 1 e− 2σ2 2πσ Grundbegriffe Randverteilungen und bedingte Verteilungen 0.35 0.25 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Verteilungsfunktion Φ(x) ist nicht durch elementare Funktionen darstellbar. 0.6 0.4 0.15 0.1 0.2 0.05 Momente Erwartung Varianz Schiefe Der Modus m (das Maximum der Dichtefunktion) ist bei m = µ. Statistik 0.8 0.3 0.2 Im Fall von µ = 0, σ = 1 heißt sie Standardnormalverteilung. R. Frühwirth 1 0.4 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.45 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable F(x) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable f(x) Eindimensionale Zufallsvariable 0 −5 0 x 5 0 −5 0 x 5 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 219/584 R. Frühwirth Statistik 220/584 Stetige Verteilungen Stetige Verteilungen Statistik Die Exponentialverteilung Ex(τ ) Die Exponentialverteilung ist die Wartezeitverteilung des radioaktiven Zerfalls von Atomen und allgemein des Zerfalls von Elementarteilchen. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Ihre Dichte lautet: Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Statistik 221/584 R. Frühwirth Wir beobachten einen Prozess, bei dem gewisse Ereignisse zu zufälligen Zeitpunkten eintreten. Ist die Anzahl der Ereignisse pro Zeiteinheit unabhängig und Poisson-verteilt gemäß Po(λ), sprechen wir von einem Poissonprozess mit Intensität λ. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eigenschaften eines Poissonprozesses Die Anzahl der Ereignisse in einem Zeitintervall der Länge T ist Poisson-verteilt gemäß Po(λT ). 2 Die Wartezeit zwischen zwei aufeinanderfolgenden Ereignissen ist exponentialverteilt gemäß Ex(1/λ). 3 Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Sind die Wartezeiten eines Prozesses unabhängig und exponentialverteilt gemäß Ex(τ ), so ist der Prozess ein Poissonprozess mit Intensität λ = 1/τ . R. Frühwirth Eindimensionale Zufallsvariable Wichtige Verteilungen 1 Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.6 0.2 0.4 0.1 0.2 0 0 2 4 6 8 10 x 0 0 2 4 6 8 10 x Statistik 222/584 Statistik Der Poissonprozess Eindimensionale Zufallsvariable Rechnen mit Verteilungen 0.3 Stetige Verteilungen Statistik Momente 0.8 R. Frühwirth Stetige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.4 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Wichtige Verteilungen 1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 0.5 Momente Der Modus m ist bei m = 0. Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Ihre Verteilungsfunktion lautet: F (x|τ ) = 1 − e−x/τ · I[0,∞) (x) Verteilungsfunktion der Exponentialverteilung Ex(2) Eindimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 1 f (x|τ ) = e−x/τ · I[0,∞) (x) τ Dichtefunktion der Exponentialverteilung Ex(2) f(x) Eindimensionale Zufallsvariable R. Frühwirth F(x) Statistik R. Frühwirth Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 223/584 Die Gammaverteilung Ga(a, b) Die Exponentialverteilung ist ein Spezialfall einer allgemeineren Familie von Verteilungen, der Gammaverteilung. Die Dichte der Gammaverteilung lautet: f (x|a, b) = xa−1 e−x/b · I[0,∞) (x) ba Γ(a) Ihre Verteilungsfunktion ist die regularisierte unvollständige Gammafunktion: Z x a−1 −t/b t e γ(a, x/b) F (x|a, b) = dt = a b Γ(a) Γ(a) 0 Der Modus m ist bei m = (a − 1)b, wenn a ≥ 1. R. Frühwirth Statistik 224/584 Stetige Verteilungen Stetige Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth 0 0 0.5 1 f(x) 0 0 1.5 1 2 x Wichtige Verteilungen f(x) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 3 x Dichtefunktion der Gammaverteilung Ga(a,b) 1 a=2 b=0.5 a=2 b=1 0.8 a=2 b=2 0.6 0.2 0.2 0.1 Eindimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 2 4 0 0 6 5 10 x 15 x R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze B(a, b) = Γ(a)Γ(b) Γ(a + b) R. Frühwirth Statistik R. Frühwirth Dichtefunktion der Betaverteilung Beta(a,b) Dichtefunktion der Betaverteilung Beta(a,b) 5 5 a=0.5 b=0.5 a=0.5 b=1 a=0.5 b=2 a=0.5 b=3 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 3 2 1 1 0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 1 x Dichtefunktion der Betaverteilung Beta(a,b) 5 a=2 b=0.5 a=2 b=1 a=2 b=2 a=2 b=3 3 a=3 b=0.5 a=3 b=1 a=3 b=2 a=3 b=3 4 3 2 2 1 1 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.4 0.6 0.8 1 x R. Frühwirth 0 0 0.2 0.4 0.6 0.8 1 x Statistik 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen 0.2 Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Rechnen mit Verteilungen 0 0 8 Wichtige Verteilungen 5 f(x) f(x) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable x 4 226/584 Mehrdimensionale Zufallsvariable 0 0 1 Eindimensionale Zufallsvariable Dichtefunktion der Betaverteilung Beta(a,b) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 3 2 0 0 a=1 b=0.5 a=1 b=1 a=1 b=2 a=1 b=3 4 f(x) f(x) 4 Statistik Unterabschnitt: Die Normalverteilung und verwandte Verteilungen Statistik Eindimensionale Zufallsvariable Der Modus m ist bei m = (a − 1)/(a + b − 2), wenn a, b > 1. 225/584 R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze xa−1 (1 − x)b−1 · I[0,1] (x), B(a, b) Ihre Verteilungsfunktion ist die regularisierte unvollständige Betafunktion: Z x 1 F (x|a, b) = ta−1 (1 − t)b−1 dt B(a, b) 0 Momente Stetige Verteilungen Erwartung Varianz Schiefe f (x|a, b) = Rechnen mit Verteilungen 0 0 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Momente Die Dichte der Betaverteilung lautet: Erwartung Varianz Schiefe Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Gleichverteilung ist ein Spezialfall einer allgemeineren Familie von Verteilungen, der Betaverteilung. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Dichtefunktion der Gammaverteilung Ga(a,b) 0.5 a=5 b=0.5 a=5 b=1 0.4 a=5 b=2 0.3 0.4 Die Betaverteilung Beta(a, b) Mehrdimensionale Zufallsvariable 0.5 1 Grundbegriffe Randverteilungen und bedingte Verteilungen Erwartung Varianz Schiefe 1 2 Mehrdimensionale Zufallsvariable Momente Dichtefunktion der Gammaverteilung Ga(a,b) 2 a=1 b=0.5 a=1 b=1 1.5 a=1 b=2 f(x) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f(x) Eindimensionale Zufallsvariable Dichtefunktion der Gammaverteilung Ga(a,b) 5 a=0.5 b=0.5 a=0.5 b=1 4 a=0.5 b=2 3 227/584 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 228/584 Die Normalverteilung und verwandte Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Eindimensionale Zufallsvariable Statistik Die eindimensionale Normalverteilung f (x) = Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable (x−µ)2 1 √ e− 2σ2 σ 2π Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Das Maximum ist bei x = µ, die Wendepunkte bei x = µ ± σ. Die √ halbe Breite auf halber Höhe (HWHM) ist gleich σ 2 ln 2 ≈ 1, 177σ. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik HWHM 0.2 0.1 0 −4 −3 −2 −1 0 (x−µ)/σ 1 2 3 4 Eindimensionale Normalverteilung, gelber Bereich = 68.2% R. Frühwirth Statistik 230/584 Die Normalverteilung und verwandte Verteilungen Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.3 229/584 Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable fmax=0.39894 0.4 Erwartung Varianz Schiefe Rechnen mit Verteilungen R. Frühwirth 0.5 Eindimensionale Zufallsvariable Ihre Dichte ist die bekannte Gauß’sche Glockenkurve: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth f((x−µ)/σ) R. Frühwirth Statistik Es gilt: R. Frühwirth W (|r − µ| ≥ σ) = 31.8% W (|r − µ| ≥ 2σ) = 4.6% W (|r − µ| ≥ 3σ) = 0.2% Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 231/584 Die d-dimensionale Normalverteilung No(µ, V) Ihre Dichte lautet: f (x) = 1 1 T −1 p (x − µ) V (x − µ) exp − d 2 (2π) 2 |V| V und V−1 sind symmetrische positiv definite d × d-Matrizen. Ist X normalverteilt gemäß No(µ, V) und H eine m × d Matrix, so ist Y = HX normalverteilt gemäß No(Hµ, HVHT ). Jede Randverteilung einer Normalverteilung ist wieder eine Normalverteilung. Mittelwert und Matrix der Randverteilung entstehen durch Streichen der Spalten und Zeilen der restlichen Variablen. R. Frühwirth Statistik 232/584 Die Normalverteilung und verwandte Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Statistik Jede bedingte Verteilung einer Normalverteilung ist wieder eine Normalverteilung. R. Frühwirth Eindimensionale Zufallsvariable Ist X normalverteilt gemäß No(µ, V), so kann V als positiv definite symmetrische Matrix mittels einer orthogonalen Transformation auf Diagonalform gebracht werden: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable UVUT = D2 Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Alle Digonalelemente von D2 sind positiv. Die Zufallsvariable Y = DU(X − µ) ist dann standardnormalverteilt. Die Drehung U heißt Hauptachsentransformation. Wichtige Verteilungen R. Frühwirth Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Statistik R. Frühwirth Grundbegriffe Randverteilungen und bedingte Verteilungen σ1=1, σ2=1, ρ=0.6 3 Eindimensionale Zufallsvariable 0.2 2 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.15 1 Mehrdimensionale Zufallsvariable 0.1 0 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.05 −1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Wichtige Verteilungen 0 −2 2 2 0 0 −2 −3 −3 −2 −1 0 1 2 3 −2 1 i ρ = σ12 /(σ1 σ2 ) ist der Korrelationskoeffizient. Sind X1 und X2 unkorreliert, also ρ = 0, folgt: 1 x21 x22 1 f (x1 , x2 ) = exp − + 2 = f1 (x1 ) · f2 (x2 ) 2πσ1 σ2 2 σ12 σ2 Zwei unkorrelierte normalverteilte Zufallsvariable mit gemeinsamer Normalverteilung sind daher unabhängig. Statistik 234/584 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die bedingte Dichte f (x1 |x2 ) ist gegeben durch f (x1 |x2 ) = f (x1 , x2 ) = f (x2 ) " 1 1 p =√ exp − 2 2 2 σ1 (1 − ρ2 ) 2πσ1 1 − ρ 2 # ρ x2 σ1 x1 − σ2 X1 |X2 = x2 ist also eine normalverteilte Zufallsvariable mit der Erwartung E[X1 |X2 ] = ρx2 σ1 /σ2 Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 1−ρ x22 σ22 Die Normalverteilung und verwandte Verteilungen Statistik Mehrdimensionale Zufallsvariable 2πσ1 σ2 R. Frühwirth R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Für d = 2 und µ = 0 kann die Dichte folgendermaßen angeschrieben werden: 2 h x1 1√ 1 f (x1 , x2 ) = exp − 2(1−ρ − 2 σρ 1xσ1 2x2 + 2) σ2 2 233/584 Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Die zweidimensionale Normalverteilung Statistik 235/584 E[X1 |X2 ] heißt die bedingte Erwartung. R. Frühwirth Statistik 236/584 Die Normalverteilung und verwandte Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Statistik Je nach Vorzeichen von ρ fällt oder wächst die bedingte Erwartung von X1 , wenn X2 wächst. R. Frühwirth Eindimensionale Zufallsvariable Ist ρ = 1, sind X1 und X2 proportional: X1 = X2 σ1 /σ2 . Die Hauptachsentransformation ist jene Drehung, die die Ellipsen in achsenparallele Lage bringt. Sie hängt im Fall d = 2 nur von ρ ab. Ist ρ = 0, sind X1 und X2 bereits unabhängig, und der Drehwinkel ist gleich 0. Ist ρ 6= 0, ist die Drehmatrix U gleich ! cos ϕ − sin ϕ 1 σ 2 − σ12 U= mit ϕ = − arccot 2 2 2ρσ1 σ2 sin ϕ cos ϕ Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth Statistik 238/584 Statistik Die F-Verteilung F(n, m) R. Frühwirth Eindimensionale Zufallsvariable Die Dichte der F-Verteilung (Fisher-Snedecor-Verteilung) mit n bzw. m Freiheitsgraden lautet: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable n/2 m/2 Γ( n+m m xn/2−1 2 )n f (x|n, m) = · I[0,∞) (x) n m Γ( 2 )Γ( 2 ) (m + nx)(n+m)/2 F = Erwartung Varianz Schiefe 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Sind X und Y unabhängig und χ2 -verteilt mit n bzw. n Freiheitsgraden, so ist Momente Rechnen mit Verteilungen xn/2−1 e−x/2 · I[0,∞) (x) Abschnitt 11: Momente Statistik Mehrdimensionale Zufallsvariable 1 2n/2 Γ( n2 ) Sie ist die Gammaverteilung Ga(n/2, 2). Ist X standardnormalverteilt, so ist Y = X 2 χ2 -verteilt mit einem Freiheitsgrad. 237/584 Die Normalverteilung und verwandte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f (x|n) = Erwartung Varianz Schiefe Rechnen mit Verteilungen Eindimensionale Zufallsvariable Die Dichte der χ2 -Verteilung mit n Freiheitsgraden lautet: Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Die χ2 -Verteilung χ2 (n) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Statistik Die Dichte der t-Verteilung mit n Freiheitsgraden lautet: −(n+1)/2 Γ( n+1 x2 2 ) f (x|n) = √ 1+ n nπ Γ( n2 ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Höhenschichtlinien der Dichtefunktion sind Ellipsen. R. Frühwirth Die t-Verteilung t(n) Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen X/n Y /m Momente Erwartung Varianz Schiefe verteilt gemäß F(n, m). Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 239/584 R. Frühwirth Statistik 240/584 Unterabschnitt: Erwartung Erwartung Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 241/584 R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 242/584 Statistik Definition (Erwartung einer Zufallsvariablen) −∞ −∞ Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik f (x) = 243/584 1 , x∈R π(1 + x2 ) Wichtige Verteilungen Rechnen mit Verteilungen R. Frühwirth Die Erwartung braucht nicht zu existieren. Ein Beispiel ist die Cauchy-Verteilung (t-Verteilung mit einem Freiheitsgrad) mit der Dichte Eindimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen k∈N0 Ist X = (X1 , . . . , Xd ), wird die Erwartung entsprechend verallgemeinert: Z ∞ Z ∞ EX [g] = ... g(x1 , . . . , xd ) f (x1 , . . . , xd ) dx1 . . . dxd −∞ Die Erwartung ist ein Lageparameter. R. Frühwirth Ist g(x) = x, so heißt E[g(X)] = E[X] die Erwartung oder der Mittelwert von X. Z ∞ X E[X] = xf (x) dx bzw. E[X] = k f (k) Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Statistik Erwartung Statistik Mehrdimensionale Zufallsvariable EX [g] = E[g(X)] heißt die Erwartung von g(X). Ist g ein k-dimensionaler Vektor von Funktionen, dann ist auch E[g(X)] ein k-dimensionaler Vektor. Rechnen mit Verteilungen Erwartung Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable −∞ k∈N0 Erwartung Varianz Schiefe R. Frühwirth Eindimensionale Zufallsvariable Es sei X eine (diskrete oder stetige) Zufallsvariable mit der Dichte f (x). Ferner sei g eine beliebige stetige reelle oder komplexe Funktion. Man definiert EX [g] = E[g(X)] durch: Z ∞ X g(x)f (x) dx g(k)f (k) bzw. E[g(X)] = E[g(X)] = Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Definition (Erwartung) Eigenschaften der Erwartung 1 E[c] = c, c ∈ R 2 E[aX + b] = aE[X] + b 3 E[X1 + X2 ] = E[X1 ] + E[X2 ] 4 X1 und X2 unabhängig =⇒ E[X1 X2 ] = E[X1 ] · E[X2 ] R. Frühwirth Statistik 244/584 Erwartung Erwartung Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Die Erwartung von diskreten Zufallsvariablen Gleichverteilung Gl(n) Alternativverteilung Al(p) Binomialverteilung Bi(n, p) Negative Binomialverteilung Nb(r, p) Poissonverteilung Po(λ) Hypergeometrische Verteilung Hy(N, M, n) Multinomialverteilung Mu(n, p1 , . . . , pd ) R. Frühwirth n+1 2 E[X] = E[X] = p E[X] = np E[X] = r(1−p) p E[X] = λ E[X] = nM N E[Xi ] = npi Momente Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik R. Frühwirth 245/584 Erwartung Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Statistik E[X] = a+b 2 E[X] = τ E[X] = µ E[X] = µ E[X] = ab a E[X] = a+b E[X] = n E[X] = 0, n > 1 m E[X] = m−2 ,m > 2 246/584 Unterabschnitt: Varianz Statistik Eindimensionale Zufallsvariable Stetige Gleichverteilung Un(a, b) Exponentialverteilung Ex(τ ) Normalverteilung No(µ, σ 2 ) Normalverteilung No(µ, V) Gammaverteilung Ga(a, b) Betaverteilung Beta(a, b) χ2 -Verteilung χ2 (n) t-Verteilung t(n) F-Verteilung F(n, m) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Momente Erwartung Varianz Schiefe R. Frühwirth Die Erwartung von stetigen Zufallsvariablen Eindimensionale Zufallsvariable Statistik Definition (Momente) R. Frühwirth Sei X eine Zufallsvariable. Die Erwartung von g(x) = (x − a)k , sofern sie existiert, heißt k-tes Moment von X um a. Das k-te Moment um 0 wird mit µ0k bezeichnet. Das k-te Moment um den Erwartungswert E[X] wird als zentrales Moment µk bezeichnet. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Selbst wenn alle Momente einer Verteilung existieren, ist sie dadurch nicht eindeutig bestimmt. Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 247/584 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Statistik Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Die zentralen Momente µ1 , . . . , µk können aus den Momenten um 0 µ01 , . . . , µ0k berechnet werden, und umgekehrt. R. Frühwirth 8 R. Frühwirth Statistik 248/584 Varianz Varianz Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Statistik Definition (Varianz) R. Frühwirth Das zweite zentrale Moment µ2 heißt die Varianz von X, bezeichnet mit var[X]. Die Wurzel aus der Varianz heißt die Standardabweichung von X, bezeichnet mit σ[X]. Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Standardabweichung ist ein Skalenparameter, der die Breite der Verteilung beschreiben. Die Standardabweichung hat die gleiche Dimension wie die Zufallsvariable. Varianz und Standardabweichung sind (wie alle zentralen Momente) invariant gegen Translationen. Die Varianz braucht nicht zu existieren. Ein Beispiel ist die t-Verteilung mit zwei Freiheitsgraden mit der Dichte Rechnen mit Verteilungen R. Frühwirth Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 1 g2 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 249/584 Statistik 250/584 Varianz Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable W (|X − µ| > gσ) ≤ Grundbegriffe Randverteilungen und bedingte Verteilungen Varianz Eindimensionale Zufallsvariable Es sei X eine Zufallsvariable mit der Erwartung E[X] = µ und der Varianz var[X] = σ 2 . Für g > 0 gilt: Rechnen mit Verteilungen 1 f (x) = , x∈R (2 + x2 )3/2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Die Tschebyscheff’sche Ungleichung Statistik Definition (Kovarianz) R. Frühwirth Sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und E[Xi ] = µ0i . cov[Xi , Xj ] = E[(Xi − µ0i )(Xj − µ0j )] = Z = (xi − µ0i )(xj − µ0j ) f (x1 , . . . xn ) dx1 . . . dxn = Rn Z ∞Z ∞ (xi − µ0i )(xj − µ0j ) fij (xi , xj ) dxi dxj = −∞ −∞ heißt die Kovarianz von Xi und Xj , auch σij geschrieben. Die Matrix V mit Vij = cov[Xi , Xj ] heißt die Kovarianzmatrix von X, bezeichnet mit Cov[X]. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eigenschaften der Varianz bzw. der Kovarianz 1 var[X] = E[r2 ] − (E[X])2 2 cov[X1 , X2 ] = E[X1 X2 ] − E[X1 ] · E[X2 ] 3 var[aX + b] = a2 var[X] 4 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 5 var[a1 X1 + a2 X2 ] = a21 var[X1 ] + a22 var[X2 ] + 2a1 a2 cov[X1 , X2 ] " n # n X n X X var Xi = cov[Xi , Xj ] = i=1 n X i=1 i=1 j=1 var[Xi ] + 2 n n X X cov[Xi , Xj ] i=1 j=i+1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 251/584 R. Frühwirth Statistik 252/584 Varianz Varianz Statistik Statistik Für unabhängige Zufallsgrößen gilt: R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth 1 X1 , X2 unabhängig =⇒ cov[X1 , X2 ] = 0 2 X1 , . . . , Xn unabhängig: " n # n X X var Xi = var[Xi ] i=1 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen i=1 Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ist |ρij | = 1, so sind Xi und Xj linear abhängig. R. Frühwirth Statistik 254/584 Varianz Statistik Mehrdimensionale Zufallsvariable −1 ≤ ρij ≤ 1 2 253/584 Varianz Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 1 Erwartung Varianz Schiefe Rechnen mit Verteilungen Eindimensionale Zufallsvariable Eigenschaften des Korrelationskoeffizienten Momente Erwartung Varianz Schiefe R. Frühwirth Definition (Korrelationskoeffizient) σij heißt der Korrelationskoeffizient von Xi Die Größe ρij = σi σj und Xj . Statistik Die Varianz von diskreten Zufallsvariablen R. Frühwirth n2 −1 12 Gleichvt. Gl(n) Alternativvt. Al(p) Binomialvt. Bi(n, p) var[X] = var[X] = p(1 − p) var[X] = np(1 − p) Negative Binomialvt. Nb(r, p) Poissonvt. Po(λ) Hypergeom. Vt. Hy(N, M, n) var[X] = r(1−p) p var[X] = λ −n)(N −M ) var[X] = nM (N N 2 (N −1) Multinomialvt. Mu(n, p1 , . . . , pd ) cov[Xi , Xj ] = δij npi − npi pj Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable 2 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 255/584 Die Varianz von stetigen Zufallsvariablen 2 Gleichverteilung Un(a, b) Exponentialverteilung Ex(τ ) Normalverteilung No(µ, σ 2 ) Normalverteilung No(µ, V) Gammaverteilung Ga(a, b) Betaverteilung Beta(a, b) var[X] = (b−a) 12 var[X] = τ 2 var[X] = σ 2 Cov[X] = V var[X] = ab2 var[X] = (a+b)2ab (a+b+1) χ2 -Verteilung χ2 (n) t-Verteilung t(n) var[X] = 2 n n ,n > 2 var[X] = n−2 F-Verteilung F(n, m) var[X] = R. Frühwirth Statistik 2m2 (n+m−2) n(m−2)2 (m−4) , m >4 256/584 Unterabschnitt: Schiefe Schiefe Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik ∞ Z 0 (t − τ )3 −t/τ e dt = 2τ 3 τ Die Schiefe ist daher gleich γ = 2. 257/584 R. Frühwirth Statistik 258/584 Abschnitt 12: Rechnen mit Verteilungen Statistik Mehrdimensionale Zufallsvariable µ3 = E[(X − E[X])3 ] = Erwartung Varianz Schiefe Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Die Schiefe der Exponentialverteilung) Momente R. Frühwirth Eindimensionale Zufallsvariable Die Schiefe misst die Asymmetrie einer Verteilung. Ist die Schiefe positiv (negativ), heißt die Verteilung rechtsschief (linksschief). Für symmetrische Verteilungen ist sie 0. Grundbegriffe Randverteilungen und bedingte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Das reduzierte dritte zentrale Moment γ = µ3 /σ 3 heißt die Schiefe. Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Schiefe) Statistik Beispiel (Die Schiefe der Gammaverteilung) R. Frühwirth ∞ (x − ab)3 a−1 −x/b x e dx = 2ab3 ba Γ(a) 0 √ Die Schiefe ist daher gleich γ = 2/ a und strebt für a → ∞ gegen 0. µ3 = E[(X − E[X])3 ] = Z Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 259/584 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable R. Frühwirth Statistik 260/584 Unterabschnitt: Faltung und Messfehler Faltung und Messfehler Statistik Statistik R. Frühwirth R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen R. Frühwirth Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 261/584 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe −∞ R. Frühwirth Statistik 262/584 Statistik Die Dichte g wird als Faltungsprodukt von f1 und f2 bezeichnet: g = f1 ∗ f2 . R. Frühwirth Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Satz Sind X1 und X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Dichte f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ), so hat ihre Summe X = X1 + X2 die Dichte Z ∞ f1 (x − x2 ) · f2 (x2 ) dx2 = g(x) = −∞ Z ∞ = f1 (x1 ) · f2 (x − x1 ) dx1 Faltung und Messfehler Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Es seien X1 und X2 zwei unabhängige Zufallsvariablen. Die Summe X = X1 + X2 heißt die Faltung von X1 und X2 . Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler R. Frühwirth Definition (Faltung) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Faltung von zwei Exponentialverteilungen) Es seien X1 und X2 exponentialverteilt gemäß Eτ . Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(t) = f1 (t − t2 )f2 (t2 ) dt2 = Z Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen −∞ t = 0 = Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 1 (t2 −t)/τ −t2 /τ e e dt2 = τ2 1 −t/τ te τ2 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 263/584 Beispiel (Faltung von zwei Gleichverteilungen) Es seien X1 und X2 gleichverteilt im Intervall [0, 1]. Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(x) = f1 (x − x2 )f2 (x2 ) dx2 −∞ Das Produkt der Dichten ist nur ungleich 0, wenn 0 ≤ x − x2 ≤ 1 und 0 ≤ x2 ≤ 1 gilt. Die effektiven Integrationsgrenzen sind daher xmin = max(0, x − 1) und xmax = min(x, 1). Ist 0 ≤ x ≤ 1, ist xmin = 0 und xmax = x; ist 1 ≤ x ≤ 2, ist xmin = x − 1 und xmax = 1. Die Dichte g(x) lautet daher: wenn 0 ≤ x ≤ 1 x, g(x) = 2 − x, wenn 1 ≤ x ≤ 2 0, sonst Die Summenverteilung heißt Dreiecksverteilung. R. Frühwirth Statistik 264/584 Faltung und Messfehler Faltung und Messfehler Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Statistik Zwei Eigenschaften der Normalverteilung 1 2 R. Frühwirth Die Faltung zweier Normalverteilungen ist wieder eine Normalverteilung. Eindimensionale Zufallsvariable Ist die Faltung von zwei Verteilungen eine Normalverteilung, so sind auch die beiden Summanden Normalverteilungen. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 265/584 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Im günstigsten Fall hängt b nur von der Differenz x0 − x ab, oder eine weitere explizite Abhängigkeit von x ist vernachlässigbar. Dann wird aus dem Integral ein Faltungsintegral. Dies ist genau dann der Fall, wenn der Messfehler und die Messung unabhängig sind. Statistik 266/584 Statistik Die Faltung von zwei Zufallsvariablen X1 und X2 kann auch mit Hilfe ihrer charakteristischen Funktionen berechnet werden. R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Definition (Charakteristische Funktion) Es sei X eine Zufallsvariable. Die charakteristische Funktion von X ist definiert durch: ϕX (t) = E[ exp(itX) ], t ∈ R Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel (Faltung von zwei Poissonverteilungen) Es seien X1 und X2 Poisson-verteilt gemäß Po(λ1 ) bzw. Po(λ2 ). Die charakteristische Funktion von Xi lautet: ϕXi (t) = ∞ X eikt λki e−λi = exp[λi (eit − 1)] k! k=0 Die charakteristische Funktion von X = X1 + X2 ist daher gleich ϕX (t) = exp[λ1 (eit − 1)] exp[λ2 (eit − 1)] = exp[(λ1 + λ2 )(eit − 1)] X ist also Poisson-verteilt gemäß Po(λ) mit λ = λ1 + λ2 . Momente Satz Ist X = X1 + X2 die Faltung von X1 und X2 , so gilt: Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze −∞ −∞ Faltung und Messfehler Statistik Eindimensionale Zufallsvariable Es wird eine Zufallsgröße X beobachtet. Der Messfehler wird durch eine bedingte Dichte b(x0 |x) beschrieben, die die Wahrscheinlichkeit angibt, dass x0 bei der Messung registriert wird, wenn X den Wert x annimmt. Für die gemessene Verteilung gilt dann: Z ∞ Z ∞ f (x0 , x) dx b(x0 |x)f (x) dx = fM (x0 ) = R. Frühwirth Faltung und Messfehler R. Frühwirth Beispiel (Der Messfehler) Rechnen mit Verteilungen ϕX (t) = ϕX1 (t) · ϕX2 (t) R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 267/584 R. Frühwirth Statistik 268/584 Faltung und Messfehler Faltung und Messfehler Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik 2 Beispiel (Faltung von zwei χ -Verteilungen) 2 Es seien X1 und X2 χ -verteilt mit n1 bzw. n2 Freiheitsgraden. Die charakteristische Funktion von Xi lautet: ϕXi (t) = Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente 1 (1 − 2it)ni /2 ϕX (t) = Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable X ist also χ2 -verteilt mit n = n1 + n2 Freiheitsgraden. Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik R. Frühwirth 269/584 Unterabschnitt: Fehlerfortpflanzung, Transformation von Dichten Statistik Statistik R. Frühwirth 8 Eindimensionale Zufallsvariable Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Es sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und H eine m × n - Matrix. Dann ist Y = (Y1 , . . . Ym ) = HX — wie jede deterministische Funktion einer Zufallsvariablen — wieder eine Zufallsvariable. Wie ist Y verteilt? Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik 270/584 Im folgenden Abschnitt sollen Linearkombinationen von — nicht notwendig unabhängigen — Zufallsvariablen betrachtet werden. Wichtige Verteilungen R. Frühwirth Statistik Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ist die Faltung von zwei Verteilungen eine Normalverteilung, so sind auch die beiden Summanden Normalverteilungen. Momente Rechnen mit Verteilungen Wichtige Verteilungen 2 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Randverteilungen und bedingte Verteilungen Die Faltung zweier Normalverteilungen ist wieder eine Normalverteilung. Wichtige Verteilungen 1 1 = (1 − 2it)n1 /2 (1 − 2it)n2 /2 (1 − 2it)(n1 +n2 )/2 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable 1 Grundbegriffe Randverteilungen und bedingte Verteilungen Erwartung Varianz Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Zwei Eigenschaften der Normalverteilung Mehrdimensionale Zufallsvariable Die charakteristische Funktion von X = X1 + X2 ist daher gleich Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Es gilt exakt: Lineare Transformation von Erwartung und Varianz 1 E[Y ] ≈ H · E[X] 2 Cov[Y ] ≈ H · Cov[X] · HT Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 271/584 R. Frühwirth Statistik 272/584 Fehlerfortpflanzung, Transformation von Dichten Fehlerfortpflanzung, Transformation von Dichten Statistik Statistik Es soll nun statt der linearen Abbildung H eine allgemeine Funktion h = (h1 , . . . , hm ) betrachtet werden. R. Frühwirth Eindimensionale Zufallsvariable Es wird angenommen, dass h in jenem Bereich, in dem die Dichte von X signifikant von 0 verschieden ist, genügend gut durch eine lineare Funktion angenähert werden kann. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Entwickelt man h an der Stelle E[X], so gilt in 1. Näherung: Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Lineare Fehlerfortpflanzung 1 2 R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable R. Frühwirth R. Frühwirth Es sei X eine d-dimensionale Zufallsvariable mit Dichte fX (x) und Y = AX + b. Ist A regulär, ist die Dichte von Y gegeben durch: fY (y) = fX (A−1 (y − b)) · Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 1 |A| Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik 274/584 Statistik Beispiel (Transformation unter einer affinen Abbildung) Mehrdimensionale Zufallsvariable Wichtige Verteilungen ∂g fY (y1 , . . . , yd ) = fX (g(y1 , . . . , yd )) · ∂y ∂g wobei der Betrag der Funktionaldeterminante ist. ∂y Fehlerfortpflanzung, Transformation von Dichten Statistik Eindimensionale Zufallsvariable Transformation der Dichte 273/584 Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth Es sei X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable mit der Dichte fX (x1 , . . . , xd ), h eine umkehrbare Abbildung h : Rd → Rd , g die Umkehrfunktion von h, Y = h(X) und fY (y1 , . . . , yd ) die Dichte von Y . Dann gilt: Wichtige Verteilungen E[Y ] = h(E[X]) T ∂h ∂h Cov[Y ] = · Cov[X] · ∂x ∂x R. Frühwirth Ist h = (h1 , . . . , hn ) eine umkehrbar eindeutige Abbildung h : Rn → Rn , so läßt sich die Dichte von Y = (Y1 , . . . , Yn ) = h(X1 , . . . , Xn ) berechnen. Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Transformation mit der Verteilungsfunktion) Wichtige Verteilungen Es sei X eine stetige Zufallsvariable mit der Dichte f (x) und der Verteilungsfunktion F (x), und Y = F (X). Dann ist die Dichte von Y gegeben durch: dF −1 = f (x)/f (x) = 1 g(y) = f (x) · dy Statistik Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Y ist also gleichverteilt im Intervall [0, 1]. Y wird als p-Wert (probability transform) von X bezeichnet. R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 275/584 Beispiel (Transformation mit der inversen Verteilungsfunktion) Es sei U gleichverteilt im Intervall [0, 1], F (x) (f (x)) die Verteilungsfunktion (Dichtefunktion) einer stetigen Verteilung, und X = F −1 (U ). Dann ist die Dichte von X gegeben durch: dF = f (x) g(x) = 1 · dx X ist also verteilt mit der Verteilungsfunktion F und der Dichte f . Beispiel Es sei X gleichverteilt im Intervall [0, 1] und Y = − ln(X). Dann ist g(y) = exp(−y) und dg = e−y fY (y) = fX (exp(−y)) · dy Y ist daher exponentialverteilt mit τ = 1. R. Frühwirth Statistik 276/584 Fehlerfortpflanzung, Transformation von Dichten Unterabschnitt: Systematische Fehler Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Beispiel (Der Kehrwert einer gammaverteilten Zufallsvariablen) Es sei X Gammaverteilt gemäß Ga(a, b). Wir suchen die Verteilung von Y = 1/X. Es gilt: (1/y)a+1 e−b/x 1 fY (y) = fX (1/y) · 2 = y ba Γ(a) R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Verteilung von Y wird als inverse Gammaverteilung IG(a, b) bezeichnet. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 278/584 Systematische Fehler Statistik Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable 277/584 Systematische Fehler R. Frühwirth 8 Eindimensionale Zufallsvariable Statistik Kann der Messfehler durch eine Zufallsvariable mit Mittel 0 beschrieben werden, hat die Messung nur einen statistischen Fehler. Die Messung kann jedoch durch eine falsche Kalibration (z.B. Skalenfehler oder Nullpunktfehler) des Messgeräts verfälscht sein. Solche Fehler werden systematische Fehler genannt. Systematische Fehler werden durch Vergrößerung der Stichprobe nicht kleiner! Das Gesetz der Fehlerfortpflanzung gilt nicht für systematische Fehler! Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Die Korrektur von systematischen Fehlern erfordert solgfältige Kalibaration der Messaparatur, Überprüfung von theoretischen Annahmen, etc. R. Frühwirth R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel Wir messen zwei Spannungen U1 , U2 mit dem gleichen Messgerät. Durch fehlerhafte Kalibration misst das Gerät statt der wahren Spannung U die Spannung Um = aU + b + ε, mit a = 0.99, b = 0.05, σ[ε] = 0.03 V. Der Mittelwert Ū der beiden Spannungen hat dann einen statistischen Fehler von 0.02 V. Der systematische Fehler des Mittelwerts wird beschrieben durch Ūm = aŪ + b, ist also der der Einzelmessung. Der systematische Fehler der Differenz ∆U wird beschrieben durch ∆Um = a∆U . Der Nullpunktfehler ist verschwunden. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 279/584 R. Frühwirth Statistik 280/584 Unterabschnitt: Grenzverteilungssätze Grenzverteilungssätze Statistik Statistik R. Frühwirth R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Sn = n X Xi , Un = i=1 Sn − E[Sn ] Sn − nµ = √ σ[Sn ] n·σ so ist U = limn→∞ Un standardnormalverteilt. Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 281/584 R. Frühwirth Statistik 282/584 Grenzverteilungssätze Statistik Eindimensionale Zufallsvariable Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen, die die gleiche Verteilung besitzen, mit endlicher Erwartung µ und endlicher Varianz σ 2 . Definiert man Sn und Un durch: Momente Grenzverteilungssätze R. Frühwirth Zentraler Grenzwertsatz für identisch verteilte Folgen von Zufallsvariablen Statistik Zentraler Grenzwertsatz für beliebig verteilte Folgen von Zufallsvariablen R. Frühwirth Eindimensionale Zufallsvariable Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen mit beliebigen Verteilungen. µi = E[Xi ] und σi2 = var[Xi ] seien endlich für alle i ∈ N. Definiert man für jedes n ∈ N Ui und Yn durch: Xi − µi , Yn = Ui = √ nσi n X Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen i=1 Beispiel (Binomialverteilung für großes n) Da eine gemäß Bi(n, p) verteilte Zufallsvariable als Summe von n alternativverteilten Zufallsvariablen dargestellt werden kann, muss die Binomialverteilung für n → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Binomialverteilung Bi(n, p) mit n = 200 und p = 0.1, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = np = 20 und σ 2 = np(1 − p) = 18. Momente Der zentrale Grenzwertsatz erklärt, warum die Normalverteilung in der Natur eine so bedeutende Rolle spielt, etwa bei der Verteilung der Impulskomponenten von Gasmolekülen, die das Ergebnis von zahlreichen Stößen ist. Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Ui so ist Y = limn→∞ Yn standardnormalverteilt. R. Frühwirth Auch bei relativ kleinem n ist die Normalverteilung of eine gute Näherung für die Summe von Zufallsvariablen. 283/584 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 284/584 Grenzverteilungssätze Grenzverteilungssätze Statistik Statistik R. Frühwirth Eindimensionale Zufallsvariable Bi(200,0.1) No(20,18) 0.9 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.8 0.7 Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 0.6 F(x) Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth 1 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.5 Wichtige Verteilungen Beispiel (Poissonverteilung für großes n) Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P (1)-verteilten Zufallsvariablen dargestellt werden kann, muss die Poissonverteilung für λ → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Poissonverteilung Po(λ) mit λ = 25, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = 25. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.4 0.3 0.2 Momente Erwartung Varianz Schiefe Momente Erwartung Varianz Schiefe 0.1 0 Rechnen mit Verteilungen 0 5 10 15 20 x Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 25 30 35 40 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 285/584 R. Frühwirth Statistik 286/584 Grenzverteilungssätze Statistik Statistik R. Frühwirth R. Frühwirth 1 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.8 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer F(x) 0.6 0.5 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Teil 4 0.7 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Po(25) N(25,25) 0.9 0.4 0.3 Intervallschätzer 0.2 0.1 0 Schätzen von Parametern 0 5 10 15 20 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 25 x 30 35 40 45 50 287/584 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 288/584 Abschnitt 13: Stichprobenfunktionen Übersicht Teil 4 Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik Punktschätzer 15 Intervallschätzer R. Frühwirth 289/584 Unterabschnitt: Grundbegriffe Statistik 290/584 Grundbegriffe Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen X1 , . . . , Xn seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. Stichprobenfunktionen 13 Punktschätzer 14 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Intervallschätzer 15 Eine Zufallsvariable Y = h(X1 , . . . , Xn ) heißt eine Stichprobenfunktion. In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer R. Frühwirth Sie bilden dann eine zufällige Stichprobe der Verteilung F . Punktschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 14 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Intervallschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Statistik 291/584 R. Frühwirth Statistik 292/584 Unterabschnitt: Stichprobenmittel Stichprobenmittel Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 14 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer R. Frühwirth Statistik 1 E[X] = µ 2 var[X] = 3 σ2 n Ist F eine Normalverteilung, so ist X normalverteilt. R. Frühwirth Statistik 294/584 Statistik Zentraler Grenzwertsatz 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F das Mittel µ und die Varianz σ 2 , gilt: Unterabschnitt: Stichprobenvarianz Statistik Stichprobenfunktionen Momente des Stichprobenmittels 293/584 Stichprobenmittel R. Frühwirth Das Stichprobenmittel X der Stichprobe X1 , . . . , Xn ist definiert durch n 1X X= Xi n i=1 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer 15 Definition (Stichprobenmittel) R. Frühwirth Hat F das Mittel µ und die Varianz σ 2 , so konvergiert die Verteilung von X −µ √ U= σ/ n gegen die Standardnormalverteilung. 2 Ist F eine Normalverteilung, ist U für alle n standardnormalverteilt. Intervallschätzer Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 295/584 R. Frühwirth Statistik 296/584 Stichprobenvarianz Stichprobenvarianz Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Statistik Definition (Stichprobenvarianz) R. Frühwirth 2 Stichprobenfunktionen Die Stichprobenvarianz S der Stichprobe X1 , . . . , Xn ist definiert durch n 1 X S2 = (Xi − X)2 n − 1 i=1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F die Varianz σ 2 , gilt: Intervallschätzer 2 E[S ] = σ R. Frühwirth Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2 Statistik Statistik R. Frühwirth Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen 14 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer 15 2 X und S 2 sind unabhängig. 3 Die Varianz von S 2 ist gegeben durch var[S 2 ] = 4 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer Statistik Die Größe X −µ √ S/ n T = ist t-verteilt mit n − 1 Freiheitsgraden. Statistik 298/584 Definition (Stichprobenmedian) Der Stichprobenmedian X̃ der Stichprobe X1 , . . . , Xn ist definiert durch X((n+1)/2) , n ungerade X̃ = 1 X (n/2) + X(n/2+1) , n gerade 2 Momente des Stichprobenmedians Hat F den Median m und die Dichte f , gilt: 1 299/584 lim E[X̃] = m n→∞ 2 lim var[X̃] = n→∞ 3 R. Frühwirth 2σ 4 n−1 Stichprobenmedian Statistik Punktschätzer (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. R. Frühwirth R. Frühwirth 13 1 297/584 Unterabschnitt: Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Ist F eine Normalverteilung mit Mittel µ und Varianz σ 2 , so gilt: Punktschätzer Erwartung der Stichprobenvarianz Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Satz 1 , 4 nf 2 (m) wenn f (m) > 0 X̃ ist asymptotisch normalverteilt. R. Frühwirth Statistik 300/584 Abschnitt 14: Punktschätzer Unterabschnitt: Eigenschaften von Punktschätzern Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen 13 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer 301/584 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer Statistik 302/584 Statistik Ein Punktschätzer ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian T = g(X1 , . . . , Xn ) Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 15 Eigenschaften von Punktschätzern Statistik Stichprobenfunktionen Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer R. Frühwirth Eigenschaften von Punktschätzern R. Frühwirth 14 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer R. Frühwirth 13 Definition (Erwartungstreue) Ein Punktschätzer T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: Eϑ [T ] = ϑ Punktschätzer Die Funktion g(x1 , . . . , xn ) wird die Schätzfunktion genannt. Die Konstruktion von sinnvollen Punktschätzern für einen Parameter ϑ ist Aufgabe der Schätztheorie. Für einen Parameter ϑ sind viele Punktschätzer möglich. Ein guter“ Punktschätzer sollte jedoch gewisse Anforderungen ” erfüllen. R. Frühwirth Statistik 303/584 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer T heißt asymptotisch erwartungstreu, wenn gilt: lim Eϑ [T ] = ϑ n→∞ Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des Punktschätzers gleich ϑ. Ein erwartungstreuer Punktschätzer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. R. Frühwirth Statistik 304/584 Eigenschaften von Punktschätzern Eigenschaften von Punktschätzern Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Definition (MSE) R. Frühwirth Die mittlere quadratische Abweichung (mean squared error, MSE) eines Punktschätzers T für den Parameter ϑ ist definiert durch: MSE[T ] = Eϑ [(T − ϑ)2 ] Definition (MSE-Konsistenz) Ein Punktschätzer T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: lim MSE[T ] = 0 n→∞ R. Frühwirth Statistik Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung MSE[T1 ] ≤ MSE[T2 ] Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Definition (Effizienz) Ein erwartungstreuer Punktschätzer T1 heißt effizienter als der erwartungstreue Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: var[T1 ] ≤ var[T2 ] Ein erwartungstreuer Punktschätzer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. 305/584 R. Frühwirth Statistik 306/584 Eigenschaften von Punktschätzern Statistik Stichprobenfunktionen Ein Punktschätzer T1 heißt MSE-effizienter als der Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: Punktschätzer Eigenschaften von Punktschätzern R. Frühwirth Definition (MSE-Effizienz) Statistik Definition (Fisher-Information) R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Erwartung 2 ∂ ln g(X1 , . . . , Xn |ϑ) Iϑ = E − ∂ϑ2 heißt die Fisher-Information der Stichprobe. Satz von Rao und Cramèr Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Varianz eines erwartungstreuen Schätzers T für den Parameter ϑ ist nach unten beschränkt durch: var[T ] ≥ 1/Iϑ R. Frühwirth Statistik 307/584 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte ist dann gleich ! n X 1 g(x1 , . . . , xn |τ ) = n exp − xi /τ τ i=1 Daraus folgt: ln g(x1 , . . . , xn |τ ) = − n ln τ − ∂2 ln g(x1 , . . . , xn |τ ) = ∂τ 2 2 ∂ E ln g(X , . . . , X |τ ) = 1 n ∂τ 2 R. Frühwirth Statistik n X xi /τ i=1 P 2 n i=1 τ3 xi n − τ2 n 2 nτ n − 3 −=− 2 τ2 τ τ 308/584 Eigenschaften von Punktschätzern Unterabschnitt: Schätzung des Mittelwerts Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel (Fortsetzung) R. Frühwirth Stichprobenfunktionen Die Information ist also gleich Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n Iτ = 2 τ Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Für jeden erwartungstreuen Schätzer T von τ gilt folglich: var[T ] ≥ τ2 n Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer R. Frühwirth Statistik 310/584 Statistik Satz 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer 15 Schätzung des Mittelwerts Statistik Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 309/584 Schätzung des Mittelwerts Punktschätzer 14 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer R. Frühwirth 13 2 R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das Stichprobenmittel X ein erwartungstreuer Punktschätzer von µ. Hat F die endliche Varianz σ 2 , so ist X MSE-konsistent. Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich Iµ = n/σ 2 ist, ist X effizient für µ. Beispiel Ist F die Exponentialverteilung Ex(τ ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich Iτ = n/τ 2 ist, ist X effizient für τ . R. Frühwirth Statistik 311/584 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Ist F die Poissonverteilung Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich Iλ = n/λ ist, ist X effizient für λ. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p(1 − p)/n. Da die Fisher-Information für p gleich Ip = n/[p(1 − p)] ist, ist X effizient für p. Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 312/584 Unterabschnitt: Schätzung der Varianz Schätzung der Varianz Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 15 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 3 In diesem Fall ist S 2 MSE-konsistent. R. Frühwirth Statistik 314/584 Unterabschnitt: Schätzung des Medians Statistik Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Die Varianz von S 2 ist dann gleich var(S 2 ) = 2σ 4 n−1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Fisher-Information für σ 2 ist gleich Iσ2 = Stichprobenfunktionen Punktschätzer n 2σ 4 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung µ4 (n − 3)µ22 − n n(n − 1) R. Frühwirth Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F das endliche vierte zentrale Moment µ4 , so ist var(S 2 ) = 313/584 Statistik Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 2 Intervallschätzer Schätzung der Varianz Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2 . Dann ist die Stichprobenvarianz S 2 ein erwartungstreuer Punktschätzer von σ 2 . Punktschätzer Intervallschätzer Statistik 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth R. Frühwirth Satz Stichprobenfunktionen Intervallschätzer S 2 ist also ein asymptotisch effizienter Punktschätzer für σ 2 . R. Frühwirth Statistik Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 315/584 R. Frühwirth Statistik 316/584 Schätzung des Medians Schätzung des Medians Statistik R. Frühwirth Stichprobenfunktionen Statistik Satz 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f . Dann ist der Stichprobenmedian X̃ ein asymptotisch erwartungstreuer Punktschätzer von m. 2 Für symmetrisches F ist X̃ erwartungstreu. 3 Der Stichprobenmedian X̃ hat asymptotisch die Varianz Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 4 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Statistik Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer σ2 n Die Varianz von X̃ ist für großes n gleich var(X̃) = 2 πσ 2 σ2 ≈ 1.57 4n n Sie ist also um mehr als 50 Prozent größer als die Varianz von X. R. Frühwirth Statistik 318/584 Unterabschnitt: Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen var(X) = 317/584 Schätzung des Medians R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die Varianz von X ist gleich Intervallschätzer Der Stichprobenmedian ist MSE-konsistent, sofern f (m) > 0. R. Frühwirth Beispiel Punktschätzer 1 var(X̃) ≈ 4nf (m)2 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Statistik Beispiel R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der t-Verteilung t(3). Die Varianz von X ist gleich 3 var(X) = n Die Varianz von X̃ ist für großes n gleich var(X̃) = Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer 1 1.8506 3 = ≈ 0.62 4 nf (0)2 n n Sie ist also fast um 40 Prozent kleiner als die Varianz von X. 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth 13 319/584 R. Frühwirth Statistik 320/584 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Statistik Definition (ML-Schätzer) 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Funktion Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian L(ϑ|X1 , . . . , Xn ) = g(X1 , . . . , Xn |ϑ) Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth Punktschätzer heißt die Likelihoodfunktion der Stichprobe. 2 Der plausible oder Maximum-Likelihood-Schätzer ϑ̂ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion `(ϑ) = ln L(ϑ) maximiert. R. Frühwirth Statistik Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n Y pxi (1 − p)1−xi = p P xi P (1 − p)n− xi i=1 Die Log-Likelihoodfunktion ist daher: `(p) = n X Xi ln p + n− i=1 n X ! Xi ln(1 − p) i=1 Ableiten nach p ergibt: n ∂`(p) 1X 1 = Xi − ∂p p i=1 1−p n− n X ! Xi i=1 Statistik 322/584 Statistik Beispiel (Fortsetzung) R. Frühwirth Stichprobenfunktionen Nullsetzen der Ableitung und Auflösen nach p ergibt: p̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer g(x1 , . . . , xn |p) = Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: R. Frühwirth 321/584 Maximum-Likelihood-Schätzer R. Frühwirth Beispiel (ML-Schätzung eines Bernoulli-Parameters) Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n 1X Xi = X n i=1 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Der ML-Schätzer ist unverzerrt und effizient. Intervallschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 323/584 Beispiel (ML-Schätzung eines Poisson-Parameters) Es sei X1 , . . . , Xn eine Stichprobe aus der Poissonverteilung Po(λ). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |λ) = n Y λxi e−λ xi ! i=1 Die Log-Likelihoodfunktion ist daher: `(λ) = n X [Xi ln λ − λ − ln(xi !)] i=1 Ableiten nach λ ergibt: n ∂`(λ) 1X = Xi − n ∂λ λ i=1 R. Frühwirth Statistik 324/584 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel (Fortsetzung) R. Frühwirth λ̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen Nullsetzen der Ableitung und Auflösen nach λ ergibt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n 1X Xi = X n i=1 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Der ML-Schätzer ist unverzerrt und effizient. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik `(τ ) = n n X 1X [− ln τ − Xi ] τ i=1 i=1 Ableiten nach τ ergibt: n ∂`(τ ) n 1 X =− + 2 Xi ∂τ τ τ i=1 R. Frühwirth Statistik 326/584 Maximum-Likelihood-Schätzer Statistik Statistik Beispiel (Fortsetzung) R. Frühwirth Stichprobenfunktionen Nullsetzen der Ableitung und Auflösen nach τ ergibt: τ̂ = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n Y e−xi /τ τ i=1 Die Log-Likelihoodfunktion ist daher: 325/584 Maximum-Likelihood-Schätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian g(x1 , . . . , xn |τ ) = Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte lautet: Punktschätzer Intervallschätzer R. Frühwirth Beispiel (ML-Schätzung einer mittleren Lebensdauer) Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n 1X Xi = X n i=1 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Der ML-Schätzer ist unverzerrt und effizient. Intervallschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 327/584 Beispiel (ML-Schätzung der Parameter einer Normalverteilung) Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |µ, σ 2 ) = n Y i=1 (xi − µ)2 1 √ exp − 2 σ2 2πσ Die Log-Likelihoodfunktion ist daher: n X √ (xi − µ)2 1 `(µ, σ 2 ) = − ln 2π − ln σ 2 − 2 2 σ2 i=1 Ableiten nach µ und σ 2 ergibt: n X xi − µ ∂`(µ, σ 2 ) = , ∂µ σ2 i=1 R. Frühwirth n X ∂`(µ, σ 2 ) (xi − µ)2 1 = − + ∂σ 2 2 σ2 2 σ4 i=1 Statistik 328/584 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel (Fortsetzung) Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: Intervallschätzer 1 σ̂ = n 2 n X Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 2 Der ML-Schätzer von µ ist unverzerrt und effizient. Der ML-Schätzer von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik 330/584 Statistik Beispiel (Schätzung des Parameters a einer Gammaverteilung) f (xi |a) = xa−1 e−xi i , Γ(a) Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian i = 1, . . . , n Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Der (unbekannte) wahre Wert von a ist aw = 2. Die Log-Likelihoodfunktion lautet ln L(a|x) = n X ln f (xi |a) = (a − 1) i=1 R. Frühwirth n X i=1 Statistik ln xi − n X R. Frühwirth Stichprobenfunktionen Die Stichprobe X1 , . . . , Xn besteht aus n = 200 Werten, die unabhängig aus einer Γa,1 -Verteilung gezogen werden: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Wird L(ϑ) normiert, so entsteht die Dichte“ einer ” 2 Normalverteilung mit Mittel ϑ̂ und Varianz σn , also gerade P die Varianz der Schätzung ϑ̂ = n1 xi . Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen Ist des geschätzte Parameter ϑ das Mittel einer Normalverteilung, so ist diese Vorgangsweise für beliebiges n exakt: 1 1X n 2 2 L(ϑ) = (xi − ϑ̂) √ n exp − 2 (ϑ̂ − ϑ) + 2σ n σn 2 π R. Frühwirth 329/584 Maximum-Likelihood-Schätzer R. Frühwirth Für großes n kann man die Varianz der Likelihoodschätzung ϑ̂ daher aus dem zweiten zentralen Moment der normierten Likelihoodfunktion ablesen. Punktschätzer n−1 2 (Xi − X) = S n i=1 R. Frühwirth Die normierte Likelihoodfunktion kann als a-posteriori Verteilung des geschätzten Parameters interpretiert werden. Stichprobenfunktionen n 1X µ̂ = Xi = X n i=1 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth xi − n ln Γ(a) i=1 331/584 Beispiel (Fortsetzung) Numerische Maximierung von ln L(a) gibt die Maximum Likelihood-Schätzung â. Das Experiment wird N -mal wiederholt und die Schätzungen der einzelnen Experimente (â(k) , k = 1, . . . , N ) werden histogrammiert. Der Vergleich der individuellen (normierten) Likelihoodfunktion mit dem Histogramm (N = 500) zeigt gute Übereinstimmung der Standardabweichungen. Matlab: make ML gamma Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 332/584 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Stichprobenfunktionen 0.9 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Histogram: σ=0.08575 0.8 LF: σ=0.08502 0.7 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.6 0.5 0.4 0.3 0.1 1.6 1.7 1.8 R. Frühwirth 1.9 2 2.1 2.2 2.3 2.4 Statistik 2.5 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 333/584 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (ML-Schätzung des Lageparameters einer Cauchyverteilung) R. Frühwirth Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Cauchyverteilung t(1) mit Lageparameter µ. Die gemeinsame Dichte lautet: n Y g(x1 , . . . , xn |µ) = i=1 Der Likelihoodschätzer ϑ̂ ist (unter den selben Voraussetzungen) konsistent. Statistik 334/584 `(µ) = −n ln π − n X Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (Fortsetzung) Man kann zeigen, dass die Fisherinformation der Stichprobe gleich Iµ = n 2 Punktschätzer 1 π[1 + (xi − µ)2 ] Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Log-Likelihoodfunktion ist daher: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Satz Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Daraus folgt sofort die nächste Eigenschaft: Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information Ig (ϑ) für alle ϑ und ist E [(ln L)0 ] = 0, so ist die Likelihoodschätzung ϑ̂ asymptotisch normalverteilt mit Mittel ϑ und Varianz 1/Ig (ϑ). ϑ̂ ist daher asymptotisch erwartungstreu und asymptotisch effizient. R. Frühwirth Maximum-Likelihood-Schätzer R. Frühwirth Satz Intervallschätzer 0.2 0 1.5 Der ML-Schätzer hat die folgende wichtige Eigenschaft: R. Frühwirth 1 Intervallschätzer ln[1 + (xi − µ)2 ] ist. Für große Stichproben muss daher die Varianz des ML-Schätzers µ̂ ungefähr gleich 2/n sein. Der Stichprobenmedian x̃ ist ebenfalls ein konsistenter Schätzer für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) ≈ 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-Schätzers. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung i=1 Das Maximum µ̂ von `(µ) muss numerisch gefunden werden. Matlab: make ML cauchy R. Frühwirth Statistik 335/584 R. Frühwirth Statistik 336/584 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 1400 R. Frühwirth Stichprobenfunktionen 1500 1200 µ=0.9998 µ=1.001 σ=0.1588 σ=0.1435 1000 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 1000 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 600 500 Intervallschätzer 200 0 0 0.5 1 1.5 Stichprobenmedian 0 0 2 0.5 1 1.5 ML−Schätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2 Die Korrelation zwischen x̃ und µ̂ ist etwa 90%. R. Frühwirth Statistik 337/584 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 3.5 −5 3 −10 2.5 −15 2 −20 1.5 −25 1 −30 0.5 −35 0 0.5 1 µ 1.5 0 0 2 σ=0.1314 0.5 1 µ Statistik 1.5 2 338/584 Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen Normierte Likelihoodfunktion 0 R. Frühwirth Maximum-Likelihood-Schätzer R. Frühwirth Log−Likelihoodfunktion Punktschätzer 800 400 Die Standardabweichung des ML-Schätzers kann wieder näherungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: log L(µ) Stichprobenfunktionen Statistik Simulation von 10000 Stichproben der Größe n = 100: L(µ) Statistik R. Frühwirth Statistik Beispiel (ML-Schätzung des Obergrenze einer Gleichverteilung) Es sei X1 , . . . , Xn eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: g(x1 , . . . , xn |b) = 1 , 0 ≤ x1 , . . . , xn ≤ b bn Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer b̂ = max Xi i Beispiel (Fortsetzung) Die Dichte von b̂ = max Xi lautet: i f (x) = nxn−1 bn Daraus können Erwartung und Varianz berechnet werden: E[b̂] = n , n+1 var[b̂] = b2 n (n + 2)(n + 1)2 Intervallschätzer Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. Statistik Stichprobenfunktionen Punktschätzer Der größte Wert der Likelihoodfunktion ist daher bei R. Frühwirth R. Frühwirth Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 339/584 Der Schätzer ist asymptotisch erwartungstreu, die Varianz geht aber wie 1/n2 gegen Null! Der Schätzer ist auch nicht asymptotisch normalverteilt. Matlab: make ML uniform R. Frühwirth Statistik 340/584 Maximum-Likelihood-Schätzer Abschnitt 15: Intervallschätzer Statistik Statistik Simulation von 10000 Stichproben (b = 1) der Größe n = 25 bzw. n = 100: R. Frühwirth Stichprobenfunktionen R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n=25 2500 Punktschätzer 7000 µ=0.9617 σ=0.03632 2000 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n=100 µ=0.9902 σ=0.009755 6000 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 4000 3000 1000 Intervallschätzer Intervallschätzer 2000 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 500 1000 0 0.8 1 ML−Schätzer R. Frühwirth 1.2 0 0.8 Statistik 1 ML−Schätzer 1.2 Statistik R. Frühwirth 14 Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik 342/584 Grundbegriffe Statistik 13 Punktschätzer R. Frühwirth R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 341/584 Unterabschnitt: Grundbegriffe Stichprobenfunktionen Stichprobenfunktionen Punktschätzer 5000 1500 13 Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. Punktschätzer 15 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 343/584 Definition (Konfidenzintervall) Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G1 = g1 (X1 , . . . , Xn ) und G2 = g2 (X1 , . . . , Xn ) heißt ein Konfidenzintervall mit Sicherheit 1 − α, wenn gilt: W (G1 ≤ G2) = 1 W (G1 ≤ ϑ ≤ G2) ≥ 1 − α Ein solches Intervall wird kurz als (1 − α)-Konfidenzintervall bezeichnet. R. Frühwirth Statistik 344/584 Grundbegriffe Unterabschnitt: Allgemeine Konstruktion nach Neyman Statistik R. Frühwirth Statistik Zu jedem Wert der Sicherheit 1 − α gibt es viele verschiedene Konfidenzintervalle. R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit 1 − α. Ist F diskret, ist die Sicherheit in der Regel größer als 1 − α. W (ϑ ≤ G1 ) = W (ϑ ≥ G2 ) Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: R. Frühwirth oder Intervallschätzer W (G1 ≤ ϑ) ≥ 1 − α Statistik Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 346/584 Statistik Es sei Y = h(X1 , . . . , Xn ) eine Stichprobenfunktion. Die Verteilung G von Y hängt dann ebenfalls vom unbekannten Parameter ϑ ab. Für jeden Wert von ϑ bestimmen wir ein Prognoseintervall [y1 (ϑ), y2 (ϑ)] vom Niveau 1 − α: R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer W (y1 (ϑ) ≤ Y ≤ y2 (ϑ)) ≥ 1 − α Ist die Beobachtung gleich Y = y0 , so ist das Konfidenzintervall [G1 (Y ), G2 (Y )] gegeben durch: Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 14 Allgemeine Konstruktion nach Neyman Statistik Stichprobenfunktionen Stichprobenfunktionen 345/584 Allgemeine Konstruktion nach Neyman R. Frühwirth 13 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: W (ϑ ≤ G2 ) ≥ 1 − α Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Es sei X1 , . . . , Xn eine Stichprobe aus No(0, σ 2 ) mit unbekannter Varianz σ. Dann ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Für Varianz σ 2 und Y = S 2 ist daher ! σ 2 χ2α/2,n−1 σ 2 χ21−α/2,n−1 2 W ≤S ≤ =1−α n−1 n−1 Der Ausdruck in der Klammer kann umgeformt werden zu: (n − 1)S 2 (n − 1)S 2 2 ≤ σ ≤ χ21−α/2,n−1 χ2α/2,n−1 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 = min{ϑ|y1 (ϑ) ≤ y0 ≤ y2 (ϑ)} ϑ G2 = max{ϑ|y1 (ϑ) ≤ y0 ≤ y2 (ϑ)} ϑ R. Frühwirth Statistik 347/584 Daraus folgt G1 = (n − 1)S 2 , χ21−α/2,n−1 R. Frühwirth Statistik G2 = (n − 1)S 2 χ2α/2,n−1 348/584 Allgemeine Konstruktion nach Neyman Unterabschnitt: Binomialverteilung Statistik Statistik 10 R. Frühwirth Stichprobenfunktionen R. Frühwirth Stichprobenfunktionen 9 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 8 7 Punktschätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 6 σ2 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 13 5 4 3 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 2 1 0 0 2 4 6 8 10 2 S Blau: Prognoseintervall für σ 2 = 3; rot: Konfidenzintervall für S 2 = 5 R. Frühwirth Statistik 349/584 R. Frühwirth Binomialverteilung Statistik Es sei k eine Beobachtung aus der Binomialverteilung Bi(n, p). Wir suchen ein Konfidenzintervall für p. R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Betaverteilung benützt werden: Stichprobenfunktionen Je nach Konstruktion des Prognoseintervalls y1 (p), y2 (p) ergeben sich verschiedene Konfidenzintervalle. Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer y1 (p), y2 (p) sind die Quantile der Binomialverteilung Bi(n, p): y1 (p) = max k y2 (p) = min k R. Frühwirth k X Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als 1 − α ist. Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung W (k; n, p) ≤ α/2 i=k Statistik G2 (k) = min(B1−α/2,k+1,n−k , 1) Intervallschätzer W (k; n, p) ≤ α/2 i=0 n X G1 (k) = max(Bα/2,k,n−k+1 , 0) Punktschätzer Intervall nach Clopper und Pearson Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 350/584 Binomialverteilung Statistik R. Frühwirth Statistik 351/584 R. Frühwirth Statistik 352/584 Binomialverteilung Binomialverteilung Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Statistik Approximation durch Normalverteilung Das Standardscore Z= Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer p̂ − p σ[p̂] Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer ist dann annähernd standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung folgt W (p̂ − z1−α/2 σ[p̂] ≤ p ≤ p̂ + z1−α/2 σ[p̂]) = 1 − α R. Frühwirth Statistik 353/584 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Robustes Verfahren: p wird so gewählt, dass σ[p̂] maximal ist, also p = 0.5. Korrektur gemäß Agresti-Coull Das Intervall nach dem Bootstrap-Verfahren kann eine kleinere Sicherheit als 1 − α haben. Eine Verbesserung wird durch die Definition p̂ = k+2 n+4 erzielt. Statistik 354/584 Binomialverteilung Statistik Stichprobenfunktionen Bootstrap-Verfahren: p wird durch p̂ angenähert. R. Frühwirth Binomialverteilung R. Frühwirth Da p nicht bekannt ist, muss σ[p̂] näherungsweise bestimmt werden. Stichprobenfunktionen Für genügend großes n ist p̂ = k/n annähernd normalverteilt gemäß No(p, p(1 − p)/n). Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik Beispiel R. Frühwirth Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 157 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervalle für den Bekanntheitsgrad p. Clopper-Pearson: G1 (k) = B0.025,157,244 = 0.3443 G2 (k) = B0.975,158,243 = 0.4423 Approximation durch Normalverteilung: Es gilt p̂ = 0.3925 und z0.975 = 1.96. Mit dem Bootstrap-Verfahren ergibt sich σ[p̂] = 0.0244. Die Grenzen des Konfidenzintervalls sind daher G1 =0.3925 − 1.96 · 0.0244 = 0.3446 G2 =0.3925 + 1.96 · 0.0244 = 0.4404 R. Frühwirth Statistik 355/584 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (Fortsetzung) Mit dem robusten Verfahren ergibt sich σ[p̂] = 0.025 und die Grenzen G1 =0.3925 − 1.96 · 0.025 = 0.3435 G2 =0.3925 + 1.96 · 0.025 = 0.4415 Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Mit der Korrektur von Agresti-Coull ergibt sich p̂ = 0.3936. Die Grenzen des Konfidenzintervalls sind dann Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 =0.3936 − 1.96 · 0.0244 = 0.3457 G2 =0.3936 + 1.96 · 0.0244 = 0.4414 Matlab: make KI binomial R. Frühwirth Statistik 356/584 Binomialverteilung Unterabschnitt: Poissonverteilung Statistik Statistik R. Frühwirth R. Frühwirth Sicherheit der Konfidenzintervalle 1 Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.95 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.9 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.85 1−α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 0.8 0.75 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.7 Clopper−Pearson Bootstrap Robust Agresti−Coull 0.65 0.6 0 0.1 0.2 R. Frühwirth 0.3 0.4 0.5 p 0.6 0.7 0.8 Statistik 0.9 1 357/584 R. Frühwirth Poissonverteilung Statistik Es sei k eine Beobachtung aus der Poissonverteilung Po(λ). Wir suchen ein Konfidenzintervall für λ. Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 358/584 Poissonverteilung Statistik R. Frühwirth Statistik R. Frühwirth Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Gammaverteilung benützt werden: Stichprobenfunktionen Je nach Konstruktion des Prognoseintervalls [y1 (λ), y2 (λ)] ergeben sich verschiedene Konfidenzintervalle. G1 (k) = Γα/2,k,1 G2 (k) = Γ1−α/2,k+1,1 Punktschätzer Symmetrisches Intervall y1 (λ), y2 (λ) sind die Quantile der Poissonverteilung Po(λ): y1 (p) = max k y2 (p) = min k R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik k X i=0 ∞ X W (k; λ) ≤ α/2 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung W (k; λ) ≤ α/2 i=k 359/584 Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als 1 − α ist. P Liegen n Beobachtungen k1 , . . . , kn vor, so ist k = ki Poissonverteilt mit Mittel nλ. Das symmetrische Konfidenzintervall für λ ist daher: G1 (k) = Γα/2,k,1/n G2 (k) = Γ1−α/2,k+1,1/n R. Frühwirth Statistik 360/584 Poissonverteilung Poissonverteilung Statistik Statistik R. Frühwirth R. Frühwirth Sicherheit des symmetrischen Konfidenzintervalls Linksseitiges Intervall 1 Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.98 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.96 0.95 0.94 Intervallschätzer k ∞ X W (k; λ) ≤ α i=k Praktische Berechnung: G1 (k) = 0, Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.92 n=1 n=5 n=25 0.91 0.9 0 10 20 30 R. Frühwirth 40 50 λ 60 70 80 90 100 Statistik G2 (k) = Γ1−α,k+1,1 Statistik R. Frühwirth Sicherheit des linksseitigen Konfidenzintervalls 1 Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.99 0.98 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.96 1−α Statistik 362/584 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Punktschätzer 0.97 0.95 0.94 Intervallschätzer Intervallschätzer 0.93 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 0.92 n=1 n=5 n=25 0.91 0.9 0 G2 (k) = Γ1−α,k+1,1/n Unterabschnitt: Exponentialverteilung Statistik Punktschätzer G1 (k) = 0, R. Frühwirth R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n Beobachtungen k1 , . . . , kn : 361/584 Poissonverteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung y2 (λ) = min Intervallschätzer 0.93 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer y1 (λ) = 0, Punktschätzer 0.97 1−α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Eine Beobachtung k: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 0.99 10 20 R. Frühwirth 30 40 Statistik 50 λ 60 70 80 90 100 363/584 R. Frühwirth Statistik 364/584 Exponentialverteilung Exponentialverteilung Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Symmetrisches Intervall für den Mittelwert Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Pn Das Stichprobenmittel X = n1 i=1 Xi hat die folgende Dichte: xn−1 x f (x) = exp − (τ /n)n Γ(n) τ /n Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung X γ1−α/2,n,1/n ≤τ ≤ X γα/2,n,1/n =1−α Damit gilt: Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 (X) = G2 (X) = 365/584 R. Frühwirth X γ1−α/2,n,1/n X γα/2,n,1/n Statistik 366/584 Unterabschnitt: Normalverteilung Statistik Stichprobenfunktionen W Intervallschätzer Exponentialverteilung R. Frühwirth und Punktschätzer X ist also Gamma-verteilt gemäß Ga(n, τ /n). Für jedes τ gilt: W γα/2,n,τ /n ≤ X ≤ γ1−α/2,n,τ /n = 1 − α R. Frühwirth Daraus folgt X ≤ γ1−α/2,n,1/n = 1 − α W γα/2,n,1/n ≤ τ R. Frühwirth Statistik Linksseitiges Intervall für den Mittelwert R. Frühwirth Stichprobenfunktionen Für jedes τ gilt: Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian W γα,n,τ /n ≤ X = 1 − α 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Punktschätzer Daraus folgt W γα,n,1/n X ≤ τ Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer =1−α und W 0≤τ ≤ X γα,n,1/n Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung =1−α Rechtsseitiges Intervall für den Mittelwert X W ≤τ =1−α γ1−α,n,1/n R. Frühwirth Statistik 367/584 R. Frühwirth Statistik 368/584 Normalverteilung Normalverteilung Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Statistik Konfidenzintervall für den Mittelwert R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Z= X −µ √ σ/ n standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α √ √ W (X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) = 1 − α R. Frühwirth Statistik Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Aus n−1 W (−tn−1 1−α/2 ≤ T ≤ t1−α/2 ) = 1 − α folgt √ √ n−1 W (X − tn−1 1−α/2 S/ n ≤ µ ≤ X + t1−α/2 S/ n) = 1 − α R. Frühwirth Statistik 370/584 Normalverteilung Statistik Stichprobenfunktionen X −µ √ S/ n ist t-verteilt mit n − 1 Freiheitsgraden. 369/584 Normalverteilung R. Frühwirth T = Punktschätzer Intervallschätzer folgt Ist σ 2 unbekannt, wird σ 2 durch die Stichprobenvarianz geschätzt, und das Standardscore Statistik Beispiel R. Frühwirth Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das Stichprobenmittel X = 0.0540 und die Stichprobenvarianz S 2 = 1.0987. Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 1.96/ 50 = −0.2232 √ G2 =0.0540 + 1.96/ 50 = 0.3312 Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 2.01 · 1.0482/ 50 = −0.2439 √ G2 =0.0540 + 2.01 · 1.0482/ 50 = 0.3519 Matlab: make KI normal R. Frühwirth Statistik 371/584 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Konfidenzintervall für die Varianz Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. Aus W (n − 1)S 2 2 χ2α/2,n−1 ≤ ≤ χ =1−α 1−α/2,n−1 σ2 folgt W (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ 2 2 χ1−α/2,n−1 χα/2,n−1 R. Frühwirth Statistik ! =1−α 372/584 Normalverteilung Normalverteilung Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel Eine Stichprobe vom Umfang n = 50 aus der Normalverteilung No(0, 4) hat die Stichprobenvarianz S 2 = 4.3949. Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer G1 =49 · 4.3949/70.2224 = 3.0667 G2 =49 · 4.3949/31.5549 = 6.8246 Werden die Quantile der χ2 -Verteilung χ2 (n − 1) durch die Quantile der Normalverteilung No(n − 1, 2(n − 1)) ersetzt, laute das Konfidenzintervall: Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung G1 =49 · 4.3949/68.4027 = 3.1483 G2 =49 · 4.3949/29.5973 = 7.2760 Matlab: make KI normal varianz.m Konfidenzintervall für die Differenz von zwei Mittelwerten Es seien X1 , . . . , Xn und Y1 , . . . , Ym zwei unabhängige Stichproben aus den Normalverteilungen No(µx , σx2 ) bzw. No(µy , σy2 ). Wir suchen ein Konfidenzintervall für µx − µy . Die Differenz D = X − Y ist normalverteilt gemäß No(µx − µy , σ 2 ), mit 2 σD = σx2 /n + σy2 /m. Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. Aus W D − (µx − µy ) −z1−α/2 ≤ ≤ z1−α/2 = 1 − α σD folgt R. Frühwirth Statistik 373/584 R. Frühwirth Normalverteilung Statistik Statistik R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 374/584 Normalverteilung R. Frühwirth Stichprobenfunktionen Statistik W D − z1−α/2 σD ≤ µx − µy ≤ D + z1−α/2 σD = 1 − α Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer (n − 1)Sx2 + (m − 1)Sy2 n+m−2 2 χ -verteilt mit m + n − 2 Freiheitsgraden. Das Standardscore T = Intervallschätzer D − (µx − µy ) SD p mit SD = S 1/n + 1/m ist daher t-verteilt mit n + m − 2 Freiheitsgraden. R. Frühwirth Statistik W −t1−α/2,n+m−2 ≤ T ≤ t1−α/2,n+m−2 = 1 − α Stichprobenfunktionen Sind die Varianzen unbekannt und gleich, ist S2 = Aus 375/584 Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung folgt W D − t1−α/2,n+m−2 SD ≤ µx − µy ≤ D + t1−α/2,n+m−2 SD = 1−α Beispiel Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat Stichprobenmittel X = 2.1080 und Stichprobenvarianz Sx2 = 4.3949; eine zweite Stichprobe aus No(1, 4) vom Umfang m = 25 hat Stichprobenmittel X = 1.6692 und Stichprobenvarianz Sx2 = 5.2220. Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µx − µy : G1 =0.4388 − 1.96 · 0.4899 = −0.5213 G2 =0.4388 + 1.96 · 0.4899 = 1.3990 R. Frühwirth Statistik 376/584 Normalverteilung Unterabschnitt: Mittelwert einer beliebigen Verteilung Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel (Fortsetzung) R. Frühwirth Werden die Varianzen als unbekannt angenommen, ist S 2 = 4.6668 und SD = 0.5292. Das 95%=Konfidenzintervall für µx − µy lautet dann: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian G1 =0.4388 − 1.993 · 0.5292 = −0.6158 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer G2 =0.4388 + 1.993 · 0.5292 = 1.4935 Matlab: make KI normal difference.m Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth R. Frühwirth Stichprobenfunktionen Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des Stichprobenmittels: Punktschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung 15 Statistik 378/584 Statistik Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2 . Stichprobenfunktionen Intervallschätzer Punktschätzer Mittelwert einer beliebigen Verteilung Statistik Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 14 377/584 Mittelwert einer beliebigen Verteilung Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Punktschätzer Intervallschätzer R. Frühwirth 13 Z= Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer X −µ √ σ/ n für große Stichproben annähernd normalverteilt. Es gilt also näherungsweise: √ √ W (X − z1−α/2 S/ n ≤ µ ≤ X + z1−α/2 S/ n) ≈ 1 − α R. Frühwirth Statistik 379/584 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervalls in Näherung durch Normalverteilung, geschätzt aus N = 20000 Stichproben: n 1−α 25 50 100 200 400 0.9112 0.9289 0.9408 0.9473 0.9476 Matlab: make KI exponential Intervallschätzer Grundbegriffe Allgemeine Konstruktion nach Neyman Binomialverteilung Poissonverteilung Exponentialverteilung Normalverteilung Mittelwert einer beliebigen Verteilung R. Frühwirth Statistik 380/584 Übersicht Teil 5 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Teil 5 Testen von Hypothesen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Statistik R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einleitung Parametrische Tests 18 Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Anpassungstests Statistik 382/584 Einleitung Statistik 17 Parametrische Tests R. Frühwirth R. Frühwirth 16 17 381/584 Abschnitt 16: Einleitung Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einleitung Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth 16 Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F . Ein Test soll feststellen, ob die Beobachtungen mit einer gewissen Annahme über F verträglich sind. Die Annahme wird als Nullhypothese H0 bezeichnet. Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! R. Frühwirth Statistik 383/584 R. Frühwirth Statistik 384/584 Einleitung Einleitung Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Allgemeine Vorgangsweise R. Frühwirth Einleitung Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Parametrische Tests Der Wertebereich von T wird, in Abhängigkeit von H0 , in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C 0 unterteilt. Der Annahmebereich ist meist ein Prognoseintervall für T . Fällt der Wert von T in den Ablehnungsbereich, wird H0 verworfen. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Einseitige und zweiseitige Tests Ist der Annahmebereich das symmetrische Prognoseintervall für T , wird der Test zweiseitig genannt. Der kritische Bereich zerfällt dann in zwei Teilintervalle. Ist der Annahmebereich ein Intervall der Form T ≤ c oder T ≥ c, wird der Test einseitig genannt. Der kritische Bereich ist dann ein Intervall der Form T > c bzw. T < c. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Andernfalls wird H0 vorläufig beibehalten. Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. R. Frühwirth Statistik 385/584 R. Frühwirth Einleitung Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 386/584 Einleitung Statistik R. Frühwirth Statistik Statistik Der p-Wert R. Frühwirth Der Test kann alternativ auch unter Benütung des p-Werts P (T ) durchgeführt werden. Der p-Wert gibt an, wie wahrscheinlich es ist, unter Annahme der Nullhypothese mindestens den Wert T bzw. höchstens den Wert T zu beobachten. Zweiseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich P (T ) = 2 min(F0 (T ), 1 − F0 (T )) Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Signifikanz und Güte Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H0 wird beibehalten, obwohl sie nicht zutrifft. Die Verteilung von T unter Annahme von H0 wird bestimmt. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich einem Wert α ist. Einseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. P (T ) = F0 (T ) bzw. p = 1 − F0 (T ) Die Nullhypothese wird verworfen, wenn P (T ) < α. R. Frühwirth Statistik 387/584 R. Frühwirth Statistik 388/584 Einleitung Abschnitt 17: Parametrische Tests Statistik Statistik Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines Fehlers 2. Art berechnet werden. R. Frühwirth Einleitung R. Frühwirth Einleitung Parametrische Tests Parametrische Tests 1 − β(H1 ) heißt die Güte des Tests für H1 . Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Güte sollte nie kleiner als α sein. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maximaler Güte (UMPU) zu konstruieren. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Einleitung Einleitung Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Anpassungstests Statistik 390/584 Grundlagen Statistik Anpassungstests 18 R. Frühwirth R. Frühwirth 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 389/584 Statistik Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 17 Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth 16 Einleitung Anpassungstests Unterabschnitt: Grundlagen Parametrische Tests 16 Einleitung Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F , die bis auf einen oder mehrere Parameter spezifiziert ist. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Tests von Hypothesen über F heißen parametrisch. Eine Nullhypothese H0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. Anpassungstests R. Frühwirth Statistik 391/584 R. Frühwirth Statistik 392/584 Grundlagen Grundlagen Statistik R. Frühwirth Statistik Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Beispiel mit Exponentialverteilung Einleitung Dann wird der kritische Bereich C so festgelegt, dass X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus Ex(τ ). Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H0 hat T die folgende Dichte: tn−1 t f (t) = exp − (τ0 /n)n Γ(n) τ0 /n Parametrische Tests W (T ∈ C|ϑ ∈ H0 ) ≤ α Zu einer Nullhypothese H0 kann eine Gegenhypothese H1 formuliert werden. H1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1 die Güte berechnet werden: T ist also verteilt gemäß Ga(n, τ0 /n). Das symmetrische Prognoseintervall [y1 (τ0 ), y2 (τ0 )] für T zum Niveau 1 − α erhält man mit: 1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 ) 1 − β(ϑ) heißt die Gütefunktion des Tests. R. Frühwirth Statistik y1 (τ0 ) = γα/2,n,τ0 /n , 393/584 R. Frühwirth Grundlagen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 394/584 Statistik Der Verwerfungsbereich mit Signifikanzniveau α ist daher die Menge C = [0, y1 (τ0 )] ∪ [y2 (τ0 ), ∞[ Dichte des Stichprobenmittels (τ0=1) und kritische Bereiche R. Frühwirth 4.5 Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen H0 wird also abgelehnt, wenn T “weit entfernt” vom hypothetischen Wert τ0 ist. Die Gütefunktion für einen Wert τ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(y1 (τ0 )) + 1 − G(y2 (τ0 )) Anpassungstests wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist. Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25 Der Chiquadrat-Test Der KolmogorovSmirnov-Test n=25 n=100 4 3.5 3 2.5 f(T) Einleitung Statistik Grundlagen Statistik R. Frühwirth y2 (τ0 ) = γ1−α/2,n,τ0 /n 2 1.5 1 1 − β(0.986) = 0.0495 < α 0.5 0 0 Matlab: make test exponential mean.m R. Frühwirth Statistik 395/584 0.2 0.4 0.6 R. Frühwirth 0.8 Statistik 1 T 1.2 1.4 1.6 1.8 2 396/584 Grundlagen Unterabschnitt: Tests für binomialverteilte Beobachtungen Statistik Statistik Gütefunktion (τ =1) R. Frühwirth R. Frühwirth 0 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(τ) Anpassungstests Parametrische Tests 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 R. Frühwirth 0.9 1 τ 1.1 1.2 Statistik 1.3 1.4 1.5 397/584 R. Frühwirth Tests für binomialverteilte Beobachtungen Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 398/584 Tests für binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik Zweiseitiger Test für den Parameter p R. Frühwirth k ist eine Beobachtung aus der Binomialverteilung Bi(n, p). Die Hypothese H0 : p = p0 soll anhand der Beobachtung gegen die Alternativhypothese H1 : p 6= p0 getestet werden. H0 wird abgelehnt, wenn k unter Annahme von H0 nicht im symmetrischen Prognoseintervall [y1 (p0 ), y2 (p0 )] liegt, also zu klein“ oder zu groß“ ist. ” ” Das ist der Fall, wenn entweder k X n i p0 (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α/2 i i=0 oder n X n i p (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α/2 i 0 i=k Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Einseitiger Test für den Parameter p Die Hypothese H0 : p ≤ p0 soll anhand der Beobachtung k gegen die Alternativhypothese H1 : p > p0 getestet werden. H0 wird abgelehnt, wenn k zu groß“ ist und damit der ” p-Wert zu klein: n X n i P (k) = p (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α i 0 i=k Die Hypothese H0 : p ≥ p0 wird abgelehnt, wenn k zu ” klein“ ist und damit auch der p-Wert zu klein: P (k) = k X n i=0 i pi0 (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α gilt. R. Frühwirth Statistik 399/584 R. Frühwirth Statistik 400/584 Tests für binomialverteilte Beobachtungen Tests für binomialverteilte Beobachtungen Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Beispiel Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Es gilt: ! 300 X 300 0.02i 0.98300−i = 0.1507 P (k) = i i=9 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Näherung durch Normalverteilung Einleitung Ist n genügend groß, kann die Verteilung von k durch eine Normalverteilung No(np, np(1 − p)) angenähert werden. H0 wird abgelehnt, wenn das Standardscore Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen k − np0 Z=p np(1 − p0 ) Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. Zweiseitiger Test: H0 wird abgelehnt wenn Z < zα/2 oder Z > z1−α/2 Matlab: make test binomial.m Einseitiger Test: H0 wird abgelehnt wenn Z < zα bzw. Z > z1−α R. Frühwirth Statistik 401/584 R. Frühwirth Tests für binomialverteilte Beobachtungen Einleitung Statistik Beispiel R. Frühwirth Mit der Angabe des letzten Beispiels ergibt die Näherung: Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 402/584 Unterabschnitt: Tests für Poissonverteilte Beobachtungen Statistik R. Frühwirth Statistik Parametrische Tests Z = 1.2372 < z0.95 = 1.6449 Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Hypothese kann also nicht abgelehnt werden. Statistik Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Anpassungstests Matlab: make test binomial.m R. Frühwirth 16 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 403/584 R. Frühwirth Statistik 404/584 Tests für Poissonverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Zweiseitiger Test auf den Erwartungswert R. Frühwirth X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H0 : λ = λ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : λ 6= λ0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: Anpassungstests T = Der Chiquadrat-Test Der KolmogorovSmirnov-Test n X Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einseitiger Test auf den Erwartungswert Die Hypothese H0 : λ ≤ λ0 wird abgelehnt, wenn T zu ” groß“ ist und damit der p-Wert zu klein: P (T ) = k=T Anpassungstests Xi Der Chiquadrat-Test Der KolmogorovSmirnov-Test i=1 Die Hypothese H0 : λ ≥ λ0 wird abgelehnt, wenn T zu ” klein“ ist und damit auch der p-Wert zu klein: T ist Poissonverteilt gemäß Po(nλ). H0 wird abgelehnt, wenn T zu klein“ oder zu groß“ ist, ” ” also wenn T X (nλ0 )k e−nλ0 k=0 k! < α/2 oder R. Frühwirth P (T ) = Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen <α k=T Statistik 405/584 R. Frühwirth Statistik 406/584 Tests für Poissonverteilte Beobachtungen Statistik Beispiel R. Frühwirth Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Es gilt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test k! ∞ X (nλ0 )k e−nλ0 < α/2 k! Statistik Einleitung T X (nλ0 )k e−nλ0 k=0 Tests für Poissonverteilte Beobachtungen R. Frühwirth ∞ X (nλ0 )k e−nλ0 <α k! T = 154, P (T ) = Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests ∞ X (125)k e−125 = 0.0067 k! Der Chiquadrat-Test Der KolmogorovSmirnov-Test Näherung durch Normalverteilung Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ) angenähert werden. H0 wird abgelehnt, wenn das Standardscore T − nλ0 Z= √ nλ0 nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. k=T Beispiel Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 2.5938 > z0.99 = 2.3263 Matlab: make test poisson mean.m R. Frühwirth Statistik Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. 407/584 R. Frühwirth Statistik 408/584 Unterabschnitt: Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Erwartungswert bei bekannter Varianz Einleitung 16 17 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Einleitung X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2 . Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: √ n(X − µ0 ) T = σ Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Unter Annahme von H0 ist T verteilt gemäß No(0, 1). H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. R. Frühwirth Statistik R. Frühwirth 409/584 Tests für normalverteilte Beobachtungen Statistik Zweiseitiger Test R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Gütefunktion des zweiseitigen Tests (µ =1) R. Frühwirth 0 1 Die Hypothese H0 wird abgelehnt, wenn √ n X − µ0 |T | = > z1−α/2 σ Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Gütefunktion für einen Wert µ ergibt sich durch: Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 410/584 Tests für normalverteilte Beobachtungen 1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.8 0.7 0.6 1−β(µ) Statistik Statistik 0.5 0.4 0.3 Der Test ist unverzerrt. 0.2 0.1 Matlab: make test normal mean.m R. Frühwirth Statistik 0 0.5 411/584 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 1.5 412/584 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Einseitiger Test Einleitung R. Frühwirth Die Hypothese H0 : µ ≤ µ0 soll mit der Teststatistik T gegen die Alternativhypothese H1 : µ > µ0 getestet werden. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen H0 wird abgelehnt, wenn T zu groß“ ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z1−α , ∞[ Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Analog verläuft der Test mit H0 : µ ≥ µ0 und H1 : µ < µ0 . Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 T = > z1−α σ R. Frühwirth Einleitung Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch: 413/584 Matlab: make test normal mean.m R. Frühwirth Tests für normalverteilte Beobachtungen Statistik 414/584 Tests für normalverteilte Beobachtungen Statistik Statistik Gütefunktion des einseitigen Tests (µ =1) R. Frühwirth R. Frühwirth 0 Erwartungswert bei unbekannter Varianz: t-Test 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(µ) Anpassungstests Parametrische Tests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 0 1 X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2 . Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S2: √ n(X − µ0 ) T = S Unter Annahme von H0 ist T verteilt gemäß t(n − 1). n=25 n=100 1.1 1.2 1.3 R. Frühwirth 1.4 Statistik 1.5 µ 1.6 1.7 1.8 1.9 2 415/584 R. Frühwirth Statistik 416/584 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der t-Verteilung mit n − 1 Freiheitsgraden liegt. R. Frühwirth Einleitung Parametrische Tests R. Frühwirth Die Gütefunktion für einen Wert µ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) Einleitung Parametrische Tests Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge n−1 C =] − ∞, tn−1 α/2 ] ∪ [t1−α/2 , ∞[ Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen wo tn−1 das Quantil der t-Verteilung mit n − 1 p Freiheitsgraden zum Niveau p ist. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > tn−1 1−α/2 S R. Frühwirth wo G die Verteilungsfunktion der nichtzentralen t(n − 1, δ)-Verteilung mit √ δ = n(µ − µ0 )/σ ist. Der Test ist unverzerrt. Matlab: make test normal mean.m Statistik 417/584 R. Frühwirth Tests für normalverteilte Beobachtungen Statistik 418/584 Tests für normalverteilte Beobachtungen Statistik Statistik Gütefunktion des zweiseitigen t−Tests (µ =1) R. Frühwirth R. Frühwirth 0 Gleichheit von zwei Erwartungswerten 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(µ) Anpassungstests Parametrische Tests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : µx = µy soll anhand der Stichproben gegen die Alternativhypothese H1 : µx 6= µy getestet werden. Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: T =X −Y 0.3 0.2 0.1 0 0.5 Unter Annahme von H0 ist T verteilt gemäß No(0, σx2 /n + σy2 /m). n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 1.5 419/584 R. Frühwirth Statistik 420/584 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Das Standardscore Einleitung Z=q Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen R. Frühwirth T σx2 /n Einleitung + Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten“) Stichprobe ” geschätzt werden: Parametrische Tests σy2 /m Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen ist dann standardnormalverteilt. Die Hypothese H0 wird also abgelehnt, wenn Anpassungstests S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 Unter Annahme von H0 ist X −Y Anpassungstests |Z| > z1−α/2 Der Chiquadrat-Test Der KolmogorovSmirnov-Test oder |X − Y | q σx2 /n + σy2 /m T =p Der Chiquadrat-Test Der KolmogorovSmirnov-Test S 2 (1/n + 1/m) t-verteilt mit n + m − 2 Freiheitsgraden. Die Hypothese H0 wird also abgelehnt, wenn > z1−α/2 |T | > tn+m−2 1−α/2 wo tn+m−2 1−α/2 das Quantil der t-Verteilung mit n + m − 2 Freiheitsgraden ist. R. Frühwirth Statistik 421/584 R. Frühwirth Tests für normalverteilte Beobachtungen Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 422/584 Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik t-Test für gepaarte Stichproben R. Frühwirth Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. Die Wirkung der Intervention wird durch die Differenzen Wi = Yi − Xi , i = 1, . . . , n beschrieben. Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel 2 µw und unbekannter Varianz σw ist. Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Test der Varianz X1 , . . . , Xn ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ2 . Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet werden. Als Teststatistik T wählen wir: Die Hypothese H0 : µw = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H1 : µw 6= 0 getestet werden. T = Unter Annahme von H0 ist T χ2 -verteilt mit n − 1 Freiheitsgraden. Dies erfolgt mit dem t-Test für einzelne Stichproben. R. Frühwirth Statistik (n − 1)S 2 σ02 423/584 R. Frühwirth Statistik 424/584 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik Die Hypothese H0 wird also abgelehnt, wenn T < χ2α/2,n−1 Einleitung 1 oder T > χ21−α/2,n−1 Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Gütefunktion des zweiseitigen Tests (σ20=1) R. Frühwirth 0.9 Parametrische Tests χ2p,k 2 wo das Quantil der χ -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: 2 1 − β(σ ) = G(σ02 /σ 2 · χ2α/2 ) +1− G(σ02 /σ 2 · χ2(1−α)/2 ) Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist. 0.8 0.7 0.6 1−β(σ2) R. Frühwirth 0.5 0.4 0.3 Der Test ist nicht unverzerrt. 0.2 0.1 Matlab: make test normal variance.m R. Frühwirth Statistik 425/584 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.8 0.9 1 σ2 1.1 1.2 1.3 Statistik 1.4 1.5 426/584 Tests für normalverteilte Beobachtungen Statistik Einleitung 0.6 R. Frühwirth Tests für normalverteilte Beobachtungen R. Frühwirth n=25 n=100 0 0.5 Statistik Gleichheit von zwei Varianzen R. Frühwirth X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben gegen die Alternativhypothese H1 : σx2 6= σy2 getestet werden. Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: T = Einleitung T < Fα/2 oder T > F1−α/2 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Sx2 Sy2 Die Hypothese H0 wird also abgelehnt, wenn wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1 Freiheitsgraden zum Niveau p ist. Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k ergibt durch: 1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 ) wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist. Der Test ist unverzerrt. Unter Annahme von H0 ist T F-verteilt gemäß F(n − 1, m − 1). Matlab: make test normal variance.m R. Frühwirth Statistik 427/584 R. Frühwirth Statistik 428/584 Tests für normalverteilte Beobachtungen Abschnitt 18: Anpassungstests Statistik Statistik Gütefunktion des zweiseitigen Tests (σ2x =σ2y ) R. Frühwirth R. Frühwirth 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(k) Anpassungstests Parametrische Tests Anpassungstests 0.5 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 0 n=25 n=100 −0.6 −0.4 R. Frühwirth −0.2 0 ln k=ln(σ2y /σ2x ) 0.2 0.4 0.6 Statistik 429/584 R. Frühwirth Anpassungstests Einleitung Statistik Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 430/584 Unterabschnitt: Der Chiquadrat-Test Statistik R. Frühwirth Statistik R. Frühwirth Einleitung Parametrische Tests Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik 431/584 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Statistik 432/584 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Der Chiquadrat-Test für diskrete Beobachtungen Parametrische Tests Wir testen die Hypothese H0 , dass die Dichte f die Werte f (j) = pj , j = 1, . . . , k hat: H0 : W (Xi = j) = pj , j = 1, . . . , k Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test gegen H1 : W (Xi = j) 6= pj , für ein j Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj . Statistik Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Statistik 434/584 Der Chiquadrat-Test Statistik Einleitung k X (Yj − npj )2 npj j=1 Die Nullhypothese wird verworfen, wenn T groß ist. 433/584 Der Chiquadrat-Test R. Frühwirth T = Satz Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1 Freiheitsgraden. Es sei Yj die Zahl der Beobachtungen, die gleich j sind. R. Frühwirth Die Testgröße vergleicht die beobachteten Häufigkeiten Yj mit ihren Erwartungswerten: Einleitung Die Stichprobe X1 , . . . , Xn entstammt einer diskreten Verteilung mit Wertebereich {1, . . . , k}. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1 wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden zum Niveau 1 − α ist. Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Yj : Anpassungstests R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Beispiel Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: W (X = 1) = . . . = W (X = 6) = Eine Simulation von N = 100000 Stichproben ergibt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test k X Der Chiquadrat-Test Der KolmogorovSmirnov-Test Yj = n j=1 Als Faustregel gilt: n sollte so groß sein, dass npj > 5, j = 1, . . . , k. Statistik T = 5.000, ST2 = 9.789 Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist χ20.95,5 = 11.07, und W (T ≥ 11.07) = 0.048 Matlab: make chi2test wuerfel.m Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. R. Frühwirth 1 6 435/584 R. Frühwirth Statistik 436/584 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Statistik Der Chiquadrat-Test für stetige Beobachtungen Einleitung R. Frühwirth Einleitung Die Stichprobe X1 , . . . , Xn entstammt einer stetigen Verteilung F . Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Wir testen die Hypothese H0 : F (x) = F0 (x). Dazu wird der Wertebereich von X in k Gruppen G1 , . . . , Gk eingeteilt. Anpassungstests Anpassungstests Es sei Yj die Zahl der Beobachtungen in Gruppe Gj . Der Chiquadrat-Test Der KolmogorovSmirnov-Test Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit Der Chiquadrat-Test Der KolmogorovSmirnov-Test pj = W (X ∈ Gj |H0 ) Unbekannte Parameter Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die pj noch von unbekannten Parametern ϑ abhängen: W (X ∈ Gj ) = pj (ϑ) Die Statistik T ist nun eine Funktion der unbekannten Parameter: k X (Yj − npj (ϑ))2 T (ϑ) = npj (ϑ) j=1 Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : Der Test verläuft weiter wie im diskreten Fall. ϑ̃ = arg min T (ϑ) ϑ R. Frühwirth Statistik 437/584 R. Frühwirth Der Chiquadrat-Test Statistik Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 438/584 Der Chiquadrat-Test Statistik R. Frühwirth Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Satz Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃) asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden. Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1−m wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m Freiheitsgraden zum Niveau 1 − α ist. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Beispiel Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} Es soll die Hypothese überprüft werden, dass die Beobachtungen Poisson-verteilt gemäß Po(λ) sind. Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt: Gruppe 1 2 3 4 5 X 0 1 2–3 4–5 >5 Die Häufigkeiten der Gruppen sind: Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5 R. Frühwirth Statistik 439/584 R. Frühwirth Statistik 440/584 Der Chiquadrat-Test Unterabschnitt: Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Einleitung Statistik Beispiel (Fortsetzung) R. Frühwirth Der Schätzwert für λ ist das Stichprobenmittel: Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests λ̃ = 3.1667 Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind: j 1 2 3 4 5 E[Y1 ] 1.2643 4.0037 13.0304 8.6522 3.0493 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Testgröße T ist gleich 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test T = 21.99 Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen Poisson-verteilt sind, ist also abzulehnen. Matlab: make chi2test poisson.m R. Frühwirth Statistik 441/584 R. Frühwirth Der Kolmogorov-Smirnov-Test Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 442/584 Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Statistik Statistik Eine Stichprobe R. Frühwirth Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung mit Verteilungsfunktion F . Wir testen die Hypothese H0 : F (x) = F0 (x). Die Testgröße Dn ist die maximale absolute Abweichung der empirischen Verteilungsfunktion Fn (x) der Stichprobe von der hypothetischen Verteilungsfunktion F0 (x): x Für Stichproben aus F0 ist die Verteilung von Dn unabhängig von F0 ! Für √ Stichproben aus F0 strebt die Verteilungsfunktion von nD für n → ∞ gegen: K(x) = 1 − 2 ∞ X (−1)k−1 e−2k Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Dn = max |Fn (x) − F0 (x)| 2 Aus der asymptotischen Verteilungsfunktion können Quantile K1−α berechnet werden. Die Nullhypothese wird abgelehnt, wenn √ nDn > K1−α Werden vor dem Test Parameter von F0 geschätzt, sind die Quantile nicht mehr gültig. In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Matlab: Funktion kstest x2 k=1 R. Frühwirth Statistik 443/584 R. Frühwirth Statistik 444/584 Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Statistik Zwei Stichproben Einleitung R. Frühwirth Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Testgröße ist die maximale absolute Differenz der empirischen Verteilungsfunktionen: Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Teil 6 Mehrfache Regression Dn,m = Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test max |Fn1 (x) x − Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 2 Fm (x)| Die Nullhypothese wird abgelehnt, wenn r nm Dn,m > K1−α n+m Regression und lineare Modelle Matlab: Funktion kstest2 R. Frühwirth Statistik 445/584 R. Frühwirth Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik 448/584 Einleitung Einfache Regression Mehrfache Regression 446/584 Abschnitt 19: Einleitung Übersicht Teil 6 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Einfache Regression 19 Einleitung 20 Einfache Regression 21 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik 447/584 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression R. Frühwirth Einleitung Abschnitt 20: Einfache Regression Statistik Statistik Regressionsanalyse untersucht die Abhängigkeit der Beobachtungen von diversen Variablen. R. Frühwirth R. Frühwirth Einleitung Einleitung Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ). Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ergebnisvariable (abhängige Variable) Y . Regressionsmodell: Mehrfache Regression Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Mehrfache Regression Y = f (β, x) + ε Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 19 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression mit Regressionskoeffizienten β und Fehlerterm ε. Ziel ist die Schätzung von β anhand von Beobachtungen Y1 , . . . , Yn . Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. R. Frühwirth Statistik 449/584 R. Frühwirth Unterabschnitt: Lineare Regression Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 450/584 Lineare Regression R. Frühwirth Einfache Regression Statistik Einleitung Das einfachste Regressionsmodell ist eine Gerade: Y = α + βx + ε, E[ε] = 0, var[ε] = σ 2 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: SS = Mehrfache Regression n X (Yi − α − βxi )2 i=1 Gradient von SS: n n X X ∂SS ∂SS = −2 (Yi − α − βxi ), = −2 xi (Yi − α − βxi ) ∂α ∂β i=1 i=1 R. Frühwirth Statistik 451/584 R. Frühwirth Statistik 452/584 Lineare Regression Lineare Regression Statistik R. Frühwirth Statistik Nullsetzen des Gradienten gibt die Normalgleichungen: n X Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression i=1 n X Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Yi = nα + β n X R. Frühwirth Einleitung xi Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression i=1 xi Yi = α i=1 n X i=1 xi + β n X x2i Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n 1 X 2 r σ̂ 2 = n − 2 i=1 i mit ri = Yi − Ŷi , Mehrfache Regression i=1 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die geschätzten Regressionskoeffizienten lauten: Pn Pn x Y − x̄ i=1 Yi Pni i 2 β̂ = i=1 2 i=1 xi − nx̄ α̂ = Y − β̂ x̄ Ŷi = α̂ + β̂xi Kovarianzmatrix der geschätzten Regressionkoeffizienten: P P 2 xi x P 2 i P − n ( x − nx̄2 ) n ( x2i − nx̄2 ) i 2 Cov[α̂, β̂] = σ P xi 1 P P − 2 2 n ( xi − nx̄2 ) xi − nx̄2 Es gilt E[α̂] = α und E[β̂] = β. R. Frühwirth Statistik 453/584 R. Frühwirth Lineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Beispiel R. Frühwirth Datensatz 4: Einleitung x̄ = 167.60 ȳ = 76.16 sx = 8.348 sy = 4.727 rxy = 0.5562 â = 0.3150 b̂ = 23.37 Beispiel (Fortsetzung) Datensatz 4: Einfache Regression Datensatz 4 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 90 85 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Matlab: make dataset4 80 Gewicht (kg) Einleitung 454/584 Lineare Regression Statistik R. Frühwirth Statistik 75 70 65 60 55 140 R. Frühwirth Statistik 455/584 150 R. Frühwirth 160 170 Körpergröße (cm) Statistik 180 190 Streudiagramm mit Regressionsgerade 456/584 Lineare Regression Lineare Regression Statistik Statistik Die Streuung der Werte Yi hat im Regressionsmodell unterschiedliche Ursachen. R. Frühwirth R. Frühwirth Einleitung Einleitung Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von x. Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Dazu kommt noch die zufällige Streuung der Daten. Mehrfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Erklärbare Streuung SS ∗ = n X Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 2 (Ŷi − Y )2 = rxy ns2Y i=1 n X Streuungszerlegung SST = SS ∗ + SSR Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Bestimmheitsmaß der Regression 2 (Yi − Ŷi )2 = (1 − rxy )ns2Y Reststreuung SSR = Totale Streuung n X SST = (yi − Y )2 = ns2Y B= i=1 Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von x und Y erklärt werden kann. i=1 R. Frühwirth Statistik 457/584 R. Frühwirth Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik 458/584 Tests, Konfidenz- und Prognoseintervalle R. Frühwirth Einfache Regression SS ∗ 2 = rxy SST Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0 beruht auf dem folgenden Satz. Satz Ist ε normalverteilt, so sind α̂ − α , σ̂α̂ β̂ − β σ̂β̂ t-verteilt mit n − 2 Freiheitsgraden, wobei P σ̂ 2 x2 σ̂ 2 P 2 i 2 , σ̂β̂2 = P 2 σ̂α̂2 = n ( xi − nx̄ ) xi − nx̄2 Statistik 459/584 R. Frühwirth Statistik 460/584 Tests, Konfidenz- und Prognoseintervalle Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die Testgröße β̂ T = σ̂β̂ R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression relativ klein oder relativ groß ist, also wenn Mehrfache Regression Mehrfache Regression |β̂| > tn−2 1−α/2 σ̂β̂ Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: n−2 α̂ ± σ̂α̂ · tn−2 β̂ ± σ̂β̂ · t1−α/2 1−α/2 , Für n > 30 können die Quantile der t-Verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 der Einflussvariablen x prognostiziert werden. Der Erwartungswert von Y0 ist wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. E[Y0 ] = α̂ + β̂x0 Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: (x̄ − x0 )2 2 1 var[E[Y0 ]] = σ +P 2 n xi − nx̄2 Ein analoger Test kann für die Nullhypothese H0 : α = 0 durchgeführt werden. R. Frühwirth Statistik 461/584 R. Frühwirth Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik 462/584 Tests, Konfidenz- und Prognoseintervalle Statistik Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: (x̄ − x0 )2 n+1 var[Y0 ] = σ 2 +P 2 n xi − nx̄2 R. Frühwirth Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Einleitung Einfache Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: s n+1 (x̄ − x0 )2 +P 2 α̂ + β̂x0 ± tn−2 1−α/2 σ̂ n xi − nx̄2 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das Residuum rk hat die Varianz 1 (xk − x̄)2 2 var[rk ] = σ 1 − − P 2 n xi − nx̄2 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das studentisierte Residuum ist dann rk rk0 = σ̂ q 1− 1 n − (xk −x̄)2 P x2i −nx̄2 Es hat Erwartung 0 und Varianz 1. Matlab: make regression diagnostics R. Frühwirth Statistik 463/584 R. Frühwirth Statistik 464/584 Tests, Konfidenz- und Prognoseintervalle Tests, Konfidenz- und Prognoseintervalle Statistik Statistik R. Frühwirth R. Frühwirth 2.5 40 3 Einleitung 35 2.5 Einfache Regression 30 2 40 2 Einleitung 35 1.5 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 30 1 25 Mehrfache Regression 20 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 15 −1 5 15 0.5 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression −0.5 10 1 Mehrfache Regression 0 1.5 20 y r’ y 0.5 25 r’ Einfache Regression 10 0 5 −0.5 0 −1.5 −1 −5 0 0 5 10 x 15 20 −2 0 5 10 x 15 20 0 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistik 465/584 15 R. Frühwirth 20 0 5 10 x 15 20 Statistik 466/584 Robuste Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. Einleitung 19 20 Mehrfache Regression Einfache Regression Matlab: make regression outliers Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 150 Data Outlier LS w/o outlier LS with outlier 170 Mehrfache Regression 140 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 160 150 130 140 120 y Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einleitung y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 10 x Regressionsgerade und studentisierte Residuen Unterabschnitt: Robuste Regression Einfache Regression 5 −1.5 130 110 120 21 Mehrfache Regression 100 110 100 90 90 80 40 45 50 x 55 60 40 50 60 70 80 90 100 110 x Lineare Regression mit Ausreißern R. Frühwirth Statistik 467/584 R. Frühwirth Statistik 468/584 Robuste Regression Robuste Regression Statistik Statistik LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. R. Frühwirth Einleitung 150 Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) 170 Einleitung 140 160 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Berechnung kombinatorisch. Mehrfache Regression 150 130 140 120 y “Exact fit property”: Die LMS-Gerade geht durch zwei Datenpunkte. Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression y Einfache Regression R. Frühwirth 110 120 Mehrfache Regression LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h ≤ n von Fehlerquadraten minimiert. Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Berechnung iterativ (FAST-LTS). Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 130 100 110 100 90 90 80 40 Beide Methoden gehen auf P. Rousseeuw zurück. 45 50 x 55 60 40 50 60 70 80 90 100 110 x Robuste Regression mit Ausreißern Matlab: make robust regression R. Frühwirth Statistik 469/584 R. Frühwirth Unterabschnitt: Polynomiale Regression Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ist der Zusammenhang zwischen x und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. In Matrix-Vektor-Schreibweise: Y = Xβ + ε mit Mehrfache Regression R. Frühwirth 470/584 Polynomiale Regression R. Frühwirth Einfache Regression Statistik 1 1 X= .. . 1 Statistik 471/584 R. Frühwirth x1 x2 .. . xn Statistik x21 x22 .. . x2n ··· ··· .. . ··· xr1 xr2 .. . xrn 472/584 Polynomiale Regression Polynomiale Regression Statistik Statistik Die folgende Zielfunktion wird minimiert: R. Frühwirth SS = (Y − Xβ)T (Y − Xβ) Einleitung Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i R. Frühwirth Einleitung Einfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression mit r = Y − Ŷ , Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Nullsetzen des Gradienten gibt die Normalgleichungen: Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 XT Y = XT Xβ Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT Die Lösung lautet: β̂ = XT X R. Frühwirth −1 XT Y Statistik 473/584 R. Frühwirth Polynomiale Regression Statistik Statistik R. Frühwirth 45 2 Einleitung 40 1.5 Einfache Regression 35 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 30 0.5 25 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression r’ y 0 20 Mehrfache Regression −0.5 15 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression −1 10 −1.5 5 −2 0 −5 474/584 Einleitung 1 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Abschnitt 21: Mehrfache Regression R. Frühwirth Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ŷ = Xβ̂ 0 5 10 x 15 20 −2.5 0 5 10 x 15 20 Regressionsparabel und studentisierte Residuen R. Frühwirth Statistik 475/584 R. Frühwirth Statistik 476/584 Unterabschnitt: Das lineare Modell Das lineare Modell Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Einleitung Einleitung Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Mehrfache Regression 21 x1,2 x2,2 .. . xn,2 ··· ··· .. . ··· x1,r x2,r .. . xn,r Statistik 478/584 Die folgende Zielfunktion wird minimiert: SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression x1,1 x2,1 .. . xn,1 Schätzung, Tests und Prognoseintervalle R. Frühwirth 20 Y = Xβ + ε R. Frühwirth 477/584 Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ). In Matrix-Vektor-Schreibweise: 1 1 X= .. . 1 R. Frühwirth 19 Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε, mit Unterabschnitt: Schätzung, Tests und Prognoseintervalle Einfache Regression Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ Die Lösung lautet: β̂ = XT X R. Frühwirth Statistik 479/584 R. Frühwirth Statistik −1 XT Y 480/584 Schätzung, Tests und Prognoseintervalle Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i mit r = Y − Ŷ , Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ŷ = Xβ̂ Ist βk = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen xk ab. Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0 beruht auf dem folgenden Satz. R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Satz Ist ε normalverteilt, so ist Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 β̂k − βk σ̂β̂k t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te k Diagonalelement der geschätzten Kovarianzmatrix σ̂ 2 XT X −1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT ist. R. Frühwirth Statistik R. Frühwirth 481/584 Schätzung, Tests und Prognoseintervalle Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 482/584 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Statistik Statistik Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die Testgröße β̂k T = σ̂β̂k R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression relativ klein oder relativ groß ist, also wenn Mehrfache Regression Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ). Der Erwartungswert von Y0 ist dann E[Y0 ] = x+ · β̂ Mehrfache Regression |β̂k | > tn−r−1 1−α/2 σ̂β̂k Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen prognostiziert werden. Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression tn−2 p wo das Quantil der t-Verteilung mit n − 2 Freiheitsgraden zum Niveau p ist. Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T Das symmetrische Konfidenzintervall für βk mit 95% Sicherheit lautet: β̂k ± σ̂β̂k · tn−r−1 1−α/2 R. Frühwirth Statistik 483/584 R. Frühwirth Statistik 484/584 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Unterabschnitt: Gewichtete Regression Statistik Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T R. Frühwirth Einleitung Einfache Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: q x+ · β̂ ± tn−k−1 σ̂ 1 + x+ (XT X) −1 x+ T 1−α/2 R. Frühwirth Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 485/584 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistik 486/584 Statistik Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatrix haben: Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Gewichtete Regression Statistik Einfache Regression Einleitung Mehrfache Regression Gewichtete Regression R. Frühwirth 19 R. Frühwirth Einleitung Y = Xβ + ε, Cov[ε] = V Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ist V bekannt, lautet die Zielfunktion: SS = (Y − Xβ)T G(Y − Xβ), Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT GX −1 G = V−1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT GX −1 XT Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT G(Y − Xβ) ∂β Tests und Prognoseintervalle können entsprechend modifizert werden. Nullsetzen des Gradienten gibt die Normalgleichungen: XT GY = XT GXβ Die Lösung lautet: β̂ = XT GX −1 XT GY R. Frühwirth Statistik 487/584 R. Frühwirth Statistik 488/584 Unterabschnitt: Nichtlineare Regression Nichtlineare Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression In der Praxis ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = h(β) + ε, Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: SS = [Y − h(β)]T G[Y − h(β)], SS kann mit dem Gauß-Newton-Verfahren minimiert werden. Dazu wird h an einer Stelle β0 linearisiert: h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ, R. Frühwirth Statistik G = V−1 R. Frühwirth 489/584 H= ∂h ∂β β0 Statistik 490/584 Nichtlineare Regression Statistik R. Frühwirth Einleitung Statistik Die Schätzung von β lautet: β̂ = HT GH −1 HT G(Y − c) R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Grundbegriffe Diskrete Modelle h wird neuerlich an der Stelle β1 = β̂ linearisiert. Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. Stetige Modelle Viele andere Methoden zur Minimierung von SS verfügbar. R. Frühwirth Statistik Teil 7 491/584 Normalverteilte Beobachtungen Einführung in die Bayes-Statistik R. Frühwirth Statistik 492/584 Abschnitt 22: Einleitung Übersicht Teil 7 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Einleitung 22 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Normalverteilte Beobachtungen Statistik Stetige Modelle Normalverteilte Beobachtungen 24 Diskrete Modelle 25 Stetige Modelle R. Frühwirth Statistik 494/584 Statistik In der Bayes-Statistik werden Wahrscheinlichkeiten als rationale Einschätzungen von Sachverhalten interpretiert. R. Frühwirth Einleitung Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Einleitung Statistik Diskrete Modelle 23 493/584 Einleitung Grundbegriffe Einleitung Stetige Modelle R. Frühwirth R. Frühwirth 22 Diskrete Modelle Durch die Wahl der a-priori-Verteilung wird eine subjektive Komponente in die Datenanalyse eingeführt. Einleitung Neben den Beobachtungen werden auch unbekannte Parameter von Verteilungen als Zufallsvariable betrachtet. Stetige Modelle Die Information in den Beobachtungen führt durch Anwendung des Bayes-Theorems zu einer verbesserten Information über die Parameter, die durch die a-posteriori-Verteilung ausgedrückt wird. Normalverteilte Beobachtungen Die a-posteriori Verteilung kann zum Schätzen von Parametern, zur Berechnung von Vertrauensintervallen, zum Testen, zur Prognose, zur Modellwahl etc. verwendet werden. Statistik Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Die Vorinformation über die Parameter werden in einer a-priori-Verteilung zusammengefasst. R. Frühwirth Grundbegriffe 495/584 Dies kann besonders bei sehr kleiner Anzahl der Beobachtungen einen merkbaren Einfluss auf das Resultat haben. Es gibt jedoch Verfahren zur Konstruktion von a-priori-Dichten, die diesen Einfluss minimieren. Liegen viele Beobachtungen vor, wird der Einfluss der a-priori-Verteilung vernachlässigbar. In diesem Fall liefert die Bayes-Analyse annähernd die gleichen Resultate wie klassische “frequentistische” Verfahren. In der a-posteriori-Verteilung ist jedoch mehr Information enthalten als in klassischen Punkt- oder Intervallschätzern. R. Frühwirth Statistik 496/584 Abschnitt 23: Grundbegriffe Grundbegriffe Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Einleitung 22 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Einleitung Diskrete Modelle 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Der Stichprobenraum Y ist die Menge aller möglichen Stichproben y. Der Parameterraum Θ ist die Menge aller möglichen Werte des Parameters ϑ. Die a-priori-Verteilung p(ϑ) beschreibt unsere Einschätzung, ob ein bestimmter Wert ϑ die wahre Verteilung der Beobachtungen beschreibt. Die Likelihoodfunktion p(y|ϑ) beschreibt unsere Einschätzung, dass die Stichprobe y beobachtet wird, wenn ϑ wahr ist. Wird y beobachtet, kann unsere Einschätzung von ϑ aktualisiert werden, indem die a-posteriori-Verteilung berechnet wird: Stetige Modelle Normalverteilte Beobachtungen p(y|ϑ)p(ϑ) p(y|θ)p(θ) dθ Θ p(ϑ|y) = R R. Frühwirth Statistik 497/584 R. Frühwirth Grundbegriffe Statistik Die a-posteriori-Verteilung beschreibt unsere Einschätzung von ϑ im Lichte der Beobachtungen y. Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen 498/584 Abschnitt 24: Diskrete Modelle Statistik R. Frühwirth Statistik R. Frühwirth Einleitung Kommen neue Beobachtungen dazu, kann die a-posteriori-Verteilung als die neue a-priori-Verteilung benützt werden. Grundbegriffe Statistik Einleitung 23 Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Diskrete Modelle Kann das Integral im Nenner nicht analytisch gelöst werden, muss man zu Monte-Carlo-Methoden greifen. R. Frühwirth 22 499/584 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Statistik 500/584 Unterabschnitt: Binomialverteilte Beobachtungen Binomialverteilte Beobachtungen Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Einleitung 22 Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Diskrete Modelle Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Stetige Modelle Normalverteilte Beobachtungen Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 23 Stetige Modelle Normalverteilte Beobachtungen Wir betrachten einen n mal wiederholten Alternativversuch mit Erfolgswahrscheinlichkeit ϑ. Die Anzahl Y der Erfolge ist dann binomialverteilt gemäß Bi(n, ϑ). Wir wollen aus einer Beobachtung y eine Einschätzung der Erfolgswahrscheinlichkeit ϑ gewinnen. Dazu brauchen wir eine a-priori-Verteilung von ϑ. In Abwesenheit jeglicher Vorinformation über den tatsächlichen Wert von ϑ können wir die Gleichverteilung Un(0, 1) als a-priori-Verteilung wählen: p(ϑ) = I[0,1] (ϑ) Die Likelihoodfunktion ist gleich ! n p(y|ϑ) = ϑy (1 − ϑ)n−y y R. Frühwirth Statistik 501/584 R. Frühwirth Binomialverteilte Beobachtungen 502/584 Binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik Der Satz von Bayes liefert die a-posteriori-Dichte: A−priori und a−posteriori−Dichte von ϑ mit n=20 R. Frühwirth 25 p(ϑ|y) ∝ ϑy (1 − ϑ)n−y I[0,1] (ϑ) Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Da die a-posteriori-Dichte proportional zur Dichte der Betaverteilung Beta(y + 1, n − y + 1) ist, muss sie mit dieser identisch sein. Diskrete Modelle 20 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen y=0 y=1 y=2 y=5 y=10 Einleitung Grundbegriffe Stetige Modelle Der Erwartungswert der a-posteriori-Verteilung ist gleich E[ϑ|y] = Normalverteilte Beobachtungen y+1 n+2 15 p(ϑ|y) Einleitung 10 Der Modus der a-posteriori-Verteilung ist gleich ϑ̂ = y n 5 und damit der Maximum-Likelihood-Schätzer von ϑ. R. Frühwirth Statistik 0 0 503/584 0.1 0.2 0.3 R. Frühwirth 0.4 Statistik 0.5 ϑ 0.6 0.7 0.8 0.9 1 504/584 Binomialverteilte Beobachtungen Binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik Liegt Vorinformation über ϑ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Einleitung Die mathematisch einfachste Behandlung ergibt sich, wenn auch die a-priori-Verteilung eine Betaverteilung ist. ϑa−1 (1 − ϑ)b−1 p(ϑ) = B(a, b) Stetige Modelle Normalverteilte Beobachtungen Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Sei also Offenbar gibt eine a-priori Betaverteilung mit einer Binomial-Likelihoodfunktion wieder eine a-posteriori Betaverteilung. Die Betaverteilung wird daher als konjugiert zur Binomialverteilung bezeichnet. Der Erwartungswert der a-posteriori-Verteilung ist gleich Stetige Modelle Normalverteilte Beobachtungen E[ϑ|y] = a+y a+b+n Dann ist die a-posteriori-Dichte gleich Der Modus der a-posteriori-Verteilung ist gleich p(ϑ|y) ∝ϑy (1 − ϑ)n−y ϑa−1 (1 − ϑ)b−1 ϑ̂ = =ϑy+a−1 (1 − ϑ)n−y+b−1 a+y−1 a+b+n−2 Die a-posteriori-Verteilung ist wieder eine Betaverteilung, nämlich Beta(y + a, n − y + b). R. Frühwirth Statistik 505/584 R. Frühwirth Binomialverteilte Beobachtungen Statistik Der Erwartungswert der a-posteriori-Verteilung kann als gewichtetes Mittel aus a-priori-Information und Daten angeschrieben werden: 3.5 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen a=1, b=1 a=1, b=2 a=1, b=3 a=2, b=1 a=2, b=2 a=2, b=3 Einleitung Grundbegriffe Diskrete Modelle A−priori und a−posteriori−Dichte von ϑ mit n=10, y=3 R. Frühwirth Grundbegriffe a+b a n y a+y = + E[ϑ|y] = a+b+n a+b+na+b a+b+nn a+b = × a-priori-Erwartung a+b+n n + × Mittel der Daten a+b+n 3 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 2.5 Stetige Modelle Normalverteilte Beobachtungen 2 p(ϑ|y) Einleitung 506/584 Binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik 1.5 a und b können als “a-priori-Daten” interpetiert werden: a b a+b 1 Anzahl der Erfolge a-priori Anzahl der Misserfolge a-priori Anzahl der Versuche a-priori 0.5 0 0 R. Frühwirth Statistik 507/584 0.1 0.2 R. Frühwirth 0.3 0.4 Statistik 0.5 ϑ 0.6 0.7 0.8 0.9 1 508/584 Binomialverteilte Beobachtungen Binomialverteilte Beobachtungen Statistik Statistik A−priori und a−posteriori−Dichte von ϑ mit n=100, y=30 R. Frühwirth R. Frühwirth 9 a=1, b=1 a=1, b=2 a=1, b=3 a=2, b=1 a=2, b=2 a=2, b=3 Einleitung 8 Grundbegriffe Diskrete Modelle 7 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 6 Stetige Modelle p(ϑ|y) Stetige Modelle Normalverteilte Beobachtungen Wir wollen nun Teilbereiche des Parameterraums Θ konstruieren, die den wahren Wert von ϑ mit großer Sicherheit 1 − α enthalten. Normalverteilte Beobachtungen 5 Ein solcher Bereich wird ein Vertrauensbereich genannt. Er ist meistens ein Intervall (Vertrauensintervall). Die einfachste Konstruktion eines Vertrauensintervalls [ϑ1 (y), ϑ2 (y)] benützt die Quantile der a-posteriori-Verteilung. Das symmetrische Vertrauensintervall lautet: 4 ϑ1 (y) = qα/2 , 3 2 ϑ1 (y) = q1−α/2 wo qp das p-Quantil der a-posteriori-Verteilung p(ϑ|y) ist. 1 0 0 0.1 0.2 0.3 R. Frühwirth 0.4 0.5 ϑ 0.6 0.7 0.8 Statistik 0.9 1 509/584 R. Frühwirth Binomialverteilte Beobachtungen Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Statistik Beispiel 5 Es sei y = 4 die Anzahl der Erfolge in n = 20 unabhängigen Alternativversuchen mit Erfolgswahrscheinlichkeit ϑ. Mit der Gleichverteilung als a-priori-Verteilung ist die a-posteriori-Verteilung von ϑ eine Beta(5, 17)-Verteilung. Das symmetrische Vertrauensintervall mit 1 − α = 0.95 hat dann die Grenzen Stetige Modelle Normalverteilte Beobachtungen A−posteriori−Dichte von ϑ mit n=20, y=4 R. Frühwirth 4.5 Grundbegriffe Diskrete Modelle 4 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 3.5 Stetige Modelle ϑ1 (y) = B0.025 (5, 17) = 0.08218, ϑ2 (y) = B0.975 (5, 17) = 0.4191 Der Erwartungswert der a-posteriori-Verteilung ist gleich E[ϑ|y] = Normalverteilte Beobachtungen 3 2.5 2 5 = 0.2273 22 1.5 Der Modus der a-posteriori-Verteilung ist gleich ϑ̂ = 1 4 = 0.2 20 0.5 0 0 R. Frühwirth Statistik A−posteriori−Dichte Vertrauensintervall Einleitung p(ϑ|y) Einleitung 510/584 Binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik 511/584 0.1 0.2 R. Frühwirth 0.3 0.4 Statistik 0.5 ϑ 0.6 0.7 0.8 0.9 1 512/584 Binomialverteilte Beobachtungen Binomialverteilte Beobachtungen Statistik R. Frühwirth Einleitung Statistik Das symmetrische Vertrauensintervall enthält Werte von ϑ, die geringere a-posteriori-Wahrscheinlichkeit haben als manche Punkte außerhalb des Intervalls. Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen R. Frühwirth Einleitung Grundbegriffe Ein Bereich, in dem alle Werte von ϑ höhere a-posteriori-Wahrscheinlichkeit haben als alle Werte außerhalb des Bereichs, heißt ein HighPosteriorDensity-Bereich, kurz HPD-Bereich. Das Gleichungssystem muss in der Regel numerisch gelöst werden. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Beispiel (Fortsetzung) Das HPD-Intervall mit 1 − α = 0.95 hat die Grenzen ϑ1 (y) = 0.06921, Stetige Modelle Ist die a-posteriori-Dichte unimodal, ist der HPD-Bereich ein HPD-Intervall. Normalverteilte Beobachtungen In diesem Fall erhält man die Grenzen ϑ1 , ϑ2 des HPD-Intervalls als Lösung des Gleichungssystems: ϑ1 (y) = 0.3995 Es ist mit einer Länge von 0.3303 kürzer als das symmetrische Vertrauensintervall, das eine Länge von 0.3369 hat. Matlab: make posterior binomial p(ϑ2 |y) − p(ϑ1 |y) = 0 F (ϑ2 |y) − F (ϑ1 |y) = 1 − α Hier ist F (ϑ|y) die a-posteriori-Verteilungsfunktion. R. Frühwirth Statistik R. Frühwirth 513/584 Binomialverteilte Beobachtungen 514/584 Binomialverteilte Beobachtungen Statistik Statistik A−posteriori−Dichte von ϑ mit n=20, y=4 R. Frühwirth R. Frühwirth 5 A−posteriori−Dichte Vertrauensintervall HPD−Intervall Einleitung 4.5 Grundbegriffe Diskrete Modelle Einleitung Grundbegriffe Diskrete Modelle 4 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 3.5 Stetige Modelle Stetige Modelle 3 p(ϑ|y) Normalverteilte Beobachtungen Statistik Normalverteilte Beobachtungen 2.5 2 1.5 Beispiel Ein Alternativversuch wird n = 20 mal wiederholt und ergibt keinen einzigen Erfolg (k = 0). Was kann man über die Erfolgswahrscheinlichkeit ϑ aussagen? Mit der a-priori-Dichte p(ϑ) = 1 ist die a-posteriori-Verteilung Beta(1, 21). Der Modus ist gleich 0, der Erwartungswert ist gleich 0.0455. Das HPD-Intervall mit 1 − α = 0.95 ist gleich [0, 0.1329]. Ist bekannt, dass ϑ eher klein ist, kann z.B. Beta(1, 5) als a-priori-Verteilung gewählt werden. Die a-posteriori-Verteilung ist dann Beta(1, 25). Der Modus ist gleich 0, der Erwartungswert gleich 0.0385, und das HPD-Intervall gleich [0, 0.1129]. 1 0.5 0 0 0.1 0.2 R. Frühwirth 0.3 0.4 Statistik 0.5 ϑ 0.6 0.7 0.8 0.9 1 515/584 R. Frühwirth Statistik 516/584 Binomialverteilte Beobachtungen Unterabschnitt: Poissonverteilte Beobachtungen Statistik R. Frühwirth Einleitung Statistik Beispiel (Fortsetzung) R. Frühwirth Einleitung Der Likelihoodschätzer von ϑ ist gleich 0. Grundbegriffe Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Das einseitige Konfidenzintervall nach Clopper-Pearson ist gleich [0, 0.1391]. Die Näherung durch Normalverteilung ist nur sinnvoll mit der Korrektur gemäß Agresti-Coull, das sonst das Konfidenzintervall auf den Nullpunkt schrumpft. Die Schätzung ist ϑ̂ = 0.0833, das symmetrische Konfidenzintervall ist [−0.0378, 0.2045], das linksseitige Konfidenzintervall ist [−∞, 0.1850]. R. Frühwirth Statistik Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Normalverteilte Beobachtungen Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Grundbegriffe 24 Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 25 Stetige Modelle Statistik 518/584 Poissonverteilte Beobachtungen Statistik Die Beobachtung eines Poissonprozesses ergibt die Werte y = y1 , . . . , yn . R. Frühwirth Einleitung Diskrete Modelle 23 R. Frühwirth 517/584 Statistik Grundbegriffe Einleitung Stetige Modelle Poissonverteilte Beobachtungen R. Frühwirth 22 Diskrete Modelle Die a-posteriori-Dichte ist dann proportional zur Likelihoodfunktion: Einleitung Wir wollen aus den Beobachtungen eine Einschätzung der Intensität λ des Prozesses gewinnen. p(y|λ) = n Y λyi e−λ i=1 yi ! P ∝λ Stetige Modelle yi −nλ e Sie hängt von den Beobachtungen nur über s = Normalverteilte Beobachtungen P yi ab. Ist keine Vorinformation über λ verfügbar, setzen wir p(λ) = 1. Die a-priori-“Dichte” kann nicht normiert werden und wird uneigentlich (improper) genannt. R. Frühwirth Statistik Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Die Likelihoodfunktion lautet: 519/584 p(λ|s) ∝ λs e−nλ Grundbegriffe Da die a-posteriori-Dichte proportional zur Dichte der Gammaverteilung Ga(s + 1, 1/n) ist, muss sie mit dieser identisch sein: λs e−nλ p(λ|s) = −(s+1) n Γ(s + 1) Der Erwartungswert der a-posteriori-Verteilung ist gleich s+1 E[λ|s] = n Der Modus der a-posteriori-Verteilung ist gleich s λ̂ = n und damit der Maximum-Likelihood-Schätzer von λ. R. Frühwirth Statistik 520/584 Poissonverteilte Beobachtungen Poissonverteilte Beobachtungen Statistik Statistik A−posteriori−Dichte von λ mit n=1 R. Frühwirth R. Frühwirth 1 y=0 y=1 y=2 y=5 y=10 Einleitung 0.9 Grundbegriffe Diskrete Modelle 0.8 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.7 Stetige Modelle p(λ) = Stetige Modelle 0.6 p(λ|y) Normalverteilte Beobachtungen Einleitung Liegt Vorinformation über λ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. Die mathematisch einfachste Behandlung ergibt sich, wenn die a-priori-Verteilung eine Gammaverteilung ist. Sei also Normalverteilte Beobachtungen Dies ist die Dichte der Gammaverteilung Ga(a, 1/b). Dann ist die a-posteriori-Dichte gleich 0.5 0.4 p(λ|s) ∝ λs e−nλ λa−1 e−bλ 0.3 = λs+a−1 e−(b+n)λ 0.2 Die a-posteriori-Verteilung ist die Gammaverteilung Ga(a + s, 1/(b + n)). Die Gammaverteilung ist also konjugiert zur Poissonverteilung. 0.1 0 0 5 10 R. Frühwirth λ 15 20 25 Statistik 521/584 R. Frühwirth Poissonverteilte Beobachtungen Statistik 522/584 Poissonverteilte Beobachtungen Statistik Statistik A−priori und a−posteriori−Dichte von λ mit n=10, s=30 R. Frühwirth R. Frühwirth 1 a=1, b=1 a=2, b=1 a=3, b=1 a=4, b=1 a=5, b=1 Einleitung 0.9 Grundbegriffe Diskrete Modelle 0.8 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.7 Stetige Modelle Stetige Modelle 0.6 p(λ|s) Normalverteilte Beobachtungen ba λa−1 e−bλ Γ(a) Normalverteilte Beobachtungen 0.5 0.4 a+s−1 b+n Der Erwartungswert der a-posteriori-Verteilung kann als gewichtetes Mittel aus a-priori-Information und Daten angeschrieben werden: λ̂ = a+s b a n s = + b+n b+n b b+nn b = × a-priori-Erwartung b+n n + × Mittel der Daten b+n E[λ|s] = 0.3 0.2 0.1 0 0 Der Erwartungswert der a-posteriori-Verteilung ist gleich a+s E[λ|s] = b+n Der Modus der a-posteriori-Verteilung ist gleich 0.5 1 R. Frühwirth 1.5 2 Statistik 2.5 λ 3 3.5 4 4.5 5 523/584 R. Frühwirth Statistik 524/584 Poissonverteilte Beobachtungen Poissonverteilte Beobachtungen Statistik Statistik Die a-priori-Parameter a und b können folgendermaßen interpetiert werden: 2.5 Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen A−priori und a−posteriori−Dichte von λ mit n=100, s=300 R. Frühwirth a=1, b=2 a=2, b=2 a=3, b=2 a=4, b=2 a=5, b=2 Einleitung a b Summe der Beobachtungen a-priori Anzahl der Beobachtungen a-priori Grundbegriffe Diskrete Modelle Stetige Modelle E[λ|s] ≈ Normalverteilte Beobachtungen 2 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Ist n b, dominieren die Beobachtungen: s n Stetige Modelle Normalverteilte Beobachtungen 1.5 p(λ|s) R. Frühwirth 1 0.5 0 0 R. Frühwirth Statistik 525/584 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen R. Frühwirth Einleitung Grundbegriffe Das symmetrische Vertrauensintervall ist gleich 2.5 λ 3 3.5 4 Statistik 4.5 5 526/584 Beispiel Sie messen die Hintergrundstrahlung in einem Labor über eine Periode von 20 Sekunden. Die Zählwerte sind Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen [Γα/2,a+s,1/(b+n) , Γ1−α/2,a+s,1/(b+n) ] Stetige Modelle Normalverteilte Beobachtungen 2 Statistik Vertrauensintervalle [λ1 (s), λ2 (s)] können leicht mittels der Quantile der a-posteriori-Gammaverteilung konstruiert werden. Grundbegriffe Diskrete Modelle 1.5 Poissonverteilte Beobachtungen Statistik Einleitung 1 R. Frühwirth Poissonverteilte Beobachtungen R. Frühwirth 0.5 Stetige Modelle Die einseitigen Vertrauensintervalle sind Normalverteilte Beobachtungen [0, Γα,a+s,1/(b+n) ] bzw. [Γα,a+s,1/(b+n) , ∞] HPD-Bereiche können mit numerischen Methoden bestimmt werden. 6, 2, 6, 1, 6, 8, 5, 3, 8, 4, 2, 5, 7, 8, 5, 4, 7, 9, 4, 4 Ihre Summe ist gleich s = 104. Mit der uneigentlichen a-priori-Verteilung p(λ) = 1 ist die a-posteriori-Verteilung die Gammaverteilung Ga(105, 0.05). Ihre Erwartung ist 5.25, ihr Modus ist 5.20. Das symmetrische Vertrauensintervall mit 1 − α = 0.95 ist [4.2940, 6.3007], das HPD-Intervall ist [4.2629, 6.2653]. Da die Verteilung fast symmetrisch ist, sind die beiden Intervalle praktisch gleich lang. Matlab: make posterior poisson R. Frühwirth Statistik 527/584 R. Frühwirth Statistik 528/584 Poissonverteilte Beobachtungen Poissonverteilte Beobachtungen Statistik Statistik A−posteriori−Dichte von λ mit n=20, s=104 R. Frühwirth R. Frühwirth Beispiel 0.8 A−posteriori−Dichte Vertrauensintervall HPD−Intervall Einleitung Grundbegriffe 0.7 Einleitung Grundbegriffe Diskrete Modelle Eine Beboachtung aus einer Poissonverteilung hat den Wert k = 0. Was kann über den Mittelwert λ ausgesagt werden? Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.5 Stetige Modelle p(λ|y) Normalverteilte Beobachtungen Mit der uneigentlichen a-priori-Dichte p(λ) = 1 ist die a-posteriori-Verteilung Ga(1, 1). Der Modus ist gleich 0, der Erwartungswert ist gleich 1. Das HPD-Intervall mit 1 − α = 0.95 ist gleich [0, 2.9957]. Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 0.6 Stetige Modelle Normalverteilte Beobachtungen Ist bekannt, dass λ deutlich kleiner als 1 ist, kann z.B. Ga(0.5, 0.5) als a-priori-Verteilung gewählt werden. Die a-posteriori-Verteilung ist dann Ga(0.5, 0.6667). Der Modus ist gleich 0, der Erwartungswert gleich 0.3333, und das HPD-Intervall gleich [0, 1.2805]. 0.4 0.3 0.2 Der Likelihoodschätzer von λ ist gleich 0. 0.1 0 2 3 R. Frühwirth 4 5 λ Statistik 6 7 Das linksseitige Konfidenzintervall ist gleich [0, 2.9957], ist also identisch mit dem HPD-Intervall mit uneigentlicher a-priori-Dichte. 8 529/584 R. Frühwirth Abschnitt 25: Stetige Modelle Statistik Statistik R. Frühwirth Einleitung Einleitung 22 Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 22 Einleitung 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Normalverteilte Beobachtungen Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 23 Grundbegriffe 24 Diskrete Modelle 25 Stetige Modelle Normalverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen 530/584 Unterabschnitt: Normalverteilte Beobachtungen R. Frühwirth Grundbegriffe Statistik Stetige Modelle R. Frühwirth Normalverteilte Beobachtungen Statistik 531/584 R. Frühwirth Statistik 532/584 Normalverteilte Beobachtungen Normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Wir betrachten eine normalverteilte Stichprobe y = y1 , . . . , yn . R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Einleitung Wir wollen eine Einschätzung von Mittelwert und Varianz der Verteilung gewinnen, aus der die Beobachtungen stammen. 2 Wir nehmen zunächst an, dass die Varianz σ bekannt ist. Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Dann ist die a-posteriori-Dichte gleich n Y (yi − µ)2 1 2 √ exp − p(µ|y, σ ) ∝ 2 σ2 2πσ i=1 n(µ − ȳ)2 ∝ exp − 2 σ2 Stetige Modelle Dann lautet die Likelihoodfunktion: Normalverteilte Beobachtungen n Y 1 (yi − µ)2 2 √ p(y|µ, σ ) = exp − 2 σ2 2πσ i=1 Da die a-posteriori-Dichte proportional zur Dichte der Normalverteilung No(ȳ, σ 2 /n) ist, muss sie mit dieser identisch sein. Der Erwartungswert der a-posteriori-Verteilung ist gleich In Abwesenheit jeglicher Vorinformation über den tatsächlichen Wert von µ wählen wir die uneigentliche a-priori-Dichte p(µ) = 1. E[µ|y] = ȳ und damit der Maximum-Likelihood-Schätzer von µ. Der Modus ist ebenfalls gleich ȳ. R. Frühwirth Statistik 533/584 R. Frühwirth Normalverteilte Beobachtungen Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen 534/584 Normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik Liegt Vorinformation über µ vor, kann diese durch eine geeignete a-priori-Dichte inkludiert werden. Die mathematisch einfachste Behandlung ergibt sich, wenn die a-priori-Verteilung ebenfalls eine Normalverteilung ist. Sei also 1 (µ − µ0 )2 p(µ|σ 2 ) = √ exp − 2 τ02 2πτ0 R. Frühwirth Einleitung a= Grundbegriffe und b = µ0 nȳ + 2 τ02 σ Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Die a-posteriori-Verteilung ist daher die Normalverteilung No(µn , τn2 ) mit Normalverteilte Beobachtungen µn = Dann ist die a-posteriori-Dichte gleich n(µ − ȳ)2 (µ − µ0 )2 2 p(µ|y, σ ) ∝ exp − exp − 2 σ2 2 τ02 2 a(µ − b/a) ∝ exp − 2 1 n + 2 τ02 σ b = a µ0 τ02 1 τ02 + + nȳ σ2 n σ2 , τn2 = 1 = a 1 τ02 1 + n σ2 Der Mittelwert µn ist das gewichtete Mittel aus der Vorinformation µ0 und dem Mittelwert der Daten ȳ, wobei die Gewichte durch die Präzision, d.h. die inverse Varianz gegeben sind. mit R. Frühwirth Statistik 535/584 R. Frühwirth Statistik 536/584 Normalverteilte Beobachtungen Statistik R. Frühwirth Einleitung Normalverteilte Beobachtungen Statistik Die Präzision 1/τn2 ist die Summe der Präzision der Vorinformation µ0 und der Präzision des Mittelwerts der Daten ȳ. R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Je kleiner die Präzision der Vorinformation ist, d.h. je größer τ02 ist, desto kleiner ist der Einfluss der Vorinformation auf die a-posteriori-Verteilung. Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Stetige Modelle Normalverteilte Beobachtungen Normalverteilte Beobachtungen Ist die Präzision σ 2 unbekannt, brauchen wir eine gemeinsame a-priori-Dichte für µ und σ 2 . Die Rechnung ist einfacher, wenn wir statt der Varianz σ 2 die Präzision z = 1/σ 2 verwenden. Eine mögliche Wahl ist die uneigentliche a-priori-Dichte p(µ, z) = 1 z Dann gilt: " # n n 1 Y√ zX 2 p(µ, z|y) ∝ z exp − (yi − µ) z i=1 2 i=1 " # n zX n/2−1 2 ∝z exp − (yi − µ) 2 i=1 R. Frühwirth Statistik 537/584 R. Frühwirth Normalverteilte Beobachtungen Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen 538/584 Normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik Integration über µ gibt die a-posteriori-Dichte von z: " # Z n zX n/2−1 2 p(z|y) ∝ z exp − (yi − µ) dµ 2 i=1 # " n zX 2 (n−3)/2 (yi − ȳ) ∝z exp − 2 i=1 R. Frühwirth Die a-posteriori-Dichte von σ 2 erhält man durch die Transformation σ 2 = 1/z: Einleitung Grundbegriffe g(σ 2 ) = Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen p(1/σ 2 |y) σ2 Die Verteilung von σ 2 ist eine inverse Gammaverteilung. Stetige Modelle Normalverteilte Beobachtungen z ist daher a-posteriori P Gammaverteilt gemäß Ga((n − 1)/2, 2/ (yi − ȳ)2 ). Wegen X X (yi − ȳ)2 = yi2 − nȳ 2 P P 2 hängt die Verteilung nur von s1 = yi und s2 = yi bzw. nur vom Stichprobenmittel ȳ und der Stichprobenvarianz S 2 ab. R. Frühwirth Statistik 539/584 R. Frühwirth Statistik 540/584 Normalverteilte Beobachtungen Normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Die Inverse Gammaverteilung IG(a, b) R. Frühwirth Einleitung Grundbegriffe Einleitung Die Dichte der inversen Gammaverteilung lautet: Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Grundbegriffe Diskrete Modelle a+1 −x/b f (x|a, b) = (1/x) e ba Γ(a) Stetige Modelle Ihre Verteilungsfunktion lautet: F (x|a, b) = 1 − Normalverteilte Beobachtungen γ(a, 1/(xb)) Γ(a) Das ist die Normalverteilung No(ȳ, σ 2 /n). Der Mittelwert ist 1/(b(a − 1)), wenn a > 1; der Modus ist m = 1/(b(a + 1)). R. Frühwirth Statistik 541/584 R. Frühwirth Normalverteilte Beobachtungen Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Stetige Modelle Normalverteilte Beobachtungen Statistik 542/584 Normalverteilte Beobachtungen Statistik R. Frühwirth p(µ, z|y) p(z|y) n z hX io X 1/2 ∝ z exp − (yi − µ)2 − (yi − ȳ)2 2 h nz i 1/2 ∝ z exp − (µ − ȳ)2 2 h n i 1 = exp − 2 (µ − ȳ)2 σ 2σ p(µ|z, y) = Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen · I[0,∞) (x) Stetige Modelle Normalverteilte Beobachtungen Die durch z bedingte a-posteriori-Verteilung von µ erhalten wir aus Statistik Schließlich erhalten wir die a-posteriori-Verteilung von µ durch Integration über z: # " Z n zX n/2−1 2 p(µ|y) ∝ z exp − (yi − µ) dz 2 i=1 R. Frühwirth Einleitung Grundbegriffe Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 1 ∝ P n/2 [ (µ − yi )2 ] Stetige Modelle Normalverteilte Beobachtungen Daraus folgt durch Umformung, dass das Standardscore t= µ − ȳ √ S/ n Statistik Die a-posteriori-Verteilung p(z|y) ist dann wieder eine Gammaverteilung. Beispiel Von einem √ normalverteilten Datensatz des Umfangs n = 100 aus No(10, 2) sind ȳ = 9.906 und S = 1.34981 gegeben. Die √ a-posteriori-Dichte von µ ist eine mit S/ n skalierte und um ȳ verschobene t(n − 1)-Verteilung. Das HPD-Intervalls mit 1 − α = 0.95 ist gleich [9.6382, 10.1739]. Matlab: make posterior normal a-posteriori t-verteilt mit n − 1 Freiheitsgraden ist. R. Frühwirth Will man eine eigentliche a-priori-Dichte für z, bietet sich die Gammaverteilung an, da diese die konjugierte Verteilung ist. 543/584 R. Frühwirth Statistik 544/584 Normalverteilte Beobachtungen Normalverteilte Beobachtungen Statistik Statistik A−posteriori−Dichte von µ R. Frühwirth R. Frühwirth 3.5 A−posteriori−Dichte HPD−Intervall Einleitung Grundbegriffe Einleitung Grundbegriffe 3 Diskrete Modelle Die a-posteriori-Dichte p(σ 2 |y) der Varianz z ist die inverse Gammaverteilung Diskrete Modelle Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen 2.5 Stetige Modelle Stetige Modelle IG((n − 1)/2, 2/(S 2 (n − 1))) = IG(49.5, 0.0110879) Das HPD-Intervall mit 1 − α = 0.95 ist gleich [1.3645, 2.4002]. Normalverteilte Beobachtungen 2 p(µ|y) Normalverteilte Beobachtungen Beispiel (Fortsetzung) Matlab: make posterior normal 1.5 1 0.5 0 9.2 9.4 9.6 R. Frühwirth 9.8 10 µ 10.2 10.4 10.6 10.8 Statistik 545/584 R. Frühwirth Statistik 546/584 Normalverteilte Beobachtungen Statistik Statistik 2 A−posteriori−Dichte von 1/σ R. Frühwirth R. Frühwirth 2 A−posteriori−Dichte HPD−Intervall Einleitung 1.8 Grundbegriffe Diskrete Modelle Simulation von diskreten Zufallsvariablen 1.6 Binomialverteilte Beobachtungen Poissonverteilte Beobachtungen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 1.4 Stetige Modelle 1.2 p(σ2|y) Normalverteilte Beobachtungen Einleitung Simulation von stetigen Zufallsvariablen 1 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 0.8 0.6 Teil 8 Simulation von Experimenten 0.4 0.2 0 0 0.5 1 R. Frühwirth 1.5 Statistik 2 σ2 2.5 3 3.5 4 547/584 R. Frühwirth Statistik 548/584 Abschnitt 26: Einleitung Übersicht Teil 8 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Simulation von diskreten Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 28 Simulation von stetigen Zufallsvariablen Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistik 550/584 Einleitung Statistik Simulation von diskreten Zufallsvariablen 27 549/584 Einleitung Einleitung Einleitung Simulation von stetigen Zufallsvariablen R. Frühwirth R. Frühwirth 26 Statistik Um das Ergebnis eines Experiments korrekt interpretieren zu können, muss der Einfluss des experimentellen Aufbaues auf die zu messenden Verteilungen berücksichtigt werden. Es wird ein Modell des Experiments erstellt, das sowohl die deterministischen Abläufe als auch die stochastischen Einflüsse (quantenmechanische Prozesse, Messfehler) modelliert. Statistik Einleitung Simulation von diskreten Zufallsvariablen Dabei bedient sich die experimentelle Mathematik einer statistischen Methode, der nach dem Roulette benannten Monte Carlo-Methode. R. Frühwirth R. Frühwirth 551/584 Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Dabei können Teile des Systems (Experiments) nur global in ihrer Auswirkung oder in realistisch detaillierter Form behandelt werden. Zum Beispiel kann der Messfehler durch eine detaillierte Simulation der Messapparatur oder durch eine einfache Normalverteilung erzeugt werden. Wesentlich ist, dass bei Eingabe von Daten eines korrekten Datenmodells die nach der Simulation des Ablaufes entstehende Datenreihe statistisch gesehen die gleichen Eigenschaften aufweist wie die Messdaten. R. Frühwirth Statistik 552/584 Einleitung Einleitung Statistik R. Frühwirth Statistik Schon in der Planungsphase eines Experiments empfiehlt es sich, eine möglichst realistische Simulation. Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Einleitung Die Kernfrage ist natürlich, ob und in welcher Messzeit das geplante Experiment eine genügend genaue Antwort auf die Problemstellung gibt. Durch wiederholte Simulation kann die Streuung und eine eventuelle Verzerrung der Schätzung der gesuchten Parameter studiert werden. Dabei kann auch der wahre Wert der Paramer variiert werden, um eine gewisse Kenntnis der systematischen Fehler der gewählten Auswertemethode erlangt werden. Ferner wird die Auswertemethode auf ihre Korrektheit überprüft. R. Frühwirth Statistik Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 553/584 R. Frühwirth Einleitung Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 554/584 Einleitung Statistik R. Frühwirth Erscheint nun die Durchführung des Experiments als sinnvoll (Messdauer, Beherrschung des Untergrundes etc.), so wird die aus dem simulierten Experiment gewonnene Erfahrung sicherlich eine gewisse Rückwirkung auf das geplante Experiment haben, etwa auf die angestrebte Genauigkeit, die Anzahl, die Positionierung und das erforderliche Ansprechvermögen der Detektoren; auf das Unterdrücken oder auf das Erkennen des Untergrundes; auf die Optimierung der Auswertemethoden und der dazu erforderlichen Rechenzeit. Statistik Natürlich wird eine gewisse Unsicherheit bei der Simulation des Experiments verbleiben; denn erstens können nicht alle kleinsten Details in einem Simulationsprogramm berücksichtigt werden, und zweitens sind die Detektoren häufig noch im Entwicklungsstadium, sodass ihr endgültiges Verhalten noch nicht gemessen und daher auch nicht in die Simulation eingegeben werden kann. Auf jeden Fall sollte der Simulation des Experiments größte Aufmerksamkeit geschenkt werden, und spätestens bei der Auswertung der echten Messergebnisse wird das Simulationsprogramm neuerlich wichtige Informationen liefern, nachdem es an Hand der realen experimentellen Gegebenheiten laufend angepasst wurde. R. Frühwirth Statistik 555/584 R. Frühwirth Die Simulation von stochastischen Prozessen benötigt Zufallszahlen mit vorgegebener Verteilung. Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Diese werden aus Zufallszahlen berechnet, die aus der Gleichverteilung Un(0, 1) gezogen werden. Auf jedem Rechner steht heute ein (Pseudo-) Zufallszahlengenerator zur Verfügung. Tatsächlich handelt es sich dabei um diskrete Werte. Wegen der großen Wortlänge moderner Maschinen kann dieser Wertevorrat für die meisten Anwendungen als quasi-kontinuierlich betrachtet werden. R. Frühwirth Statistik 556/584 Einleitung Abschnitt 27: Simulation von diskreten Zufallsvariablen Statistik Statistik Die erzeugten Werte werden mit einer deterministischen Funktion generiert und sind daher Pseudozufallszahlen. Darunter versteht man eine Zahlenreihe, die statistisch gesehen ein ähnliches Verhalten zeigt wie eine Zahlenreihe echter Zufallszahlen, in Wahrheit jedoch deterministisch und wiederholbar ist. R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Der Zufallszahlengenerator hat periodisches Verhalten. Die Periode sollte möglichst lang sein. Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ein Simulationsvorgang kann, wenn gewünscht, reproduziert werden, wenn der Zufallszahlengenerator mit dem gleichen Startwert aufgerufen wird. R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik Statistik 27 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 28 Simulation von stetigen Zufallsvariablen Statistik Die Verteilungsfunktion einer diskreten Verteilung lautet X F (x) = f (k) Einleitung Einleitung Simulation von diskreten Zufallsvariablen F (x) ist eine monotone Stufenfunktion, die jeweils an den Werten k um f (k) springt. Die Wahrscheinlichkeit, dass eine Zufallszahl aus der Gleichverteilung in das Intervall [F (k − 1), F (k)) fällt, ist gerade gleich f (k). Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Statistik k≤x Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung R. Frühwirth 558/584 Allgemeine Methoden R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 R. Frühwirth Statistik 26 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 557/584 R. Frühwirth Simulation von diskreten Zufallsvariablen 27 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Unterabschnitt: Allgemeine Methoden Einleitung Einleitung Simulation von stetigen Zufallsvariablen Die Qualität der erzeugten Zahlenreihe muss mit statistischen Tests überprüft werden. R. Frühwirth 26 Satz Wird k so bestimmt, dass eine im Intervall [0, 1] gleichverteilte Zufallszahl im Intervall [F (k − 1), F (k)) liegt, so gehorcht k der Verteilung mit der Verteilungsfunktion F (x). 559/584 R. Frühwirth Statistik 560/584 Allgemeine Methoden Unterabschnitt: Alternativverteilung Statistik R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Statistik In Matlab: R. Frühwirth % Z u f a l l s z a h l e n aus einer d i s k r e t e n V e r t e i l u n g function x = si m ul a te _ dis c re t e (p ,m , n ) % p ... V e r t e i l u n g % x ... Matrix der Größe m mal n u = rand (m , n ); x = ones (m , n ); p = cumsum ( p ); for i =1: length ( p ) -1 x (u > p ( i ))= i +1; end Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik 28 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistik 562/584 Unterabschnitt: Binomialverteilung Statistik Statistik Vergleiche gleichverteilte Zufallszahl mit der Erfolgswahrscheinlichkeit p. R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 561/584 Alternativverteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 27 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Simulation von diskreten Zufallsvariablen Einleitung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth 26 Einleitung In Matlab: Simulation von diskreten Zufallsvariablen % Z u f a l l s z a h l e n aus einer A l t e r n a t i v v e r t e i l u n g function x = s i m u l a t e _ a l t e r n a t i v e (p ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % x ... Matrix der Größe m mal n u = rand (m , n ); x =u < p ; Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 563/584 R. Frühwirth Statistik 564/584 Binomialverteilung Unterabschnitt: Poissonverteilung Statistik R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik Wiederholter Alternativversuch. R. Frühwirth In Matlab: Einleitung % Z u f a l l s z a h l e n aus einer B i n o m i a l v e r t e i l u n g function x = si m ul a te _ bin o mi a l (p ,N ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % N ... Anzahl der A l t e r n a t i v v e r s u c h e % x ... Matrix der Größe m mal n u = rand (m ,n , N ); x = sum (u <p ,3); Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 28 Simulation von stetigen Zufallsvariablen Statistik 566/584 Poissonverteilung Statistik Eine Möglichkeit beruht auf dem folgenden Satz. R. Frühwirth Einleitung Satz Es sei u1 , u2 , . . . eine Folge von gleichverteilten Zufallszahlen und λ > 0. Ist k die kleinste Zahl, sodass k Y Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung R. Frühwirth 565/584 Statistik Einleitung 27 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Poissonverteilung R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Standard: Funktion binornd R. Frühwirth 26 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung ui ≤ e−λ Simulation von stetigen Zufallsvariablen i=1 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung dann ist k − 1 Poisson-verteilt gemäß Po(λ). R. Frühwirth Statistik 567/584 In Matlab: % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ p o i s s o n ( lam ,m , n ) % lam ... I n t e n s i t ä t % x ... Matrix der Größe m mal n z = exp ( - lam ); u = ones (m , n ); x = - ones (m , n ); k =0; while any ( x (:) <0) k = k +1; u = u .* rand ( size ( u )); x (u <= z & x <0)= k -1; end Standard: Funktion poissrnd R. Frühwirth Statistik 568/584 Unterabschnitt: Multinomialverteilung Multinomialverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 27 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 28 Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 569/584 R. Frühwirth Statistik Statistik R. Frühwirth Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Statistik Statistik 570/584 Unterabschnitt: Allgemeine Methoden R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Standard: Funktion mnrnd Simulation von stetigen Zufallsvariablen Abschnitt 28: Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ m u l t i n o m i a l (p ,N , n ) % p ... r K l a s s e n w a h r s c h e i n l i c h k e i t e n % N ... Anzahl der V er s uc h e % x ... Feld der Größe r mal n u = rand (n , N ); p =[0 cumsum ( p )]; for i =1: length ( p ) -1 x (i ,:)= sum ( p ( i ) < u & u <= p ( i +1) ,2); end Simulation von diskreten Zufallsvariablen R. Frühwirth Einleitung In Matlab: Einleitung 26 Simulation von stetigen Zufallsvariablen Wiederholter verallgemeinerter Alternativversuch Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 571/584 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 572/584 Allgemeine Methoden Allgemeine Methoden Statistik Statistik Die Verteilungsfunktion einer stetigen Verteilung lautet Z x F (x) = f (x) dx R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen −∞ Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung F (x) ist eine monotone und stetige Funktion. F (x) ist daher umkehrbar. Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Satz Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ist u eine im Intervall [0, 1] gleichverteilte Zufallszahl, so ist x = F −1 (u) verteilt mit der Verteilungsfunktion F (x). Statistik R. Frühwirth 573/584 Unterabschnitt: Exponentialverteilung Statistik Statistik R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 574/584 Die Verteilungsfunktion der Exponentialverteilung Ex(τ ) ist F (x) = 1 − e−x/τ Einleitung 26 Statistik Exponentialverteilung R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung % Z u f a l l s z a h l e n aus einer s t et i ge n V e r t e i l u n g function r = s i m u l a t e _ c o n t i n u o u s (x ,F ,m , n ) % x ... x - Werte der V e r t e i l u n g s f u n k t i o n % F ... y - Werte der V e r t e i l u n g s f u n k t i o n % r ... Matrix der Größe m mal n u = rand (m , n ); r = interp1 (F ,x , u ); Simulation von stetigen Zufallsvariablen R. Frühwirth Simulation von diskreten Zufallsvariablen In Matlab: Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ist u gleichverteilt im Intervall [0, 1], so ist x = −τ ln u verteilt gemäß Ex(τ ). In Matlab: % Z u f a l l s z a h l e n aus einer E x p o n e n t i a l v e r t e i l u n g function r = s i m u l a t e _ e x p o n e n t i a l ( tau ,m , n ) % tau ... M i t t e l w e r t % r ... Matrix der Größe m mal n r = - tau * log ( rand (m , n )); Standard: Funktion exprnd R. Frühwirth Statistik 575/584 R. Frühwirth Statistik 576/584 Unterabschnitt: Normalverteilung Normalverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Statistik Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 578/584 Statistik Erzeugung mit dem zentralen Grenzwertsatz R. Frühwirth Sind u1 , . . . , u12 unabhängig und gleichverteilt in [−1/2, 1/2], so ist Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ b o x m u l l e r ( n ) % r ... Matrix der Größe 2 mal n u = rand (2 , n ); z = sqrt ( -2* log ( u (1 ,:))); r (1 ,:)= z .* cos (2* pi * u (2 ,:)); r (2 ,:)= z .* sin (2* pi * u (2 ,:)); Normalverteilung Statistik Einleitung In Matlab: 577/584 Normalverteilung R. Frühwirth standardnormalverteilt und unabhängig. x= 12 X 0.4 Faltungsdichte Exakte Dichte Einleitung 0.35 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung ui i=1 Simulation von stetigen Zufallsvariablen in guter Näherung standardnormalverteilt. Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung In Matlab: % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ n o r m a l _ z g w s (m , n ) % r ... Matrix der Größe m mal n r = sum ( rand (m ,n ,12) -0.5 ,3); 0.3 0.25 f(x) Simulation von diskreten Zufallsvariablen Verfahren von Box und Muller Sind u1 und u2 zwei unabhängige, gleichverteilte Zufallsgrößen, so sind p x1 = −2 ln u1 cos(2πu2 ) p x2 = −2 ln u1 sin(2πu2 ) 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 Standard: Funktion normrnd R. Frühwirth Statistik 579/584 R. Frühwirth Statistik 0 x 1 2 3 4 580/584 Unterabschnitt: Multivariate Normalverteilung Multivariate Normalverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Einleitung 26 Einleitung 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Satz Es sei V eine (positiv definite) Kovarianzmatrix der Dimension n × n, µ ein Vektor der Dimension n × 1 und Q eine Matrix mit QQT = V. Ist U ein standardnormalverteilter Vektor der Dimension n × 1, so ist X = QU + µ Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung normalverteilt mit Mittel µ und Kovarianzmatrix V. Q kann mittels Choleskyzerlegung oder Hauptachsentransformation berechnent werden. In Matlab: Funktion mvnrnd R. Frühwirth Statistik 581/584 R. Frühwirth Unterabschnitt: Gamma-,χ2 -, t- und F-Verteilung Statistik Statistik R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 26 Einleitung Einleitung Simulation von diskreten Zufallsvariablen 27 Simulation von diskreten Zufallsvariablen 28 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 582/584 Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Einleitung Statistik Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Funktion gamrnd Funktion chi2rnd Funktion trnd Funktion frnd Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 583/584 R. Frühwirth Statistik 584/584