Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 1: Deskriptive Statistik Statistik Teil 2: Wahrscheinlichkeitsrechnung R. Frühwirth [email protected] Teil 3: Zufallsvariable VO 142.090 http://tinyurl.com/TU142090 Teil 4: Parameterschätzung Februar 2011 R. Frühwirth Statistik 1/535 R. Frühwirth Statistik 2/535 Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 5: Testen von Hypothesen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Teil 6: Regressionsanalyse Teil 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Teil 7: Simulation von Experimenten Deskriptive Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik 3/535 R. Frühwirth Statistik 4/535 Abschnitt 1: Einleitung Übersicht Teil 1 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik 3 Zweidimensionale Merkmale R. Frühwirth Statistik Statistik R. Frühwirth Einleitung Einleitung 1 Eindimensionale Merkmale 2 3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Zweidimensionale Merkmale Zweidimensionale Merkmale R. Frühwirth Statistik Statistik 6/535 Grundbegriffe R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Eindimensionale Merkmale 5/535 Unterabschnitt: Grundbegriffe Zweidimensionale Merkmale 2 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Zweidimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Definition von Statistik 1 Die Erhebung und Speicherung von Daten, z.B. durch statistische Ämter 2 Die mathematische Auswertung von Daten, z.B. die Berechnung von Maß- und Kennzahlen Deskriptive Statistik Beschreibung von vorhandenen Daten durch Maßzahlen, Tabellen, Graphiken Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 7/535 R. Frühwirth Statistik 8/535 Grundbegriffe Unterabschnitt: Merkmal- und Skalentypen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Induktive Statistik R. Frühwirth Untersuchung von Gesetzmäßigkeiten und Ursachen, die hinter den Daten stehen und die Daten (teilweise) erklären. Explorative Datenanalyse: Ziel ist, Hypothesen für die Theoriebildung zu gewinnen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik 10/535 Merkmal- und Skalentypen Statistik Einleitung 2 9/535 Merkmal- und Skalentypen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Konfirmative Datenanalyse: Ziel ist, vorhandene Theorien zu prüfen, z.B. durch Schätzen von Parametern oder Testen von Hypothesen R. Frühwirth 1 Statistik Qualitative Merkmale R. Frühwirth Einleitung binär (ja/nein). Beispiel: EU-Bürgerschaft. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten kategorial (Klassifizierung). Beispiel: ledig/geschieden/verheiratet/verwitwet. Eindimensionale Merkmale ordinal (Rang). Beispiel: Noten 1–5. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Quantitative Merkmale diskret (ganzzahlig). Beispiel: Zählvorgang. Zweidimensionale Merkmale kontinuierlich (reellwertig). Beispiel: Messvorgang. R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 11/535 Skalentypen Nominalskala: Zahlenwerte sind nur Bezeichnung für sich ausschließende Kategorien. Ordinalskala: Ordnung der Zahlen ist wesentlich. Intervallskala: Ordnung und Differenzen zwischen den Werten sind sinnvoll interpretierbar, der Nullpunkt ist willkürlich festgelegt. Verhältnisskala: Ordnung, Differenzen und Größenverhältnisse sind sinnvoll interpretierbar, es gibt einen absoluten Nullpunkt. R. Frühwirth Statistik 12/535 Merkmal- und Skalentypen Merkmal- und Skalentypen Statistik R. Frühwirth Statistik Beispiel Einleitung 1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Der Familienstand einer Person wird durch Zahlen kodiert (1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet). Nominalskala. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Der Stand einer Mannschaft in der Meisterschaft wird durch den Rang in der Liga angegeben. Ordinalskala. 3 Die Jahreszahlen (2007, 2008, . . . ) bilden eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 4 Die Celsius-Skala der Temperatur ist eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Die Kelvin-Skala der Temperatur ist eine Verhältnisskala, da der Nullpunkt physikalisch festgelegt ist. 6 Die Größe einer Person wird in cm angegeben. Es liegt eine Verhältnisskala vor, da ein natürlicher Nullpunkt existiert. Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 13/535 R. Frühwirth Statistik R. Frühwirth Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik Alter 34 54 46 27 38 31 48 51 Ausbildung 2 1 3 4 2 3 4 2 Statistik 14/535 Aussagen und Häufigkeiten Statistik Eindimensionale Merkmale Geschlecht 1 2 2 1 1 1 2 2 Geschlecht: 1=W, 2=M, Alter: in Jahren Ausbildung: 1=Pflichtschule, 2=Höhere Schule, 3=Bachelor, 4=Master R. Frühwirth 1 Nummer 1 2 3 4 5 6 7 8 Eindimensionale Merkmale Unterabschnitt: Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten In der folgenden Datenmatrix D sind Merkmale von acht Personen zusammengestellt. Zweidimensionale Merkmale 5 R. Frühwirth Beispiel Der Begriff der Aussage Eine Aussage ist eine Feststellung über Eigenschaften der Untersuchungsobjekte. Eine Aussage kann wahr oder falsch sein. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 15/535 Beispiel Die Aussage “Vier der Personen in Matrix D sind weiblich” ist wahr. Beispiel Die Aussage “Drei der Personen in Matrix D sind über 50 Jahre alt” ist falsch. R. Frühwirth Statistik 16/535 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Statistik Verknüpfung von Aussagen R. Frühwirth Es seien A und B zwei Aussagen. Symbol A∪B A∩B A0 A⊆B Name Disjunktion Konjunktion Negation Implikation Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Bedeutung A oder B (oder beide) A und B (sowohl A als auch B) nicht A (das Gegenteil von A) aus A folgt B (A0 ∪ B) Beispiel Es seien A, B, C drei Aussagen. Wir können mittels Verknüpfungen die folgenden Aussagen formulieren: 1 Alle drei Aussagen treffen zu: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade A∩B∩C 2 A und C treffen zu, B nicht: A ∩ B0 ∩ C 3 Genau zwei der Aussagen treffen zu: (A ∩ B ∩ C 0 ) ∪ (A ∩ B 0 ∩ C) ∪ (A0 ∩ B ∩ C) 4 Höchstens eine der Aussagen trifft zu: (A ∩ B 0 ∩ C 0 ) ∪ (A0 ∩ B ∩ C 0 ) ∪ (A0 ∩ B 0 ∩ C) ∪ (A0 ∩ B 0 ∩ C 0 ) R. Frühwirth Statistik R. Frühwirth 17/535 Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 18/535 Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Statistik Definition (Absolute Häufigkeit) R. Frühwirth Es sei A eine Aussage über eine Menge von Objekten. Die absolute Häufigkeit h(A) von A ist die Anzahl der Objekte, für die A zutrifft. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Relative Häufigkeit) Es sei A eine Aussage über eine Menge von Objekten. Die relative Häufigkeit f (A) = h(A)/n von A ist die Anzahl der Objekte, für die A zutrifft, dividiert durch die Gesamtanzahl der Objekte. Eindimensionale Merkmale Beispiel Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A ist die Aussage “Die Person in Matrix D hat zumindest Bakkalaureat”. Dann ist h(A) = 4. Zweidimensionale Merkmale Beispiel A ist die Aussage “Die untersuchte Person ist älter als dreißig Jahre”. Dann ist f (A) = 7/8. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik 19/535 R. Frühwirth Statistik 20/535 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Spezielle Aussagen Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten A = Ω: A trifft immer zu, h(A) = n, f (A) = 1. Rechengesetze für Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele ( h(A ∪ B) = h(A) + h(B) A ∩ B = ∅ =⇒ f (A ∪ B) = f (A) + f (B) Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik Statistik R. Frühwirth Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Einleitung 1 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 33% der Kunden einer Bank haben einen Wohnungskredit, 24% haben einen Kredit zur Finanzierung von Konsumgütern, 11% haben beides. Wie groß ist der Anteil der Kunden, die weder Wohnungs- noch Konsumgüterkredit haben? Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Statistik 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik 22/535 Unterabschnitt: Graphische Darstellung Statistik Eindimensionale Merkmale Beispiel R. Frühwirth R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten f (A ∪ B) = f (A) + f (B) − f (A ∩ B) 21/535 Abschnitt 2: Eindimensionale Merkmale Einleitung h(A ∪ B) = h(A) + h(B) − h(A ∩ B) Eindimensionale Merkmale Additionsgesetz Zweidimensionale Merkmale Siebformel Einleitung A = ∅: A trifft niemals zu, h(A) = f (A) = 0. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale R. Frühwirth 23/535 R. Frühwirth Statistik 24/535 Graphische Darstellung Graphische Darstellung Statistik Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Ein Bild sagt mehr als tausend Worte! R. Frühwirth Graphische Darstellungen von Datensätzen sind daher äußerst beliebt und nützlich. Datensatz 1 (500 normalverteilte Werte): Datensatz 1 Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Variable: Häufigkeitstabelle, Tortendiagramm, Stabdiagramm 40 35 Eindimensionale Merkmale Quantitative Variable: gruppierte Häufigkeitstabelle, Histogramm, Boxplot, empirische Verteilungsfunktion Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 30 Häufigkeit R. Frühwirth 25 20 15 10 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Histogramm R. Frühwirth Statistik 25/535 R. Frühwirth Graphische Darstellung Statistik Datensatz 2 = Datensatz 1 + Kontamination (100 Werte): Datensatz 2 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 26/535 Graphische Darstellung Statistik R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Datensatz 3 (50 Püfungsnoten): Note k 1 2 3 4 5 Zweidimensionale Merkmale 15 f (k) 0.10 0.16 0.44 0.10 0.20 1.00 Häufigkeitstabelle Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 10 h(k) 5 8 22 5 10 50 5 0 0 5 10 Matlab: make dataset3 15 x Histogramm R. Frühwirth Statistik 27/535 R. Frühwirth Statistik 28/535 Graphische Darstellung Graphische Darstellung Statistik Statistik Datensatz 3 (50 Püfungsnoten): R. Frühwirth R. Frühwirth Datensatz 3 (50 Püfungsnoten): 25 1 Einleitung 5 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale Eindimensionale Merkmale 4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 3 Tortendiagramm Matlab: make dataset3 R. Frühwirth 10 5 Statistik 29/535 Statistik R. Frühwirth Einleitung Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 3 2 3 x 4 5 Statistik 30/535 Empirische Verteilungsfunktion Statistik 1 1 Stabdiagramm R. Frühwirth R. Frühwirth Einleitung 0 Matlab: make dataset3 Unterabschnitt: Empirische Verteilungsfunktion Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 15 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 20 Häufigkeit Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Ab Ordinalskala ist es sinnvoll, die Daten zu ordnen. Die Häufigkeitstabelle kann durch Summenhäufigkeiten ergänzt werden. Datensatz 3 (50 Prüfungsnoten): Note k 1 2 3 4 5 h(k) 5 8 22 5 10 H(k) 5 13 35 40 50 f (k) 0.10 0.16 0.44 0.10 0.20 F (k) 0.10 0.26 0.70 0.80 1.00 Häufigkeitstabelle mit Summenhäufigkeiten Matlab: make dataset3 R. Frühwirth Statistik 31/535 R. Frühwirth Statistik 32/535 Empirische Verteilungsfunktion Empirische Verteilungsfunktion Statistik Statistik Die graphische Darstellung der Summenhäufigkeiten wird die empirische Verteilungsfunktion der Datenliste genannt. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Datensatz 3: (50 Prüfungsnoten): R. Frühwirth Empirische Verteilungsfunktion 1 Einleitung Definition (Empirische Verteilungsfunktion) Die empirische Verteilungsfunktion Fn (x) der Datenliste ~x = (x1 , . . . , xn ) ist der Anteil der Daten, die kleiner oder gleich x sind: Fn (x) = f (~x ≤ x). Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 0.8 0.7 Eindimensionale Merkmale 0.6 F(x) R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.4 0.3 0.2 Zweidimensionale Merkmale Ist xi ≤ x < xi+1 , gilt 0.1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Fn (x) = f (x1 ) + · · · + f (xi ). 0 1 Statistik 3 x 4 5 Matlab: make dataset3 33/535 R. Frühwirth Empirische Verteilungsfunktion Statistik 34/535 Unterabschnitt: Kernschätzer Statistik R. Frühwirth 2 Empirische Verteilungsfunktion Fn ist eine Sprungfunktion. Die Sprungstellen sind die Datenpunkte, die Sprunghöhen sind die relativen Häufigkeiten der Datenpunkte. R. Frühwirth 0.5 Statistik Datensatz 2 (500 Werte + Kontamination): R. Frühwirth Datensatz 2 1 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.8 0.7 Eindimensionale Merkmale 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale 0.6 F(x) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung 0.9 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale 0.2 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion Matlab: make dataset2 R. Frühwirth Statistik 35/535 R. Frühwirth Statistik 36/535 Kernschätzer Kernschätzer Statistik Statistik Die Häufigkeitsverteilung (Histogramm) kann mit einem Kern- oder Dichteschätzer geglättet werden. R. Frühwirth R. Frühwirth Datensatz 2: Datensatz 2 Einleitung 0.4 Einleitung Die Dichte des beobachteten Merkmals wird dabei durch eine Summe von Kernen K(·) approximiert: n 1 X fˆ(x) = K nh i=1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele x − xi h Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der beliebteste Kern ist der Gaußkern: 2 1 x K(x) = √ exp − 2 2π Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0.35 0.3 Eindimensionale Merkmale h ist die Bandbreite des Kernschätzers. Zweidimensionale Merkmale Relative Häufigkeit Kernschätzer Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.25 f(x) Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.2 0.15 Zweidimensionale Merkmale 0.1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0.05 0 0 5 10 15 x Glättung des Histogramms durch Kernschätzer Matlab: make dataset2 R. Frühwirth Statistik 37/535 R. Frühwirth Unterabschnitt: Maßzahlen Statistik Statistik R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Einleitung 1 3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik 38/535 Maßzahlen R. Frühwirth Einleitung Statistik 39/535 Datenlisten sind oft so umfangreich, dass ihr Inhalt in einigen wenigen Maßzahlen zusammgefasst wird oder werden muss. Welche Maßzahlen dabei sinnvoll sind, hängt vom Skalentyp ab. Manche Maßzahlen gehen von der geordneten Datenliste x(1) , . . . , x(n) aus. Wir unterscheiden Lage-, Streuungs-, und Schiefemaße. Ein Lagemaß gibt an, um welchen Wert die Daten konzentriert sind. Ein Streuungsmaß gibt an, wie groß die Schwankungen der Daten um ihren zentralen Wert sind. Ein Schiefemaß gibt an, wie symmetrisch die Daten um ihren zentralen Wert liegen. R. Frühwirth Statistik 40/535 Maßzahlen Maßzahlen Statistik R. Frühwirth Statistik Lagemaße R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Mittelwert n Einleitung Definition (Lagemaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion `(x) heißt ein Lagemaß für x, wenn gilt: `(ax + b) = a`(x) + b für a > 0 min x ≤ `(x) ≤ max(x) Sinnvolle Lagemaße geben den “typischen” oder “zentralen” Wert der Datenliste an. Je nach Skala sind verschiedene Lagemaße sinnvoll. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x̄ = 1X xi n i=1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Sinnvoll für Intervall- und Verhältnisskala. Der Mittelwert minimiert die folgende Funktion: Zweidimensionale Merkmale x̄ = argx min Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade n X (xi − x)2 i=1 Matlab: xbar=mean(x) R. Frühwirth Statistik 41/535 R. Frühwirth Maßzahlen Statistik Median R. Frühwirth x̃ = x(n/2) Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 42/535 Maßzahlen Statistik R. Frühwirth Statistik Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Median teilt die geordnete Liste in zwei gleich große Teile. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Median minimiert die folgende Funktion: Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade n X Zweidimensionale Merkmale |xi − x| Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade i=1 Matlab: xmed=median(x) R. Frühwirth Statistik α-Quantil Qα = x(αn) Eindimensionale Merkmale Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. x̃ = argx min Der Median ist ein Spezialfall eines allgemeineren Begriffs, des Quantils. 43/535 Das α-Quantil teilt die geordnete Liste im Verhältnis α : 1 − α. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: qa=quantile(x,alpha) Q0 ist der kleinste Wert, Q1 ist der größte Wert der Datenliste. Q0.5 ist der Median. Die fünf Quartile Q0 , Q0.25 , Q0.5 , Q0.75 , Q1 bilden das five point summary der Datenliste. Matlab: fps=quantile(x,[0 0.25 0.5 0.75 1]) R. Frühwirth Statistik 44/535 Maßzahlen Maßzahlen Statistik R. Frühwirth Statistik Der Boxplot ist die graphische Darstellung des five point summary. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Datensatz 2 (500 Werte + Kontamination): Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: Datensatz 2 1 0.9 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0 5 10 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 15 x Boxplot 0.8 0.7 0.6 F(x) Eindimensionale Merkmale 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Matlab: make dataset2 Empirische Verteilungsfunktion R. Frühwirth Statistik 45/535 R. Frühwirth Maßzahlen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Statistik Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 0.9 Eindimensionale Merkmale 0.8 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.7 0.6 F(x) Zweidimensionale Merkmale R. Frühwirth 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 46/535 Maßzahlen Statistik R. Frühwirth Statistik 0.5 Zweidimensionale Merkmale 0.4 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0.3 0.2 0.1 0 0 5 10 Der LMS-Wert ist extrem unempfindlich gegen fehlerhafte oder untypische Daten. Der LMS-Wert minimiert die folgende Funktion: x̃ = argx min medni=1 (xi − x)2 Ein verwandtes Lagemaß ist der “shorth”, der Mittelwert aller Daten im kürzesten Intervall, das h Datenpunkte enthält. Matlab: xshorth=shorth(x) Empirische Verteilungsfunktion Statistik Der LMS-Wert ist der Mittelpunkt des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Matlab: xlms=lms(x) 15 x R. Frühwirth LMS (Least Median of Squares) 47/535 R. Frühwirth Statistik 48/535 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Statistik Modus Der Modus ist der häufigste Wert einer Datenliste Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele HSM (Half-sample mode) 1 2 3 Streuungsmaße Einleitung Sinnvoll vor allem für qualitative Merkmale. Für quantitative Merkmale kann der Modus aus dem Kernschätzer der Dichte bestimmt werden. Matlab: xmode=mode(x) Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Bestimme das kürzeste Intervall, das h = bn/2c + 1 Datenpunkte enthält. Wiederhole den Vorgang auf den Daten in diesem Intervall, bis zwei Datenpunkte übrig sind. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Definition (Streuungsmaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion σ(x) heißt ein Streuungsmaß für x, wenn gilt: σ(x) ≥ 0 σ(ax + b) = |a| σ(x) Sinnvolle Streuungsmaße messen die Abweichung der Daten von ihrem zentralen Wert. Streuungsmaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Streuungsmaße sinnvoll. Der HSM-Wert ist das Mittel der beiden letzten Daten. Matlab: xhsm=hsm(x) R. Frühwirth Statistik R. Frühwirth 49/535 Maßzahlen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Statistik Standardabweichung R. Frühwirth Einleitung v u n u1 X s=t (xi − x̄)2 n i=1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 50/535 Maßzahlen Statistik R. Frühwirth Statistik Eindimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Die Standardabweichung hat die gleiche Dimension wie die Daten. Das Quadrat der Standardabweichung heißt Varianz. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele IQR = Q0.75 − Q0.25 Die Interquartilsdistanz ist die Länge des Intervalls, das die zentralen 50% der Daten enthält. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Matlab: xstd=std(x,1) Interquartilsdistanz Matlab: xiqr=iqr(x) Matlab: xvar=var(x,1) R. Frühwirth Statistik 51/535 R. Frühwirth Statistik 52/535 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Statistik LoS (Length of the Shorth) R. Frühwirth Einleitung LoS ist die Länge des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Matlab: xlos=LoS(x) R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale s(ax + b) = sgn(a) s(x) s(x) = 0, wenn ∃b : x − b = b − x Sinnvolle Schiefemaße messen die Asymmetrie der Daten. Schiefemaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Schiefemaße sinnvoll. R. Frühwirth Statistik 54/535 Statistik Schiefe R. Frühwirth Einleitung Eindimensionale Merkmale Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion s(x) heißt ein Schiefemaß für x, wenn gilt: Maßzahlen Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Schiefemaß) 53/535 Maßzahlen R. Frühwirth Schiefemaße γ= 1 n Pn i=1 (xi s3 3 Einleitung − x̄) Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Schiefekoeffizient R−L R+L mit R = Q0.75 − Q0.5 , L = Q0.5 − Q0.25 . SK = Eindimensionale Merkmale Die Schiefe γ ist gleich 0 für symmetrische Daten. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Ist γ < 0, heißen die Daten linksschief. Ist γ > 0, heißen die Daten rechtsschief. Sinnvoll für Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade SK liegt zwischen −1 (R = 0) und +1 (L = 0). Der Schiefekoeffizient ist gleich 0 für symmetrische Daten. Ist SK < 0, heißen die Daten linksschief. Ist SK > 0, heißen die Daten rechtsschief. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xgamma=skewness(x,1) Matlab: xsk=SK(x) R. Frühwirth Statistik 55/535 R. Frühwirth Statistik 56/535 Unterabschnitt: Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Einleitung 1 Eindimensionale Merkmale 3 Datensatz 1: Symmetrisch, 500 Werte Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: 4.9532 4.9518 4.8080 4.8002 5.0830 0.0375 0.0258 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 57/535 R. Frühwirth Beispiele Schiefemaße: Schiefe: Schiefekoeffizient: 1.0255 1.4168 1.3520 Statistik 58/535 Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 1 Datensatz 2: Datensatz 1 + Kontamination (100 Werte) 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 15 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 5.0740 4.9985 1.7696 0.1046 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 1.8959 1.6152 1.5918 Datensatz 1: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 59/535 R. Frühwirth Statistik 60/535 Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 2 Datensatz 3: 50 Prüfungsnoten 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 Eindimensionale Merkmale 30 35 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Lagemaße: Mittelwert: Median: Modus: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Standardabweichung: Interquartilsdistanz: Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 5.4343 5.0777 5.1100 1.7696 0.1046 Streuungsmaße: 15 Zweidimensionale Merkmale Schiefemaße: Schiefe: Schiefekoeffizient: 1.8959 1.6152 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 5 0 0 5 10 15 x Datensatz 2: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 61/535 R. Frühwirth Beispiele Statistik 25 R. Frühwirth Mean Median Mode Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 20 Häufigkeit Eindimensionale Merkmale Eindimensionale Merkmale 15 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 10 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 62/535 Abschnitt 3: Zweidimensionale Merkmale Statistik R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Zweidimensionale Merkmale Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 5 0 1 1 2 3 x 4 5 Datensatz 3: Mittelwert, Median, Modus R. Frühwirth Statistik 63/535 R. Frühwirth Statistik 64/535 Zweidimensionale Merkmale Unterabschnitt: Qualitative Merkmale Statistik R. Frühwirth Statistik Oft werden zwei oder mehr Merkmale eines Objekts gleichzeitig beobachtet. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Beispiele: Körpergröße und Gewicht einer Person Alter und Einkommen einer Person Schulbildung und Geschlecht einer Person Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Zusammenhang zwischen den beiden Merkmalen gibt zusätzliche Information. Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik 66/535 Statistik Wir betrachten zunächst zwei binäre Merkmale A und B. R. Frühwirth Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Beispiel: Eindimensionale Merkmale A=“Die Person ist weiblich“ B=“Die Person ist Raucher/in“ Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Vierfeldertafel für 1000 Personen: A A0 R. Frühwirth B 228 136 364 Statistik B0 372 264 636 Allgemeiner Aufbau einer Vierfeldertafel: Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Qualitative Merkmale Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 R. Frühwirth 65/535 Qualitative Merkmale Einleitung Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth R. Frühwirth 1 Zweidimensionale Merkmale A A0 B B0 h(A ∩ B) h(A ∩ B 0 ) h(A) h(A0 ∩ B) h(A0 ∩ B 0 ) h(A0 ) h(B) h(B 0 ) n Zeilen- und Spaltensummen sind die Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 600 400 1000 67/535 R. Frühwirth Statistik 68/535 Qualitative Merkmale Qualitative Merkmale Statistik R. Frühwirth Statistik Die Vierfeldertafel kann mittels Division durch n auf relative Häufigkeiten umgerechnet werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Einleitung A A0 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten B B0 f (A ∩ B) f (A ∩ B 0 ) f (A) f (A0 ∩ B) f (A0 ∩ B 0 ) f (A0 ) f (B) f (B 0 ) 1 Statistik Ist ρ(A, B) < 0, heißen A und B negativ gekoppelt. R. Frühwirth Statistik 70/535 Statistik Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. R. Frühwirth Einleitung Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Speziell gilt: Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Ist ρ(A, B) > 0, heißen A und B positiv gekoppelt. Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Unterabschnitt: Quantitative Merkmale Einleitung Zweidimensionale Merkmale Es gilt stets: −1 ≤ ρ(A, B) ≤ 1 Zweidimensionale Merkmale 69/535 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele f (A ∩ B) − f (A)f (B) ρ(A, B) = p f (A)f (A0 )f (B)f (B 0 ) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Vierfelderkorrelation Eindimensionale Merkmale Zeilen- und Spaltensummen sind die relativen Häufigkeiten der Ausprägungen A, A0 und B, B 0 . R. Frühwirth R. Frühwirth Der Zusammenhang der beiden Merkmale kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Zweidimensionale Merkmale Die Koppelung kann auch durch eine gemeinsame Ursache für beide Merkmale entstehen. R. Frühwirth Statistik 71/535 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik 72/535 Quantitative Merkmale Quantitative Merkmale Statistik Statistik Bevorzugte Darstellung von zweidimensionalen Merkmalen: Streudiagramm (Scatter Plot) Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Datensatz 4: Körpergröße und Gewicht von 100 Personen Datensatz 4 90 Einleitung Jeder Punkt entspricht einem Objekt. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die beobachteten Merkmale bestimmen die Position des Punktes in der x-y-Ebene. 85 80 Eindimensionale Merkmale Mehrdimensionale Merkmale können durch Histogramme und Streudiagramme dargestellt werden. Dabei geht natürlich ein Teil der Information verloren. Gewicht (kg) R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 70 65 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 75 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 60 55 140 150 160 170 Körpergröße (cm) 180 190 Streudiagramm Matlab: make dataset4 R. Frühwirth Statistik 73/535 R. Frühwirth Quantitative Merkmale Statistik R. Frühwirth Zweidimensionale Merkmale x3 60 0 140 150 160 170 180 190 x1 50 140 150 160 170 180 190 x1 20 140 150 160 170 180 190 x1 20 80 40 180 170 160 60 10 60 70 0 50 80 30 60 x2 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 50 40 5 150 140 50 70 15 x3 190 Zweidimensionale Merkmale 70 20 50 80 x2 190 60 70 80 x2 80 15 180 x1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 50 5 70 170 160 60 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 60 30 Eindimensionale Merkmale Matlab: make dataset5 70 80 x2 Häufigkeit Körpergröße (in cm) Gewicht (in kg) Alter (in Jahren) 10 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Merkmal x1 : Merkmal x2 : Merkmal x3 : Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 80 70 x1 Eindimensionale Merkmale Einleitung 15 x2 Datensatz 5: Körpergröße, Gewicht und Alter von 100 Personen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 74/535 Quantitative Merkmale Statistik R. Frühwirth Statistik 10 5 150 140 20 30 40 50 60 70 80 x3 R. Frühwirth Statistik 75/535 R. Frühwirth 50 20 30 40 50 60 70 80 x3 Statistik 0 20 30 40 50 60 70 80 x3 76/535 Unterabschnitt: Empirische Regressionsgerade Empirische Regressionsgerade Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade (x̄, ȳ) ist der Mittelpunkt der Punktwolke. 2 Die Projektion der Punktwolke auf die x-Achse ergibt das Punktediagramm der Datenliste x1 , . . . , xn . 3 Die Projektion der Punktwolke auf die y-Achse ergibt das Punktediagramm der Datenliste y1 , . . . , yn . Aus dem Streudiagramm von Datensatz 4 ist ersichtlich, dass tendenziell größere Körpergröße mit größerem Gewicht einhergeht. Zwischen den beiden Merkmalen x und y besteht offensichtlich ein Zusammenhang, der auch intuitiv völlig klar ist. R. Frühwirth Statistik 78/535 Empirische Regressionsgerade Statistik Einleitung 1 77/535 Empirische Regressionsgerade R. Frühwirth Eigenschaften des Streudiagramms Statistik Wir brauchen eine Maßzahl für diesen Zusammenhang. R. Frühwirth Eine nützliche Maßzahl ist der empirische Korrelationskoeffizient. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sei (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe. Wir berechnen die Standardscores: zx,i = xi − x̄ , sx zy,i = Eindimensionale Merkmale yi − ȳ sy Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Wir erinnern uns, dass n 1X s2x = (xi − x̄)2 n i=1 Definition (Empirischer Korrelationskoeffizient) Der empirische Korrelationskoeffizient rxy ist definiert als n rxy 1X 1 = zx,i zy,i = (zx,1 zy,1 + · · · + zx,n zy,n ) n i=1 n Es gilt immer: Zweidimensionale Merkmale n 1X und s2y = (yi − ȳ)2 n i=1 −1 ≤ rxy ≤ 1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Der empirische Korrelationskoeffizient ist der Mittelwert der Produkte der Standardscores. R. Frühwirth Statistik 79/535 R. Frühwirth Statistik 80/535 Empirische Regressionsgerade Empirische Regressionsgerade Statistik Statistik rxy ist positiv, wenn viele Produkte positiv sind, d.h. viele Paare von Standscores das gleiche Vorzeichen haben. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Streudiagramm der Standardscores von Datensatz 4: R. Frühwirth Einleitung Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 1. oder 3. Quadranten liegen. Datensatz 4 4 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x und y heißen dann positiv korreliert. rxy ist negativ, wenn viele Produkte negativ sind, d.h. viele Paare von Standscores verschiedenes Vorzeichen haben. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 2. oder 4. Quadranten liegen. 3 Standardscore des Gewichts R. Frühwirth Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale x und y heißen dann negativ korreliert. Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 2 1 0 −1 −2 −3 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade −4 −4 −2 0 2 Standardscore der Körpergröße 4 Offensichtlich sind x und y positiv korreliert, da die meisten Punkte im 1. und 3. Quadranten liegen. rxy = 0.5562 R. Frühwirth Statistik 81/535 R. Frühwirth Empirische Regressionsgerade Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zwischen der Kinderzahl und der Anzahl der Störche in Österreich in den letzten 30 Jahren besteht eine positive Korrelation. Warum? 4 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zwischen dem Butterpreis und dem Brotpreis der letzten 20 Jahre besteht eine positive Korrelation. Warum? 0 zx 2 0 4 rxy=0.3 −2 0 zx 2 −4 −4 4 4 rxy=0.6 2 0 −2 0 zx 2 4 −2 0 zx 2 4 0 zx 2 4 rxy=0.9 2 0 −2 −2 0 −2 −4 −4 4 2 −4 −4 zy y −2 rxy=0 2 −2 −4 −4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Beispiel 0 −2 Eindimensionale Merkmale Beispiel 2 z zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 4 rxy=−0.4 y Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Die positive Korrelation kann auch durch eine gemeinsame Ursache oder einen parallel laufenden Trend verursacht sein. 4 rxy=−0.8 2 zy Eindimensionale Merkmale 4 Einleitung z R. Frühwirth zy Eine positive Korrelation muss nicht unbedingt einen kausalen Zusammenhang bedeuten. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 82/535 Empirische Regressionsgerade Statistik R. Frühwirth Statistik 0 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 Standardscores mit verschiedenen Korrelationskoeffizienten R. Frühwirth Statistik 83/535 R. Frühwirth Statistik 84/535 Empirische Regressionsgerade Empirische Regressionsgerade Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt also das Ausmaß der linearen Koppelung an. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik 85/535 R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten rxy = Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten sxy sx sy Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0 0 −2 −4 −4 −2 −2 0 zx 2 4 −4 −4 −2 0 zx 2 4 Nichtlinearer Zusammenhang zwischen x und y Statistik 86/535 Statistik Der Korrelationskoeffizient kann auch direkt aus der Stichprobe berechnet werden: Einleitung Zweidimensionale Merkmale rxy=0.00987 2 Empirische Regressionsgerade Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 R. Frühwirth Empirische Regressionsgerade R. Frühwirth 4 rxy=−0.00168 Eindimensionale Merkmale Besteht zwischen x und y ein starker, aber nichtlinearer Zusammenhang, kann die Korrelation trotzdem sehr klein sein. R. Frühwirth 4 Einleitung y Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt die Bindung der Punktwolke an eine steigende oder fallende Gerade, die Hauptachse an. R. Frühwirth z Einleitung Statistik Der Korrelationskoeffizient misst die Korrelation der Daten. zy Statistik R. Frühwirth Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Definition (Kovarianz der Daten) Die Größe n sxy = 1X (xi − x̄)(yi − ȳ) n i=1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade heißt die Kovarianz der Daten. R. Frühwirth Statistik 87/535 Wir benutzen jetzt x, um y vorherzusagen. x wird in diesem Fall die unabhängige oder erklärende Variable genannt. y wird die abhängige Variable oder Responsevariable genannt. Wir konstruieren eine Prognosefunktion y = g(x), die aus einem beobachteten Wert des Merkmals x eine möglichst gute Prognose für den Wert von y berechnet. Wird das Paar (xi , yi ) beobachtet, so heißt ŷi = g(xi ) der Schätzwert. Die Abweichung yi − ŷi heißt der Prognosefehler. R. Frühwirth Statistik 88/535 Empirische Regressionsgerade Empirische Regressionsgerade Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Statistik Wir wählen eine lineare Prognosefunktion g(x) = â + b̂x. R. Frühwirth Die Koeffizienten â und b̂ werden so bestimmt, dass die Quadratsumme SSR der Prognosefehler möglichst klein wird: n n X X SSR = (yi − ŷi )2 = (yi − â − b̂xi )2 i=1 → minimal i=1 Man nennt dies das Prinzip der kleinsten Fehlerquadrate oder Least Squares (LS). Minimierung der Fehlerquadratsumme bezüglich â und b̂ ergibt die empirische Regressionsgerade. Ihr Anstieg b̂ heißt der empirische Regressionskoeffizient. R. Frühwirth Statistik Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 89/535 b̂ = rxy sxy sy = 2 , sx sx â = ȳ − b̂x̄ heißt die empirische Regressionsgerade. Eigenschaften der empirischen Regressionsgeraden 1 Die empirische Regressionsgerade verläuft durch den Schwerpunkt (x̄, ȳ) der Daten. 2 Sind die Daten standardisiert, lautet die empirische Regressionsgerade: y = rxy · x Statistik 90/535 Statistik Da |rxy | ≤ 1, verläuft die Regressionsgerade flacher als die Hauptachse. Man nennt dies das Regressionsphänomen. Einleitung R. Frühwirth Einleitung 4 4 rxy=−0.8 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale 0 −2 −2 −4 −4 −4 −4 −4 −4 0 zx 2 4 4 rxy=0.3 0 −2 −4 −4 −2 0 zx 2 4 4 rxy=0.6 2 zy 2 zy 0 −2 −2 0 zx 2 4 0 R. Frühwirth −4 −4 −2 0 zx 2 Datensatz 4: x̄ = 167.60 ȳ = 76.16 sx = 8.348 sy = 4.727 rxy = 0.5562 â = 0.3150 b̂ = 23.37 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 4 Zweidimensionale Merkmale rxy=0.9 2 −2 −2 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten rxy=0 2 zy 0 4 Zweidimensionale Merkmale rxy=−0.4 2 zy zy 2 4 zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade y = â + b̂x mit Empirische Regressionsgerade Statistik Eindimensionale Merkmale Die Gerade R. Frühwirth Empirische Regressionsgerade R. Frühwirth Definition (Empirische Regressionsgerade) Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0 Matlab: make dataset4 −2 −2 Statistik 0 zx 2 4 −4 −4 −2 0 zx 2 4 91/535 R. Frühwirth Statistik 92/535 Empirische Regressionsgerade Empirische Regressionsgerade Statistik R. Frühwirth Statistik Datensatz 4: R. Frühwirth Datensatz 4 90 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 80 Gewicht (kg) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung 85 Eindimensionale Merkmale Die Streuung der Werte yi hat im Regressionsmodell unterschiedliche Ursachen. Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von x. Dazu kommt noch die zufällige Streuung der Daten. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 75 70 Zweidimensionale Merkmale 65 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 60 Erklärbare Streuung n X 2 SS = (ŷi − ȳ)2 = rxy ns2y ∗ i=1 n X 2 (yi − ŷi )2 = (1 − rxy )ns2y Reststreuung SSR = Totale Streuung n X SST = (yi − ȳ)2 = ns2y i=1 i=1 55 140 150 160 170 Körpergröße (cm) 180 190 Streudiagramm mit Regressionsgerade R. Frühwirth Statistik R. Frühwirth 93/535 Empirische Regressionsgerade Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 94/535 Empirische Regressionsgerade Statistik R. Frühwirth Statistik Statistik Streuungszerlegung R. Frühwirth Einleitung SST = SS ∗ + SSR Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Bestimmheitsmaß der Regression Zweidimensionale Merkmale B= Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade SS ∗ 2 = rxy SST Statistik Es stellt sich die Frage, ob die empirische Korrelation signifikant ist. Konstruieren Test mit Nullhypothese b = 0 und Alternative b 6= 0 Test auf Korrelation Die Teststatistik ist die sogenannte F -Größe: Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von x und y erklärt werden kann. R. Frühwirth Auch wenn x und y unkorreliert sind, kann auf Grund von statistischen Schwankungen b̂ 6= 0 sein. 95/535 F = (n − 2) 2 rxy 2 1 − rxy Faustregel: Die Korrelation ist signifikant, wenn F > 4. R. Frühwirth Statistik 96/535 Empirische Regressionsgerade Statistik Statistik Datensatz 4: R. Frühwirth R. Frühwirth SS ∗ = 691.30 SSR = 1543.36 SST = 2234.66 B = 0.3094 F = 43.90 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Matlab: make dataset4 R. Frühwirth Statistik 97/535 R. Frühwirth Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 98/535 Einleitung 4 Einleitung 5 Ereignisse 6 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Abschnitt 4: Einleitung Übersicht Teil 2 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsrechnung Bedingte Wahrscheinlichkeit Zweidimensionale Merkmale Ereignisse Teil 2 Wahrscheinlichkeit 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 99/535 R. Frühwirth Statistik 100/535 Einleitung Einleitung Statistik R. Frühwirth Statistik Der konkrete Ausgang eines Experiments kann im Allgemeinen nicht genau vorausgesagt werden. R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Einleitung Die möglichen Ausgänge sind jedoch bekannt. Ereignisse Ziel der Wahrscheinlichkeitsrechnung ist es, den Ausgängen Wahrscheinlichkeiten zuzuweisen. Zwei Interpretationen der Wahrscheinlichkeit möglich. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit Beispiel Die Wahrscheinlichkeit des Ausgangs 1“ beim Würfeln ist der ” Grenzwert der Häufigkeit für eine große Zahl von Würfen. R. Frühwirth Statistik 102/535 Statistik Subjektive Interpretation R. Frühwirth Die Wahrscheinlichkeit eines Ausgangs ist eine Aussage über den Glauben der Person, die die Wahrscheinlichkeit angibt. Die darauf basierende Statistik wird bayesianisch“ genannt. ” Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Die darauf basierende Statistik wird frequentistisch“ ” genannt. Einleitung Statistik Einleitung Die Wahrscheinlichkeit eines Ausgangs ist die Häufigkeit des Ausgangs, wenn das Experiment sehr oft unter den gleichen Bedingungen wiederholt wird. 101/535 Einleitung R. Frühwirth Häufigkeitsinterpretation Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Beispiel Die Wahrscheinlichkeit, dass es morgen regnet, ist 40 Prozent“ ist ein ” Aussage über den Glauben der Person, die diese Aussage tätigt. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit In der Praxis ist der Übergang zwischen den beiden Ansätzen oft fließend. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik In vielen Fällen sind die Resultate identisch, nur die Interpretation ist verschieden. Der bayesianische Ansatz ist umfassender und flexibler. Der frequentistische Ansatz ist meist einfacher, aber beschränkter. Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 103/535 R. Frühwirth Statistik 104/535 Abschnitt 5: Ereignisse Unterabschnitt: Der Ereignisraum Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Einleitung Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit 105/535 R. Frühwirth Statistik 106/535 Der Ereignisraum Statistik Grundlegend für die Statistik ist der Begriff des (zufälligen) Ereignisses. Einleitung Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeit Der Ereignisraum Ereignisse Einleitung Bedingte Wahrscheinlichkeit 6 R. Frühwirth R. Frühwirth 4 Ereignisse R. Frühwirth Die Menge Ω aller möglichen Ausgänge heißt Ereignisraum oder Stichprobenraum. Einleitung Für den Physiker der Ausgang eines Experiments, dessen Ergebnis nicht genau vorausgesagt werden kann. Mehrere Gründe: Die beobachteten Objekte sind eine zufällige Auswahl aus einer größeren Grundgesamtheit. Der beobachtete Prozess ist prinzipiell indeterministisch (Quantenmechanik). Messfehler geben dem Ergebnis einen stochastischen Charakter. Mangelnde Kenntnis des Anfangszustandes. R. Frühwirth Statistik 107/535 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der Ereignisraum Ω kann endlich, abzählbar unendlich oder überabzählbar unendlich sein. Beispiel Beim Roulette gibt es 37 mögliche Ausgänge. Der Ereignisraum ist endlich. Wird eine radioaktive Quelle beobachtet, ist die Anzahl der Zerfälle pro Sekunde im Prinzip unbeschränkt. Der Ereignisraum ist abzählbar unendlich. Die Wartezeit zwischen zwei Zerfällen kann jeden beliebigen Wert annehmen. Der Ereignisraum ist überabzählbar unendlich. R. Frühwirth Statistik 108/535 Unterabschnitt: Die Ereignisalgebra Die Ereignisalgebra Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis G (gerade Zahl) ist die Teilmenge G = {2, 4, 6} G tritt ein, wenn eine gerade Zahl geworfen wird. R. Frühwirth Statistik 110/535 Die Ereignisalgebra Statistik Einleitung Beispiel 109/535 Die Ereignisalgebra R. Frühwirth Ein Ereignis E ist eine Teilmenge des Ereignisraums Ω. Ein Ereignis E tritt ein, wenn E den Ausgang ω ∈ Ω des Experiments enthält. Wahrscheinlichkeit Bedingte Wahrscheinlichkeit 6 Definition (Ereignis) Statistik Definition (Ereignisalgebra) R. Frühwirth Einleitung Die Menge aller Ereignisse des Ereignisraums Ω heißt die Ereignisalgebra Σ(Ω). Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Im endlichen oder abzählbar unendlichen Fall kann jede Teilmenge als Ereignis betrachtet werden. Die Ereignisalgebra heißt diskret. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Zwei Ereignisse A ∈ Σ und B ∈ Σ können logisch verknüpft werden. Statistik Disjunktion Symbol A∪B Name Disjunktion Bedeutung A oder B (oder beide) Wahrscheinlichkeit Im überabzählbar unendlichen Fall müssen gewisse pathologische (nicht messbare) Teilmengen ausgeschlossen werden. Die Ereignisalgebra heißt kontinuierlich oder stetig. R. Frühwirth Verknüpfung von Ereignissen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Konjunktion Symbol A∩B Name Konjunktion Bedeutung A und B (sowohl A als auch B) Negation Symbol A0 111/535 Name Negation R. Frühwirth Bedeutung nicht A (das Gegenteil von A) Statistik 112/535 Die Ereignisalgebra Die Ereignisalgebra Statistik R. Frühwirth Statistik Implikation Einleitung Symbol A⊆B Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Name Implikation Einleitung Bedeutung aus A folgt B (A0 ∪ B) Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Mit diesen Verknüpfungen ist Σ ist eine Boole’sche Algebra: distributiver komplementärer Verbands mit Nullund Einselement. Wahrscheinlichkeit Das Nullelement 0 = ∅ ist das unmögliche Ereignis. Bedingte Wahrscheinlichkeit Das Einselement 1 = Ω ist das sichere Ereignis. Ein Ereignis, das nur aus einem möglichen Ausgang besteht, heißt ein Elementarereignis. R. Frühwirth Statistik 113/535 R. Frühwirth Statistik R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 7 Statistik 114/535 Wiederholte Experimente Statistik 4 Ist überabzählbaren Fall ist die Ereignisalgebra Σ ist die kleinste σ-Algebra, die alle Teilintervalle von Ω enthält. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Ereignisse Der Ereignisraum ist dann eine sogenannte σ-Algebra. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Unterabschnitt: Wiederholte Experimente Einleitung Ist Ω (abzählbar oder überabzählbar) unendlich, verlangt man, dass auch abzählbar viele Vereinigungen und Durchschnitte gebildet werden können. Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6} Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Die Ereignisalgebra Σ(Ω) hat folglich sechs Elementarereignisse: e1 = {1}, e2 = {2}, e3 = {3}, e4 {4}, e5 = {5}, e6 = {6} und insgesamt 26 = 64 Ereignisse (Teilmengen von Ω). Der Ereignisraum des zweimaligen Würfelns ist das kartesische Produkt Ω × Ω: Ω × Ω = {(i, j)|i, j = 1, . . . , 6} Das geordnete Paar (i, j) bedeutet: i beim ersten Wurf, j beim zweiten Wurf. Die Ereignisalgebra Σ(Ω × Ω) hat folglich 36 Elementarereignisse eij : e11 = {(1, 1)}, . . . , e36 = {(6, 6)} R. Frühwirth Statistik 115/535 R. Frühwirth Statistik 116/535 Wiederholte Experimente Wiederholte Experimente Statistik Statistik Analog ist beim n-maligen Würfeln der Ereignisraum das n-fache kartesische Produkt Ω × Ω × . . . × Ω. R. Frühwirth R. Frühwirth Einleitung Einleitung Ereignisse Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Beispiel (Ereignisalgebra des Doppelwurfs) Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Beispiele für Elemente der Ereignisalgebra des Doppelwurfs sind: 6 beim ersten Wurf: 6 beim zweiten Wurf: Beide Würfe gleich: Summe der Würfe gleich 7: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit {(6, 1), (6, 2), . . . , (6, 6)} {(1, 6), (2, 6), . . . , (6, 6)} {(1, 1), (2, 2), . . . , (6, 6)} {(1, 6), (2, 5), . . . , (6, 1)} Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Wiederholter Alternativversuch) Ein Experiment, das nur zwei mögliche Ergebnisse hat, heißt ein Alternativversuch. Es gibt zwei Ausgänge, 0 und 1. Wird ein Alternativversuch n-mal durchgeführt, ergibt sich eine Ereignisraum mit 2n Ausgängen, nämlich den Folgen der Form (i1 , . . . , in ) mit ij = 0 oder 1. In der Regel interessiert aber nur die Häufigkeit des Eintretens von 1 (oder 0). Dann gibt es nur mehr n + 1 Ausgänge: 1 tritt 0, 1, 2, . . . oder n-mal ein. Bezeichnet das Ereignis E1 das einmalige Eintreten von 1, so ist E1 die Vereinigung mehrerer Elementarereignisse der ursprünglichen Ereignisalgebra: E1 = {(e1 , e0 , . . . , e0 ), (e0 , e1 , e0 , . . . , e0 ), . . . , (e0 , . . . , e0 , e1 )} Ein Beispiel ist das n-malige Werfen einer Münze. R. Frühwirth Statistik R. Frühwirth 117/535 Abschnitt 6: Wahrscheinlichkeit Statistik Statistik R. Frühwirth 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 7 Bedingte Wahrscheinlichkeit Ereignisse 5 118/535 Unterabschnitt: Wahrscheinlichkeitsmaße R. Frühwirth Einleitung Statistik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 119/535 R. Frühwirth Statistik 120/535 Wahrscheinlichkeitsmaße Wahrscheinlichkeitsmaße Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Definition (Wahrscheinlichkeitsmaß) R. Frühwirth Es sei Σ eine Ereignisalgebra, A und B Ereignisse in Σ, und W eine Abbildung von Σ in R. W heißt ein Wahrscheinlichkeitsmaß, wenn gilt: 1. Positivität: 2. Additivität: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit 3. Normierung: Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth W (A) ≥ 0 ∀A ∈ Σ A ∩ B = 0 =⇒ W (A ∪ B) = W (A) + W (B) W (1) = 1 Statistik Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 121/535 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ai ∈ Σ, i ∈ J; Ai ∩ Aj = 0, i 6= j =⇒ [ X W ( Ai ) = W (Ai ) i∈J i∈J Σ heißt dann normiert, und (Σ, W ) ein Wahrscheinlichkeitsraum. W wird auch als Wahrscheinlichkeitsverteilung bezeichnet. Statistik 122/535 Statistik Rechengesetze für Wahrscheinlichkeit R. Frühwirth Ist (Σ, W ) ein Wahrscheinlichkeitsraum, so gilt: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 4. σ-Additivität: Wahrscheinlichkeitsmaße Statistik Einleitung Ist Σ eine σ-Algebra, was für unendliche Ereignisräume vorausgesetzt werden muss, verlangt man für abzählbares J: R. Frühwirth Wahrscheinlichkeitsmaße R. Frühwirth Definition (Wahrscheinlichkeitsraum) 1 W (A0 ) = 1 − W (A), ∀A ∈ Σ 2 W (0) = 0 3 A ⊆ B =⇒ W (A) ≤ W (B), ∀A, B ∈ Σ 4 W (A) ≤ 1, ∀A ∈ Σ 5 W (A ∪ B) = W (A) + W (B) − W (A ∩ B), ∀A, B ∈ Σ 6 Hat Σ höchstens abzählbar viele Elementarereignisse P {ei | i ∈ I}, so ist i∈I W (ei ) = 1. R. Frühwirth Statistik Einleitung In einer diskreten Ereignisalgebra ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der Elementarereignisse, deren ∪-Verbindung es ist. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 123/535 Daher ist ein Wahrscheinlichkeitsmaß durch die Werte, die es den Elementarereignissen zuordnet, eindeutig bestimmt. Andererseits kann jede positive Funktion, die auf der Menge der Elementarereignisse definiert ist und Punkt 6 erfüllt, eindeutig zu einem Wahrscheinlichkeitsmaß fortgesetzt werden. Man kann also auf einer diskreten Ereignisalgebra Σ unendlich viele Verteilungen definieren. R. Frühwirth Statistik 124/535 Wahrscheinlichkeitsmaße Unterabschnitt: Gesetz der großen Zahlen Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik In einer kontinuierlichen Ereignisalgebra ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 0. Die Wahrscheinlichkeit eines Ereignisses kann daher nicht mehr durch Summation ermittlet werden. Statt dessen wird eine Dichtefunktion f (x) angegeben, die jedem Elementarereignis x einen nichtnegativen Wert f (x) zuordnet. Die Dichtefunktion muss normiert sein: Z f (x) dx = 1 R R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die Wahrscheinlichkeit eines Ereignisses A wird durch Integration über die Dichte ermittelt: Z W (A) = f (x) dx A Die Dichte muss so beschaffen sein, dass das Integral für alle zugelassenen Ereignisse existiert. R. Frühwirth Statistik 125/535 R. Frühwirth Gesetz der großen Zahlen Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Betrachten einfaches Zufallsexperiment: Münzwurf R. Frühwirth Zwei mögliche Ergebnisse: Kopf (K), Zahl (Z) Annahme: Münze symmetrisch, K und Z gleichwahrscheinlich hn (K) 6 51 252 488 2533 fn (K) 0.6 0.51 0.504 0.488 0.5066 0.8 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Experiment wird n-mal wiederholt n 10 100 500 1000 5000 1 Einleitung Wahrscheinlichkeit |fn (K) − 0.5| 0.1 0.01 0.004 0.012 0.0066 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik f(K) Einleitung 126/535 Gesetz der großen Zahlen Statistik R. Frühwirth Statistik 0.6 0.4 0.2 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 0 0 100 200 300 400 500 n Entwicklung der relativen Häufigkeit von K Häufigkeitstabelle Matlab: make coin R. Frühwirth Statistik 127/535 R. Frühwirth Statistik 128/535 Gesetz der großen Zahlen Unterabschnitt: Kombinatorik Statistik R. Frühwirth Statistik Die relative Häufigkeit des Ereignisses K scheint gegen den Grenzwert 0.5 zu streben. Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Dieser Grenzwert wird als die Wahrscheinlichkeit W (K) bezeichnet. Empirisches Gesetz der großen Zahlen Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik lim fn (K) = W (K) n→∞ Das mathematische Problem dieser Definition liegt darin, dass die Existenz des Grenzwerts von vornherein nicht einzusehen ist und im klassisch analytischen Sinn tatsächlich nicht gegeben sein muss, sondern nur in einem weiteren, statistischen Sinn. R. Frühwirth Statistik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 130/535 Kombinatorik Statistik Häufig ist es auf Grund von Symmetrieüberlegungen möglich, die Elementarereignisse als gleichwahrscheinlich anzusehen. R. Frühwirth Ereignisse Dies ist natürlich nur sinnvoll für endlich viele Elementarereignisse. Sind alle m Elementarereignisse gleichwahrscheinlich, gilt: 131/535 W (A) = g m Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1 W (e1 ) = W (e2 ) = . . . = W (em ) = m Statistik Regel von Laplace Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Diese Annahme entspricht nur in seltenen Fällen der physikalischen Realität und muss im Zweifelsfall durch das Experiment überprüft werden. R. Frühwirth Für ein Ereignis A, das sich aus g Elementarereignissen zusammensetzt, gilt: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 129/535 Statistik Einleitung Einleitung Bedingte Wahrscheinlichkeit Kombinatorik R. Frühwirth 4 Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit R. Frühwirth Die Wahrscheinlichkeit von A ist die Anzahl der günstigen“ ” durch die Anzahl der möglichen“ Fälle. ” Die Abzählung der günstigen und möglichen Fälle erfordert oft kombinatorische Methoden. R. Frühwirth Statistik 132/535 Kombinatorik Kombinatorik Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Definition (Variation) R. Frühwirth Es sei M eine Menge mit n Elementen. Eine geordnete Folge von k verschiedenen Elementen von M heißt eine Variation von n Elementen zur k-ten Klasse. Es gibt Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik n! = n · (n − 1) . . . (n − k + 1) = (n − k)! Bedingte Wahrscheinlichkeit solcher Variationen. Für den Sonderfall k = n sieht man, dass sich die n Elemente der Menge M auf Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Wahrscheinlichkeit Vkn Bedingte Wahrscheinlichkeit Einleitung n! = n Y Definition (Kombination) Sei M wieder eine Menge mit n Elementen. Eine k-elementige Teilmenge von M heißt eine Kombination von n Elementen zur k-ten Klasse. n! n = Es gibt Ckn = solcher Kombinationen. k k! (n − k)! Ckn wird auch als Binomialkoeffizient bezeichnet. Die Binomialkoeffizienten können im sogenannten Pascal’schen Dreieck angeordent werden: Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit n−1 k i ! + n−1 k−1 ! = n k ! i=1 verschiedene Weisen (Permutationen) anordnen lassen. R. Frühwirth Statistik R. Frühwirth 133/535 Kombinatorik Statistik Wie aus der Definition der Kombination folgt, ist die Summe aller Ckn , 0 ≤ k ≤ n, für festes n gleich der Anzahl aller Teilmengen von M : Einleitung Ereignisse n X Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Einleitung 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit 134/535 Abschnitt 7: Bedingte Wahrscheinlichkeit Statistik R. Frühwirth Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Statistik k=0 n k Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente ! = 2n Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Beispiel Bedingte Wahrscheinlichkeit Beim Roulette sind die Zahlen von 0 bis 36 als Ergebnis möglich. 1 Wie groß ist die Wahrscheinlichkeit, dass sich in einer Serie von zehn Würfen keine Zahl wiederholt? 2 Wie groß ist die Wahrscheinlichkeit, dass in einer Serie von 37 Würfen jede Zahl vorkommt? R. Frühwirth Statistik 135/535 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 136/535 Unterabschnitt: Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik R. Frühwirth Negative Koppelung: Je öfter A eintritt, desto seltener tritt tendenziell auch B ein. Quantifizierung von oft“ und selten“ erfolgt durch ” ” Häufigkeitstabelle. Statistik 138/535 Gewöhnliche relative Häufigkeiten werden auf den Umfang n des gesamten Datensatzes bezogen: Einleitung Ereignisse Beispiel: A=“Eine untersuchte Person ist weiblich“ B=“Eine untersuchte Person hat Diabetes“ Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Vierfeldertafel für 1000 Personen: Bedingte Wahrscheinlichkeit A A0 R. Frühwirth B 19 26 45 Statistik B0 526 429 955 f (A ∩ B) = Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Positive Koppelung: Je öfter A eintritt, desto öfter tritt tendenziell auch B ein. Statistik Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ein solcher Zusammenhang wird Koppelung genannt. Kopplung und bedingte Wahrscheinlichkeit Statistik Einleitung Frage: Besteht ein Zusammenhang zwischen den Ereignissen? R. Frühwirth 137/535 Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth Wir betrachten jetzt zwei Ereignisse A und B, die bei einem Experiment eintreten können. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 545 455 1000 139/535 h(A ∩ B) n Bedingte relative Häufigkeiten werden auf das Eintreten des anderen Merkmals bezogen: f (A|B) = h(A ∩ B) f (A ∩ B) = h(B) f (B) f (A|B) heißt die bedingte relative Häufigkeit von A unter der Bedingung B. R. Frühwirth Statistik 140/535 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Statistik Die Vierfeldertafel U gibt folgende bedingte relative Häufigkeiten: R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Einleitung 19 = 0.422, f (A|B) = 45 526 f (A|B ) = = 0.551 955 Ereignisse 0 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Es ist somit zu vermuten, dass die beiden Merkmale gekoppelt sind. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 141/535 R. Frühwirth Einleitung fn (A ∩ B) W (A ∩ B) fn (A|B) = → W (A|B) = fn (B) W (B) Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 142/535 Statistik Die bedingten relativen Häufigkeiten konvergieren für n → ∞ gegen einen Grenzwert: Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Nach dem empirischen Gesetz der großen Zahl sind diese Wahrscheinlichkeiten die Grenzwerte der entsprechenden relativen Häufigkeiten. Kopplung und bedingte Wahrscheinlichkeit Statistik Ereignisse A A0 B B0 W (A ∩ B) W (A ∩ B 0 ) W (A) W (A0 ∩ B) W (A0 ∩ B 0 ) W (A0 ) W (B) W (B 0 ) 1 R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth Wahrscheinlichkeitstabelle: Wahrscheinlichkeit f (A|B) > f (A) deutet auf eine positive Koppelung, f (A|B) < f (A) auf eine negative Koppelung. R. Frühwirth Stammen die Daten aus einem Zufallsexperiment, dann besitzen die Ereigniskombinationen auch Wahrscheinlichkeiten. Beispiel (Der symmetrische Würfel) Ist der Würfel völlig symmetrisch, werden den Elementarereignissen ei = {i} gleiche Wahrscheinlichkeiten zugeordnet: W (ei ) = Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Definition (Bedingte Wahrscheinlichkeit) W (A|B) = W (A ∩ B) W (B) Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit heißt die bedingte Wahrscheinlichkeit von A unter der Bedingung B, sofern W (B) 6= 0. R. Frühwirth Statistik 143/535 1 , 1≤i≤6 6 Wir definieren die folgenden Ereignisse: U = {1, 3, 5}, G = {2, 4, 6} Dann gilt zum Beispiel W (e1 ∩ U ) W (e1 ) 1 = = W (U ) W (U ) 3 W (e1 ∩ G) W (0) W (e1 |G) = = =0 W (U ) W (U ) W (e1 |U ) = R. Frühwirth Statistik 144/535 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Statistik Beispiel (Fortsetzung) Aus der Definition der bedingten Wahrscheinlichkeit folgt sofort die R. Frühwirth Einleitung Einleitung W (e1 ∩ U ) W (e1 ) W (U |e1 ) = = =1 W (e1 ) W (e1 ) W (e1 ∪ e3 ) W ((e1 ∪ e3 ) ∩ U ) 2 = = W (e1 ∪ e3 |U ) = W (U ) W (U ) 3 W ((e1 ∪ e2 ) ∩ U ) W (e1 ) 1 W (e1 ∪ e2 |U ) = = = W (U ) W (U ) 3 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ereignisse Produktformel Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) = W (A|B)W (B) = W (B|A)W (A) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit und die Formel für die Inverse Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (B|A) = W (A|B)W (B) W (A) Beide Formeln gelten auch für relative Häufigkeiten! R. Frühwirth Statistik R. Frühwirth 145/535 Unterabschnitt: Satz von Bayes Statistik Statistik R. Frühwirth 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit 6 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 146/535 Satz von Bayes R. Frühwirth Einleitung Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 147/535 Definition (Zerlegung) Die Ereignisse B1 , B2 , . . . , Bm bilden eine Zerlegung der Ergebnismenge Ω, wenn gilt: 1 2 Unvereinbarkeit: Bi ∩ Bj = ∅, i 6= j Vollständigkeit: B1 ∪ B2 ∪ . . . ∪ Bm = Ω Satz Bilden die Ereignisse B1 , B2 , . . . , Bm eine Zerlegung der Ergebnismenge Ω, dann gilt: W (B1 ) + W (B2 ) + . . . + W (Bm ) = W (Ω) = 1 R. Frühwirth Statistik 148/535 Satz von Bayes Satz von Bayes Statistik Statistik Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: R. Frühwirth Einleitung R. Frühwirth Totale Wahrscheinlichkeit Einleitung Ereignisse W (A) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Beispiel Ein Betrieb erzeugt Glühbirnen mit 40W (35% der Produktion), mit 60W (45%) und mit 100W (20%). Nach einem Jahr sind noch 98% der 40W-Birnen funktionsfähig, 96% der 60W-Birnen, und 92% der 100W-Birnen. Welcher Anteil an allen Glühbirnen ist nach einem Jahr noch funktionsfähig? Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit 150/535 Statistik Beispiel R. Frühwirth Ein Betrieb kauft Bauteile von zwei Anbietern, wobei der Anteil des ersten 65% beträgt. Erfahrungsgemäß ist der Ausschussanteil bei Anbieter 1 gleich 3% und bei Anbieter 2 gleich 4%. 1 Wie groß ist der totale Ausschussanteil? 2 Wie groß ist die Wahrscheinlichkeit, daß ein einwandfreier Bauteil von Anbieter 2 kommt? 3 Wie groß ist die Wahrscheinlichkeit, daß ein mangelhafter Bauteil von Anbieter 1 kommt? Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Statistik Satz von Bayes Statistik Ereignisse W (Bi ) wird die a-priori Wahrscheinlichkeit von B genannt, W (Bi |A) die a-posteriori Wahrscheinlichkeit. 149/535 Satz von Bayes Einleitung W (A|Bi )W (Bi ) W (A) W (A|Bi )W (Bi ) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) W (Bi |A) = Wahrscheinlichkeit R. Frühwirth R. Frühwirth Satz von Bayes Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Beispiel Ein Bauteil wird von vier Firmen geliefert, und zwar kommen 20% von Firma 1, 30% von Firma 2, 35% von Firma 3, und 15% von Firma 4. Die Wahrscheinlichkeit, dass der Bauteil im Testbetreib innerhalb von 24 Stunden ausfällt, ist 0.02 für Firma 1, 0.015 für Firma 2, 0.025 für Firma 3, und 0.02 für Firma 4. Ein Bauteil fällt im Testbetrieb nach 16 Stunden aus. Die Wahrscheinlichkeit, dass er von Firma i kommt, ist mittel des Satzes von Bayes zu berechnen. Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 151/535 R. Frühwirth Statistik 152/535 Unterabschnitt: Unabhängigkeit Unabhängigkeit Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse 7 Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Liegt weder positive noch negative Kopppelung vor, sind A und B unabhängig. Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth 153/535 Statistik 154/535 Unabhängigkeit Statistik Ereignisse W (A|B) < W (A) oder W (A ∩ B) < W (A)W (B) Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Unabhängigkeit Einleitung Zwei Ereignisse sind negativ gekoppelt, wenn Wahrscheinlichkeit 6 R. Frühwirth R. Frühwirth W (A|B) > W (A) oder W (A ∩ B) > W (A)W (B) Einleitung Einleitung Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Zwei Ereignisse sind positiv gekoppelt, wenn Statistik Definition (Unabhängigkeit) R. Frühwirth Einleitung Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn W (A ∩ B) = W (A)W (B) Ereignisse Beispiel Wir betrachten den zweimaligen Wurf einer Münze (Kopf/Zahl). Die möglichen Ausgänge sind Ω = {KK, KZ, ZK, ZZ}. Ferner definieren wir die Ereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die Ereignisse A1 , A2 , . . . , An heißen unabhängig, wenn gilt: E1 = {KK, KZ} . . . Kopf beim ersten Wurf E2 = {KK, ZK} . . . Kopf beim zweiten Wurf Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik W (A1 ∩ . . . ∩ An ) = W (A1 ) · . . . · W (An ) Dazu genügt nicht, dass je zwei Ereignisse Ai und Aj paarweise unabhängig sind! Bedingte Wahrscheinlichkeit E3 = {KK, ZZ} . . . Gerade Zahl von Köpfen Dann gilt für alle i 6= j Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (Ei ∩ Ej ) = 1 = W (Ei ) · W (Ej ) 4 aber W (E1 ∩ E2 ∩ E3 ) = R. Frühwirth Statistik 155/535 R. Frühwirth 1 1 6= = W (E1 ) · W (E2 ) · W (E3 ) 4 8 Statistik 156/535 Unabhängigkeit Unabhängigkeit Statistik R. Frühwirth Statistik Sind A und B unabhängig, gilt W (A|B) = W (A) und W (B|A) = W (B). Einleitung Ereignisse Einleitung Die Vierfeldertafel für zwei unabhängige Ereignisse: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 0 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A A0 B B W (A)W (B) W (A)W (B 0 ) W (A) W (A0 )W (B) W (A0 )W (B 0 ) W (A0 ) W (B) W (B 0 ) 1 R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 157/535 −1 ≤ ρ(A, B) ≤ 1 2 ρ(A, B) = 0 ⇐⇒ A und B unabhängig 3 ρ(A, B) > 0 ⇐⇒ A und B positiv gekoppelt 4 ρ(A, B) < 0 ⇐⇒ A und B negativ gekoppelt R. Frühwirth R. Frühwirth Einleitung Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Speziell gilt: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1 Statistik 158/535 Statistik Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Eigenschaften der Vierfelderkorrelation Unabhängigkeit Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) − W (A)W (B) ρ(A, B) = p W (A)W (A0 )W (B)W (B 0 ) Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Statistik Ereignisse Vierfelderkorrelation Wahrscheinlichkeit Unabhängigkeit R. Frühwirth Die Koppelung kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die Koppelung kann auch durch eine gemeinsame Ursache für beide Ereignisse entstehen. R. Frühwirth Statistik 159/535 Zwei physikalische Ereignisse können als unabhängig postuliert werden, wenn zwischen ihnen keine wie immer geartete Verbindung besteht, da dann das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflussen kann. Zwei Elementarereignisse sind niemals unabhängig, da ihre ∩-Verbindung stets das unmögliche Ereignis ist. Zwei Elementarereignisse sind sogar höchst abhängig“, weil ” das Eintreten des einen das Eintreten des anderen mit Sicherheit ausschließt. Sind E1 und E2 zwei unaghängige Ereignisse eines Wahrscheinlichkeitsraumes (Σ, W ), so sind auch E1 und E20 , E10 und E2 , sowie E10 und E20 unabhängig. R. Frühwirth Statistik 160/535 Unabhängigkeit Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Beispiel (Wurf mit zwei unterscheidbaren Würfeln) R. Frühwirth Einleitung Es gibt 36 Elementarereignisse eij = {(i, j)}, 1 ≤ i, j ≤ 6. Das Ereignis Ei1 , beim ersten Wurf eine i zu würfeln, setzt sich so zusammen: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ei1 = ei1 ∪ ei2 ∪ . . . ∪ ei6 und analog Ej2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik = e1j ∪ e2j ∪ . . . ∪ e6j Klarerweise gilt Ei1 ∩ Ej2 = eij . Kann man annehmen, dass alle Elementarereignisse gleichwahrscheinlich sind, so gilt: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1 1 , W (Ej2 ) = 6 6 1 1 2 W (Ei ∩ Ej ) = W (eij = = W (Ei1 ) · W (Ej2 ) 36 Beispiel (Fortsetzung) In diesem Fall sind also auch die Elementarereignisse des einfachen Wurfes gleichwahrscheinlich und die beiden Teilwürfe sind unabhängig. Setzt man umgekehrt voraus, dass für beide Teilwürfe die Elementarereignisse gleichwahrscheinlich sind, und dass Ei1 und Ej2 für alle i und j unabhängig sind, so sind die eij gleichwahrscheinlich. Sind die Teilwürfe nicht unabhängig, so sind die eij trotz der Gleichwahrscheinlichkeit der ei und ej nicht mehr gleichwahrscheinlich. Ein Beispiel dafür ist der Wurf“ mit einem sehr ” großen Würfel, der jedesmal bloß um 90o gedreht werden kann. Das Elementarereignis e34 ist hier unmöglich und muss daher die Wahrscheinlichkeit 0 zugewiesen bekommen. W (Ei1 ) = R. Frühwirth Statistik R. Frühwirth 161/535 Statistik 162/535 Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Beispiel (Wiederholung eines Alternativversuchs) Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form (i1 , . . . , in ), ij = 0 oder 1. Sind die Wiederholungen unabhängig, und bezeichnet p die Wahrscheinlichkeit des Eintretens von 1, ist die Wahrscheinlichkeit einer Folge Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Bedingte Wahrscheinlichkeit R. Frühwirth W ({(i1 , . . . , in )}) = p n1 (1 − p) n0 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen wo n0 bzw. n1 die Anzahl des Eintretens von 0 bzw. 1 angibt. Klarerweise gilt n0 + n1 = n. Teil 3 Mehrdimensionale Zufallsvariable Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 163/535 R. Frühwirth Statistik 164/535 Abschnitt 8: Eindimensionale Zufallsvariable Übersicht Teil 3 Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable 8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Momente Erwartung Varianz Schiefe Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 11 Momente 12 Rechnen mit Verteilungen R. Frühwirth Statistik Statistik R. Frühwirth 8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable 9 Statistik 166/535 Grundbegriffe R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen Definition (Zufallsvariable) Eine Abbildung X: ω ∈ Ω 7→ x = X(ω) ∈ R die jedem Element ω des Ereignisraums Ω eine reelle Zahl zuordnet, heißt eine (eindimensionale) Zufallsvariable. Wichtige Verteilungen 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Wichtige Verteilungen 165/535 Unterabschnitt: Grundbegriffe Momente 10 Erwartung Varianz Schiefe Rechnen mit Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Randverteilungen und bedingte Verteilungen 9 Mehrdimensionale Zufallsvariable Rechnen mit Verteilungen Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 8 12 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 167/535 Ist Ω endlich oder abzählbar unendlich, ist jede beliebige Abbildung X zugelassen. Ist Ω überabzählbar unendlich, muss X eine messbare Abbildung sein. Da der Wert einer Zufallsvariablen vom Ausgang des Experiments abhängt, kann man den möglichen Werten Wahrscheinlichkeiten zuschreiben. R. Frühwirth Statistik 168/535 Grundbegriffe Unterabschnitt: Diskrete Zufallsvariable Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Nimmt die Zufallsvariable X nur endlich oder abzählbar unendlich viele Werte an, heißt sie diskret. R. Frühwirth Nimmt die Zufallsvariable X ein Kontinuum von Werte an, heißt sie kontinuierlich. Die Abbildung, die beim Würfeln dem Elementarereignis ei die Augenzahl i zuordnet, ist eine diskrete Zufallsvariable. Natürlich wäre auch die Abbildung ei :−→ 7 − i eine diskrete Zufallsvariable. Beispiel Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Die Abbildung, die dem Zerfall eines Teilchens die Lebensdauer x zuordnet, ist eine kontinuierliche Zufallsvariable. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 169/535 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Statistik 170/535 Diskrete Zufallsvariable Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen 10 R. Frühwirth Diskrete Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Erwartung Varianz Schiefe Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Rechnen mit Verteilungen R. Frühwirth 8 Mehrdimensionale Zufallsvariable Beispiel Momente Erwartung Varianz Schiefe Eindimensionale Zufallsvariable Statistik Diskrete Zufallsvariable sind oft das Resultat von Zählvorgängen. R. Frühwirth In der physikalischen Praxis kommen diskrete Zufallsvariable häufig vor: man denke an das Zählen von Ereignissen in einem festen Zeitintervall (Poissonverteilung), an das Abzählen von Alternativversuchen (Binomialverteilung), oder auch an die Besetzungshäufigkeit der diskreten Energieniveaus des Wasserstoffatoms. Im folgenden nehmen wir an, dass die Werte einer diskreten Zufallsvariablen nichtnegative ganze Zahlen sind. Dies ist keine Einschränkung, weil jede abzählbare Menge von reellen Zahlen bijektiv auf (eine Teilmenge von) N0 abgebildet werden kann. Die Ereignisalgebra ist die Potenzmenge (Menge aller Teilmengen) P von N0 . R. Frühwirth Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Definition (Verteilung einer diskreten Zufallsvariablen) Es sei Σ(Ω) eine diskrete Ereignisalgebra. Die diskrete Zufallsvariable X : Ω 7→ N0 induziert ein Wahrscheinlichkeitsmaß auf N0 mittels X WX ({k}) = W (X −1 (k)) = W ({ω}) Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 171/535 Ist auf der Ereignisalgebra Σ(Ω) ein Wahrscheinlichkeitsmaß W definiert, so kann man mit Hilfe der Zufallsvariablen X auf der Potenzmenge P von N0 ebenfalls ein Wahrscheinlichkeitsmaß definieren. X(ω)=k WX wird als die Verteilung von X bezeichnet, und zwar als diskrete oder Spektralverteilung. R. Frühwirth Statistik 172/535 Diskrete Zufallsvariable Diskrete Zufallsvariable Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Beispiel R. Frühwirth Wir ordnen den geraden Augenzahlen des Würfels die Zahl 0 zu, den ungeraden die Zahl 1: X : ω 7→ mod (ω, 2) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 1 2 1 −1 WX (1) = W (X (1)) = W ({1, 3, 5}) = 2 WX (0) = W (X −1 (0)) = W ({2, 4, 6}) = Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable R. Frühwirth R. Frühwirth 174/535 Die Dichte der Zufallsvariablen X = i + j: Eindimensionale Zufallsvariable Dichtefunktion 0.18 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.16 Mehrdimensionale Zufallsvariable Definition (Diskrete Dichtefunktion) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Statistik Die Zahlen WX (k) können als Funktionswerte einer Spektralfunktion fX angesehen werden: ( WX (k), wenn x = k fX (x) = 0, sonst Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Werte von X sind die natürlichen Zahlen von 2 bis 12. Die Verteilung von X ist dann gegeben durch k−1 , k≤7 X −1 36 WX (k) = W (X (k)) = W ({(i, j)}) = i+j=k 13 − k , k ≥ 7 36 Diskrete Zufallsvariable Statistik Eindimensionale Zufallsvariable X : (i, j) 7→ i + j 173/535 Diskrete Zufallsvariable R. Frühwirth Wir ordnen dem Ausgang eines Doppelwurfs die Summe der Augenzahlen zu: Mehrdimensionale Zufallsvariable Die Verteilung von X ist dann gegeben durch R. Frühwirth Beispiel Die Funktion fX (k) wird als Wahrscheinlichkeitsdichtefunktion oder kurz Dichte der Zufallsvariablen X bezeichnet. 0.12 Wichtige Verteilungen 0.1 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 0.14 Grundbegriffe Randverteilungen und bedingte Verteilungen f(x) R. Frühwirth 0.08 0.06 Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 175/535 0.04 0.02 0 2 3 R. Frühwirth 4 5 6 Statistik 7 x 8 9 10 11 12 176/535 Diskrete Zufallsvariable Diskrete Zufallsvariable Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik Die Wahrscheinlichkeit WX (E) eines Ereignisses E lässt sich bequem mit Hilfe der Dichte von X berechnen: X WX (E) = fX (k) k∈E Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Diskrete Verteilungsfunktion) Ist X eine diskrete Zufallsvariable, so ist die Verteilungsfunktion FX von X definiert durch: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen FX (x) = W (X ≤ x) Momente Erwartung Varianz Schiefe Es gilt offenbar: FX (x) = Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze X fX (k) = k≤x R. Frühwirth X k≤x Statistik 0 ≤ F (x) ≤ 1 ∀x ∈ R 4 x ≤ y =⇒ F (x) ≤ F (y) ∀x, y ∈ R 5 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 6 Die Wahrscheinlichkeit, dass r in das Intervall (a, b] fällt, ist F (b) − F (a): W (a < r ≤ b) = F (b) − F (a) R. Frühwirth Statistik 178/535 Unterabschnitt: Stetige Zufallsvariable Statistik R. Frühwirth Eindimensionale Zufallsvariable Verteilungsfunktion 1 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.8 Grundbegriffe Randverteilungen und bedingte Verteilungen 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.9 Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 0.7 0.6 Wichtige Verteilungen F(x) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.5 0.4 0.3 Momente Erwartung Varianz Schiefe 0.2 0.1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Sprunghöhe im Punkt k ist gleich fX (k) 3 177/535 Die Verteilungsfunktion der Zufallsvariablen X = i + j: Eindimensionale Zufallsvariable Erwartung Varianz Schiefe 2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Momente F hat eine Sprungstelle in allen Punkten des Wertebereichs Rechnen mit Verteilungen WX ({k}) Diskrete Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 1 W (r ≤ a) + W (a < r ≤ b) = W (r ≤ b) =⇒ Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen R. Frühwirth Eigenschaften einer diskreten Verteilungsfunktion F Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth Rechnen mit Verteilungen 0 2 3 4 R. Frühwirth 5 6 Statistik 7 x 8 9 10 11 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 179/535 R. Frühwirth Statistik 180/535 Stetige Zufallsvariable Stetige Zufallsvariable Statistik Statistik Bisher wurden nur solche Zufallsvariable behandelt, die auf diskreten Ereignisalgebren definiert waren. R. Frühwirth Eindimensionale Zufallsvariable Diese Beschränkung soll nun fallengelassen werden, d.h es werden jetzt überabzählbar viele Elementarereignisse zugelassen. Das ist notwendig, wenn nicht nur Zählvorgänge, sondern beliebige Messvorgänge zugelassen werden. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eine Funktion X, die auf einer solchen überabzählbaren Menge von Elementarereignissen definiert ist, kann beliebige reelle Werte annehmen. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze W (x < X ≤ x + ∆x) = FX (x + ∆x) − FX (x) = ∆FX . Statistik 182/535 Stetige Zufallsvariable Statistik Eindimensionale Zufallsvariable heißt die Verteilungsfunktion von X. Die Wahrscheinlichkeit, dass X in ein Intervall (x, x + ∆x] fällt, ist dann: R. Frühwirth 181/535 Stetige Zufallsvariable R. Frühwirth FX (x) = W (X ≤ x) Wichtige Verteilungen Erwartung Varianz Schiefe R. Frühwirth Es sei (Σ, W ) ein Wahrscheinlichkeitsraum über einer überabzählbaren Ergebnismenge Ω. X sei eine Zufallsvariable, also eine (messbare) Funktion von Ω in R. Die Funktion FX , definiert durch: Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Erwartung Varianz Schiefe Definition (Stetige Verteilungsfunktion) Statistik Eigenschaften einer stetigen Verteilungsfunktion 1 R. Frühwirth 0 ≤ F (x) ≤ 1 ∀x ∈ R Eindimensionale Zufallsvariable 2 x1 ≤ x2 =⇒ F (x1 ) ≤ F (x2 ) ∀x1 , x2 ∈ R 3 limx→−∞ F (x) = 0; limx→∞ F (x) = 1 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Quantil) Es sei FX (x) eine stetige Verteilungsfunktion. Der Wert xα , für den FX (xα ) = α, 0 < α < 1 Statistik Quantile können auch für diskrete Verteilungen definiert werden, jedoch sind sie dann nicht immer eindeutig. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe 0<α<1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze heißt die Quantilsfunktion der Verteilung von X. R. Frühwirth Die Quantile zu den Werten α = 0.25, 0.5, 0.75 heißen Quartile. Das Quantil zum Wert α = 0.5 heißt Median der Verteilung. Momente gilt, heißt das α-Quantil der Verteilung von X. Die Funktion −1 x = FX (α), Definition (Quartil) 183/535 R. Frühwirth Statistik 184/535 Stetige Zufallsvariable Stetige Zufallsvariable Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Stetige Dichtefunktion) Ist FX differenzierbar, heißt X eine stetige Zufallsvariable. Für die Verteilung von X gilt nach dem Hauptsatz der Integralrechnung: Z x2 WX (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = fX (x) dx x1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik R. Frühwirth Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 186/535 Statistik Daher ist auch R. Frühwirth WX ((x1 , x2 ]) = WX ((x1 , x2 )) = WX ([x1 , x2 ]). Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen k∈N0 Momente Erwartung Varianz Schiefe so gilt für eine stetige Dichte f : Z ∞ f (x) dx = 1 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze −∞ R. Frühwirth Statistik Dichtefunktion Eindimensionale Zufallsvariable Ganz allgemein erhält man eine Aussage über stetige Zufallsvariable dadurch, dass man in einer Aussage über diskrete Zufallsvariable die Summation durch eine Integration ersetzt. Gilt zum Beispiel für eine diskrete Dichte f : X f (k) = 1 Momente Erwartung Varianz Schiefe Statistik Stetige Zufallsvariable Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen x 185/535 Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Die Wahrscheinlichkeit eines einzelnen Punktes ist immer gleich 0: Z x WX ({x}) = fX (x) dx = 0 Erwartung Varianz Schiefe Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable M Momente Erwartung Varianz Schiefe Eindimensionale Zufallsvariable Ähnlich wie bei diskreten Zufallsvariablen lässt sich die Wahrscheinlichkeit WX einer Menge M ∈ Σ leicht mit Hilfe der Dichte angeben: Z WX (M ) = fX (x) dx Mehrdimensionale Zufallsvariable Wichtige Verteilungen 0 wobei fX (x) = FX (x) ist. Die Ableitung der Verteilungsfunktion, die Funktion fX , wird als Wahrscheinlichkeitsdichtefunktion oder wieder kurz Dichte von X bezeichnet. Momente R. Frühwirth Das Wahrscheinlichkeitsmaß WX heißt die Verteilung von X. Es ist auf einer Ereignisalgebra Σ definiert, die aus Mengen reeller Zahlen besteht und zumindest alle Intervalle und deren Vereinigungen als Elemente enthält. 187/535 Verteilungsfunktion 0.2 1 0.18 0.9 0.16 0.8 0.14 0.7 0.12 0.6 F(x) Eindimensionale Zufallsvariable Statistik R. Frühwirth f(x) R. Frühwirth 0.1 0.5 0.08 0.4 0.06 0.3 0.04 0.2 0.02 0.1 0 0 5 10 x R. Frühwirth 15 20 Statistik 0 0 5 10 x 15 20 188/535 Abschnitt 9: Mehrdimensionale Zufallsvariable Unterabschnitt: Grundbegriffe Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen 11 Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 12 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Momente 12 Rechnen mit Verteilungen R. Frühwirth Statistik 190/535 Statistik Definition (Zufallsvariable) R. Frühwirth Eindimensionale Zufallsvariable Eine Abbildung X: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable ω ∈ Ω 7→ x = X(ω) ∈ Rd die jedem Element ω des Ereignisraums Ω einen reellen Vektor x ∈ Rd zuordnet, heißt eine d-dimensionale Zufallsvariable. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Grundbegriffe Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 189/535 Grundbegriffe Mehrdimensionale Zufallsvariable 10 Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Rechnen mit Verteilungen Eindimensionale Zufallsvariable 9 Grundbegriffe Randverteilungen und bedingte Verteilungen Rechnen mit Verteilungen R. Frühwirth Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Momente Erwartung Varianz Schiefe 8 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Verteilungsfunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable, so ist die Verteilungsfunktion FX durch FX (x1 , . . . , xd ) = W (X1 ≤ x1 ∩ . . . ∩ Xd ≤ xd ) definiert. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariablen können diskret oder stetig sein. Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 191/535 Definition (Dichtefunktion) Ist X = (X1 , . . . , Xd ) eine d-dimensionale diskrete Zufallsvariable, so ist die Dichtefunktion fX durch fX (x1 , . . . , xd ) = W (X1 = x1 ∩ . . . ∩ Xd = xd ) definiert. R. Frühwirth Statistik 192/535 Grundbegriffe Grundbegriffe Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik Beispiel R. Frühwirth Die zweidimensionale Zufallsvariable X = (X1 , X2 ) ordnet dem Ergebnis des Wurfs mit zwei Würfeln die Augenzahlen (i, j) zu. Sind alle Ausgänge gleichwahrscheinlich, so ist WX gegeben durch: Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen fX (x1 , x2 ) = Grundbegriffe Randverteilungen und bedingte Verteilungen 1 , 36 0, x1 ∈ {1, . . . , 6} ∩ x2 ∈ {1, . . . , 6} sonst Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 2 3 6 4 5 4 5 3 6 2 1 x2 R. Frühwirth x1 Statistik 194/535 Statistik Beispiel (Fortsetzung) R. Frühwirth Die Verteilungsfunktion F ist daher: Eindimensionale Zufallsvariable X F (x1 , x2 ) = W (X1 ≤ x1 ∩ X2 ≤ x2 ) = Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable f (i, j) i≤x1 ∩j≤x2 Mehrdimensionale Zufallsvariable Momente 1 Grundbegriffe Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0 193/535 Grundbegriffe Wichtige Verteilungen 0.01 0.005 Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Randverteilungen und bedingte Verteilungen 0.015 Momente Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.02 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Eindimensionale Zufallsvariable 0.025 Wichtige Verteilungen Momente R. Frühwirth 0.03 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable 1 WX {(i, j)} = 36 Die Dichte fX lautet: ( Eindimensionale Zufallsvariable w(x1,x2) R. Frühwirth Beispielsweise ist F (3, 4) = 1 i≤3∩j≤4 36 P = 12 36 = fX (x1 , . . . , xd ) = Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen ∂ d FX ∂x1 . . . ∂xd definiert. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Y : (ei , ej ) −→ 6i + j − 6 Momente Der Wertevorrat von Y sind die natürlichen Zahlen zwischen 1 und 36, und Ws ist gegeben durch: 1 Ws {k} = , 1 ≤ k ≤ 36 36 Statistik Ist X = (X1 , . . . , Xd ) eine d-dimensionale stetige Zufallsvariable, so ist die Dichtefunktion fX durch Mehrdimensionale Zufallsvariable 1 . 3 Wegen der Abzählbarkeit der Elementarereignisse können diese auch durch eine eindimensionale Zufallsvariable Y eindeutig in R abgebildet werden, z. B.: R. Frühwirth Definition (Dichtefunktion) 195/535 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 196/535 Unterabschnitt: Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 8 9 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen 11 Momente Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Momente 12 Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 197/535 R. Frühwirth Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 198/535 Statistik Es sei F die Verteilungsfunktion und f die Dichte der stetigen Zufallsvariablen X = (X1 , X2 ). Dann ist die Verteilungsfunktion F1 von X1 gegeben durch: R. Frühwirth Eindimensionale Zufallsvariable F1 (x1 ) = W (X1 ≤ x1 ) = W (X1 ≤ x1 ∩ −∞ < X2 < ∞) = Z x1 Z ∞ = f (x1 , x2 ) dx2 dx1 −∞ −∞ Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Daraus folgt: Z Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ∞ f1 (x1 ) = f (x1 , x2 ) dx2 −∞ Momente Erwartung Varianz Schiefe Statistik Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Sind X1 und X2 zwei (diskrete oder stetige) 1-dimensionale Zufallsvariable, so ist X = (X1 , X2 ) eine zweidimensionale Zufallsvariable. Die Verteilung (Verteilungsfunktion, Dichte) von X heißt auch die gemeinsame Verteilung (Verteilungsfunktion, Dichte) von X1 und X2 . Es stellt sich nun das folgende Problem: Kann man die Verteilung von X1 bzw. X2 aus der gemeinsamen Verteilung berechnen? Momente Erwartung Varianz Schiefe ist die Dichte von X1 . Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 199/535 Definition (Randverteilung) Es sei X = (X1 , X2 ) eine zweidimensionale stetige Zufallsvariable mit der Verteilungsfunktion F und der Dichte f . Die Verteilung von X1 heißt die Randverteilung von X1 bezüglich X. Ihre Dichte f1 lautet: Z ∞ f1 (x1 ) = f (x1 , x2 ) dx2 . −∞ Ist X = (X1 , X2 ) diskret mit der Dichte f , so ist analog die Dichte f1 der Randverteilung von X1 bezüglich X gegeben durch: X f1 (k1 ) = f (k1 , k2 ) k2 R. Frühwirth Statistik 200/535 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Statistik Die Verteilungen von X1 und X2 lassen sich also aus der gemeinsamen Verteilung von X1 und X2 berechnen. R. Frühwirth Der umgekehrte Vorgang ist im allgemeinen nicht möglich, da die gemeinsame Verteilung auch Information über mögliche Zusammenhänge (Kopplung) zwischen X1 und X2 enthält. Es seien X1 und X2 zwei diskrete Zufallsvariable mit der gemeinsamen Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) und f2 (k2 ). Dann ist die bedingte Wahrscheinlichkeit des Ereignisses X1 = k1 unter der Bedingung X2 = k2 gegeben durch: W (X1 = k1 |X2 = k2 ) = Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth f (k1 , k2 ) W (X1 = k1 ∩ X2 = k2 ) = W (X2 = k2 ) f2 (k2 ) Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen f (k1 |k2 ) = f (k1 , k2 ) f2 (k2 ) Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe heißt die durch X2 bedingte Dichte von X1 . Die bedingte Dichte ist für festes k2 die Dichte eine Verteilung, der durch X2 = k2 bedingten Verteilung von X1 . Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 201/535 R. Frühwirth Statistik 202/535 Randverteilungen und bedingte Verteilungen Statistik Eindimensionale Zufallsvariable Es sei X = (X1 , X2 ) eine 2-dimensionale diskrete Zufallsvariable mit der Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) bzw. f2 (k2 ). Die Funktion f (k1 |k2 ), definiert durch: Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen R. Frühwirth Definition (Bedingte Dichte) Statistik Ist X = (X1 , X2 ) stetig, so ist analog f (x1 |x2 ) definiert durch: R. Frühwirth Eindimensionale Zufallsvariable f (x1 , x2 ) f (x1 |x2 ) = (f2 (x2 ) 6= 0) f2 (x2 ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable f (x1 |x2 ) ist für festes x2 die Dichte einer Verteilung, der durch X2 = x2 bedingten Verteilung von X1 . Grundbegriffe Randverteilungen und bedingte Verteilungen Dass f (x1 |x2 ) tatsächlich eine Dichte ist, läßt sich leicht nachprüfen: Z ∞ Z ∞ f (x1 , x2 ) f2 (x2 ) f (x1 |x2 ) dx1 = dx1 = =1 f2 (x2 ) −∞ −∞ f2 (x2 ) und analog für diskretes X. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Es gilt: 203/535 f (x1 , x2 ) = f (x1 |x2 ) · f2 (x2 ) Z ∞ f1 (x1 ) = f (x1 |x2 ) · f2 (x2 ) dx2 −∞ und analog für diskrete Dichten. Definition (Unabhängigkeit von Zufallsvariablen) Ist die (unbedingte) Dichte der Randverteilung von X1 gleich der durch X2 bedingten Dichte, so heißen X1 und X2 unabhängig. X1 und X2 unabhängig ⇐⇒ f (x1 |x2 ) = f1 (x1 ) R. Frühwirth Statistik 204/535 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Statistik Für unabhängige Zufallsvariablen X1 und X2 gilt: f (x1 |x2 ) = f1 (x1 ) ⇐⇒ f (x2 |x1 ) = f2 (x1 ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable ⇐⇒ f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ) und analog für diskretes X. Mehrdimensionale Zufallsvariable Für unabhängige Zufallsvariable X1 ,X2 ist also die Dichte der gemeinsamen Verteilung gleich dem Produkt der einzelnen Dichten. Ist X = (X1 , . . . , Xd ), d > 2, so müssen die Definitionen der Randverteilung, der bedingten Dichten und der Unabhängigkeit entsprechend verallgemeinert werden. Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 205/535 f (xi |xj ) = fi,j (xi , xj ) fj (xj ) wobei fi,j (xi , xj ) die Randverteilungsdichte von Xi , Xj ist. Statistik 206/535 Randverteilungen und bedingte Verteilungen Statistik Eindimensionale Zufallsvariable −∞ Die durch Xj bedingte Dichte von Xi ist gegeben durch: R. Frühwirth Randverteilungen und bedingte Verteilungen R. Frühwirth −∞ Momente Rechnen mit Verteilungen Statistik fi1 ,...,im (xi1 , . . . , xim ) Z ∞ Z ∞ = ... f (x1 , . . . , xn ) dxim+1 . . . dxin Wichtige Verteilungen Rechnen mit Verteilungen R. Frühwirth Die Dichte der Randverteilung von Xi1 , . . . , Xim ist gegeben durch: Statistik Xi1 , . . . , Xik heißen unabhängig, wenn die Dichte der Randverteilung von Xi1 , . . . , Xik das Produkt der Dichten der Randverteilungen der einzelnen Xij ist. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 207/535 Beispiel (Die Akzeptanz oder Nachweiswahrscheinlichkeit) X sei eine Zufallsvariable mit der Dichte f (x). Nimmt X den Wert x an, so gibt es eine Wahrscheinlichkeit a(x) dafür, dass x auch tatsächlich beobachtet wird. Man definiert nun eine Zufallsvariable I, die 1 ist, wenn x beobachtet wird, und 0 sonst. Dann ist I unter der Bedingung X = x alternativ nach Aa(x) verteilt: W (I = 1|X = x) = a(x) W (I = 0|X = x) = 1 − a(x) Die gemeinsame Dichte von X und I ist daher: f (x, 1) = a(x)f (x) f (x, 0) = [1 − a(x)]f (x) R. Frühwirth Statistik 208/535 Randverteilungen und bedingte Verteilungen Randverteilungen und bedingte Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Statistik Beispiel (Fortsetzung) R. Frühwirth Da der Experimentator nur mit beobachteten Größen arbeiten kann, schränkt er seine Grundgesamtheit auf die nachgewiesenen Ereignisse ein, d.h. er braucht die Dichte von X unter der Bedingung, dass X beobachtet wird: Grundbegriffe Randverteilungen und bedingte Verteilungen fA (x) = f (x|I = 1) = f (x, 1) a(x)f (x) = R f2 (1) a(x)f (x) dx Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Wichtige Verteilungen Als konkretes Beispiel diene die Messung einer Lebensdauer. Die Messung möge bei tmin beginnen und bei tmax enden. Dann hat a(t) die folgende Gestalt: 0, für t ≤ tmin a(t) = 1, für tmin < t ≤ tmax 0, für t > tmax R. Frühwirth Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Erwartung Varianz Schiefe Rechnen mit Verteilungen 210/535 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 Momente 12 Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen Momente Statistik Unterabschnitt: Diskrete Verteilungen Statistik Eindimensionale Zufallsvariable Der Faktor 1/[exp(−tmin /τ ) − exp(−tmax /τ )] korrigiert für jene Teilchen, die vor tmin oder nach tmax zerfallen. Die Nachweiswahrscheinlichkeit a(t) kann auch von der Geometrie des Detektors oder deren Ansprechwahrscheinlichkeit bestimmt werden und eine komplizierte Abhängigkeit von t haben. So kann es etwa von der Konfiguration der Zerfallsprodukte abhängen, ob ein Zerfall bei t beobachtet werden kann oder nicht. 209/535 R. Frühwirth 8 Für die gemessene Wahrscheinlichkeitsdichte gilt: 0, t ≤ tmin 1 exp(−t/τ ) τ fA (t) = , tmin ≤ t < tmax exp(−tmin /τ ) − exp(−tmax /τ ) 0, t > tmax Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Abschnitt 10: Wichtige Verteilungen Eindimensionale Zufallsvariable Beispiel (Fortsetzung) 12 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 211/535 R. Frühwirth Statistik 212/535 Diskrete Verteilungen Diskrete Verteilungen Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Die diskrete Gleichverteilung auf n Punkten, Gl(n) Momente Eindimensionale Zufallsvariable Die Verteilung einer Zufallsvariablen X, die die Werte 1, . . . , n mit gleicher Wahrscheinlichkeit annimmt.. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Dichte fX lautet: Mehrdimensionale Zufallsvariable ( fX = Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth 1 n, 0, Grundbegriffe Randverteilungen und bedingte Verteilungen x ∈ {1, . . . , n} sonst Wichtige Verteilungen Die Verteilungsfunktion FX ist eine Stufenfunktion mit Sprüngen der Größe n1 in den Punkten 1, . . . , n. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 213/535 R. Frühwirth Diskrete Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Wird der Alternativversuch n mal unabhängig durchgeführt, so gibt es 2n Elementarereignisse, nämlich die Folgen der Form e = (ei1 , . . . , ein ), ij = 0 oder 1. Die diskrete Zufallsvariable X bildet die Folge e auf die Häufigkeit von e1 ab: Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe fX (x) = px (1 − p)1−x , Statistik 214/535 Statistik Die Binomialverteilung Bi(n, p) Wichtige Verteilungen Momente oder Diskrete Verteilungen Statistik Mehrdimensionale Zufallsvariable fX (0) = 1 − p, fX (1) = p Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Dichte fX lautet: Momente Rechnen mit Verteilungen Eindimensionale Zufallsvariable Die Verteilung einer Zufallsvariablen, die den Ausgängen eines Alternativversuchs die Werte 1 (Erfolg) bzw. 0 (Misserfolg) zuordnet. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe R. Frühwirth Die Alternativ- oder Bernoulliverteilung Al(p) r(e) = n X Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ij Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k (0 ≤ k ≤ n) werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen j=1 R. Frühwirth Eindimensionale Zufallsvariable 215/535 Momente Erwartung Varianz Schiefe Die Dichte f ist daher: ! n k f (k) = p (1 − p)n−k , 0 ≤ k ≤ n k Die Verteilung von X wird als Binomialverteilung Bi(n, p) mit den Parametern n und p bezeichnet. Es gilt ! n X n k f (k) = p (1 − p)n−k = 1 k k=0 k=0 n X Das ist gerade der binomische Lehrsatz. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 216/535 x= Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik R. Frühwirth 0.4 Bi(10,0.3) Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable P(k) 0.3 0.2 0.1 0 0 1 2 3 4 5 k 6 7 8 9 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.2 0.1 0 10 Mehrdimensionale Zufallsvariable 0 1 2 3 4 5 k 6 7 8 9 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.4 0.4 Bi(10,0.7) 0.3 P(k) 0.3 0.2 0.1 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Bi(10,0.9) 0.2 Momente Erwartung Varianz Schiefe 0.1 0 1 2 3 4 5 k 6 7 R. Frühwirth 8 9 0 10 0 1 2 3 4 5 k 6 7 8 9 Rechnen mit Verteilungen 10 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 217/535 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen W (ei1 , . . . , ein ) = n Y W (eij ) = j=1 n Y j=1 R. Frühwirth pij = d Y Eindimensionale Zufallsvariable pni i Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable i=1 wobei ni die Anzahl des Eintretens von ei ist. Die Summe der ni ist daher n. Die d-dimensionale Zufallsvariable X = (X1 , . . . , Xd ) bildet die Folge (ei1 , . . . , ein ) auf den Vektor (n1 , . . . , nd ) ab. Dabei werden n!/(n1 !· · ·nd !) Folgen auf den gleichen Vektor abgebildet. Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Die Dichte von X lautet daher: Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze (ei1 , . . . , ein ), 1 ≤ ij ≤ d Statistik 218/535 Statistik Sind die n Teilversuche unabhängig, gilt: Momente Erwartung Varianz Schiefe erfüllen müssen. Führt man den verallgemeinerten Alternativversuch n-mal durch, so sind die Elementarereignisse die Folgen der Form: Diskrete Verteilungen Statistik Eindimensionale Zufallsvariable pi = 1 i=1 R. Frühwirth Diskrete Verteilungen R. Frühwirth d X Wichtige Verteilungen P(k) Momente Der Alternativversuch kann dahingehend verallgemeinert werden, dass man nicht nur zwei, sondern d Elementarereignisse e1 , . . . , ed zulässt, denen die Wahrscheinlichkeiten p1 , . . . , pd zugeordnet werden, die nur Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Multinomialverteilung Mu(n, p1 , . . . , pd ) Bi(10,0.5) 0.3 P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable R. Frühwirth 0.4 f (n1 , . . . , nd ) = d d d Y X X n! pni i , ni = n, pi = 1 n1 ! . . . nd ! i=1 i=1 i=1 R. Frühwirth Statistik 219/535 Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Verteilung von X wird als Multinomialverteilung mit den Parametern n und p1 , . . . , pd bezeichnet: WX = Mu(n, p1 , . . . , pd ) Das klassische Beispiel einer multinomialverteilten Zufallsvariablen ist das Histogramm (gruppierte Häufigkeitsverteilung), das zur graphischen Darstellung der (absoluten) experimentellen Häufigkeit verwendet wird. Xi ist die Anzahl der Fälle, in denen die Zufallsvariable R, das experimentelle Ergebnis, in Gruppe i fällt. Die Wahrscheinlichkeit, dass R in Gruppe i fällt, sei gleich pi . Werden in das Histogramm n Ergebnisse eingefüllt, so sind die Gruppeninhalte (X1 , . . . , Xd ) multinomial nach Mu(n, p1 , . . . , pd ) verteilt. R. Frühwirth Statistik 220/535 Diskrete Verteilungen Diskrete Verteilungen Statistik Statistik Ein Histogramm Eindimensionale Zufallsvariable 25 20 Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze ni Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 10 0 0 Erwartung Varianz Schiefe Rechnen mit Verteilungen 1 2 3 4 5 x 6 7 8 9 10 Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 221/535 R. Frühwirth Diskrete Verteilungen Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Allgemein gilt: Ist die Wartezeit zwischen zwei Ereignissen eines Zufallsprozesses exponentialverteilt, so ist die Anzahl der Ereignisse pro Zeiteinheit Poissonverteilt. Momente 5 R. Frühwirth R. Frühwirth Das klassische Beispiel einer Poissonverteilten Zufallsvariablen ist die Anzahl der Zerfälle pro Zeiteinheit in einer radioaktiven Quelle. Grundbegriffe Randverteilungen und bedingte Verteilungen 15 Die Dichte der Poissonverteilung folgt aus der Berechnung des Grenzwertes: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable n k n−k n! λ λ = lim 1− = n→∞ k!(n − k)! n n n(n − 1) . . . (n − k + 1) λk n→∞ nk k! " k # i−1 λk Y 1 − n · 1− = lim λ n→∞ k! 1− n i=1 = lim 1− n λ k n 1− n λ = n 0.4 Po(1) 0.3 Po(2) 0.3 0.2 0.1 Grundbegriffe Randverteilungen und bedingte Verteilungen = 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 0 10 0 1 2 3 4 k 5 6 7 8 9 10 k Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 0.4 Mehrdimensionale Zufallsvariable λ n λk −λ ·e = k! R. Frühwirth 222/535 Statistik R. Frühwirth Eindimensionale Zufallsvariable Pλ (k) = lim Bn; λ (k) n→∞ Statistik Diskrete Verteilungen w(k) Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Die Poissonverteilung entsteht aus der Binomialverteilung durch den Grenzübergang n → ∞ unter der Bedingung n · p = λ. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable w(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Poissonverteilung Po(λ) 223/535 0.2 0.2 Po(5) 0.15 0.1 0.05 0 Po(10) 0.15 w(k) Eindimensionale Zufallsvariable R. Frühwirth w(k) R. Frühwirth 0.1 0.05 0 5 10 15 k R. Frühwirth 0 0 5 10 15 20 25 k Statistik 224/535 Diskrete Verteilungen Diskrete Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 225/535 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 0.2 0.1 0.1 0 1 2 3 4 5 k 6 7 8 9 0 10 0 1 2 3 4 5 k 6 7 8 9 10 2 3 4 5 k 6 7 8 9 10 0.4 Hy(100,40,10) Bi(10,0.4) 0.3 0.3 0.2 0.2 0.1 0 0.1 0 1 2 3 4 5 k 6 7 8 9 10 0 0 1 Zwei Hypergeometrische Verteilungen und die entsprechenden Binomialverteilungen R. Frühwirth Statistik 226/535 Statistik Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form f = (ei1 , . . . , ein ), ij = 0 oder 1. Die diskrete Zufallsvariable X bildet die Folge f auf die Häufigkeit von e1 ab: r(f ) = n X ij R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k, 0 ≤ k ≤ n werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . Es gilt daher ! n WX (k) = f (k) = pk (1 − p)n−k , 0 ≤ k ≤ n k Die Wahrscheinlichkeit, dass e1 höchstens einmal eintritt, ist gleich WX (k ≤ 1) = f (0) + f (1) = (1 − p)n + np(1 − p)n−1 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Beispiel (Wiederholung eines Alternativversuchs) Mehrdimensionale Zufallsvariable j=1 R. Frühwirth 0.2 Diskrete Verteilungen Beispiel (Wiederholung eines Alternativversuchs.) Mehrdimensionale Zufallsvariable 0.3 Momente Diskrete Verteilungen R. Frühwirth 0.3 0.4 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.4 0 Grundbegriffe Randverteilungen und bedingte Verteilungen Bi(10,0.6) 0.4 P(k) Grundgesamtheit von N Objekten, davon haben M eine bestimmte Eigenschaft E. Es werden n Objekte gezogen, wobei jedes Objekt die gleiche Wahrscheinlickeit hat, gezogen zu werden. Einmal gezogene Objekte werden nicht zurückgelegt. Die Anzahl der gezogenen Objekte mit der Eigenschaft E ist eine Zufallsvariable X. Die Verteilung von X wird hypergeometrische Verteilung Hy(N, M, n) genannt. Ihre Dichte lautet: M N −M m n−m f (m) = , 0 ≤ m ≤ min(n, M ) N n 0.5 Hy(20,12,10) P(k) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.5 R. Frühwirth P(k) Eindimensionale Zufallsvariable Statistik Die hypergeometrische Verteilung Hy(N, M, n) P(k) Statistik R. Frühwirth 227/535 R. Frühwirth Statistik 228/535 Stetige Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente 11 Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Dichtefunktion der Gleichverteilung Un(0,1) Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Statistik 1.2 1 1 0.8 0.8 0.6 0.4 0 −0.5 229/535 0.2 0 0.5 x R. Frühwirth Stetige Verteilungen 0.6 0.4 0.2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Verteilungsfunktion der Gleichverteilung Un(0,1) 1.2 Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 0 −0.5 1.5 0 0.5 x Statistik 1 1.5 230/535 Stetige Verteilungen Statistik R. Frühwirth Die stetige Gleichverteilung auf dem Intervall [a, b] hat die Dichte: 0, x < a 1 f (x|a, b) = I[a,b] = 1/(b − a), a ≤ x ≤ b b−a 0, b < x Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die stetige Gleichverteilung Un(a, b) f(x) Eindimensionale Zufallsvariable 8 F(x) Unterabschnitt: Stetige Verteilungen Statistik Die Gauß- oder Normalverteilung No(µ, σ 2 ) R. Frühwirth Dichtefunktion der Standardnormalverteilung Verteilungsfunktion der Standardnormalverteilung 0.5 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Die Normalverteilung ist eine der wichtigsten Verteilungen in Wissenschaft und Technik. Ihre Dichte lautet: Momente Erwartung Varianz Schiefe f (x|µ, σ 2 ) = √ (x−µ)2 1 e− 2σ2 2πσ Grundbegriffe Randverteilungen und bedingte Verteilungen 0.35 0.25 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Verteilungsfunktion Φ(x) ist nicht durch elementare Funktionen darstellbar. 0.6 0.4 0.15 0.1 0.2 0.05 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 0.8 0.3 0.2 Im Fall von µ = 0, σ = 1 heißt sie Standardnormalverteilung. R. Frühwirth 1 0.4 Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.45 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable F(x) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable f(x) Eindimensionale Zufallsvariable 231/535 0 −5 0 x R. Frühwirth 5 Statistik 0 −5 0 x 5 232/535 Stetige Verteilungen Stetige Verteilungen Statistik Die Exponentialverteilung Ex(τ ) Die Exponentialverteilung ist die Wartezeitverteilung des radioaktiven Zerfalls von Atomen und allgemein des Zerfalls von Elementarteilchen. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Ihre Dichte lautet: Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ihre Verteilungsfunktion lautet: F (x|τ ) = 1 − e−x/τ · I[0,∞) (x) Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 233/535 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eigenschaften eines Poissonprozesses Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Anzahl der Ereignisse in einem Zeitintervall der Länge T ist Poisson-verteilt gemäß Po(λT ). 2 Die Wartezeit zwischen zwei aufeinanderfolgenden Ereignissen ist exponentialverteilt gemäß Ex(1/λ). 3 Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Sind die Wartezeiten eines Prozesses unabhängig und exponentialverteilt gemäß Ex(τ ), so ist der Prozess ein Poissonprozess mit Intensität λ = 1/τ . R. Frühwirth Eindimensionale Zufallsvariable Wichtige Verteilungen 1 Erwartung Varianz Schiefe Rechnen mit Verteilungen R. Frühwirth Wir beobachten einen Prozess, bei dem gewisse Ereignisse zu zufälligen Zeitpunkten eintreten. Ist die Anzahl der Ereignisse pro Zeiteinheit unabhängig und Poisson-verteilt gemäß Po(λ), sprechen wir von einem Poissonprozess mit Intensität λ. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Momente 0.8 0.3 0.6 0.2 0.4 0.1 0.2 0 0 2 4 6 8 10 0 0 2 x 4 6 8 10 x Statistik 234/535 Statistik Der Poissonprozess Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.4 Stetige Verteilungen Statistik Wichtige Verteilungen 1 R. Frühwirth Stetige Verteilungen R. Frühwirth 0.5 Momente Rechnen mit Verteilungen R. Frühwirth Verteilungsfunktion der Exponentialverteilung Ex(2) Eindimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 1 f (x|τ ) = e−x/τ · I[0,∞) (x) τ Dichtefunktion der Exponentialverteilung Ex(2) f(x) Eindimensionale Zufallsvariable R. Frühwirth F(x) Statistik R. Frühwirth Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 235/535 Die Gammaverteilung Ga(a, b) Die Exponentialverteilung ist eine Spezialfall einer allgemeineren Familie von Verteilungen, der Gammaverteilung. Die Dichte der Gammaverteilung lautet: f (x|a, b) = xa−1 e−x/b · I[0,∞) (x) ba Γ(a) Ihre Verteilungsfunktion ist die regularisierte unvollständige Gammafunktion: Z x a−1 −x/b x e γ(a, x/b F (x|a, b) = dx = a b Γ(a) Γ(a) 0 R. Frühwirth Statistik 236/535 Unterabschnitt: Die Normalverteilung und verwandte Verteilungen Stetige Verteilungen Statistik Statistik R. Frühwirth 0.4 R. Frühwirth 0.35 0.3 Eindimensionale Zufallsvariable 0.2 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.2 0.15 0.1 0.1 Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Ga(3,1) 0.25 f(x) f(x) 0 0 5 10 x 15 0 20 0 5 10 x 15 20 Wichtige Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0.14 Grundbegriffe Randverteilungen und bedingte Verteilungen Ga(5,1) Ga(10,1) 0.1 f(x) f(x) 0.15 0.1 0.08 Momente 0.06 0.02 0 0 5 10 x 15 0 20 0 5 10 x 15 Statistik 20 Momente Rechnen mit Verteilungen 12 Rechnen mit Verteilungen R. Frühwirth Statistik 238/535 Die Normalverteilung und verwandte Verteilungen Statistik R. Frühwirth f (x) = 0.5 Eindimensionale Zufallsvariable Ihre Dichte ist die bekannte Glockenkurve: Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 11 237/535 Die eindimensionale Normalverteilung Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Erwartung Varianz Schiefe 0.04 0.05 Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.12 R. Frühwirth R. Frühwirth 9 Wichtige Verteilungen 0.2 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 0.05 Grundbegriffe Randverteilungen und bedingte Verteilungen 8 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 1 √ e σ 2π (x−µ)2 − 2σ2 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Das Maximum ist bei x = µ, die Wendepunkte bei x = µ ± σ. Die √ halbe Breite auf halber Höhe (HWHM) ist gleich σ 2 ln 2 ≈ 1, 177σ. Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe fmax=0.39894 0.4 f((x−µ)/σ) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Ga(2,1) 0.3 0.3 HWHM 0.2 0.1 0 −4 −3 −2 −1 0 (x−µ)/σ 1 2 3 4 Eindimensionale Normalverteilung, gelber Bereich = 68.2% Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 239/535 R. Frühwirth Statistik 240/535 Die Normalverteilung und verwandte Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Statistik Es gilt: R. Frühwirth R. Frühwirth W (|r − µ| ≥ σ) W (|r − µ| ≥ 2σ) W (|r − µ| ≥ 3σ) Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable = 31.8% = 4.6% = 0.2% Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Eigenschaften der Normalverteilung 1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 2 Grundbegriffe Randverteilungen und bedingte Verteilungen Die Faltung zweier Normalverteilungen ist wieder eine Normalverteilung. Wichtige Verteilungen Ist die Faltung von zwei Verteilungen eine Normalverteilung, so sind auch die beiden Summanden Normalverteilungen. Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 241/535 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 1 1 T −1 p exp − (x − µ) V (x − µ) d 2 (2π) 2 |V| V und V−1 sind symmetrische positiv definite d × d-Matrizen. Ist X normalverteilt gemäß No(µ, V) und H eine m × d Matrix, so ist Y = HX normalverteilt gemäß No(Hµ, HVHT ). Jede Randverteilung einer Normalverteilung ist wieder eine Normalverteilung. Mittelwert und Matrix der Randverteilung entstehen durch Streichen der Spalten und Zeilen der restlichen Variablen. Statistik 242/535 Statistik Jede bedingte Verteilung einer Normalverteilung ist wieder eine Normalverteilung. Ist X normalverteilt gemäß No(µ, V), so kann V als positiv definite symmetrische Matrix mittels einer orthogonalen Transformation auf Diagonalform gebracht werden: UVUT = D2 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen f (x) = Die Normalverteilung und verwandte Verteilungen Statistik Eindimensionale Zufallsvariable Ihre Dichte lautet: R. Frühwirth Die Normalverteilung und verwandte Verteilungen R. Frühwirth Die d-dimensionale Normalverteilung No(µ, V) R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Alle Digonalelemente von D2 sind positiv. Die Zufallsvariable Y = DU(X − µ) ist dann standardnormalverteilt. Die Drehung U heißt Hauptachsentransformation. Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 243/535 Die zweidimensionale Normalverteilung Für d = 2 und µ = 0 kann die Dichte folgendermaßen angeschrieben werden: h 2 x1 2 ρ x 1 x2 1√ 1 f (x1 , x2 ) = exp − 2 2(1−ρ ) σ 2 − σ1 σ2 + 2 2πσ1 σ2 1−ρ 1 x22 σ22 i ρ = σ12 /(σ1 σ2 ) ist der Korrelationskoeffizient. Sind X1 und X2 unkorreliert, also ρ = 0, folgt: 1 1 x21 x22 f (x1 , x2 ) = exp − + = f1 (x1 ) · f2 (x2 ) 2πσ1 σ2 2 σ12 σ22 Zwei unkorrelierte normalverteilte Zufallsvariable mit gemeinsamer Normalverteilung sind daher unabhängig. R. Frühwirth Statistik 244/535 Die Normalverteilung und verwandte Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Statistik R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen σ1=1, σ2=1, ρ=0.6 3 Eindimensionale Zufallsvariable 0.2 2 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 0.15 1 Mehrdimensionale Zufallsvariable 0.1 0 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.05 −1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Wichtige Verteilungen 0 −2 2 2 0 0 −2 −3 −3 −2 −1 0 1 2 3 −2 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 245/535 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 1 1 p exp − =√ 2 (1 − ρ2 ) 2 2 σ 2πσ1 1 − ρ 1 2 # ρ x2 σ1 x1 − σ2 X1 |X2 = x2 ist also eine normalverteilte Zufallsvariable mit der Erwartung E[X1 |X2 ] = ρx2 σ1 /σ2 E[X1 |X2 ] heißt die bedingte Erwartung. Statistik 246/535 Die Normalverteilung und verwandte Verteilungen Statistik Eindimensionale Zufallsvariable f (x1 , x2 ) = f (x2 ) " R. Frühwirth Die Normalverteilung und verwandte Verteilungen R. Frühwirth f (x1 |x2 ) = Momente Erwartung Varianz Schiefe R. Frühwirth Die bedingte Dichte f (x1 |x2 ) ist gegeben durch Statistik Je nach Vorzeichen von ρ fällt oder wächst die bedingte Erwartung von X1 , wenn X2 wächst. R. Frühwirth Eindimensionale Zufallsvariable Ist ρ = 1, sind X1 und X2 proportional: X1 = X2 σ1 /σ2 . Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Höhenschichtlinien der Dichtefunktion sind Ellipsen. Die Hauptachsentransformation ist jene Drehung, die die Ellipsen in achsenparallele Lage bringt. Sie hängt im Fall d = 2 nur von ρ ab. Ist ρ = 0, sind X1 und X2 bereits unabhängig, und der Drehwinkel ist gleich 0. Ist ρ 6= 0, ist die Drehmatrix U gleich ! cos ϕ − sin ϕ 1 σ 2 − σ12 U= mit ϕ = − arccot 2 2 2ρσ1 σ2 sin ϕ cos ϕ Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 247/535 Die t-Verteilung t(n) Die Dichte der t-Verteilung mit n Freiheitsgraden lautet: −(n+1)/2 Γ( n+1 ) x2 f (x|n) = √ 2 n 1+ n nπ Γ( 2 ) Die χ2 -Verteilung χ2 (n) Die Dichte der χ2 -Verteilung mit n Freiheitsgraden lautet: f (x|n) = 1 xn/2−1 e−x/2 · I[0,∞) (x) 2n/2 Γ( n2 ) Sie ist die Gammaverteilung Ga(n/2, 2). Ist X standardnormalverteilt, so ist Y = X 2 χ2 -verteilt mit einem Freiheitsgrad. R. Frühwirth Statistik 248/535 Die Normalverteilung und verwandte Verteilungen Abschnitt 11: Momente Statistik R. Frühwirth Statistik Die F-Verteilung F(n, m) Eindimensionale Zufallsvariable R. Frühwirth Eindimensionale Zufallsvariable Die Dichte der F-Verteilung (Fisher-Snedecor-Verteilung) mit n bzw. m Freiheitsgraden lautet: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable n/2 m/2 Γ( n+m m xn/2−1 2 )n f (x|n, m) = · I[0,∞) (x) n m Γ( 2 )Γ( 2 ) (m + nx)(n+m)/2 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen F = Momente Erwartung Varianz Schiefe X/n Y /m Grundbegriffe Randverteilungen und bedingte Verteilungen Rechnen mit Verteilungen Statistik Momente Erwartung Varianz Schiefe 12 Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth 8 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe 12 Statistik 250/535 Erwartung Statistik Rechnen mit Verteilungen 11 249/535 R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Erwartung Varianz Schiefe Unterabschnitt: Erwartung Grundbegriffe Randverteilungen und bedingte Verteilungen 10 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen verteilt gemäß F(n, m). Rechnen mit Verteilungen Eindimensionale Zufallsvariable Wichtige Verteilungen Sind X und Y unabhängig und χ2 -verteilt mit n bzw. n Freiheitsgraden, so ist Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 8 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Momente Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Definition (Erwartung) Es sei X eine (diskrete oder stetige) Zufallsvariable mit der Dichte f (x). Ferner sei g eine beliebige stetige reelle oder komplexe Funktion. Man definiert EX [g] = E[g(X)] durch: Z ∞ X g(x)f (x) dx E[g(X)] = g(k)f (k) bzw. E[g(X)] = −∞ k∈N0 EX [g] = E[g(X)] heißt die Erwartung von g(X). Ist g ein k-dimensionaler Vektor von Funktionen, dann ist auch E[g(X)] ein k-dimensionaler Vektor. Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 251/535 R. Frühwirth Statistik 252/535 Erwartung Erwartung Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Statistik Definition (Erwartung einer Zufallsvariablen) Ist g(x) = x, so heißt E[g(X)] = E[X] die Erwartung oder der Mittelwert von X. Z ∞ X E[X] = xf (x) dx bzw. E[X] = k f (k) −∞ Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente −∞ −∞ Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 E[c] = c, c ∈ R 2 E[aX + b] = aE[X] + b 3 E[X1 + X2 ] = E[X1 ] + E[X2 ] 4 X1 und X2 unabhängig =⇒ E[X1 X2 ] = E[X1 ] · E[X2 ] R. Frühwirth Statistik 254/535 Erwartung Statistik Eindimensionale Zufallsvariable 1 , x∈R π(1 + x2 ) Eigenschaften der Erwartung 253/535 Erwartung R. Frühwirth f (x) = Wichtige Verteilungen Rechnen mit Verteilungen R. Frühwirth Die Erwartung braucht nicht zu existieren. Ein Beispiel ist die Cauchy-Verteilung (t-Verteilung mit einem Freiheitsgrad) mit der Dichte Eindimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen k∈N0 Ist X = (X1 , . . . , Xd ), wird die Erwartung entsprechend verallgemeinert: Z ∞ Z ∞ g(x1 , . . . , xd ) f (x1 , . . . , xd ) dx1 . . . dxd EX [g] = ... Erwartung Varianz Schiefe Die Erwartung ist ein Lageparameter. R. Frühwirth Statistik Beispiel (Die Erwartung der Alternativverteilung) R. Frühwirth Eindimensionale Zufallsvariable Es sei X alternativverteilt nach Al(p). Dann gilt Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable E[X] = 1 · p + 0 · (1 − p) = p Statistik r= Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ! n pk (1 − p)n−k k n X Xi . i=1 Dann folgt E[X] = np aus der Additivität der Ewartung. Beispiel (Die Erwartung der Poissonverteilung) Momente Mit k0 = k − 1 und n0 = n − 1 folgt ! n0 X 0 0 0 n E[X] = np pk (1 − p)n −k = np k k0 =0 R. Frühwirth Da X die Anzahl des Eintretens von e1 in n unabhängigen Alternativversuchen angibt, kann X auch als die Summe von n alternativverteilten Zufallsvariablen X1 , . . . , Xn betrachtet werden: Mehrdimensionale Zufallsvariable Beispiel (Die Erwartung der Binomialverteilung) Es sei X binomialverteilt nach Bi(n, p). ! n n X X n E[X] = k pk (1 − p)n−k = k k k=0 k=1 Beispiel (Fortsetzung) Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 255/535 Es sei X nach Po(λ) poissonverteilt: E[X] = ∞ X k=0 k· 0 ∞ ∞ X λk −λ X λk λk −λ e = e−λ = λ e =λ k! (k − 1)! k0 ! 0 k=1 R. Frühwirth Statistik k =0 256/535 Erwartung Erwartung Statistik R. Frühwirth Eindimensionale Zufallsvariable Statistik Beispiel (Die Erwartung der hypergeometrischen Verteilung) E[X] = Mehrdimensionale Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Es sei X hypergeometrisch verteilt nach Hy(N, M, n). Dann gilt Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable nM N Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Die Erwartung der Binomialverteilung) Es sei X binomialverteilt nach Bi(n, p). ! n n X X n E[X] = k pk (1 − p)n−k = k k k=0 k=1 0 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ! n pk (1 − p)n−k k Erwartung Varianz Schiefe Mit k = k − 1 und n = n − 1 folgt ! n0 X 0 0 0 n E[X] = np pk (1 − p)n −k = np k k0 =0 Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel (Die Erwartung der d-dimensionalen Normalverteilung) Rechnen mit Verteilungen Es sei X normalverteilt gemäß No(µ, σ 2 ): E[X − µ] = 0 =⇒ E[X] − µ = 0 =⇒ E[X] = µ R. Frühwirth R. Frühwirth Eindimensionale Zufallsvariable Es sei X verteilt gemäß No(mu, V): Statistik 258/535 E[X − µ] = 0 =⇒ E[X] − µ = 0 =⇒ E[X] = µ Mehrdimensionale Zufallsvariable Beispiel (Die Erwartung der Gammaverteilung) Grundbegriffe Randverteilungen und bedingte Verteilungen Es sei X gammaverteilt gemäß Ga(a, b): ∞ Z E[X] = 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen x e dx = ab ba Γ(a) Momente Erwartung Varianz Schiefe Beispiel (Die Erwartung der χ -Verteilung) Es sei X χ2 -verteilt mit n Freiheitsgraden: Statistik E[X] = 0, n > 1 Für n = 1 (Cauchy- oder Breit-Wigner-Verteilung) existiert die Erwartung nicht. Beispiel (Die Erwartung der F-Verteilung) Es sei X F-verteilt mit n bzw. m Freiheitsgraden: E[X] = m ,m > 2 m−2 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze E[X] = n R. Frühwirth Es sei X t-verteilt mit n Freiheitsgraden: Wichtige Verteilungen a −x/b 2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Beispiel (Die Erwartung der t-Verteilung) Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Momente Erwartung Varianz Schiefe Beispiel (Die Erwartung der Normalverteilung) Statistik Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Es sei X exponentialverteilt gemäß Eτ : Z ∞ ∞ t −t/τ E[X] = e dt = −te−t/τ − τ e−t/τ = τ τ 0 0 Erwartung Statistik Eindimensionale Zufallsvariable Beispiel (Die Erwartung der Exponentialverteilung) 257/535 Erwartung R. Frühwirth Es sei X gleichverteilt auf dem Intervall [a, b]: Z b x a+b E[X] = dx = b − a 2 a Momente 0 R. Frühwirth Beispiel (Die Erwartung der stetigen Gleichverteilung) 259/535 R. Frühwirth Statistik 260/535 Erwartung Erwartung Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Definition (Momente) R. Frühwirth k Sei X eine Zufallsvariable. Die Erwartung von g(x) = (x − a) , sofern sie existiert, heißt k-tes Moment von X um a. Das k-te Moment um 0 wird mit µ0k bezeichnet. Das k-te Moment um den Erwartungswert E[X] wird als zentrales Moment µk bezeichnet. Wichtige Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Statistik R. Frühwirth 9 Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente Erwartung Varianz Schiefe Wichtige Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 12 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 2 µ03 = µ3 + 3µ01 µ2 + µ01 3 2 µ04 = µ4 + 4µ01 µ3 + 6µ01 µ2 + µ01 4 Statistik 262/535 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Definition (Varianz) Das zweite zentrale Moment µ2 heißt die Varianz von X, bezeichnet mit var[X]. Die Wurzel aus der Varianz heißt die Standardabweichung von X, bezeichnet mit σ[X]. Die Standardabweichung ist ein Skalenparameter, der die Breite der Verteilung beschreiben. Die Standardabweichung hat die gleiche Dimension wie die Zufallsvariable. Varianz und Standardabweichung sind (wie alle zentralen Momente) invariant gegen Translationen. Die Varianz braucht nicht zu existieren. Ein Beispiel ist die t-Verteilung mit zwei Freiheitsgraden mit der Dichte Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 4 Varianz Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen µ02 = µ2 + µ01 R. Frühwirth R. Frühwirth Grundbegriffe Randverteilungen und bedingte Verteilungen 2 261/535 Unterabschnitt: Varianz 8 3 µ4 = µ04 − 4µ01 µ03 + 6µ01 µ02 − 3µ01 Erwartung Varianz Schiefe R. Frühwirth 2 µ3 = µ03 − 3µ01 µ02 + 2µ01 Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Erwartung Varianz Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable µ2 = µ02 − µ01 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Eindimensionale Zufallsvariable Beispiel (Umrechnung von zentralen Momenten und Momenten um 0) Wichtige Verteilungen Die zentralen Momente µ1 , . . . , µk können aus den Momenten um 0 µ01 , . . . , µ0k berechnet werden, und umgekehrt. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable 263/535 f (x) = R. Frühwirth 1 , x∈R (2 + x2 )3/2 Statistik 264/535 Varianz Varianz Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik Die Tschebyscheff’sche Ungleichung R. Frühwirth Es sei X eine Zufallsvariable mit der Erwartung E[X] = µ und der Varianz var[X] = σ 2 . Für g > 0 gilt: Mehrdimensionale Zufallsvariable W (|X − µ| > gσ) ≤ Grundbegriffe Randverteilungen und bedingte Verteilungen 1 g2 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente Erwartung Varianz Schiefe −∞ −∞ heißt die Kovarianz von Xi und Xj , auch σij geschrieben. Die Matrix V mit Vij = cov[Xi , Xj ] heißt die Kovarianzmatrix von X, bezeichnet mit Cov[X]. R. Frühwirth Statistik 266/535 Statistik Eigenschaften der Varianz bzw. der Kovarianz 1 var[X] = E[r2 ] − (E[X])2 2 cov[X1 , X2 ] = E[X1 X2 ] − E[X1 ] · E[X2 ] 3 var[aX + b] = a2 var[X] 4 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen cov[Xi , Xj ] = E[(Xi − µ0i )(Xj − µ0j )] = Z = (xi − µ0i )(xj − µ0j ) f (x1 , . . . xn ) dx1 . . . dxn = n ZR∞ Z ∞ (xi − µ0i )(xj − µ0j ) fij (xi , xj ) dxi dxj = Varianz Statistik Eindimensionale Zufallsvariable Sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und E[Xi ] = µ0i . 265/535 Varianz R. Frühwirth Definition (Kovarianz) 5 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable var[a1 X1 + a2 X2 ] = a21 var[X1 ] + a22 var[X2 ] + 2a1 a2 cov[X1 , X2 ] " n # n X n X X var Xi = cov[Xi , Xj ] = i=1 n X i=1 Grundbegriffe Randverteilungen und bedingte Verteilungen var[Xi ] + 2 cov[Xi , Xj ] 2 X1 , . . . , Xn unabhängig: " n # n X X var Xi = var[Xi ] i=1 i=1 Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik X1 , X2 unabhängig =⇒ cov[X1 , X2 ] = 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen i=1 j=i+1 R. Frühwirth 1 Wichtige Verteilungen i=1 j=1 n n X X Für unabhängige Zufallsgrößen gilt: R. Frühwirth 267/535 R. Frühwirth Statistik 268/535 Varianz Varianz Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik Definition (Korrelationskoeffizient) σij heißt der Korrelationskoeffizient von Xi Die Größe ρij = σi σj und Xj . Eigenschaften des Korrelationskoeffizienten 1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 2 Grundbegriffe Randverteilungen und bedingte Verteilungen −1 ≤ ρij ≤ 1 Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Ist |ρij | = 1, so sind Xi und Xj linear abhängig. Momente Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable var[X] = E[X 2 ] − p2 = 12 · p + 02 · (1 − p) − p2 = p(1 − p) Beispiel (Die Varianz der Binomialverteilung) Ist X nach Bi(n, p) verteilt, so ist X die Summe von n unabhängigen alternativverteilten Zufallsvariablen. Es gilt daher: var[X] = np(1 − p) Ist Y = X/n die relative Häufigkeit des Eintretens von e1 , so gilt E[Y ] = p, var[Y ] = p(1 − p)/n R. Frühwirth Statistik 270/535 Varianz Statistik Eindimensionale Zufallsvariable Es sei X alternativverteilt nach Al(p). 269/535 Varianz R. Frühwirth Beispiel (Die Varianz der Alternativverteilung) Mehrdimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen R. Frühwirth Statistik Beispiel (Die Varianz der hypergeometrischen Verteilung) R. Frühwirth Eindimensionale Zufallsvariable Es sei X hypergeometrisch verteilt nach Hy(N, M, n). Dann gilt var[X] = Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable nM (N − n)(N − M ) N 2 (N − 1) Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Beispiel (Die Kovarianzmatrix der Multinomialverteilung) Sei X = (X1 , . . . , Xd ) nach Mu(n; p1 , . . . , pd ) verteilt (d ≥ 2). Da Xi binomialverteilt ist, gilt var[Xi ] = npi (1 − pi ) Für ein Histogramm ist also die Varianz des Gruppeninhaltes gleich npi (1 − pi ). Für pi 1 (viele Gruppen) ist das ungefähr gleich npi , der Erwartung des Gruppeninhaltes. cov[Xi , Xj ] =E[Xi Xj ] − E[Xi ] · E[Xj ] = =n(n − 1)pi pj − npi npj = Momente Erwartung Varianz Schiefe = − npi pj Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 271/535 R. Frühwirth Statistik 272/535 Varianz Varianz Statistik R. Frühwirth Statistik Beispiel (Die Varianz der Poissonverteilung) Eindimensionale Zufallsvariable E[X 2 ] = Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable = Grundbegriffe Randverteilungen und bedingte Verteilungen = Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen = ∞ X k=0 ∞ X k=0 ∞ X k2 Erwartung Varianz Schiefe λk−1 e−λ = (k − 1)! Grundbegriffe Randverteilungen und bedingte Verteilungen λ −λ e = k0 ! Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen k00 2 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe 1 τ Z ∞ t2 e−t/τ dt = 2τ 2 0 2 var[X] = E[X ] − τ 2 = τ 2 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 273/535 R. Frühwirth Statistik 274/535 Varianz Statistik Mehrdimensionale Zufallsvariable x2 dx = Rechnen mit Verteilungen Varianz Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable E[X 2 ] = Erwartung Varianz Schiefe var[X] =E[X ] − λ = λ R. Frühwirth Eindimensionale Zufallsvariable Z Beispiel (Die Varianz der Exponentialverteilung) Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth 1 b−a Wichtige Verteilungen =λ2 + λ Rechnen mit Verteilungen E[X 2 ] = Mehrdimensionale Zufallsvariable k0 b b3 − a3 3(b − a) a 2 3 3 (b − a)2 b −a b+a − = var[X] = 3(b − a) 2 12 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable λ λ2 00 e−λ + λ = k ! 2 Beispiel (Die Varianz der stetigen Gleichverteilung) Eindimensionale Zufallsvariable λ −λ e = k! (k0 + 1) · λ · k00 =0 Momente k k·λ· k0 =0 ∞ X R. Frühwirth Statistik Beispiel (Die Varianz der Normalverteilung) R. Frühwirth Eindimensionale Zufallsvariable Es gilt: √ 1 2π σ Z exp − 1 (x − µ) 2 σ2 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable 2 dx = 1 für alle µ. Mehrdimensionale Zufallsvariable Nach zweimaligem Differenzieren nach µ, wobei Differentiation und Integration vertauscht werden dürfen, erhält man: Z (x − µ)2 1 1 1 (x − µ)2 √ − 2 + exp − dx = 0 σ σ2 2 σ2 2π σ Z 1 (x − µ)2 1 √ (x − µ)2 exp − dx = σ 2 2 σ2 2π σ var[X] = σ 2 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 275/535 E[X 2 ] = Z ∞ 0 xa+1 e−x/b dx = a(a + 1)b2 ba Γ(a) var[X] = ab2 Beispiel (Die Varianz der χ2 -Verteilung) Es sei X χ2 -verteilt mit n Freiheitsgraden: var[X] = 2 n Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Es sei X gammaverteilt gemäß Ga(a, b): Momente Rechnen mit Verteilungen R. Frühwirth Beispiel (Die Varianz der Gammaverteilung) R. Frühwirth Statistik 276/535 Varianz Unterabschnitt: Schiefe Statistik R. Frühwirth Eindimensionale Zufallsvariable Statistik Beispiel (Die Varianz der t-Verteilung) Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Eindimensionale Zufallsvariable Es sei X t-verteilt mit n Freiheitsgraden: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable R. Frühwirth var[X] = Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable n ,n > 2 n−2 Grundbegriffe Randverteilungen und bedingte Verteilungen Beispiel (Die Varianz der F-Verteilung) Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 2m2 (n + m − 2) ,m > 4 n(m − 2)2 (m − 4) Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Definition (Schiefe) 3 Eindimensionale Zufallsvariable Das reduzierte dritte zentrale Moment γ = µ3 /σ heißt die Schiefe. Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Schiefe misst die Asymmetrie einer Verteilung. Ist die Schiefe positiv (negativ), heißt die Verteilung rechtsschief (linksschief). Für symmetrische Verteilungen ist sie 0. Mehrdimensionale Zufallsvariable Rechnen mit Verteilungen Statistik 278/535 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel (Die Schiefe der Exponentialverteilung) Momente 3 ∞ Z µ3 = E[(X − E[X]) ] = 0 (t − τ )3 −t/τ e dt = 2τ 3 τ Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Die Schiefe ist daher gleich γ = 2. R. Frühwirth Statistik Beispiel (Die Schiefe der Gammaverteilung) ∞ (x − ab)3 a−1 −x/b x e dx = 2ab3 ba Γ(a) 0 √ Die Schiefe ist daher gleich γ = 2/ a und strebt für a → ∞ gegen 0. µ3 = E[(X − E[X])3 ] = Z Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Rechnen mit Verteilungen Momente Erwartung Varianz Schiefe R. Frühwirth Wichtige Verteilungen Erwartung Varianz Schiefe 11 Schiefe Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen 277/535 Schiefe Eindimensionale Zufallsvariable 10 Erwartung Varianz Schiefe Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Mehrdimensionale Zufallsvariable Momente Rechnen mit Verteilungen R. Frühwirth 9 Wichtige Verteilungen Es sei X F-verteilt mit n bzw. m Freiheitsgraden: var[X] = Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Für n ≤ 2 existiert die Varianz nicht. Momente 8 Selbst wenn alle Momente einer Verteilung existieren, ist sie dadurch nicht eindeutig bestimmt. Zum Beispiel haben die Verteilungen mit den Dichten f (x) = √ 4 1 x− ln x [1 − λ sin(4π ln x)], 0 ≤ x ≤ ∞, 0 ≤ λ ≤ 1 π2 e dieselben Momente µ0k = ek(k+2)/4 , unabhängig von λ. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 279/535 R. Frühwirth Statistik 280/535 Abschnitt 12: Rechnen mit Verteilungen Unterabschnitt: Faltung und Messfehler Statistik Statistik R. Frühwirth R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen R. Frühwirth Statistik Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 281/535 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 282/535 Faltung und Messfehler Statistik Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Faltung und Messfehler R. Frühwirth 8 Eindimensionale Zufallsvariable Statistik Definition (Faltung) R. Frühwirth Die Dichte g wird als Faltungsprodukt von f1 und f2 bezeichnet: g = f1 ∗ f2 . Eindimensionale Zufallsvariable Es seien X1 und X2 zwei unabhängige Zufallsvariablen. Die Summe X = X1 + X2 heißt die Faltung von X1 und X2 . Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Satz Sind X1 und X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Dichte f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ), so hat ihre Summe X = X1 + X2 die Dichte Z ∞ g(x) = f1 (x − x2 ) · f2 (x2 ) dx2 = −∞ Z ∞ = f1 (x1 ) · f2 (x − x1 ) dx1 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Faltung von zwei Exponentialverteilungen) Es seien X1 und X2 exponentialverteilt gemäß Eτ . Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(t) = f1 (t − t2 )f2 (t2 ) dt2 = −∞ t Z = 0 = 1 (t2 −t)/τ −t2 /τ e e dt2 = τ2 1 −t/τ te τ2 Rechnen mit Verteilungen −∞ Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 283/535 R. Frühwirth Statistik 284/535 Faltung und Messfehler Faltung und Messfehler Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Beispiel (Faltung von zwei Gleichverteilungen) R. Frühwirth Es seien X1 und X2 gleichverteilt im Intervall [0, 1]. Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(x) = f1 (x − x2 )f2 (x2 ) dx2 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable −∞ Das Produkt der Dichten ist nur ungleich 0, wenn 0 ≤ x − x2 ≤ 1 und 0 ≤ x2 ≤ 1 gilt. Die effektiven Integrationsgrenzen sind daher xmin = max(0, x − 1) und xmax = min(x, 1). Ist 0 ≤ x ≤ 1, ist xmin = 0 und xmax = x; ist 1 ≤ x ≤ 2, ist xmin = x − 1 und xmax = 1. Die Dichte g(x) lautet daher: wenn 0 ≤ x ≤ 1 x, g(x) = 2 − x, wenn 1 ≤ x ≤ 2 0, sonst Die Summenverteilung heißt Dreiecksverteilung. R. Frühwirth Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Im günstigsten Fall hängt b nur von der Differenz x0 − x ab, oder eine weitere explizite Abhängigkeit von x ist vernachlässigbar. Dann wird aus dem Integral ein Faltungsintegral. Dies ist genau dann der Fall, wenn der Messfehler und die Messung unabhängig sind. R. Frühwirth Statistik 286/535 Faltung und Messfehler Statistik Die Faltung von zwei Zufallsvariablen X1 und X2 kann auch mit Hilfe ihrer charakteristischen Funktionen berechnet werden. R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Definition (Charakteristische Funktion) Es sei X eine Zufallsvariable. Die charakteristische Funktion von X ist definiert durch: ϕX (t) = E[ exp(itX) ], t ∈ R Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel (Faltung von zwei Poissonverteilungen) Es seien X1 und X2 Poisson-verteilt gemäß Po(λ1 ) bzw. Po(λ2 ). Die charakteristische Funktion von Xi lautet: ϕXi (t) = ∞ X eikt λki e−λi = exp[λi (eit − 1)] k! k=0 Die charakteristische Funktion von X = X1 + X2 ist daher gleich ϕX (t) = exp[λ1 (eit − 1)] exp[λ2 (eit − 1)] = exp[(λ1 + λ2 )(eit − 1)] X ist also Poisson-verteilt gemäß Po(λ) mit λ = λ1 + λ2 . Momente Satz Ist X = X1 + X2 die Faltung von X1 und X2 , so gilt: Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze −∞ −∞ Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 285/535 Statistik Eindimensionale Zufallsvariable Es wird eine Zufallsgröße X beobachtet. Der Messfehler wird durch eine bedingte Dichte b(x0 |x) beschrieben, die die Wahrscheinlichkeit angibt, dass x0 bei der Messung registriert wird, wenn X den Wert x annimmt. Für die gemessene Verteilung gilt dann: Z ∞ Z ∞ f (x0 , x) dx b(x0 |x)f (x) dx = fM (x0 ) = Rechnen mit Verteilungen Faltung und Messfehler R. Frühwirth Beispiel (Der Messfehler) Rechnen mit Verteilungen ϕX (t) = ϕX1 (t) · ϕX2 (t) R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 287/535 R. Frühwirth Statistik 288/535 Unterabschnitt: Fehlerfortpflanzung, Transformation von Dichten Faltung und Messfehler Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Statistik 2 Beispiel (Faltung von zwei χ -Verteilungen) Es seien X1 und X2 χ2 -verteilt mit n1 bzw. n2 Freiheitsgraden. Die charakteristische Funktion von Xi lautet: 1 ϕXi (t) = (1 − 2it)ni /2 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Momente ϕX (t) = Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen 1 1 = (1 − 2it)n1 /2 (1 − 2it)n2 /2 (1 − 2it)(n1 +n2 )/2 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen X ist also χ2 -verteilt mit n = n1 + n2 Freiheitsgraden. Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 290/535 Fehlerfortpflanzung, Transformation von Dichten Statistik Statistik Im folgenden Abschnitt sollen Linearkombinationen von — nicht notwendig unabhängigen — Zufallsvariablen betrachtet werden. R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen E[Y ] = H · E[X] Cov[Y ] = H · Cov[X] · HT Es wird angenommen, dass h in jenem Bereich, in dem die Dichte von X signifikant von 0 verschieden ist, genügend gut durch eine lineare Funktion angenähert werden kann. Entwickelt man h an der Stelle E[X], so gilt in 1. Näherung: Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Lineare Transformation von Erwartung und Varianz 2 Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Es gilt exakt: 1 Es soll nun statt der linearen Abbildung H eine allgemeine Funktion h = (h1 , . . . , hm ) betrachtet werden. R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Es sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und H eine m × n - Matrix. Dann ist Y = (Y1 , . . . Ym ) = HX — wie jede deterministische Funktion einer Zufallsvariablen — wieder eine Zufallsvariable. Wie ist Y verteilt? Mehrdimensionale Zufallsvariable Rechnen mit Verteilungen Mehrdimensionale Zufallsvariable 289/535 Fehlerfortpflanzung, Transformation von Dichten Erwartung Varianz Schiefe 9 Erwartung Varianz Schiefe Rechnen mit Verteilungen Momente Eindimensionale Zufallsvariable Momente Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 8 Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Die charakteristische Funktion von X = X1 + X2 ist daher gleich Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen R. Frühwirth Momente Erwartung Varianz Schiefe Lineare Fehlerfortpflanzung 1 2 E[Y ] = h(E[X]) T ∂h ∂h Cov[Y ] = · Cov[X] · ∂x ∂x Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 291/535 R. Frühwirth Statistik 292/535 Fehlerfortpflanzung, Transformation von Dichten Fehlerfortpflanzung, Transformation von Dichten Statistik R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Ist h = (h1 , . . . , hn ) eine umkehrbar eindeutige Abbildung h : Rn → Rn , so läßt sich die Dichte von Y = (Y1 , . . . , Yn ) = h(X1 , . . . , Xn ) berechnen. Es sei X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable mit der Dichte fX (x1 , . . . , xd ), h eine umkehrbare Abbildung h : Rd → Rd , g die Umkehrfunktion von h, Y = h(X) und fY (y1 , . . . , yd ) die Dichte von Y . Dann gilt: Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable R. Frühwirth Statistik Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 293/535 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Beispiel (Transformation mit der inversen Verteilungsfunktion) Eindimensionale Zufallsvariable X ist also verteilt mit der Verteilungsfunktion F und der Dichte f . Wichtige Verteilungen Statistik 294/535 Beispiel (Transformation auf Polarkoordinaten) Es seien (X, Y ) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Polarkoordinaten (R, Φ), definiert durch: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Beispiel Es sei X gleichverteilt im Intervall [0, 1] und Y = − ln(X). Dann ist g(y) = exp(−y) und dg = e−y fY (y) = fX (exp(−y)) · dy Y ist daher exponentialverteilt mit τ = 1. Statistik Y ist also gleichverteilt im Intervall [0, 1]. Y wird als p-Wert (probability transform) von X bezeichnet. R. Frühwirth Es sei U gleichverteilt im Intervall [0, 1], F (x) (f (x)) die Verteilungsfunktion (Dichtefunktion) einer stetigen Verteilung, und X = F −1 (U ). Dann ist die Dichte von X gegeben durch: dF = f (x) g(x) = 1 · dx R. Frühwirth Es sei X eine stetige Zufallsvariable mit der Dichte f (x) und der Verteilungsfunktion F (x), und Y = F (X). Dann ist die Dichte von Y gegeben durch: dF −1 = f (x)/f (x) = 1 g(y) = f (x) · dy Fehlerfortpflanzung, Transformation von Dichten Statistik Eindimensionale Zufallsvariable Beispiel (Transformation mit der Verteilungsfunktion) R. Frühwirth Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth 1 |A| fY (y) = fX (A−1 (y − b)) · Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen ∂g fY (y1 , . . . , yd ) = fX (g(y1 , . . . , yd )) · ∂y ∂g wobei der Betrag der Funktionaldeterminante ist. ∂y Es sei X eine d-dimensionale Zufallsvariable mit Dichte fX (x) und Y = AX + b. Ist A regulär, ist die Dichte von Y gegeben durch: Mehrdimensionale Zufallsvariable Wichtige Verteilungen Transformation der Dichte Beispiel (Transformation unter einer affinen Abbildung) 295/535 Momente Erwartung Varianz Schiefe X = R cos(Φ), Y = R sin(Φ) Die Funktionaldeterminante lautet: ∂(x, y) ∂(r, ϕ) = r Die Dichte ist daher f (r, ϕ) = 2 1 re−r /2 2π R und Φ sind unabhängig mit den Randdichten Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze f1 (r) = re−r R. Frühwirth 2 Statistik /2 , f2 (ϕ) = 1 2π 296/535 Fehlerfortpflanzung, Transformation von Dichten Fehlerfortpflanzung, Transformation von Dichten Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Beispiel (Transformation auf Kugelkoordinaten) Es seien (X, Y, Z) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Kugelkoordinaten (R, Θ, Φ), definiert durch: X = R sin(Θ) cos(Φ), Y = R sin(Θ) sin(Φ), z = R cos(Θ) 1 (2π) 3/2 e−r 2 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente /2 2 r sin(θ) Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Beispiel (Geschwindigkeitsverteilung im idealen Gas) Im idealen Gas sind die Komponenten (Vx , Vy , Vz ) der Molekülgeschwindigkeit in guter Näherung normalverteilt, mit Mittelwert 0 und Varianz σ 2 = kT /m, wobei m die Molekülmasse, k die Boltzmannkonstante und T die Temperatur ist. R. Frühwirth Statistik 298/535 Fehlerfortpflanzung, Transformation von Dichten Beispiel (Fortsetzung) Statistik R. Frühwirth Der Betrag V der Geschwindigkeit hat dann die Dichte √ 3/2 2 2m f (v) = √ v 2 e−mv /2kT 3/2 π(kT ) vmax 0.6 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Maxwell−Verteilung mit kT=m E[v] 0.5 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die häufigste Geschwindigkeit (das Maximum der Dichte) ist bei r 2 kT Vmax = m Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik 0.7 Eindimensionale Zufallsvariable Die Verteilung wird Maxwell-Verteilung genannt. Mittelwert und Standardabweichung sind r r 8 kT 3 kT E[V ] = , σ[V ] = πm m R. Frühwirth R, θ und ϕ sind unabhängig mit den Randdichten √ 2 2 1 1 f1 (r) = √ r2 e−r /2 , f2 (θ) = sin(θ), f3 (ϕ) = 2 2π π 297/535 Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth Beispiel (Fortsetzung) Grundbegriffe Randverteilungen und bedingte Verteilungen Die Dichte ist daher f (r, θ, ϕ) = Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable Die Funktionaldeterminante lautet: ∂(x, y, z) 2 ∂(r, θ, ϕ) = r sin(θ) Momente Erwartung Varianz Schiefe R. Frühwirth 299/535 0.4 f(v) R. Frühwirth 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 v 3 3.5 4 4.5 5 Maxwell-Verteilung, kT = m R. Frühwirth Statistik 300/535 Unterabschnitt: Systematische Fehler Systematische Fehler Statistik Statistik R. Frühwirth R. Frühwirth 8 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die Korrektur von systematischen Fehlern erfordert solgfältige Kalibaration der Messaparatur, Überprüfung von theoretischen Annahmen, etc. Momente Erwartung Varianz Schiefe Das Gesetz der Fehlerfortpflanzung gilt nicht für systematische Fehler! Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 301/535 R. Frühwirth Statistik 302/535 Unterabschnitt: Grenzverteilungssätze Statistik Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Systematische Fehler werden durch Vergrößerung der Stichprobe nicht kleiner! Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Systematische Fehler Eindimensionale Zufallsvariable Die Messung kann jedoch durch eine falsche Kalibration (z.B. Skalenfehler oder Nullpunktfehler) des Messgeräts verfälscht sein. Solche Fehler werden systematische Fehler genannt. Wichtige Verteilungen R. Frühwirth R. Frühwirth Kann der Messfehler durch eine Zufallsvariable mit Mittel 0 beschrieben werden, hat die Messung nur einen statistischen Fehler. Statistik Beispiel R. Frühwirth Wir messen zwei Spannungen U1 , U2 mit dem gleichen Messgerät. Durch fehlerhafte Kalibration misst das Gerät statt der wahren Spannung U die Spannung Um = aU + b + ε, mit a = 0.99, b = 0.05, σ[ε] = 0.03 V. Der Mittelwert Ū der beiden Spannungen hat dann einen statistischen Fehler von 0.02 V. Der systematische Fehler des Mittelwerts wird beschrieben durch Ūm = aŪ + b, ist also der der Einzelmessung. Der systematische Fehler der Differenz ∆U wird beschrieben durch ∆Um = a∆U . Der Nullpunktfehler ist verschwunden. Momente Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Erwartung Varianz Schiefe Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 303/535 8 Eindimensionale Zufallsvariable 9 Mehrdimensionale Zufallsvariable 10 Wichtige Verteilungen 11 Momente 12 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Eindimensionale Zufallsvariable R. Frühwirth Statistik 304/535 Grenzverteilungssätze Grenzverteilungssätze Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik Zentraler Grenzwertsatz für identisch verteilte Folgen von Zufallsvariablen R. Frühwirth Eindimensionale Zufallsvariable Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen, die die gleiche Verteilung besitzen, mit endlicher Erwartung µ und endlicher Varianz σ 2 . Definiert man Sn und Un durch: Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen n X Sn − E[Sn ] Sn − nµ Sn = Xi , Un = = √ σ[S ] n·σ n i=1 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen so ist U = limn→∞ Un standardnormalverteilt. Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Statistik 306/535 Statistik Auch bei relativ kleinem n ist die Normalverteilung of eine gute Näherung für die Summe von Zufallsvariablen. Eindimensionale Zufallsvariable Wichtige Verteilungen Der zentrale Grenzwertsatz erklärt, warum die Normalverteilung in der Natur eine so bedeutende Rolle spielt, etwa bei der Verteilung der Impulskomponenten von Gasmolekülen, die das Ergebnis von zahlreichen Stößen ist. Grenzverteilungssätze Statistik Grundbegriffe Randverteilungen und bedingte Verteilungen so ist Y = limn→∞ Yn standardnormalverteilt. 305/535 Grenzverteilungssätze Mehrdimensionale Zufallsvariable n X Xi − µi , Yn = Ui = √ Ui nσi i=1 Erwartung Varianz Schiefe Rechnen mit Verteilungen Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen mit beliebigen Verteilungen. µi = E[Xi ] und σi2 = var[Xi ] seien endlich für alle i ∈ N. Definiert man für jedes n ∈ N Ui und Yn durch: Wichtige Verteilungen Momente R. Frühwirth Zentraler Grenzwertsatz für beliebig verteilte Folgen von Zufallsvariablen R. Frühwirth 1 Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Beispiel (Binomialverteilung für großes n) Da eine gemäß Bi(n, p) verteilte Zufallsvariable als Summe von n alternativverteilten Zufallsvariablen dargestellt werden kann, muss die Binomialverteilung für n → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Binomialverteilung Bi(n, p) mit n = 200 und p = 0.1, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = np = 20 und σ 2 = np(1 − p) = 18. Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 307/535 0.7 0.6 0.5 Wichtige Verteilungen Momente Erwartung Varianz Schiefe 0.8 Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Bi(200,0.1) No(20,18) 0.9 F(x) R. Frühwirth 0.4 0.3 0.2 0.1 0 0 5 10 R. Frühwirth 15 Statistik 20 x 25 30 35 40 308/535 Grenzverteilungssätze Grenzverteilungssätze Statistik Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Statistik Beispiel (Poissonverteilung für großes n) R. Frühwirth Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P (1)-verteilten Zufallsvariablen dargestellt werden kann, muss die Poissonverteilung für λ → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Poissonverteilung Po(λ) mit λ = 25, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = 25. Eindimensionale Zufallsvariable 0.8 0.7 Mehrdimensionale Zufallsvariable 0.6 Grundbegriffe Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 0.3 0.2 Erwartung Varianz Schiefe Rechnen mit Verteilungen Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Statistik 0.5 0.4 Momente Erwartung Varianz Schiefe Po(25) N(25,25) 0.9 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen Momente 1 F(x) R. Frühwirth 0.1 0 309/535 0 5 10 15 R. Frühwirth 20 25 x 30 35 40 45 50 Statistik 310/535 Statistik 312/535 Übersicht Teil 4 Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Teil 4 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Parameterschätzung Intervallschätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik 311/535 R. Frühwirth Abschnitt 13: Stichprobenfunktionen Unterabschnitt: Grundbegriffe Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen 13 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 14 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 15 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Statistik Intervallschätzer R. Frühwirth Statistik 314/535 Statistik X1 , . . . , Xn seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. Stichprobenfunktionen R. Frühwirth Stichprobenfunktionen Sie bilden dann eine zufällige Stichprobe der Verteilung F . Eine Zufallsvariable Punktschätzer Intervallschätzer 15 Unterabschnitt: Stichprobenmittel Statistik Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 313/535 Grundbegriffe Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 Intervallschätzer R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 13 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian heißt eine Stichprobenfunktion. In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 14 Punktschätzer 15 Intervallschätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Y = f (X1 , . . . , Xn ) R. Frühwirth 13 315/535 R. Frühwirth Statistik 316/535 Stichprobenmittel Stichprobenmittel Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Statistik Definition (Stichprobenmittel) R. Frühwirth Stichprobenfunktionen Das Stichprobenmittel X der Stichprobe X1 , . . . , Xn ist definiert durch n 1X X= Xi n i=1 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F das Mittel µ und die Varianz σ 2 , gilt: 1 E[X] = µ 2 var[X] = 3 Statistik 317/535 Statistik R. Frühwirth Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen 14 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer 15 Statistik 318/535 Definition (Stichprobenvarianz) Die Stichprobenvarianz S 2 der Stichprobe X1 , . . . , Xn ist definiert durch n 1 X S2 = (Xi − X)2 n − 1 i=1 Erwartung der Stichprobenvarianz Hat F die Varianz σ 2 , gilt: Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer R. Frühwirth Statistik Stichprobenvarianz Statistik Punktschätzer Ist F eine Normalverteilung, ist U für alle n standardnormalverteilt. R. Frühwirth R. Frühwirth 13 gegen die Standardnormalverteilung. 2 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Unterabschnitt: Stichprobenvarianz Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Hat F das Mittel µ und die Varianz σ 2 , so konvergiert die Verteilung von X −µ √ U= σ/ n Intervallschätzer σ2 n Ist F eine Normalverteilung, so ist X normalverteilt. R. Frühwirth 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Momente des Stichprobenmittels Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Zentraler Grenzwertsatz 319/535 E[S 2 ] = σ 2 R. Frühwirth Statistik 320/535 Stichprobenvarianz Unterabschnitt: Stichprobenmedian Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Satz Ist F eine Normalverteilung mit Mittel µ und Varianz σ 2 , so gilt: Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 2 2 2 1 (n − 1)S /σ ist χ -verteilt mit n − 1 Freiheitsgraden. 2 X und S 2 sind unabhängig. 3 Die Varianz von S 2 ist gegeben durch Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 2σ 4 n−1 Die Größe T = Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten X −µ √ S/ n ist t-verteilt mit n − 1 Freiheitsgraden. Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer 15 Intervallschätzer R. Frühwirth Statistik 322/535 Abschnitt 14: Punktschätzer Statistik Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 14 321/535 Stichprobenmedian Stichprobenfunktionen Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer R. Frühwirth R. Frühwirth 13 Punktschätzer var[S 2 ] = 4 Stichprobenfunktionen Statistik Definition (Stichprobenmedian) R. Frühwirth Stichprobenfunktionen Der Stichprobenmedian X̃ der Stichprobe X1 , . . . , Xn ist definiert durch X((n+1)/2) , n ungerade X̃ = 1 X (n/2) + X(n/2+1) , n gerade 2 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten lim E[X̃] = m n→∞ lim var[X̃] = n→∞ 3 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Intervallschätzer Hat F den Median m und die Dichte f , gilt: 2 Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Momente des Stichprobenmedians 1 13 1 4 nf 2 (m) X̃ ist asymptotisch normalverteilt, sofern f (m) > 0. R. Frühwirth Statistik 323/535 R. Frühwirth Statistik 324/535 Unterabschnitt: Eigenschaften von Punktschätzern Eigenschaften von Punktschätzern Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen 13 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik 325/535 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Definition (Erwartungstreue) R. Frühwirth Ein Punktschätzer T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: Eϑ [T ] = ϑ Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer T heißt asymptotisch erwartungstreu, wenn gilt: lim Eϑ [T ] = ϑ n→∞ Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Für einen Parameter ϑ sind viele Punktschätzer möglich. Ein guter“ Punktschätzer sollte jedoch gewisse Anforderungen ” erfüllen. Statistik 326/535 Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Konstruktion von sinnvollen Punktschätzern für einen Parameter ϑ ist Aufgabe der Schätztheorie. Eigenschaften von Punktschätzern Statistik Stichprobenfunktionen Die Funktion g(x1 , . . . , xn ) wird die Schätzfunktion genannt. R. Frühwirth Eigenschaften von Punktschätzern R. Frühwirth T = g(X1 , . . . , Xn ) Punktschätzer Intervallschätzer R. Frühwirth Ein Punktschätzer ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des Punktschätzers gleich ϑ. Ein erwartungstreuer Punktschätzer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. R. Frühwirth Statistik 327/535 Definition (MSE) Die mittlere quadratische Abweichung (mean squared error, MSE) eines Punktschätzers T für den Parameter ϑ ist definiert durch: MSE[T ] = Eϑ [(T − ϑ)2 ] Definition (MSE-Konsistenz) Ein Punktschätzer T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: lim MSE[T ] = 0 n→∞ R. Frühwirth Statistik 328/535 Eigenschaften von Punktschätzern Eigenschaften von Punktschätzern Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Definition (MSE-Effizienz) Ein Punktschätzer T1 heißt MSE-effizienter als der Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian MSE[T1 ] ≤ MSE[T2 ] Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Definition (Effizienz) Ein erwartungstreuer Punktschätzer T1 heißt effizienter als der erwartungstreue Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: var[T1 ] ≤ var[T2 ] Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Definition (Fisher-Information) Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Erwartung 2 ∂ ln g(X1 , . . . , Xn |ϑ) Iϑ = E − ∂ϑ2 heißt die Fisher-Information der Stichprobe. Satz von Rao und Cramèr Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Varianz eines erwartungstreuen Schätzers T für den Parameter ϑ ist nach unten beschränkt durch: var[T ] ≥ 1/Iϑ Ein erwartungstreuer Punktschätzer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. R. Frühwirth Statistik R. Frühwirth 329/535 Eigenschaften von Punktschätzern Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 330/535 Eigenschaften von Punktschätzern Statistik R. Frühwirth Statistik Statistik Beispiel R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte ist dann gleich ! n X 1 g(x1 , . . . , xn |τ ) = n exp − xi /τ τ i=1 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian ∂2 ln g(x1 , . . . , xn |τ ) = ∂τ 2 2 ∂ E ln g(X , . . . , X |τ ) = 1 n ∂τ 2 R. Frühwirth Statistik n X Die Information ist also gleich Iτ = n τ2 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Daraus folgt: ln g(x1 , . . . , xn |τ ) = − n ln τ − Beispiel (Fortsetzung) xi /τ Für jeden erwartungstreuen Schätzer T von τ gilt folglich: var[T ] ≥ τ2 n Intervallschätzer i=1 P 2 n i=1 τ3 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten xi n − τ2 n 2 nτ n − 3 −=− 2 τ2 τ τ 331/535 R. Frühwirth Statistik 332/535 Unterabschnitt: Schätzung des Mittelwerts Schätzung des Mittelwerts Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer R. Frühwirth Statistik Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Hat F die endliche Varianz σ 2 , so ist X MSE-konsistent. Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich Iµ = n/σ 2 ist, ist X effizient für µ. Beispiel Ist F die Exponentialverteilung Ex(τ ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich Iτ = n/τ 2 ist, ist X effizient für τ . R. Frühwirth Statistik 334/535 Statistik Beispiel R. Frühwirth Ist F die Poissonverteilung Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich Iλ = n/λ ist, ist X effizient für λ. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das Stichprobenmittel X ein erwartungstreuer Punktschätzer von µ. Unterabschnitt: Schätzung der Varianz Statistik Stichprobenfunktionen 2 333/535 Schätzung des Mittelwerts R. Frühwirth 1 Stichprobenfunktionen 13 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Satz Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Beispiel Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p(1 − p)/n. Da die Fisher-Information für p gleich Ip = n/[p(1 − p)] ist, ist X effizient für p. Intervallschätzer 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 15 Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik 335/535 R. Frühwirth Statistik 336/535 Schätzung der Varianz Schätzung der Varianz Statistik R. Frühwirth Statistik Satz Stichprobenfunktionen 1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 2 R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2 . Dann ist die Stichprobenvarianz S 2 ein erwartungstreuer Punktschätzer von σ 2 . Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 3)µ22 µ4 (n − − n n(n − 1) Intervallschätzer 3 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten In diesem Fall ist S 2 MSE-konsistent. R. Frühwirth Statistik 2σ 4 n−1 Die Fisher-Information für σ 2 ist gleich Iσ2 = n 2σ 4 Statistik R. Frühwirth Stichprobenfunktionen 13 Stichprobenfunktionen 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer 15 1 Es sei X1 , . . . , Xn eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f . Dann ist der Stichprobenmedian X̃ ein asymptotisch erwartungstreuer Punktschätzer von m. 2 Für symmetrisches F ist X̃ erwartungstreu. 3 Der Stichprobenmedian X̃ hat asymptotisch die Varianz Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer var(X̃) ≈ Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik 338/535 Satz Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer R. Frühwirth Statistik Schätzung des Medians Statistik Stichprobenfunktionen S 2 ist also ein asymptotisch effizienter Punktschätzer für σ 2 . R. Frühwirth R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten var(S 2 ) = 337/535 Unterabschnitt: Schätzung des Medians Punktschätzer Ist F die Normalverteilung No(µ, σ 2 ), so ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Die Varianz von S 2 ist dann gleich Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Hat F das endliche vierte zentrale Moment µ4 , so ist var(S 2 ) = Stichprobenfunktionen 339/535 4 1 4nf (m)2 Der Stichprobenmedian ist MSE-konsistent, sofern f (m) > 0. R. Frühwirth Statistik 340/535 Schätzung des Medians Schätzung des Medians Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die Varianz von X ist gleich var(X) = Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian σ2 n Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Varianz von X̃ ist für großes n gleich 2 var(X̃) = Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen 2 2 πσ σ ≈ 1.57 4n n Intervallschätzer Statistik Statistik R. Frühwirth Punktschätzer 14 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Stichprobenfunktionen 15 1 342/535 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer 343/535 Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Funktion L(ϑ|X1 , . . . , Xn ) = g(X1 , . . . , Xn |ϑ) Punktschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik Statistik Definition (ML-Schätzer) Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer R. Frühwirth Sie ist also fast um 40 Prozent kleiner als die Varianz von X. Maximum-Likelihood-Schätzer Statistik 13 1 1.8506 3 = ≈ 0.62 4 nf (0)2 n n R. Frühwirth R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian var(X̃) = 341/535 Unterabschnitt: Maximum-Likelihood-Schätzer Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der t-Verteilung t(3). Die Varianz von X ist gleich 3 var(X) = n Die Varianz von X̃ ist für großes n gleich Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Sie ist also um mehr als 50 Prozent größer als die Varianz von X. R. Frühwirth Beispiel 2 heißt die Likelihoodfunktion der Stichprobe. Der plausible oder Maximum-Likelihood-Schätzer ϑ̂ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion `(ϑ) = ln L(ϑ) maximiert. R. Frühwirth Statistik 344/535 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik Beispiel (ML-Schätzung eines Bernoulli-Parameters) R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |p) = n Y pxi (1 − p)1−xi = p P xi P (1 − p)n− xi Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Log-Likelihoodfunktion ist daher: `(p) = Xi ln p + n− i=1 n X ! Xi ln(1 − p) R. Frühwirth n X ! Xi Statistik 345/535 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Der ML-Schätzer ist unverzerrt und effizient. R. Frühwirth Statistik 346/535 Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen n 1X Xi = X n i=1 i=1 Maximum-Likelihood-Schätzer R. Frühwirth p̂ = Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Ableiten nach p ergibt: n− Nullsetzen der Ableitung und Auflösen nach p ergibt: Intervallschätzer i=1 n ∂`(p) 1X 1 = Xi − ∂p p i=1 1−p Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (Fortsetzung) Punktschätzer i=1 n X Stichprobenfunktionen Statistik Beispiel (ML-Schätzung eines Poisson-Parameters) R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Poissonverteilung Po(λ). Die gemeinsame Dichte lautet: n Y λxi e−λ g(x1 , . . . , xn |λ) = xi ! i=1 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n X [Xi ln λ − λ − ln(xi !)] λ̂ = n 1X Xi = X n i=1 Der ML-Schätzer ist unverzerrt und effizient. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Ableiten nach λ ergibt: n ∂`(λ) 1X = Xi − n ∂λ λ i=1 Statistik Nullsetzen der Ableitung und Auflösen nach λ ergibt: Intervallschätzer i=1 R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (Fortsetzung) Punktschätzer Die Log-Likelihoodfunktion ist daher: `(λ) = Stichprobenfunktionen 347/535 R. Frühwirth Statistik 348/535 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel (ML-Schätzung einer mittleren Lebensdauer) g(x1 , . . . , xn |τ ) = n Y i=1 e Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian −xi /τ `(τ ) = Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer n n X 1X [− ln τ − Xi ] τ i=1 i=1 n ∂`(τ ) n 1 X =− + 2 Xi ∂τ τ τ i=1 Statistik 349/535 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten n 1X Xi = X n i=1 Der ML-Schätzer ist unverzerrt und effizient. R. Frühwirth Statistik 350/535 Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen τ̂ = Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Maximum-Likelihood-Schätzer R. Frühwirth Nullsetzen der Ableitung und Auflösen nach τ ergibt: Intervallschätzer Ableiten nach τ ergibt: R. Frühwirth Beispiel (Fortsetzung) Punktschätzer τ Die Log-Likelihoodfunktion ist daher: Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte lautet: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer R. Frühwirth Statistik Beispiel (ML-Schätzung der Parameter einer Normalverteilung) Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die gemeinsame Dichte lautet: g(x1 , . . . , xn |µ, σ 2 ) = n Y i=1 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian (xi − µ)2 1 √ exp − 2 σ2 2πσ Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer 2 Ableiten nach µ und σ ergibt: n R. Frühwirth n X ∂`(µ, σ 2 ) (xi − µ)2 1 = − + ∂σ 2 2 σ2 2 σ4 i=1 Statistik Beispiel (Fortsetzung) Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: µ̂ = Punktschätzer Die Log-Likelihoodfunktion ist daher: n X √ (xi − µ)2 1 `(µ, σ 2 ) = − ln 2π − ln σ 2 − 2 2 σ2 i=1 X xi − µ ∂`(µ, σ 2 ) = , ∂µ σ2 i=1 R. Frühwirth 351/535 σ̂ 2 = n 1X Xi = X n i=1 n 1X n−1 2 (Xi − X)2 = S n i=1 n Der ML-Schätzer von µ ist unverzerrt und effizient. Der ML-Schätzer von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik 352/535 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik Statistik Der ML-Schätzer hat die folgende wichtige Eigenschaft: R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Stichprobenfunktionen Satz Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information Ig (ϑ) für alle ϑ und ist E [(ln L)0 ] = 0, so ist die Likelihoodschätzung ϑ̂ asymptotisch normalverteilt mit Mittel ϑ und Varianz 1/Ig (ϑ). ϑ̂ ist daher asymptotisch erwartungstreu und asymptotisch effizient. Daraus folgt sofort die nächste Eigenschaft: Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Der Likelihoodschätzer ϑ̂ ist (unter den selben Voraussetzungen) konsistent. Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer Die Log-Likelihoodfunktion ist daher: `(µ) = −n ln π − n X ln[1 + (xi − µ)2 ] i=1 Das Maximum µ̂ von `(µ) muss numerisch gefunden werden. Matlab: make ML cauchy R. Frühwirth Statistik 354/535 Statistik Beispiel (Fortsetzung) R. Frühwirth Stichprobenfunktionen Man kann zeigen, dass die Fisherinformation der Stichprobe gleich Iµ = Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian n 2 Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer i=1 1 π[1 + (xi − µ)2 ] Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen n Y g(x1 , . . . , xn |µ) = 353/535 Maximum-Likelihood-Schätzer R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Cauchyverteilung t(1) mit Lageparameter µ. Die gemeinsame Dichte lautet: Intervallschätzer Satz R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel (ML-Schätzung des Lageparameters einer Cauchyverteilung) Punktschätzer ist. Für große Stichproben muss daher die Varianz des ML-Schätzers µ̂ ungefähr gleich 2/n sein. Der Stichprobenmedian x̃ ist ebenfalls ein konsistenter Schätzer für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) ≈ 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-Schätzers. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Simulation von 10000 Stichproben der Größe n = 100: 1400 1500 1200 µ=0.9998 µ=1.001 σ=0.1588 σ=0.1435 1000 1000 800 600 500 400 200 0 0 0.5 1 1.5 Stichprobenmedian 2 0 0 0.5 1 1.5 ML−Schätzer 2 Die Korrelation zwischen x̃ und µ̂ ist etwa 90%. R. Frühwirth Statistik 355/535 R. Frühwirth Statistik 356/535 Maximum-Likelihood-Schätzer Maximum-Likelihood-Schätzer Statistik Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Die Standardabweichung des ML-Schätzers kann näerungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: Log−Likelihoodfunktion Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten log L(µ) Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Normierte Likelihoodfunktion 0 Punktschätzer 3.5 −5 3 −10 2.5 −15 2 L(µ) R. Frühwirth −20 1.5 −25 1 −30 0.5 −35 0 0.5 1 µ 1.5 R. Frühwirth 0 0 2 R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 0.5 1 µ Statistik 1.5 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Der größte Wert der Likelihoodfunktion ist daher bei b̂ = max Xi i Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. 357/535 R. Frühwirth Statistik 358/535 Maximum-Likelihood-Schätzer Beispiel (Fortsetzung) R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian i n−1 f (x) = nx bn Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Daraus können Erwartung und Varianz berechnet werden: E[b̂] = n , n+1 Simulation von 10000 Stichproben (b = 1) der Größe n = 25 bzw. n = 100: Stichprobenfunktionen Die Dichte von b̂ = max Xi lautet: var[b̂] = b2 n (n + 2)(n + 1)2 Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 1 , 0 ≤ x1 , . . . , xn ≤ b bn Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer g(x1 , . . . , xn |b) = 2 Statistik Stichprobenfunktionen Es sei X1 , . . . , Xn eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: Punktschätzer σ=0.1314 Maximum-Likelihood-Schätzer R. Frühwirth Beispiel (ML-Schätzung des Obergrenze einer Gleichverteilung) n=25 n=100 2500 7000 µ=0.9617 σ=0.03632 2000 5000 1500 4000 3000 1000 Intervallschätzer Der Schätzer ist asymptotisch erwartungstreu, die Varianz geht aber wie 1/n2 gegen Null! Der Schätzer ist auch nicht asymptotisch normalverteilt. Matlab: make ML uniform R. Frühwirth Statistik 359/535 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten µ=0.9902 σ=0.009755 6000 2000 500 1000 0 0.7 0.8 0.9 1 ML−Schätzer R. Frühwirth 1.1 1.2 Statistik 0 0.7 0.8 0.9 1 ML−Schätzer 1.1 1.2 360/535 Abschnitt 15: Intervallschätzer Unterabschnitt: Grundbegriffe Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen 13 Stichprobenfunktionen 14 Punktschätzer 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer 15 Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik 362/535 Statistik Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 14 Grundbegriffe Statistik Stichprobenfunktionen Stichprobenfunktionen 361/535 Grundbegriffe R. Frühwirth 13 R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Definition (Konfidenzintervall) Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G1 = g1 (X1 , . . . , Xn ) und G2 = g2 (X1 , . . . , Xn ) heißt ein Konfidenzintervall mit Sicherheit 1 − α, wenn gilt: W (G1 ≤ G2) = 1 W (G1 ≤ ϑ ≤ G2) = 1 − α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Zu jedem Wert der Sicherheit 1 − α gibt es viele verschiedene Konfidenzintervalle. Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit 1 − α. Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: W (ϑ ≤ G1 ) = W (ϑ ≥ G2 ) Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: W (ϑ ≤ G2 ) = 1 − α oder W (ϑ ≥ G1 ) = 1 − α Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Ein solches Intervall wird kurz als (1 − α)-Konfidenzintervall bezeichnet. R. Frühwirth Statistik 363/535 R. Frühwirth Statistik 364/535 Unterabschnitt: Konfidenzintervall für den Mittelwert Konfidenzintervall für den Mittelwert Statistik Statistik R. Frühwirth R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen 13 Stichprobenfunktionen 14 Punktschätzer 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Mittelwert einer Alternativverteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Für genügend großes n ist p̂ = X annähernd normalverteilt gemäß No(p, p(1 − p)/n). Das Standardscore p̂ − p Z= σ[p̂] ist dann annähernd standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α folgt W (p̂ − z1−α/2 σ[p̂] ≤ p ≤ p̂ + z1−α/2 σ[p̂]) = 1 − α R. Frühwirth Statistik 365/535 R. Frühwirth Konfidenzintervall für den Mittelwert Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 366/535 Konfidenzintervall für den Mittelwert Statistik R. Frühwirth Statistik Statistik Da p nicht bekannt ist, muss σ[p̂] näherungsweise bestimmt werden. Bootstrap-Verfahren: p wird durch p̂ angenähert. Robustes Verfahren: p wird so gewählt, dass σ[p̂] maximal ist, also p = 0.5. Beispiel Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 157 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervall für den Bekanntheitsgrad p. R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Beispiel (Fortsetzung) Mit dem robusten Verfahren ergibt sich σ[p̂] = 0.025 und die Grenzen G1 =0.3925 − 1.96 · 0.025 = 0.3435 G2 =0.3925 + 1.96 · 0.025 = 0.4415 Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Matlab: make KI alternative Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Lösung: Es gilt p̂ = 0.3925 und z1−α/2 = 1.96. Mit dem Bootstrap-Verfahren ergibt sich σ[p̂] = 0.0244. Die Grenzen des Konfidenzintervalls sind daher G1 =0.3925 − 1.96 · 0.0244 = 0.3446 G2 =0.3925 + 1.96 · 0.0244 = 0.4404 R. Frühwirth Statistik 367/535 R. Frühwirth Statistik 368/535 Konfidenzintervall für den Mittelwert Konfidenzintervall für den Mittelwert Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Statistik Mittelwert einer Normalverteilung R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Z= X −µ √ σ/ n standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian T = X −µ √ S/ n Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten folgt Ist σ 2 unbekannt, wird σ 2 durch die Stichprobenvarianz geschätzt, und das Standardscore ist t-verteilt mit n − 1 Freiheitsgraden. Aus n−1 W (−tn−1 1−α/2 ≤ T ≤ t1−α/2 ) = 1 − α folgt √ √ n−1 W (X − tn−1 1−α/2 S/ n ≤ µ ≤ X + t1−α/2 S/ n) = 1 − α √ √ W (X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) = 1 − α R. Frühwirth Statistik 369/535 R. Frühwirth Konfidenzintervall für den Mittelwert Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 370/535 Konfidenzintervall für den Mittelwert Statistik R. Frühwirth Statistik Statistik Beispiel R. Frühwirth Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das Stichprobenmittel X = 0.0540 und die Stichprobenvarianz S 2 = 1.0987. Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 1.96/ 50 = −0.2232 √ G2 =0.0540 + 1.96/ 50 = 0.3312 Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 2.01 · 1.0482/ 50 = −0.2439 √ G2 =0.0540 + 2.01 · 1.0482/ 50 = 0.3519 Matlab: make KI normal R. Frühwirth Statistik 371/535 Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Mittelwert einer Exponentialverteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Pn T = i=1 Xi hat die folgende Dichte: tn−1 t f (t) = n exp − τ Γ(n) τ T ist also Gamma-verteilt gemäß Ga(n, τ ), und T /τ ist verteilt gemäß Ga(n, 1). Aus T W γα/2,n,1 ≤ ≤ γ1−α/2,n,1 = 1 − α τ folgt T T W ≤τ ≤ =1−α γ1−α/2,n,1 γα/2,n,1 R. Frühwirth Statistik 372/535 Konfidenzintervall für den Mittelwert Konfidenzintervall für den Mittelwert Statistik R. Frühwirth Statistik Mittelwert einer beliebigen Verteilung Stichprobenfunktionen R. Frühwirth Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2 . Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des Stichprobenmittels: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Z= Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer X −µ √ σ/ n Statistik Statistik Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen 14 Punktschätzer 15 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Statistik 100 400 800 0.9394 0.9461 0.9458 Statistik 374/535 Konfidenzintervall für Varianz R. Frühwirth Punktschätzer 50 0.9297 R. Frühwirth Statistik Stichprobenfunktionen 25 0.9129 Matlab: make KI exponential 373/535 R. Frühwirth 13 n 1−α Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Unterabschnitt: Konfidenzintervall für Varianz Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervall in Näherung durch Normalverteilung, geschätzt aus N = 10000 Stichproben: Intervallschätzer Es gilt also approximativ: √ √ W (X − z1−α/2 S/ n ≤ µ ≤ X + z1−α/2 S/ n) = 1 − α R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Beispiel Punktschätzer für große Stichproben annähernd normalverteilt. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 375/535 Varianz einer Normalverteilung Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. Aus (n − 1)S 2 2 2 W χα/2,n−1 ≤ ≤ χ1−α/2,n−1 = 1 − α σ2 folgt W (n − 1)S 2 (n − 1)S 2 2 ≤ σ ≤ χ21−α/2,n−1 χ2α/2,n−1 R. Frühwirth Statistik ! =1−α 376/535 Unterabschnitt: Konfidenzintervall für Differenz von Mittelwerten Konfidenzintervall für Varianz Statistik R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Beispiel R. Frühwirth Eine Stichprobe vom Umfang n = 50 aus der Normalverteilung No(0, 4) hat die Stichprobenvarianz S 2 = 4.3949. Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer G1 =49 · 4.3949/70.2224 = 3.0667 G2 =49 · 4.3949/31.5549 = 6.8246 Werden die Quantile der χ2 -Verteilung χ2 (n − 1) durch die Quantile der Normalverteilung No(n − 1, 2(n − 1)) ersetzt, laute das Konfidenzintervall: Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten G1 =49 · 4.3949/68.4027 = 3.1483 G2 =49 · 4.3949/29.5973 = 7.2760 13 Stichprobenfunktionen 14 Punktschätzer 15 Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Matlab: make KI normal varianz.m R. Frühwirth Statistik R. Frühwirth 377/535 Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 378/535 Konfidenzintervall für Differenz von Mittelwerten Statistik R. Frühwirth Statistik Statistik Zwei normalverteile Stichproben R. Frühwirth Es seien X1 , . . . , Xn und Y1 , . . . , Ym zwei unabhängige Stichproben aus den Normalverteilungen No(µx , σx2 ) bzw. No(µy , σy2 ). Wir suchen ein Konfidenzintervall für µx − µy . Die Differenz D = X − Y ist normalverteilt gemäß No(µx − µy , σ 2 ), mit 2 σD = σx2 /n + σy2 /m. Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Aus W Stichprobenfunktionen D − (µx − µy ) −z1−α/2 ≤ ≤ z1−α/2 = 1 − α σD W D − z1−α/2 σD ≤ µx − µy ≤ D + z1−α/2 σD = 1 − α Sind die Varianzen unbekannt und gleich, ist S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 χ2 -verteilt mit m + n − 2 Freiheitsgraden. Das Standardscore T = D − (µx − µy ) SD p mit SD = S 1/n + 1/m ist daher t-verteilt mit n + m − 2 Freiheitsgraden. folgt R. Frühwirth Statistik 379/535 R. Frühwirth Statistik 380/535 Konfidenzintervall für Differenz von Mittelwerten Konfidenzintervall für Differenz von Mittelwerten Statistik R. Frühwirth Statistik Aus W −t1−α/2,n+m−2 ≤ T ≤ t1−α/2,n+m−2 = 1 − α Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian folgt W D − t1−α/2,n+m−2 SD ≤ µx − µy ≤ D + t1−α/2,n+m−2 SD = 1−α Beispiel Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat Stichprobenmittel X = 2.1080 und Stichprobenvarianz Sx2 = 4.3949; eine zweite Stichprobe aus No(1, 4) vom Umfang m = 25 hat Stichprobenmittel X = 1.6692 und Stichprobenvarianz Sx2 = 5.2220. Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µx − µy : Beispiel (Fortsetzung) Werden die Varianzen als unbekannt angenommen, ist S 2 = 4.6668 und SD = 0.5292. Das 95%=Konfidenzintervall für µx − µy lautet dann: Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer G1 =0.4388 − 1.993 · 0.5292 = −0.6158 G2 =0.4388 + 1.993 · 0.5292 = 1.4935 Matlab: make KI normal difference.m Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten G1 =0.4388 − 1.96 · 0.4899 = −0.5213 G2 =0.4388 + 1.96 · 0.4899 = 1.3990 R. Frühwirth Statistik 381/535 R. Frühwirth Statistik 382/535 Übersicht Teil 5 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests 16 Einleitung 17 Parametrische Tests Nichtparametrische Tests 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 19 Anpassungstests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Teil 5 Testen von Hypothesen Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik 383/535 R. Frühwirth Statistik 384/535 Abschnitt 16: Einleitung Einleitung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Einleitung Parametrische Tests 16 Einleitung 17 Parametrische Tests 18 Nichtparametrische Tests 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! R. Frühwirth Statistik 386/535 Einleitung Statistik Parametrische Tests Die Annahme wird als Nullhypothese H0 bezeichnet. 385/535 Einleitung Einleitung Ein Test soll feststellen, ob die Beobachtungen mit einer gewissen Annahme über F verträglich sind. Nichtparametrische Tests Anpassungstests R. Frühwirth Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F . Statistik Allgemeine Vorgangsweise R. Frühwirth Einleitung Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Parametrische Tests Der Wertebereich von T wird, in Abhängigkeit von H0 , in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C 0 unterteilt. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Fällt der Wert von T in den Ablehnungsbereich, wird H0 verworfen. Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Andernfalls wird H0 vorläufig beibehalten. Anpassungstests Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Signifikanz und Güte Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H0 wird beibehalten, obwohl sie nicht zutrifft. Die Verteilung von T unter Annahme von H0 wird bestimmt. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich einem Wert α ist. α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. R. Frühwirth Statistik 387/535 R. Frühwirth Statistik 388/535 Einleitung Abschnitt 17: Parametrische Tests Statistik Statistik Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines Fehlers 2. Art berechnet werden. R. Frühwirth Einleitung R. Frühwirth Einleitung Parametrische Tests 1 − β(H1 ) heißt die Güte des Tests für H1 . Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Die Güte sollte nie kleiner als α sein. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maximaler Güte (UMPU) zu konstruieren. Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik 18 Nichtparametrische Tests 19 Anpassungstests R. Frühwirth Statistik Statistik R. Frühwirth 16 Statistik 390/535 Grundlagen R. Frühwirth Einleitung Einleitung Parametrische Tests Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F , die bis auf einen oder mehrere Parameter spezifiziert ist. Parametrische Tests 17 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 389/535 Unterabschnitt: Grundlagen Anpassungstests 17 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Nichtparametrische Tests Anpassungstests Einleitung 16 Parametrische Tests 18 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Anpassungstests Eine Nullhypothese H0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests R. Frühwirth Tests von Hypothesen über F heißen parametrisch. Statistik 391/535 R. Frühwirth Statistik 392/535 Grundlagen Grundlagen Statistik R. Frühwirth Statistik Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Beispiel mit Exponentialverteilung Einleitung Dann wird der kritische Bereich C so festgelegt, dass X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus Ex(τ ). Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H0 hat T die folgende Dichte: t tn−1 f (t) = exp − (τ0 /n)n Γ(n) τ0 /n Parametrische Tests W (T ∈ C|ϑ ∈ H0 ) ≤ α Zu einer Nullhypothese H0 kann eine Gegenhypothese H1 formuliert werden. H1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1 die Güte berechnet werden: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 ) T ist also verteilt gemäß Ga(n, τ0 /n). H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” 1 − β(ϑ) heißt die Gütefunktion des Tests. R. Frühwirth Statistik 393/535 R. Frühwirth Grundlagen Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [0, Qα/2 ] ∪ [Q1−α/2 , ∞[ Gütefunktion (τ =1) R. Frühwirth 0 1 Einleitung 0.9 Parametrische Tests wo Qp das Quantil der Ga(n, τ0 /n)-Verteilung zum Niveau p ist. Die Gütefunktion für einen Wert τ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(Qα/2 ) + 1 − G(Q(1−α)/2 ) wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist. Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25 1 − β(0.986) = 0.0495 < α Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.8 0.7 0.6 1−β(τ) Einleitung 394/535 Grundlagen Statistik R. Frühwirth Statistik 0.5 0.4 0.3 0.2 0.1 Matlab: make test exponential mean.m R. Frühwirth Statistik 0 0.5 395/535 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 τ 1.1 1.2 1.3 1.4 1.5 396/535 Unterabschnitt: Tests für normalverteilte Stichproben Tests für normalverteilte Stichproben Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 16 Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 17 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2 . Parametrische Tests Nichtparametrische Tests Anpassungstests Erwartungswert bei bekannter Varianz 18 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: √ n(X − µ0 ) T = σ Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Unter Annahme von H0 ist T verteilt gemäß No(0, 1). H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” R. Frühwirth Statistik R. Frühwirth 397/535 Tests für normalverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Statistik Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C =] − ∞, zα/2 ] ∪ [z1−α/2 , ∞[ Einleitung Die Gütefunktion für einen Wert µ ergibt sich durch: Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests 1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Der Test ist unverzerrt. Matlab: make test normal mean.m Statistik 0.9 Parametrische Tests wo zp das Quantil der Standardnormalverteilung zum Niveau p ist. Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > z1−α/2 σ R. Frühwirth 0 1 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Gütefunktion des zweiseitigen Tests (µ =1) R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.8 0.7 0.6 1−β(µ) Einleitung 398/535 Tests für normalverteilte Stichproben Statistik R. Frühwirth Statistik 0.5 0.4 0.3 0.2 0.1 0 0.5 399/535 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 1.5 400/535 Tests für normalverteilte Stichproben Tests für normalverteilte Stichproben Statistik R. Frühwirth Statistik Einseitiger Test Einleitung R. Frühwirth Die Hypothese H0 : µ = µ0 soll mit der Teststatistik T gegen die Alternativhypothese H1 : µ > µ0 getestet werden. Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben H0 wird abgelehnt, wenn T zu groß“ ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z1−α , ∞[ Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests 1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Analog verläuft der Test mit H1 : µ < µ0 . Matlab: make test normal mean.m Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 T = > z1−α σ Anpassungstests Einleitung Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik 401/535 R. Frühwirth Tests für normalverteilte Stichproben Statistik 402/535 Tests für normalverteilte Stichproben Statistik Statistik Gütefunktion des einseitigen Tests (µ =1) R. Frühwirth R. Frühwirth 0 Erwartungswert bei unbekannter Varianz: t-Test 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 0.8 0.7 0.6 1−β(µ) Nichtparametrische Tests Parametrische Tests Nichtparametrische Tests 0.5 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 0.4 Anpassungstests 0.3 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.2 0.1 0 1 X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2 . Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S2: √ n(X − µ0 ) T = S Unter Annahme von H0 ist T verteilt gemäß t(n − 1). n=25 n=100 1.1 1.2 1.3 R. Frühwirth 1.4 Statistik 1.5 µ 1.6 1.7 1.8 1.9 2 403/535 R. Frühwirth Statistik 404/535 Tests für normalverteilte Stichproben Tests für normalverteilte Stichproben Statistik Statistik H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge n−1 C =] − ∞, tn−1 α/2 ] ∪ [t1−α/2 , ∞[ R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben R. Frühwirth Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth wo G die Verteilungsfunktion der nichtzentralen t(n − 1, δ)-Verteilung mit √ δ = n(µ − µ0 )/σ Nichtparametrische Tests Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > tn−1 1−α/2 S Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) Einleitung wo tn−1 das Quantil der t-Verteilung mit n − 1 p Freiheitsgraden zum Niveau p ist. Nichtparametrische Tests Die Gütefunktion für einen Wert µ ergibt sich durch: Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik 405/535 ist. Der Test ist unverzerrt. Matlab: make test normal mean.m R. Frühwirth Tests für normalverteilte Stichproben Statistik 406/535 Tests für normalverteilte Stichproben Statistik Statistik Gütefunktion des zweiseitigen t−Tests (µ =1) R. Frühwirth R. Frühwirth 0 Gleichheit von zwei Erwartungswerten 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 0.8 0.7 0.6 1−β(µ) Nichtparametrische Tests Parametrische Tests Nichtparametrische Tests 0.5 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 0.4 Die Hypothese H0 : µx = µy soll anhand der Stichproben gegen die Alternativhypothese H1 : µx 6= µy getestet werden. Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: T =X −Y Anpassungstests 0.3 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.2 0.1 0 0.5 X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 Unter Annahme von H0 ist T verteilt gemäß No(0, σx2 /n + σy2 /m). 1.5 407/535 R. Frühwirth Statistik 408/535 Tests für normalverteilte Stichproben Tests für normalverteilte Stichproben Statistik R. Frühwirth Statistik Das Standardscore Einleitung Z=q Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben R. Frühwirth T σx2 /n Einleitung + Parametrische Tests σy2 /m Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben ist dann standardnormalverteilt. Die Hypothese H0 wird also abgelehnt, wenn Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 Unter Annahme von H0 ist X −Y Nichtparametrische Tests |Z| > z1−α/2 |X − Y | q σx2 /n + σy2 /m T =p Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest oder Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten“) Stichprobe ” geschätzt werden: Anpassungstests > z1−α/2 Der Chiquadrat-Test Der KolmogorovSmirnov-Test S 2 (1/n + 1/m) t-verteilt mit n + m − 2 Freiheitsgraden. Die Hypothese H0 wird also abgelehnt, wenn |T | > tn+m−2 1−α/2 wo tn+m−2 1−α/2 das Quantil der t-Verteilung mit n + m − 2 Freiheitsgraden ist. R. Frühwirth Statistik 409/535 R. Frühwirth Tests für normalverteilte Stichproben Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 410/535 Tests für normalverteilte Stichproben Statistik R. Frühwirth Statistik Statistik t-Test für gepaarte Stichproben R. Frühwirth Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. Die Wirkung der Intervention wird durch die Differenzen Wi = Yi − Xi , i = 1, . . . , n beschrieben. Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel 2 µw und unbekannter Varianz σw ist. Die Hypothese H0 : µw = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H1 : µw 6= 0 getestet werden. Statistik Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest X1 , . . . , Xn ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ2 . Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet werden. Als Teststatistik T wählen wir: T = Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test (n − 1)S 2 σ02 Unter Annahme von H0 ist T χ2 -verteilt mit n − 1 Freiheitsgraden. Dies erfolgt mit dem t-Test für einzelne Stichproben. R. Frühwirth Einleitung Test der Varianz 411/535 R. Frühwirth Statistik 412/535 Tests für normalverteilte Stichproben Tests für normalverteilte Stichproben Statistik Statistik Die Hypothese H0 wird also abgelehnt, wenn T < χ2α/2,n−1 Einleitung 1 oder T > χ21−α/2,n−1 Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Gütefunktion des zweiseitigen Tests (σ20=1) R. Frühwirth 0.9 Parametrische Tests χ2p,k 2 wo das Quantil der χ -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: 2 1 − β(σ ) = G(σ02 /σ 2 · χ2α/2 ) +1− G(σ02 /σ 2 · χ2(1−α)/2 ) wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Test ist nicht unverzerrt. Matlab: make test normal variance.m 0.8 0.7 0.6 1−β(σ2) R. Frühwirth 0.5 0.4 0.3 0.2 0.1 n=25 n=100 0 0.5 R. Frühwirth Statistik 413/535 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 0.8 0.9 1 σ2 1.1 1.2 1.3 Statistik 1.4 1.5 414/535 Tests für normalverteilte Stichproben Statistik Einleitung 0.7 R. Frühwirth Tests für normalverteilte Stichproben R. Frühwirth 0.6 Statistik Gleichheit von zwei Varianzen R. Frühwirth X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben gegen die Alternativhypothese H1 : σx2 6= σy2 getestet werden. Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: Anpassungstests T = Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Sx2 Sy2 T < Fα/2 oder T > F1−α/2 Parametrische Tests Nichtparametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1 Freiheitsgraden zum Niveau p ist. Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k ergibt durch: 1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 ) wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist. Der Test ist unverzerrt. Unter Annahme von H0 ist T F-verteilt gemäß F(n − 1, m − 1). R. Frühwirth Einleitung Die Hypothese H0 wird also abgelehnt, wenn Matlab: make test normal variance.m 415/535 R. Frühwirth Statistik 416/535 Tests für normalverteilte Stichproben Unterabschnitt: Tests für alternativverteilte Stichproben Statistik Statistik Gütefunktion des zweiseitigen Tests (σ2x =σ2y ) R. Frühwirth R. Frühwirth 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 0.8 0.7 0.6 1−β(k) Nichtparametrische Tests Anpassungstests 0.3 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.2 −0.6 −0.4 −0.2 0 ln k=ln(σ2y /σ2x ) 0.2 0.4 Statistik 417/535 Nichtparametrische Tests 19 Anpassungstests R. Frühwirth Statistik 418/535 Tests für alternativverteilte Stichproben Statistik Statistik Einseitiger Test auf Erwartungswert R. Frühwirth X1 , . . . , Xn ist eine alternativverteilte Stichprobe aus Al(p). Die Hypothese H0 : p ≤ p0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : p > p0 getestet werden. Als Teststatistik T wählen wir die Anzahl der Versuchsausgänge 1: Nichtparametrische Tests T = n X Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Xi i=1 Anpassungstests Ist p ≤ p0 , gilt Einleitung Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 0.6 Tests für alternativverteilte Stichproben Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben n=25 n=100 R. Frühwirth Parametrische Tests 17 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 0.4 0 Einleitung Einleitung Nichtparametrische Tests 0.5 0.1 R. Frühwirth 16 Parametrische Tests W (T ≥ k) ≤ n X n i=k i pi0 (1 − p0 )n−i Die Hypothese H0 wird abgelehnt, wenn n X n i p (1 − p0 )n−i ≤ α i 0 i=T Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test T ist binomialverteilt gemäß Bi(n, p). H0 wird abgelehnt, wenn T zu groß“ ist. ” R. Frühwirth Statistik 419/535 R. Frühwirth Statistik 420/535 Tests für alternativverteilte Stichproben Tests für alternativverteilte Stichproben Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Statistik Beispiel Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Es gilt: ! 300 X 300 0.02i 0.98300−i = 0.1507 i i=9 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest R. Frühwirth Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(np, np(1 − p) angenähert werden. H0 wird abgelehnt, wenn das Standardscore größer als das (1 − α)-Quantil der Standardnormalverteilung ist: T − np0 ≥ z1−α Z=p np(1 − p0 ) Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Einleitung Näherung durch Normalverteilung Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Matlab: make test alternative mean.m Beispiel Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 1.2372 < z0.95 = 1.6449 Die Hypothese kann also nicht abgelehnt werden. Matlab: make test alternative mean.m R. Frühwirth Statistik 421/535 R. Frühwirth Unterabschnitt: Tests für Poissonverteilte Stichproben Statistik Statistik R. Frühwirth 16 Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests 17 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 19 422/535 Tests für Poissonverteilte Stichproben R. Frühwirth Einleitung Statistik Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einseitiger Test auf Erwartungswert X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H0 : λ ≤ λ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : λ > λ0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: Nichtparametrische Tests T = Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests n X Xi i=1 T ist Poissonverteilt gemäß Po(nλ). H0 wird abgelehnt, wenn T zu groß“ ist, also wenn ” ∞ X (nλ0 )k e−nλ0 ≤α k! k=T R. Frühwirth Statistik 423/535 R. Frühwirth Statistik 424/535 Tests für Poissonverteilte Stichproben Tests für Poissonverteilte Stichproben Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Statistik Beispiel Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Es gilt: Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth T = 154, ∞ X (125)k e−125 = 0.0067 k! Näherung durch Normalverteilung Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ angenähert werden. H0 wird abgelehnt, wenn das Standardscore größer als das (1 − α)-Quantil der Standardnormalverteilung ist: Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben T − nλ0 ≥ z1−α Z= √ nλ0 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest k=T Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Anpassungstests Beispiel Mit der Angabe des letzten Beispiels ergibt die Näherung: Der Chiquadrat-Test Der KolmogorovSmirnov-Test Matlab: make test poisson mean.m Z = 2.5938 > z0.99 = 1.6449 Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. Matlab: make test poisson mean.m R. Frühwirth Statistik 425/535 R. Frühwirth Abschnitt 18: Nichtparametrische Tests Statistik Statistik R. Frühwirth 16 Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 16 Einleitung 17 Parametrische Tests 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 19 Anpassungstests Parametrische Tests 17 Parametrische Tests 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 426/535 Unterabschnitt: Einleitung R. Frühwirth Einleitung Statistik 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests R. Frühwirth Statistik 427/535 R. Frühwirth Statistik 428/535 Einleitung Unterabschnitt: Der Vorzeichentest Statistik R. Frühwirth Statistik Wir betrachten wieder Stichproben X1 , . . . , Xn aus einer stetigen Verteilung F , deren Form nicht spezifiziert ist. R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Einleitung Tests von Hypothesen über F heißen nichtparametrisch oder parameterfrei. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Solche Tests sind immer anwendbar, auch wenn über F nichts bekannt ist. Ist eine bestimmte parametrische Form von F plausibel, sollten parametrische Tests angewendet werden, da sie aussagekräftiger sind. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik 429/535 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 19 Anpassungstests Statistik 430/535 Statistik Wir testen die Hypothese, dass der unbekannte Median m von F gleich m0 ist: Einleitung Anpassungstests Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Vorzeichentest Statistik Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 18 R. Frühwirth Der Vorzeichentest Nichtparametrische Tests Parametrische Tests Anpassungstests R. Frühwirth Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 17 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests Einleitung Nichtparametrische Tests Anpassungstests R. Frühwirth 16 Parametrische Tests R. Frühwirth Einleitung Parametrische Tests H0 : m = m0 gegen H1 : m 6= m0 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Die Zufallsvariable Ii sei definiert durch ( 1, wenn Xi ≤ m0 Ii = 0, wenn Xi > m0 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Für jedes Xi gilt: W (Xi ≤ m0 ) = F (m0 ) = p. Pn I = i=1 Ii ist daher binomialverteilt gemäß Bi(n, p). Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Es soll also getestet werden, ob p = 0.5. R. Frühwirth Statistik 431/535 Unter der Nullhypothese ist I verteilt gemäß Bi(n, 0.5). Die Hypothese wird verworfen, wenn I signifikant kleiner oder größer als der Erwartungswert n/2 ist. Der p-Wert wird berechnet durch p = 2 min(G(I), 1 − G(I)) wobei G die Verteilungsfunktion der Bi(n, 0.5)-Verteilung ist. Ist p ≤ α, wird die Hypothese verworfen. Matlab: Funktion signtest R. Frühwirth Statistik 432/535 Unterabschnitt: Der Vorzeichenrangtest Der Vorzeichenrangtest Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 16 Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests 17 Parametrische Tests 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Anpassungstests Statistik T = Parametrische Tests n X R. Frühwirth jIj Einleitung Die Zufallsvariable Ij sei definiert durch ( 1, wenn Xπ(j) ≤ m0 Ij = 0, sonst Statistik 434/535 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Unter der Nullhypothese ist W (Ij = 1) = W (Ij = 0) = 1 2 Nichtparametrische Tests Daraus folgt Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Xj n(n + 1) E[T ] =E jIj = = 2 4 hX i X 2 var[T ] =var jIj = j var[Ij ] = hX = R. Frühwirth X j2 4 i = Statistik Ist genügend groß (etwa n > 25), wird die Verteilung von T durch eine Normalverteilung mit Mittel µ = E[T ] und Varianz σ 2 = var[T ] angenähert. Parametrische Tests j=1 Nichtparametrische Tests Der Chiquadrat-Test Der KolmogorovSmirnov-Test wo π eine Permutation der Zahlen {1, . . . , n} ist. Statistik Die Testgröße ist Einleitung Anpassungstests Zj = |Yπ(j) | Der Vorzeichenrangtest Statistik Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Dazu berechnen wir Yi = Xi − m0 und sortieren die absoluten Werte |Yi | aufsteigend: R. Frühwirth 433/535 Der Vorzeichenrangtest Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben H0 : W (X ≤ m0 − a) = W (X ≥ m0 + a) für alle a > 0 Nichtparametrische Tests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth R. Frühwirth Wir testen die Hypothese, dass die Stichprobe aus einer symmetrischen Verteilung F mit Median m0 stammt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test n(n + 1)(2n + 1) 24 Die Nullhypothese wird verworfen, wenn T signifikant kleiner oder größer als µ ist. Der p-Wert wird berechnet durch p = 2 min(G(I), 1 − G(I)) wobei G die Verteilungsfunktion der No(µ, σ 2 )-Verteilung ist. Ist p ≤ α, wird die Hypothese verworfen. Für kleinere n ist auch ein exakte Berechnung des p-Werts möglich. Matlab: Funktion signrank 435/535 R. Frühwirth Statistik 436/535 Unterabschnitt: Der Rangsummentest Der Rangsummentest Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 16 Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests 17 Parametrische Tests 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Wir betrachten nun eine Stichprobe X = {X1 , . . . , Xm } mit der Verteilungsfunktion F (x) und eine davon unabhängige Stichprobe Y = {Y1 , . . . , Yn } aus der zu F verschobenen Verteilung G(x) = F (x − a). Wir testen die Hypothese, dass die Stichprobe aus der selben Verteilung stammen, also H0 : a = 0 gegen H1 : a 6= 0 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Die Testgröße U nach Mann-Whitney ist definiert durch: Anpassungstests U= Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests m X n X s(Xi , Yj ) i=1 j=1 wobei s(X, Y ) = 1 wenn Y < X und s(X, Y ) = 0 sonst. Die Hypothese wird abgelehnt, wenn U zu klein oder zu groß ist. R. Frühwirth Statistik R. Frühwirth 437/535 Der Rangsummentest Statistik Für genügend große Stichproben ist U annähernd normalverteilt gemäß No(µ, σ 2 ) mit R. Frühwirth Einleitung Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 438/535 Der Rangsummentest Statistik R. Frühwirth Statistik µ= mn , 2 σ2 = nm(m + n + 1) 12 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Der p-Wert wird berechnet durch p = 2 min(G(U ), 1 − G(U )) Nichtparametrische Tests wobei G die Verteilungsfunktion der No(µ, σ 2 )-Verteilung ist. Ist p ≤ α, wird die Hypothese verworfen. Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Alternativ kann die Testgröße T nach Wilcoxon definiert werden durch: n X T = R(Xi ) i=1 wobei R(Xi ) die Rangzahl von Xi in der kombinierten geordneten Stichprobe ist. Es gilt: n(n + 1) 2 Die Verteilungsfunktion von T kann rekursiv exakt berechnet werden. T =U+ Der Test wird auch als Mann-Whitney-Wilcoxon-Test bezeichnet. Matlab: Funktion ranksum R. Frühwirth Statistik 439/535 R. Frühwirth Statistik 440/535 Abschnitt 19: Anpassungstests Anpassungstests Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung 16 17 18 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 19 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Nichtparametrische Tests Statistik Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 441/535 R. Frühwirth Statistik Statistik R. Frühwirth Einleitung Einleitung Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests Parametrische Tests 18 Nichtparametrische Tests Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Einleitung 17 19 Statistik 442/535 Der Chiquadrat-Test R. Frühwirth Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Unterabschnitt: Der Chiquadrat-Test 16 Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Nichtparametrische Tests Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Parametrische Tests Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Der Chiquadrat-Test für diskrete Beobachtungen Die Stichprobe X1 , . . . , Xn entstammt einer diskreten Verteilung mit Wertebereich {1, . . . , k}. Wir testen die Hypothese H0 , dass die Dichte f die Werte f (j) = pj , j = 1, . . . , k hat: H0 : W (Xi = j) = pj , j = 1, . . . , k Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test gegen H1 : W (Xi = j) 6= pj , für ein j Es sei Yj die Zahl der Beobachtungen, die gleich j sind. Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj . R. Frühwirth Statistik 443/535 R. Frühwirth Statistik 444/535 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Statistik Die Testgröße vergleicht die beobachteten Häufigkeiten Yj mit ihren Erwartungswerten: Einleitung Einleitung k X (Yj − npj )2 T = npj j=1 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Die Nullhypothese wird verworfen, wenn T groß ist. Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Statistik Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Yj = n j=1 Als Faustregel gilt: n sollte so groß sein, dass npj > 5, j = 1, . . . , k. Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. 445/535 R. Frühwirth Statistik 446/535 Der Chiquadrat-Test Statistik Beispiel R. Frühwirth Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: W (X = 1) = . . . = W (X = 6) = T = 5.000, 1 6 Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test für stetige Beobachtungen Die Stichprobe X1 , . . . , Xn entstammt einer stetigen Verteilung F . Wir testen die Hypothese H0 : F (x) = F0 (x). Dazu wird der Wertebereich von X in k Gruppen G1 , . . . , Gk eingeteilt. Es sei Yj die Zahl der Beobachtungen in Gruppe Gj . Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit Der Chiquadrat-Test Der KolmogorovSmirnov-Test W (T ≥ 11.07) = 0.048 pj = W (X ∈ Gj |H0 ) Der Test verläuft weiter wie im diskreten Fall. Matlab: make chi2test wuerfel.m Statistik Parametrische Tests Nichtparametrische Tests ST2 = 9.789 Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist χ20.95,5 = 11.07, und R. Frühwirth Einleitung Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Eine Simulation von N = 100000 Stichproben ergibt: Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest k X Anpassungstests Statistik Einleitung Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Yj : Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Der Chiquadrat-Test R. Frühwirth wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden zum Niveau 1 − α ist. Nichtparametrische Tests Satz Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1 Freiheitsgraden. R. Frühwirth Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1 447/535 R. Frühwirth Statistik 448/535 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Unbekannte Parameter Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die pj noch von unbekannten Parametern ϑ abhängen: W (X ∈ Gj ) = pj (ϑ) Die Statistik T ist nun eine Funktion der unbekannten Parameter: k X (Yj − npj (ϑ))2 T (ϑ) = npj (ϑ) j=1 Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : Satz Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃) asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden. Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1−m wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m Freiheitsgraden zum Niveau 1 − α ist. ϑ̃ = arg min T (ϑ) ϑ R. Frühwirth Statistik R. Frühwirth 449/535 Der Chiquadrat-Test Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 450/535 Der Chiquadrat-Test Statistik R. Frühwirth Statistik Statistik Beispiel R. Frühwirth Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} Es soll die Hypothese überprüft werden, dass die Beobachtungen Poisson-verteilt gemäß Po(λ) sind. Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt: Gruppe 1 2 3 4 5 0 1 2–3 4–5 >5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5 Statistik Der Schätzwert für λ ist das Stichprobenmittel: λ̃ = 3.1667 Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind: j 1 2 3 4 5 E[Y1 ] 1.2643 4.0037 13.0304 8.6522 3.0493 Die Testgröße T ist gleich Anpassungstests Die Häufigkeiten der Gruppen sind: R. Frühwirth Beispiel (Fortsetzung) Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, X Einleitung T = 21.99 Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen Poisson-verteilt sind, ist also abzulehnen. Matlab: make chi2test poisson.m 451/535 R. Frühwirth Statistik 452/535 Unterabschnitt: Der Kolmogorov-Smirnov-Test Der Kolmogorov-Smirnov-Test Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung 16 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests 17 Parametrische Tests 18 Nichtparametrische Tests Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Einleitung 19 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Eine Stichprobe Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung mit Verteilungsfunktion F . Wir testen die Hypothese H0 : F (x) = F0 (x). Die Testgröße Dn ist die maximale absolute Abweichung der empirischen Verteilungsfunktion Fn (x) der Stichprobe von der hypothetischen Verteilungsfunktion F0 (x): Dn = max |Fn (x) − F0 (x)| x Für Stichproben aus F0 ist die Verteilung von Dn unabhängig von F0 ! Für √ Stichproben aus F0 strebt die Verteilungsfunktion von nD für n → ∞ gegen: K(x) = 1 − 2 ∞ X (−1)k−1 e−2k 2 x2 k=1 R. Frühwirth Statistik 453/535 R. Frühwirth Der Kolmogorov-Smirnov-Test Statistik Aus der asymptotischen Verteilungsfunktion können Quantile K1−α berechnet werden. R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests 454/535 Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Statistik Einleitung Die Nullhypothese wird abgelehnt, wenn √ nDn > K1−α Parametrische Tests Werden vor dem Test Parameter von F0 geschätzt, sind die Quantile nicht mehr gültig. In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Matlab: Funktion kstest Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test Zwei Stichproben Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Die Testgröße ist die maximale absolute Differenz der empirischen Verteilungsfunktionen: 2 Dn,m = max |Fn1 (x) − Fm (x)| x Die Nullhypothese wird abgelehnt, wenn r nm Dn,m > K1−α n+m Matlab: Funktion kstest2 R. Frühwirth Statistik 455/535 R. Frühwirth Statistik 456/535 Übersicht Teil 6 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Einfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Teil 6 Mehrfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Regressionsanalyse R. Frühwirth Statistik Statistik R. Frühwirth Einleitung Einleitung Einfache Regression Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einfache Regression 22 Einfache Regression 22 Mehrfache Regression Statistik 458/535 Einleitung Statistik Einleitung 21 R. Frühwirth R. Frühwirth 20 Einleitung 457/535 Abschnitt 20: Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Regressionsanalyse untersucht die Abhängigkeit der Beobachtungen von diversen Variablen. Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ). Ergebnisvariable (abhängige Variable) Y . Regressionsmodell: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Y = f (β, x) + ε mit Regressionskoeffizienten β und Fehlerterm ε. Ziel ist die Schätzung von β anhand von Beobachtungen Y1 , . . . , Yn . Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. R. Frühwirth Statistik 459/535 R. Frühwirth Statistik 460/535 Abschnitt 21: Einfache Regression Unterabschnitt: Lineare Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 20 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 22 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik 461/535 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 22 Mehrfache Regression R. Frühwirth Statistik 462/535 Statistik Das einfachste Regressionsmodell ist eine Gerade: Y = α + βx + ε, R. Frühwirth E[ε] = 0, var[ε] = σ 2 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Statistik Einleitung 21 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Lineare Regression R. Frühwirth Einleitung Mehrfache Regression Mehrfache Regression R. Frühwirth 20 Nullsetzen des Gradienten gibt die Normalgleichungen: n X Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: SS = Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression n X (Yi − α − βxi )2 i=1 Gradient von SS: n n X X ∂SS ∂SS = −2 (Yi − α − βxi ), = −2 xi (Yi − α − βxi ) ∂α ∂β i=1 i=1 R. Frühwirth Statistik 463/535 Yi = nα + β i=1 n X n X xi i=1 xi Yi = α i=1 n X i=1 xi + β n X x2i i=1 Die geschätzten Regressionskoeffizienten lauten: Pn Pn xi Yi − x̄ i=1 Yi i=1 P β̂ = n 2 2 i=1 xi − nx̄ α̂ = Y − β̂ x̄ Es gilt E[α̂] = α und E[β̂] = β. R. Frühwirth Statistik 464/535 Lineare Regression Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n 1 X 2 r σ̂ 2 = n − 2 i=1 i mit ri = Yi − Ŷi , Ŷi = α̂ + β̂xi Statistik Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 465/535 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 22 Mehrfache Regression R. Frühwirth Statistik 466/535 Tests, Konfidenz- und Prognoseintervalle Statistik Einleitung Einleitung Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Tests, Konfidenz- und Prognoseintervalle R. Frühwirth 20 Mehrfache Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: P P 2 xi x P 2 i P − n ( x − nx̄2 ) n ( x2i − nx̄2 ) i 2 Cov[α̂, β̂] = σ P xi 1 P P − 2 2 n ( xi − nx̄2 ) xi − nx̄2 R. Frühwirth R. Frühwirth Statistik Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. R. Frühwirth Einleitung Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0 beruht auf dem folgenden Satz. Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Satz Ist ε normalverteilt, so sind relativ klein oder relativ groß ist, also wenn Mehrfache Regression α̂ − α , σ̂α̂ Statistik |β̂| > tn−2 1−α/2 σ̂β̂ Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression β̂ − β σ̂β̂ wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. t-verteilt mit n − 2 Freiheitsgraden, wobei P σ̂ 2 x2 σ̂ 2 P 2 i 2 , σ̂β̂2 = P 2 σ̂α̂2 = n ( xi − nx̄ ) xi − nx̄2 R. Frühwirth Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die Testgröße β̂ T = σ̂β̂ Ein analoger Test kann für die Nullhypothese H0 : α = 0 durchgeführt werden. 467/535 R. Frühwirth Statistik 468/535 Tests, Konfidenz- und Prognoseintervalle Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: n−2 α̂ ± σ̂α̂ · tn−2 β̂ ± σ̂β̂ · t1−α/2 1−α/2 , Für n > 30 können die Quantile der t-Verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 der Einflussvariablen x prognostiziert werden. Der Erwartungswert von Y0 ist Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: (x̄ − x0 )2 2 n+1 +P 2 var[Y0 ] = σ n xi − nx̄2 R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: s n+1 (x̄ − x0 )2 n−2 +P 2 α̂ + β̂x0 ± t1−α/2 σ̂ n xi − nx̄2 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression E[Y0 ] = α̂ + β̂x0 Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: (x̄ − x0 )2 2 1 var[E[Y0 ]] = σ +P 2 n xi − nx̄2 R. Frühwirth Statistik 469/535 R. Frühwirth Tests, Konfidenz- und Prognoseintervalle Statistik Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Einleitung Das Residuum rk hat die Varianz 1 (xk − x̄)2 2 var[rk ] = σ 1 − − P 2 n xi − nx̄2 2 35 Einfache Regression Mehrfache Regression Das studentisierte Residuum ist dann Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression rk rk0 = σ̂ q 1− 1 n − 1.5 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 2.5 40 Einleitung 30 1 25 0.5 (xk −x̄)2 P x2i −nx̄2 r’ Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression R. Frühwirth y Einfache Regression 470/535 Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Statistik 20 0 15 −0.5 10 −1 5 0 Es hat Erwartung 0 und Varianz 1. −1.5 0 5 10 x 15 20 −2 0 5 10 x 15 20 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistik 471/535 R. Frühwirth Statistik 472/535 Tests, Konfidenz- und Prognoseintervalle Unterabschnitt: Robuste Regression Statistik Statistik R. Frühwirth 40 3 Einleitung 35 2.5 Einfache Regression 30 2 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 25 R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 1.5 20 Mehrfache Regression 15 21 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 22 Mehrfache Regression Mehrfache Regression 0.5 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einleitung r’ y 1 20 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 10 0 5 −0.5 0 −1 −5 0 5 10 x 15 −1.5 20 0 5 10 x 15 20 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistik 473/535 R. Frühwirth Robuste Regression 474/535 Robuste Regression Statistik Statistik Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. R. Frühwirth Einleitung R. Frühwirth Einleitung Einfache Regression 140 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Data Outlier LS w/o outlier LS with outlier 170 160 150 130 Mehrfache Regression LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. Einfache Regression 150 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression y Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 130 110 120 100 110 100 90 “Exact fit property”: Die LMS-Gerade geht durch zwei Datenpunkte. Berechnung kombinatorisch. Mehrfache Regression 140 120 y Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h ≤ n von Fehlerquadraten minimiert. Berechnung iterativ (FAST-LTS). Beide Methoden gehen auf P. Rousseeuw zurück. 90 80 40 45 50 x 55 60 40 50 60 70 80 90 100 110 x Lineare Regression mit Ausreißern R. Frühwirth Statistik 475/535 R. Frühwirth Statistik 476/535 Robuste Regression Unterabschnitt: Polynomiale Regression Statistik Statistik R. Frühwirth R. Frühwirth 150 Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) 170 Einleitung 140 160 Einfache Regression 150 130 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 140 y 110 130 120 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression 120 y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 100 45 50 x 55 60 40 50 60 70 R. Frühwirth 80 90 100 Statistik 477/535 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik 478/535 Polynomiale Regression Statistik Einfache Regression 22 110 Polynomiale Regression Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression x Robuste Regression mit Ausreißern R. Frühwirth 21 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 100 90 80 40 Einleitung Mehrfache Regression 110 90 20 Statistik Ist der Zusammenhang zwischen x und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. In Matrix-Vektor-Schreibweise: R. Frühwirth Einleitung SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = Xβ + ε Die folgende Zielfunktion wird minimiert: Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ mit 1 1 X= .. . 1 R. Frühwirth x1 x2 .. . xn Statistik x21 x22 .. . x2n ··· ··· .. . ··· xr1 xr2 .. . xrn Die Lösung lautet: β̂ = XT X 479/535 R. Frühwirth Statistik −1 XT Y 480/535 Polynomiale Regression Polynomiale Regression Statistik Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression mit Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ŷ = Xβ̂ 45 2 Einleitung 40 1.5 Einfache Regression 35 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 0.5 25 0 −0.5 15 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression −1 10 −1.5 5 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT Statistik 20 Mehrfache Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 R. Frühwirth 1 30 y r = Y − Ŷ , Mehrfache Regression R. Frühwirth r’ Statistik R. Frühwirth 0 −2 −5 −2.5 0 5 10 x 15 20 0 5 10 x 15 20 Regressionsparabel und studentisierte Residuen 481/535 R. Frühwirth Statistik 482/535 Abschnitt 22: Mehrfache Regression Statistik i Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Einfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression 20 Einleitung 21 Einfache Regression 22 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistik 483/535 R. Frühwirth Statistik 483/535 Unterabschnitt: Das lineare Modell Das lineare Modell Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 20 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Einfache Regression 22 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Einleitung Einleitung Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Mehrfache Regression 22 x1,2 x2,2 .. . xn,2 ··· ··· .. . ··· x1,r x2,r .. . xn,r Statistik 485/535 Die folgende Zielfunktion wird minimiert: SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression x1,1 x2,1 .. . xn,1 Schätzung, Tests und Prognoseintervalle R. Frühwirth 21 Y = Xβ + ε R. Frühwirth 484/535 Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ). In Matrix-Vektor-Schreibweise: 1 1 X= .. . 1 R. Frühwirth 20 Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε, mit Unterabschnitt: Schätzung, Tests und Prognoseintervalle Einfache Regression Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ Die Lösung lautet: β̂ = XT X R. Frühwirth Statistik 486/535 R. Frühwirth Statistik −1 XT Y 487/535 Schätzung, Tests und Prognoseintervalle Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i mit r = Y − Ŷ , Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ŷ = Xβ̂ Ist βk = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen xk ab. Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0 beruht auf dem folgenden Satz. R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Satz Ist ε normalverteilt, so ist Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 β̂k − βk σ̂β̂k t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te k Diagonalelement der geschätzten Kovarianzmatrix σ̂ 2 XT X −1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT ist. R. Frühwirth Statistik R. Frühwirth 488/535 Schätzung, Tests und Prognoseintervalle Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 489/535 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Statistik Statistik Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die Testgröße β̂k T = σ̂β̂k R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression relativ klein oder relativ groß ist, also wenn Mehrfache Regression Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ). Der Erwartungswert von Y0 ist dann E[Y0 ] = x+ · β̂ Mehrfache Regression |β̂k | > tn−r−1 1−α/2 σ̂β̂k Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen prognostiziert werden. Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression tn−2 p wo das Quantil der t-Verteilung mit n − 2 Freiheitsgraden zum Niveau p ist. Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T Das symmetrische Konfidenzintervall für βk mit 95% Sicherheit lautet: β̂k ± σ̂β̂k · tn−r−1 1−α/2 R. Frühwirth Statistik 490/535 R. Frühwirth Statistik 491/535 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Unterabschnitt: Gewichtete Regression Statistik Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T R. Frühwirth Einleitung Einfache Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: q x+ · β̂ ± tn−k−1 σ̂ 1 + x+ (XT X) −1 x+ T 1−α/2 R. Frühwirth Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 492/535 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression 22 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression R. Frühwirth Statistik 493/535 Statistik Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatrix haben: Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Gewichtete Regression Statistik Einfache Regression Einleitung Mehrfache Regression Gewichtete Regression R. Frühwirth 20 R. Frühwirth Einleitung Y = Xβ + ε, Cov[ε] = V Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ist V bekannt, lautet die Zielfunktion: SS = (Y − Xβ)T G(Y − Xβ), Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT GX −1 G = V−1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT GX −1 XT Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT G(Y − Xβ) ∂β Tests und Prognoseintervalle können entsprechend modifizert werden. Nullsetzen des Gradienten gibt die Normalgleichungen: XT GY = XT GXβ Die Lösung lautet: β̂ = XT GX −1 XT GY R. Frühwirth Statistik 494/535 R. Frühwirth Statistik 495/535 Unterabschnitt: Nichtlineare Regression Nichtlineare Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 20 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Einfache Regression 22 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression In der Praxis ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = h(β) + ε, Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: SS = [Y − h(β)]T G[Y − h(β)], SS kann mit dem Gauß-Newton-Verfahren minimiert werden. Dazu wird h an einer Stelle β0 linearisiert: h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ, R. Frühwirth Statistik G = V−1 R. Frühwirth 496/535 H= Statistik ∂h ∂β β0 497/535 Nichtlineare Regression Statistik R. Frühwirth Einleitung Statistik Die Schätzung von β lautet: β̂ = HT GH −1 HT G(Y − c) R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Simulation von diskreten Zufallsvariablen h wird neuerlich an der Stelle β1 = β̂ linearisiert. Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. Viele andere Methoden zur Minimierung von SS verfügbar. Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 498/535 Teil 7 Simulation von Experimenten R. Frühwirth Statistik 499/535 Abschnitt 23: Einleitung Übersicht Teil 7 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Simulation von diskreten Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 23 Einleitung 24 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 25 Simulation von stetigen Zufallsvariablen Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistik 501/535 Einleitung Statistik Simulation von diskreten Zufallsvariablen 24 500/535 Einleitung Einleitung Einleitung Simulation von stetigen Zufallsvariablen R. Frühwirth R. Frühwirth 23 Statistik Um das Ergebnis eines Experiments korrekt interpretieren zu können, muss der Einfluss des experimentellen Aufbaues auf die zu messenden Verteilungen berücksichtigt werden. Es wird ein Modell des Experiments erstellt, das sowohl die deterministischen Abläufe als auch die stochastischen Einflüsse (quantenmechanische Prozesse, Messfehler) modelliert. Statistik Einleitung Simulation von diskreten Zufallsvariablen Dabei bedient sich die experimentelle Mathematik einer statistischen Methode, der nach dem Roulette benannten Monte Carlo-Methode. R. Frühwirth R. Frühwirth 502/535 Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Dabei können Teile des Systems (Experiments) nur global in ihrer Auswirkung oder in realistisch detaillierter Form behandelt werden. Zum Beispiel kann der Messfehler durch eine detaillierte Simulation der Messapparatur oder durch eine einfache Normalverteilung erzeugt werden. Wesentlich ist, dass bei Eingabe von Daten eines korrekten Datenmodells die nach der Simulation des Ablaufes entstehende Datenreihe statistisch gesehen die gleichen Eigenschaften aufweist wie die Messdaten. R. Frühwirth Statistik 503/535 Einleitung Einleitung Statistik R. Frühwirth Statistik Schon in der Planungsphase eines Experiments empfiehlt es sich, eine möglichst realistische Simulation. Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Einleitung Die Kernfrage ist natürlich, ob und in welcher Messzeit das geplante Experiment eine genügend genaue Antwort auf die Problemstellung gibt. Durch wiederholte Simulation kann die Streuung und eine eventuelle Verzerrung der Schätzung der gesuchten Parameter studiert werden. Dabei kann auch der wahre Wert der Paramer variiert werden, um eine gewisse Kenntnis der systematischen Fehler der gewählten Auswertemethode erlangt werden. Ferner wird die Auswertemethode auf ihre Korrektheit überprüft. R. Frühwirth Statistik Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 504/535 R. Frühwirth Einleitung Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 505/535 Einleitung Statistik R. Frühwirth Erscheint nun die Durchführung des Experiments als sinnvoll (Messdauer, Beherrschung des Untergrundes etc.), so wird die aus dem simulierten Experiment gewonnene Erfahrung sicherlich eine gewisse Rückwirkung auf das geplante Experiment haben, etwa auf die angestrebte Genauigkeit, die Anzahl, die Positionierung und das erforderliche Ansprechvermögen der Detektoren; auf das Unterdrücken oder auf das Erkennen des Untergrundes; auf die Optimierung der Auswertemethoden und der dazu erforderlichen Rechenzeit. Statistik Natürlich wird eine gewisse Unsicherheit bei der Simulation des Experiments verbleiben; denn erstens können nicht alle kleinsten Details in einem Simulationsprogramm berücksichtigt werden, und zweitens sind die Detektoren häufig noch im Entwicklungsstadium, sodass ihr endgültiges Verhalten noch nicht gemessen und daher auch nicht in die Simulation eingegeben werden kann. Auf jeden Fall sollte der Simulation des Experiments größte Aufmerksamkeit geschenkt werden, und spätestens bei der Auswertung der echten Messergebnisse wird das Simulationsprogramm neuerlich wichtige Informationen liefern, nachdem es an Hand der realen experimentellen Gegebenheiten laufend angepasst wurde. R. Frühwirth Statistik 506/535 R. Frühwirth Die Simulation von stochastischen Prozessen benötigt Zufallszahlen mit vorgegebener Verteilung. Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Diese werden aus Zufallszahlen berechnet, die aus der Gleichverteilung Un(0, 1) gezogen werden. Auf jedem Rechner steht heute ein (Pseudo-) Zufallszahlengenerator zur Verfügung. Tatsächlich handelt es sich dabei um diskrete Werte. Wegen der großen Wortlänge moderner Maschinen kann dieser Wertevorrat für die meisten Anwendungen als quasi-kontinuierlich betrachtet werden. R. Frühwirth Statistik 507/535 Einleitung Abschnitt 24: Simulation von diskreten Zufallsvariablen Statistik Statistik Die erzeugten Werte werden mit einer deterministischen Funktion generiert und sind daher Pseudozufallszahlen. Darunter versteht man eine Zahlenreihe, die statistisch gesehen ein ähnliches Verhalten zeigt wie eine Zahlenreihe echter Zufallszahlen, in Wahrheit jedoch deterministisch und wiederholbar ist. R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Der Zufallszahlengenerator hat periodisches Verhalten. Die Periode sollte möglichst lang sein. Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ein Simulationsvorgang kann, wenn gewünscht, reproduziert werden, wenn der Zufallszahlengenerator mit dem gleichen Startwert aufgerufen wird. R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik Statistik 24 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 25 Simulation von stetigen Zufallsvariablen Statistik Die Verteilungsfunktion einer diskreten Verteilung lautet X F (x) = f (k) Einleitung Einleitung Simulation von diskreten Zufallsvariablen F (x) ist eine monotone Stufenfunktion, die jeweils an den Werten k um f (k) springt. Die Wahrscheinlichkeit, dass eine Zufallszahl aus der Gleichverteilung in das Intervall [F (k − 1), F (k)) fällt, ist gerade gleich f (k). Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Statistik k≤x Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung R. Frühwirth 509/535 Allgemeine Methoden R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 25 R. Frühwirth Statistik 23 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 508/535 R. Frühwirth Simulation von diskreten Zufallsvariablen 24 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Unterabschnitt: Allgemeine Methoden Einleitung Einleitung Simulation von stetigen Zufallsvariablen Die Qualität der erzeugten Zahlenreihe muss mit statistischen Tests überprüft werden. R. Frühwirth 23 Satz Wird k so bestimmt, dass eine im Intervall [0, 1] gleichverteilte Zufallszahl im Intervall [F (k − 1), F (k)) liegt, so gehorcht k der Verteilung mit der Verteilungsfunktion F (x). 510/535 R. Frühwirth Statistik 511/535 Allgemeine Methoden Unterabschnitt: Alternativverteilung Statistik R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Statistik In Matlab: R. Frühwirth % Z u f a l l s z a h l e n aus einer d i s k r e t e n V e r t e i l u n g function x = si m ul a te _ dis c re t e (p ,m , n ) % p ... V e r t e i l u n g % x ... Matrix der Größe m mal n u = rand (m , n ); x = ones (m , n ); p = cumsum ( p ); for i =1: length ( p ) -1 x (u > p ( i ))= i +1; end Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik 25 Simulation von stetigen Zufallsvariablen R. Frühwirth Statistik 513/535 Unterabschnitt: Binomialverteilung Statistik Statistik Vergleiche gleichverteilte Zufallszahl mit der Erfolgswahrscheinlichkeit p. R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 512/535 Alternativverteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 24 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Simulation von diskreten Zufallsvariablen Einleitung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth 23 Einleitung In Matlab: Simulation von diskreten Zufallsvariablen % Z u f a l l s z a h l e n aus einer A l t e r n a t i v v e r t e i l u n g function x = s i m u l a t e _ a l t e r n a t i v e (p ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % x ... Matrix der Größe m mal n u = rand (m , n ); x =u < p ; Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 23 Einleitung 24 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 25 Simulation von stetigen Zufallsvariablen Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 514/535 R. Frühwirth Statistik 515/535 Binomialverteilung Unterabschnitt: Poissonverteilung Statistik R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik Wiederholter Alternativversuch. R. Frühwirth In Matlab: Einleitung % Z u f a l l s z a h l e n aus einer B i n o m i a l v e r t e i l u n g function x = si m ul a te _ bin o mi a l (p ,N ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % N ... Anzahl der A l t e r n a t i v v e r s u c h e % x ... Matrix der Größe m mal n u = rand (m ,n , N ); x = sum (u <p ,3); Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Statistik Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 25 Simulation von stetigen Zufallsvariablen Statistik 517/535 Poissonverteilung Statistik Eine Möglichkeit beruht auf dem folgenden Satz. R. Frühwirth Einleitung Satz Es sei u1 , u2 , . . . eine Folge von gleichverteilten Zufallszahlen und λ > 0. Ist k die kleinste Zahl, sodass k Y Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung R. Frühwirth 516/535 Statistik Einleitung 24 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Poissonverteilung R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Standard: Funktion binornd R. Frühwirth 23 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung ui ≤ e−λ Simulation von stetigen Zufallsvariablen i=1 Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung dann ist k − 1 Poisson-verteilt gemäß Po(λ). R. Frühwirth Statistik 518/535 In Matlab: % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ p o i s s o n ( lam ,m , n ) % lam ... I n t e n s i t ä t % x ... Matrix der Größe m mal n z = exp ( - lam ); u = ones (m , n ); x = - ones (m , n ); k =0; while any ( x (:) <0) k = k +1; u = u .* rand ( size ( u )); x (u <= z & x <0)= k -1; end Standard: Funktion poissrnd R. Frühwirth Statistik 519/535 Unterabschnitt: Multinomialverteilung Multinomialverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 24 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 25 Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 520/535 R. Frühwirth Statistik Statistik R. Frühwirth Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 23 Einleitung 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Statistik Statistik 521/535 Unterabschnitt: Allgemeine Methoden R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Standard: Funktion mnrnd Simulation von stetigen Zufallsvariablen Abschnitt 25: Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ m u l t i n o m i a l (p ,N , n ) % p ... r K l a s s e n w a h r s c h e i n l i c h k e i t e n % N ... Anzahl der V er s uc h e % x ... Feld der Größe r mal n u = rand (n , N ); p =[0 cumsum ( p )]; for i =1: length ( p ) -1 x (i ,:)= sum ( p ( i ) < u & u <= p ( i +1) ,2); end Simulation von diskreten Zufallsvariablen R. Frühwirth Einleitung In Matlab: Einleitung 23 Simulation von stetigen Zufallsvariablen Wiederholter verallgemeinerter Alternativversuch Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 522/535 23 Einleitung 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 523/535 Allgemeine Methoden Allgemeine Methoden Statistik Statistik Die Verteilungsfunktion einer stetigen Verteilung lautet Z x F (x) = f (x) dx R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen −∞ Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung F (x) ist eine monotone und stetige Funktion. F (x) ist daher umkehrbar. Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Satz Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ist u eine im Intervall [0, 1] gleichverteilte Zufallszahl, so ist x = F −1 (u) verteilt mit der Verteilungsfunktion F (x). Statistik R. Frühwirth 524/535 Unterabschnitt: Exponentialverteilung Statistik Statistik R. Frühwirth Einleitung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 525/535 Die Verteilungsfunktion der Exponentialverteilung Ex(τ ) ist F (x) = 1 − e−x/τ Einleitung 23 Statistik Exponentialverteilung R. Frühwirth Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung % Z u f a l l s z a h l e n aus einer s t et i ge n V e r t e i l u n g function r = s i m u l a t e _ c o n t i n u o u s (x ,F ,m , n ) % x ... x - Werte der V e r t e i l u n g s f u n k t i o n % F ... y - Werte der V e r t e i l u n g s f u n k t i o n % r ... Matrix der Größe m mal n u = rand (m , n ); r = interp1 (F ,x , u ); Simulation von stetigen Zufallsvariablen R. Frühwirth Simulation von diskreten Zufallsvariablen In Matlab: Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Ist u gleichverteilt im Intervall [0, 1], so ist x = −τ ln u verteilt gemäß Ex(τ ). In Matlab: % Z u f a l l s z a h l e n aus einer E x p o n e n t i a l v e r t e i l u n g function r = s i m u l a t e _ e x p o n e n t i a l ( tau ,m , n ) % tau ... M i t t e l w e r t % r ... Matrix der Größe m mal n r = - tau * log ( rand (m , n )); Standard: Funktion exprnd R. Frühwirth Statistik 526/535 R. Frühwirth Statistik 527/535 Unterabschnitt: Normalverteilung Normalverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Einleitung 23 Einleitung 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Statistik Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Statistik 529/535 Statistik Erzeugung mit dem zentralen Grenzwertsatz R. Frühwirth Sind u1 , . . . , u12 unabhängig und gleichverteilt in [−1/2, 1/2], so ist Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ b o x m u l l e r ( n ) % r ... Matrix der Größe 2 mal n u = rand (2 , n ); z = sqrt ( -2* log ( u (1 ,:))); r (1 ,:)= z .* cos (2* pi * u (2 ,:)); r (2 ,:)= z .* sin (2* pi * u (2 ,:)); Normalverteilung Statistik Einleitung In Matlab: 528/535 Normalverteilung R. Frühwirth standardnormalverteilt und unabhängig. x= 12 X 0.4 Faltungsdichte Exakte Dichte Einleitung 0.35 Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung ui i=1 Simulation von stetigen Zufallsvariablen in guter Näherung standardnormalverteilt. Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung In Matlab: % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ n o r m a l _ z g w s (m , n ) % r ... Matrix der Größe m mal n r = sum ( rand (m ,n ,12) -0.5 ,3); 0.3 0.25 f(x) Simulation von diskreten Zufallsvariablen Verfahren von Box und Muller Sind u1 und u2 zwei unabhängige, gleichverteilte Zufallsgrößen, so sind p x1 = −2 ln u1 cos(2πu2 ) p x2 = −2 ln u1 sin(2πu2 ) 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 Standard: Funktion normrnd R. Frühwirth Statistik 530/535 R. Frühwirth Statistik 0 x 1 2 3 4 531/535 Unterabschnitt: Multivariate Normalverteilung Multivariate Normalverteilung Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Einleitung 23 Einleitung 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Satz Es sei V eine (positiv definite) Kovarianzmatrix der Dimension n × n, µ ein Vektor der Dimension n × 1 und Q eine Matrix mit QQT = V. Ist U ein standardnormalverteilter Vektor der Dimension n × 1, so ist X = QU + µ Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung normalverteilt mit Mittel µ und Kovarianzmatrix V. Q kann mittels Choleskyzerlegung oder Hauptachsentransformation berechnent werden. In Matlab: Funktion mvnrnd R. Frühwirth Statistik 532/535 R. Frühwirth Unterabschnitt: Gamma-,χ2 -, t- und F-Verteilung Statistik Statistik R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 23 Einleitung Einleitung Simulation von diskreten Zufallsvariablen 24 Simulation von diskreten Zufallsvariablen 25 Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Statistik 533/535 Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Einleitung Statistik Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Funktion gamrnd Funktion chi2rnd Funktion trnd Funktion frnd Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Multivariate Normalverteilung Gamma-,χ2 -, t- und F-Verteilung 534/535 R. Frühwirth Statistik 535/535